Для большинства практиков рабочий процесс машинного обучения прост. Обучение, проверку и развертывание моделей можно выполнять вручную. Однако по мере того, как конвейеры машинного обучения становятся все более сложными, а технические риски возрастают, его уже нельзя масштабировать ни с технической, ни с культурной точек зрения. Ручным процессам не хватает устойчивости и дисциплины, и они культурно не вписываются в более крупную ИТ-организацию, которая использует автоматизированные методы DevOps. Более того, статические системы уступают место адаптируемым системам машинного обучения, которые динамически приспосабливаются к изменениям данных и другим факторам окружающей среды, таким как MLOps.

MLOps помогает решить ключевую задачу использования моделей машинного обучения в производственной среде: как непрерывно обучать, интегрировать, развертывать и отслеживать модели. В производственной среде код, который фактически запускает модели, составляет лишь небольшую часть общего рабочего процесса машинного обучения.

Неудивительно, что практики машинного обучения позаимствовали методологию DevOps из разработки программного обеспечения и адаптировали ее для машинного обучения, чтобы создать MLOP, помогая организовать более крупные и сложные конвейеры машинного обучения.

Основные концепции: DevOps - MLOps

MLOps сейчас является горячей темой, и ее основное внимание уделяется применению некоторых из основных компонентов DevOps для машинного обучения, а также расширению этих практик. Для инженера по машинному обучению или специалиста по обработке данных, который сначала не кодирует и не имеет глубокого понимания DevOps, есть некоторые ключевые компетенции, которые им необходимо изучить.

1. Трубопроводы

Конвейеры - это реализация и автоматизация рабочих процессов машинного обучения. Значение термина может варьироваться в зависимости от контекста или используемой платформы. Например, конвейеры scikit-learn - это автоматизированные процессы для выполнения типичного набора задач, таких как нормализация данных, уменьшение размерности и т. Д. Конвейер TensorFlow TFX - это последовательность задач, которая включает в себя дополнительные шаги, такие как развертывание в производственной среде. Таким образом, конвейеры могут включать любую задачу в типичный рабочий процесс машинного обучения, независимо от того, немного ли их или много.

2. Непрерывная интеграция

Под непрерывной интеграцией понимается практика, когда разработчики объединяют свои изменения кода в центральный репозиторий, который, в свою очередь, запускает автоматические сборки и проверочные тесты. Это улучшает качество программного обеспечения и позволяет раньше выявлять проблемы. Непрерывная интеграция машинного обучения расширяет эту возможность и включает как проверку данных, так и проверку модели.

3. Непрерывная доставка

Непрерывная доставка расширяется за счет непрерывной интеграции. Помимо автоматических сборок и успешных проверочных тестов, все данные, код и модели связаны с QA, тестовой средой или даже производственной средой. Примером являются этапы извлечения, такие как проверка моделей, которые соответствуют тестам производительности прогнозирования, перед развертыванием.

4. Непрерывное обучение

Непрерывное обучение занимает центральное место в MLOP. Триггеры переподготовки могут включать в себя ввод новых данных. В хорошо организованных системах эта недавно обученная существующая модель обслуживается в конце конвейера без каких-либо других необходимых обновлений. Переобучение триггеров, которые приводят к реализации новой модели, например, проектирование функций, выбор функций или гиперпараметры, может потребовать развертывания нового конвейера.

5. Непрерывное тестирование

Системы непрерывной интеграции и непрерывной доставки для машинного обучения требуют непрерывного тестирования. Это может быть выполнено несколькими способами, такими как запуск модели в сервисе тестирования, который предоставляет различные наборы входных данных и тестов для каждого из ожидаемых выходных данных. Могут быть выполнены другие тестовые показатели, такие как нагрузочные тесты, чтобы убедиться, что ваша модель соответствует приемлемым эталонным значениям задержки и пропускной способности. В зависимости от того, как они масштабируются, модели могут быстро столкнуться с узкими местами производительности из-за ограничений ЦП / графического процессора, памяти, параллелизма и пропускной способности.

6. Непрерывный мониторинг:

Если модель выйдет из строя в производстве, отказоустойчивая система может вернуться к предыдущей версии модели.

Тестирование и мониторинг являются частью лучших практик DevOps. В контексте машинного обучения значение производительности сосредоточено не только на технических характеристиках (например, задержках), но, что более важно, на прогнозируемой производительности. Лучшие практики MLOps поощряют визуализацию ожидаемого поведения и устанавливают стандарты, которых должны придерживаться модели, а не полагаться на интуицию.

Мониторинг моделей в производстве гарантирует, что ваши модели работают в условиях дикой природы. Ухудшение модели (снижение производительности), устаревание модели (входные данные устарели) и атаки на модель (перекос данных, вызванный несоответствием данных в реальном времени и данных обучения), изменение распределения данных и зависимости данных могут повлиять на производительность вашей модели.

7. Многоразовая инфраструктура

MLOps может помочь компании стандартизировать повторно используемую инфраструктуру, которая может максимизировать повторное использование кода и конвейера при запуске нового проекта машинного обучения. Развертывание стандартной облачной архитектуры на AWS или Azure является обычной практикой и обеспечивает оркестровку, хранение, обучение, настройку и мониторинг. Стандартные конфигурации также обеспечивают основу для измерения стоимости, пропускной способности, производительности и других показателей.

8. Воспроизводимые среды

Еще один центральный принцип, который MLOps заимствует у DevOps, - это воспроизводимость. Быстрое копирование и запуск новых конвейеров машинного обучения может быть быстрым и легким. Воспроизводимая среда также служит для сохранения состояния в тех случаях, когда важно управление. Контроль версий также широко используется в разработке программного обеспечения. Управление версиями данных и версиями моделей (параметры, гиперпараметры, используемый алгоритм и машинное обучение. Воспроизводимые конвейеры также важны для создания отказоустойчивости конвейеров машинного обучения.

Узнайте больше о MLOps на ODSC West 2021

Если вы хотите узнать больше о том, как MLOps может помочь вашей организации максимально эффективно использовать модели машинного обучения, посетите ODSC West 2021, ведущую конференцию по обучению прикладным наукам о данных, которая состоится в ноябре этого года. ODSC West представит специальные треки с практическими занятиями и семинарами под руководством экспертов по MLOps и другим передовым темам в области науки о данных и искусственного интеллекта.

Зарегистрируйтесь сейчас, чтобы воспользоваться нашим ограниченным по времени предложением со скидкой 30% на пропуск.

Основные сессии MLOps включают:

  • Глубокое погружение в Flyte: Кетан Умаре | Создатель и председатель | Flyte
  • Объединение сред разработки и производства для проектов машинного обучения: Чип Хуйен, адъюнкт-лектор | Основатель Стэнфордского университета | Запуск на машинном обучении в реальном времени
  • Использование воспроизводимых экспериментов для создания более совершенной модели машинного обучения: Милесия МакГрегор | Старший инженер-программист | Итеративный
  • MLOps… От модели к производству: Филипа Пелеха, доктор философии | Ведущий специалист по данным | Леви Страусс и Ко
  • Операционализация моделей, разработанных и развернутых на гетерогенных платформах: Сурав Мазумдер, специалист по данным | идейный руководитель, руководитель отдела эксплуатации ИИ и машинного обучения | IBM

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг. Вы также можете пройти обучение по науке о данных по запросу, где бы вы ни находились, с нашей платформой Ai + Training.