Модель зрелости MLOps

Модель зрелости операций машинного обучения (MLOps) определяет принципы и методики, помогающие создавать и работать в рабочих средах машинного обучения. Используйте эту модель для оценки текущего состояния и планирования добавочного прогресса к зрелой среде MLOps.

Обзор модели зрелости

Модель зрелости MLOps определяет принципы и методики разработки, необходимые для успешного запуска среды MLOps. Она предоставляет платформу для измерения возможностей MLOps вашей организации и выявления пробелов в текущей реализации. Используйте эту модель для постепенного развития возможностей MLOps, чтобы избежать столкновения с полной сложностью зрелой реализации заранее.

Используйте модель зрелости MLOps в качестве руководства для выполнения следующих задач:

  • Оцените объем работы для новых проектов.

  • Установите реалистичные критерии успешности.

  • Определите результаты для передачи в конце сотрудничества.

Как и большинство моделей зрелости, модель зрелости MLOps качественно оценивает людей и культуру, процессы и структуры, а также объекты и технологии. По мере увеличения уровня зрелости вероятность того, что инциденты или ошибки приводят к улучшению процессов разработки и производства, также увеличивается.

Модель зрелости MLOps охватывает пять уровней технических возможностей.

Level Description Основные моменты Технология
0 Нет MLOps
  • Полный жизненный цикл модели машинного обучения сложно управлять.

  • Команды разрозненные, и релизы представляют сложности.

  • Большинство систем являются непрозрачными, при этом мало отзывов во время и после развертывания.
  • Сборки и развертывания выполняются вручную.

  • Тестирование моделей и приложений выполняется вручную.

  • Отслеживание производительности модели не централизованно.

  • Обучение модели выполняется вручную.

  • Teams используют только основные функции рабочей области Машинного обучения Azure.
1 DevOps, но не MLOps
  • Выпуски менее сложны, чем уровень 0, но полагаются на команды специалистов по данным для каждой новой модели.

  • Отзывы о производительности модели в рабочей среде по-прежнему ограничены.

  • Результаты трудно отслеживать и воспроизводить.
  • Сборки автоматизированы.

  • В коде приложения есть автоматические тесты.

  • Код управляется версией.
2 Автоматическое обучение
  • Среда обучения полностью управляется и поддающаяся отслеживанию.

  • Модель легко воспроизвести.

  • Выпуски осуществляются вручную, но их легко реализовать.
  • Обучение модели автоматизировано.

  • Отслеживание эффективности обучения модели осуществляется централизованно.

  • Управление моделями налажено.

  • Запланированные или управляемые событиями задания машинного обучения обрабатывают повторяющееся обучение.

  • Используется управляемое хранилище функций.

  • События жизненного цикла Сетки событий Azure создаются для оркестрации конвейера.

  • Среды управляются с помощью определений среды машинного обучения.
3 Автоматическое развертывание модели
  • Выпуски легко реализовать и проходят автоматически.

  • Обеспечивается полная трассируемость от развертывания до исходных данных.

  • Вся среда управляется, включая обучение, тестирование и рабочую среду.
  • Тестирование производительности модели через A/B интегрировано в процесс развертывания.

  • Весь код содержит автоматизированные тесты.

  • Отслеживание производительности обучения модели осуществляется централизованно.

  • Артефакты переносятся между рабочими пространствами с помощью реестров для машинного обучения.
4 Полные автоматизированные операции MLOps
  • Полная система автоматизирована и легко отслеживается.

  • Рабочие системы предоставляют сведения о том, как улучшить, а иногда и автоматически улучшить с помощью новых моделей.

  • Система приближается к нулевому времени простоя.
  • Обучение и тестирование моделей автоматизированы.

  • Развернутая модель выдает подробные централизованные метрики.

  • Сигналы смещения или регрессии активируют автоматическую переобучение с помощью сетки событий.

  • Отслеживаются здоровье и свежесть материализации функций.

  • Повышение уровня модели основано на политике и автоматизировано с помощью реестров машинного обучения.

В следующих таблицах описаны подробные характеристики для каждого уровня зрелости.

Уровень 0: Нет MLOps

People Создание модели Выпуск модели Интеграция приложений
  • Специалисты по обработке и анализу данных работают в изоляции без регулярного взаимодействия с более крупной командой.

  • Инженеры данных (если они существуют) работают в изоляции без регулярного взаимодействия с более крупной командой.

  • Инженеры программного обеспечения работают в изоляции и получают модели удаленно от других участников команды.
  • Данные собираются вручную.

  • Вычисление, скорее всего, не управляется.

  • Эксперименты не отслеживаются последовательно.

  • Конечный результат обычно является одним файлом модели, который включает входные и выходные данные, передан вручную.
  • Процесс выпуска выполняется вручную.

  • Скрипт оценки создается вручную после экспериментов и не управляется версией.

  • Один специалист по данным или инженер по данным управляет выпуском.
  • Реализация зависит от опыта специалистов по обработке и анализу данных.

  • Выпуски приложений выполняются вручную.

Уровень 1. DevOps, но не MLOps

People Создание модели Выпуск модели Интеграция приложений
  • Специалисты по обработке и анализу данных работают в изоляции без регулярного взаимодействия с более крупной командой.

  • Инженеры данных (если они существуют) работают в изоляции без регулярного взаимодействия с более крупной командой.

  • Инженеры программного обеспечения работают в изоляции и получают модели удаленно от других участников команды.
  • Конвейер данных автоматически собирает данные.

  • Вычислительная среда может или не управляться.

  • Эксперименты не отслеживаются последовательно.

  • Конечный результат обычно является одним файлом модели, который включает входные и выходные данные, передан вручную.
  • Процесс выпуска выполняется вручную.

  • Скрипт оценки создается вручную после экспериментов, но, скорее всего, управляется версиями.

  • Модель передается инженерам программного обеспечения.
  • Базовые тесты интеграции существуют для модели.

  • Реализация зависит от опыта специалистов по обработке и анализу данных.

  • Выпуски приложений автоматизированы.

  • Код приложения содержит модульные тесты.

Уровень 2. Автоматическое обучение

People Создание модели Выпуск модели Интеграция приложений
  • Специалисты по обработке и анализу данных работают непосредственно с инженерами данных для преобразования кода экспериментирования в повторяемые скрипты и задания.

  • Специалисты по обработке и анализу данных работают с учёными, занимающимися данными, над разработкой моделей.

  • Инженеры программного обеспечения работают в изоляции и получают модели удаленно от других участников команды.
  • Конвейер данных автоматически собирает данные.

  • Управление вычислениями.

  • Результаты эксперимента отслеживаются.

  • Обучающий код и модели находятся под управлением версий.
  • Процесс выпуска выполняется вручную.

  • Скрипт для оценки находится под системой контроля версий и имеет тесты.

  • Команда разработчиков программного обеспечения управляет выпусками.
  • Базовые тесты интеграции существуют для модели.

  • Реализация зависит от опыта специалистов по обработке и анализу данных.

  • Код приложения содержит модульные тесты.

Уровень 3. Автоматическое развертывание модели

People Создание модели Выпуск модели Интеграция приложений
  • Специалисты по обработке и анализу данных работают непосредственно с инженерами данных для преобразования кода экспериментирования в повторяемые скрипты и задания.

  • Инженеры данных работают с специалистами по обработке и анализу данных и инженерами программного обеспечения для управления входными и выходными данными.

  • Инженеры программного обеспечения работают с инженерами данных для автоматизации интеграции моделей в код приложения.
  • Конвейер данных автоматически собирает данные.

  • Управление вычислениями.

  • Результаты эксперимента отслеживаются.

  • Код обучения и модели находятся под управлением системы контроля версий.
  • Процесс выпуска является автоматическим.

  • Оценочный скрипт находится под управлением системы контроля версий и проходит тестирование.

  • Конвейер непрерывной интеграции и непрерывной доставки (CI/CD) управляет процессом релизов.
  • Каждый выпуск модели включает модульные и интеграционные тесты.

  • Реализация менее зависит от опыта специалистов по обработке и анализу данных.

  • Код приложения содержит модульные и интеграционные тесты.

Уровень 4: Полностью автоматизированные операции MLOps

People Создание модели Выпуск модели Интеграция приложений
  • Специалисты по обработке и анализу данных работают непосредственно с инженерами данных для преобразования кода экспериментирования в повторяемые скрипты и задания. Они также работают с инженерами программного обеспечения для идентификации маркеров данных.

  • Инженеры данных работают с специалистами по обработке и анализу данных и инженерами программного обеспечения для управления входными и выходными данными.

  • Инженеры программного обеспечения работают с инженерами данных для автоматизации интеграции моделей и реализации сбора метрик после развертывания.
  • Конвейер данных автоматически собирает данные.

  • Рабочие метрики автоматически активируют переобучение.

  • Управление вычислениями.

  • Результаты эксперимента отслеживаются.

  • Код для обучения и модели находятся под управлением систем контроля версий.
  • Процесс выпуска является автоматическим.

  • Скрипт для оценки находится под версионным контролем и имеет тесты.

  • Конвейер CI/CD управляет релизами.
  • Каждый выпуск модели включает модульные и интеграционные тесты.

  • Реализация менее зависит от опыта специалистов по обработке и анализу данных.

  • Код приложения содержит модульные и интеграционные тесты.

MLOps и GenAIOps

В этой статье рассматриваются возможности прогнозного, табличного и классического жизненного цикла машинного обучения. Операции создания ИИ (GenAIOps) представляют дополнительные возможности, которые дополняют уровни зрелости MLOps, а не заменяют их. GenAIOps включает в себя жизненный цикл запроса, улучшение поиска, безопасность вывода и управление затратами токенов. Дополнительную информацию см. в разделе GenAIOps для организаций, которые инвестируют в MLOps. Не путайте механику итерации запросов с воспроизводимым циклом обучения и развертывания, описанным в этой статье.

Соавторы

Корпорация Майкрософт поддерживает эту статью. Следующие авторы написали эту статью.

  • Delyn Choong | Старший архитектор облачных решений — Данные и ИИ

Чтобы просмотреть неопубликованные профили LinkedIn, войдите в LinkedIn.

Дальнейшие шаги