Модель зрелости операций машинного обучения (MLOps) определяет принципы и методики, помогающие создавать и работать в рабочих средах машинного обучения. Используйте эту модель для оценки текущего состояния и планирования добавочного прогресса к зрелой среде MLOps.
Обзор модели зрелости
Модель зрелости MLOps определяет принципы и методики разработки, необходимые для успешного запуска среды MLOps. Она предоставляет платформу для измерения возможностей MLOps вашей организации и выявления пробелов в текущей реализации. Используйте эту модель для постепенного развития возможностей MLOps, чтобы избежать столкновения с полной сложностью зрелой реализации заранее.
Используйте модель зрелости MLOps в качестве руководства для выполнения следующих задач:
Оцените объем работы для новых проектов.
Установите реалистичные критерии успешности.
Определите результаты для передачи в конце сотрудничества.
Как и большинство моделей зрелости, модель зрелости MLOps качественно оценивает людей и культуру, процессы и структуры, а также объекты и технологии. По мере увеличения уровня зрелости вероятность того, что инциденты или ошибки приводят к улучшению процессов разработки и производства, также увеличивается.
Модель зрелости MLOps охватывает пять уровней технических возможностей.
| Level |
Description |
Основные моменты |
Технология |
| 0 |
Нет MLOps |
- Полный жизненный цикл модели машинного обучения сложно управлять.
- Команды разрозненные, и релизы представляют сложности.
- Большинство систем являются непрозрачными, при этом мало отзывов во время и после развертывания.
|
- Сборки и развертывания выполняются вручную.
- Тестирование моделей и приложений выполняется вручную.
- Отслеживание производительности модели не централизованно.
- Обучение модели выполняется вручную.
- Teams используют только основные функции рабочей области Машинного обучения Azure.
|
| 1 |
DevOps, но не MLOps |
- Выпуски менее сложны, чем уровень 0, но полагаются на команды специалистов по данным для каждой новой модели.
- Отзывы о производительности модели в рабочей среде по-прежнему ограничены.
- Результаты трудно отслеживать и воспроизводить.
|
- Сборки автоматизированы.
- В коде приложения есть автоматические тесты.
- Код управляется версией.
|
| 2 |
Автоматическое обучение |
- Среда обучения полностью управляется и поддающаяся отслеживанию.
- Модель легко воспроизвести.
- Выпуски осуществляются вручную, но их легко реализовать.
|
- Обучение модели автоматизировано.
- Отслеживание эффективности обучения модели осуществляется централизованно.
- Управление моделями налажено.
- Запланированные или управляемые событиями задания машинного обучения обрабатывают повторяющееся обучение.
- Используется управляемое хранилище функций.
- События жизненного цикла Сетки событий Azure создаются для оркестрации конвейера.
- Среды управляются с помощью определений среды машинного обучения.
|
| 3 |
Автоматическое развертывание модели |
- Выпуски легко реализовать и проходят автоматически.
- Обеспечивается полная трассируемость от развертывания до исходных данных.
- Вся среда управляется, включая обучение, тестирование и рабочую среду.
|
- Тестирование производительности модели через A/B интегрировано в процесс развертывания.
- Весь код содержит автоматизированные тесты.
- Отслеживание производительности обучения модели осуществляется централизованно.
- Артефакты переносятся между рабочими пространствами с помощью реестров для машинного обучения.
|
| 4 |
Полные автоматизированные операции MLOps |
- Полная система автоматизирована и легко отслеживается.
- Рабочие системы предоставляют сведения о том, как улучшить, а иногда и автоматически улучшить с помощью новых моделей.
- Система приближается к нулевому времени простоя.
|
- Обучение и тестирование моделей автоматизированы.
- Развернутая модель выдает подробные централизованные метрики.
- Сигналы смещения или регрессии активируют автоматическую переобучение с помощью сетки событий.
- Отслеживаются здоровье и свежесть материализации функций.
- Повышение уровня модели основано на политике и автоматизировано с помощью реестров машинного обучения.
|
В следующих таблицах описаны подробные характеристики для каждого уровня зрелости.
Уровень 0: Нет MLOps
| People |
Создание модели |
Выпуск модели |
Интеграция приложений |
- Специалисты по обработке и анализу данных работают в изоляции без регулярного взаимодействия с более крупной командой.
- Инженеры данных (если они существуют) работают в изоляции без регулярного взаимодействия с более крупной командой.
- Инженеры программного обеспечения работают в изоляции и получают модели удаленно от других участников команды.
|
- Данные собираются вручную.
- Вычисление, скорее всего, не управляется.
- Эксперименты не отслеживаются последовательно.
- Конечный результат обычно является одним файлом модели, который включает входные и выходные данные, передан вручную.
|
- Процесс выпуска выполняется вручную.
- Скрипт оценки создается вручную после экспериментов и не управляется версией.
- Один специалист по данным или инженер по данным управляет выпуском.
|
- Реализация зависит от опыта специалистов по обработке и анализу данных.
- Выпуски приложений выполняются вручную.
|
Уровень 1. DevOps, но не MLOps
| People |
Создание модели |
Выпуск модели |
Интеграция приложений |
- Специалисты по обработке и анализу данных работают в изоляции без регулярного взаимодействия с более крупной командой.
- Инженеры данных (если они существуют) работают в изоляции без регулярного взаимодействия с более крупной командой.
- Инженеры программного обеспечения работают в изоляции и получают модели удаленно от других участников команды.
|
- Конвейер данных автоматически собирает данные.
- Вычислительная среда может или не управляться.
- Эксперименты не отслеживаются последовательно.
- Конечный результат обычно является одним файлом модели, который включает входные и выходные данные, передан вручную.
|
- Процесс выпуска выполняется вручную.
- Скрипт оценки создается вручную после экспериментов, но, скорее всего, управляется версиями.
- Модель передается инженерам программного обеспечения.
|
- Базовые тесты интеграции существуют для модели.
- Реализация зависит от опыта специалистов по обработке и анализу данных.
- Выпуски приложений автоматизированы.
- Код приложения содержит модульные тесты.
|
Уровень 2. Автоматическое обучение
| People |
Создание модели |
Выпуск модели |
Интеграция приложений |
- Специалисты по обработке и анализу данных работают непосредственно с инженерами данных для преобразования кода экспериментирования в повторяемые скрипты и задания.
- Специалисты по обработке и анализу данных работают с учёными, занимающимися данными, над разработкой моделей.
- Инженеры программного обеспечения работают в изоляции и получают модели удаленно от других участников команды.
|
- Конвейер данных автоматически собирает данные.
- Управление вычислениями.
- Результаты эксперимента отслеживаются.
- Обучающий код и модели находятся под управлением версий.
|
- Процесс выпуска выполняется вручную.
- Скрипт для оценки находится под системой контроля версий и имеет тесты.
- Команда разработчиков программного обеспечения управляет выпусками.
|
- Базовые тесты интеграции существуют для модели.
- Реализация зависит от опыта специалистов по обработке и анализу данных.
- Код приложения содержит модульные тесты.
|
Уровень 3. Автоматическое развертывание модели
| People |
Создание модели |
Выпуск модели |
Интеграция приложений |
- Специалисты по обработке и анализу данных работают непосредственно с инженерами данных для преобразования кода экспериментирования в повторяемые скрипты и задания.
- Инженеры данных работают с специалистами по обработке и анализу данных и инженерами программного обеспечения для управления входными и выходными данными.
- Инженеры программного обеспечения работают с инженерами данных для автоматизации интеграции моделей в код приложения.
|
- Конвейер данных автоматически собирает данные.
- Управление вычислениями.
- Результаты эксперимента отслеживаются.
- Код обучения и модели находятся под управлением системы контроля версий.
|
- Процесс выпуска является автоматическим.
- Оценочный скрипт находится под управлением системы контроля версий и проходит тестирование.
- Конвейер непрерывной интеграции и непрерывной доставки (CI/CD) управляет процессом релизов.
|
- Каждый выпуск модели включает модульные и интеграционные тесты.
- Реализация менее зависит от опыта специалистов по обработке и анализу данных.
- Код приложения содержит модульные и интеграционные тесты.
|
Уровень 4: Полностью автоматизированные операции MLOps
| People |
Создание модели |
Выпуск модели |
Интеграция приложений |
- Специалисты по обработке и анализу данных работают непосредственно с инженерами данных для преобразования кода экспериментирования в повторяемые скрипты и задания. Они также работают с инженерами программного обеспечения для идентификации маркеров данных.
- Инженеры данных работают с специалистами по обработке и анализу данных и инженерами программного обеспечения для управления входными и выходными данными.
- Инженеры программного обеспечения работают с инженерами данных для автоматизации интеграции моделей и реализации сбора метрик после развертывания.
|
- Конвейер данных автоматически собирает данные.
- Рабочие метрики автоматически активируют переобучение.
- Управление вычислениями.
- Результаты эксперимента отслеживаются.
- Код для обучения и модели находятся под управлением систем контроля версий.
|
- Процесс выпуска является автоматическим.
- Скрипт для оценки находится под версионным контролем и имеет тесты.
- Конвейер CI/CD управляет релизами.
|
- Каждый выпуск модели включает модульные и интеграционные тесты.
- Реализация менее зависит от опыта специалистов по обработке и анализу данных.
- Код приложения содержит модульные и интеграционные тесты.
|
MLOps и GenAIOps
В этой статье рассматриваются возможности прогнозного, табличного и классического жизненного цикла машинного обучения. Операции создания ИИ (GenAIOps) представляют дополнительные возможности, которые дополняют уровни зрелости MLOps, а не заменяют их. GenAIOps включает в себя жизненный цикл запроса, улучшение поиска, безопасность вывода и управление затратами токенов. Дополнительную информацию см. в разделе GenAIOps для организаций, которые инвестируют в MLOps. Не путайте механику итерации запросов с воспроизводимым циклом обучения и развертывания, описанным в этой статье.
Соавторы
Корпорация Майкрософт поддерживает эту статью. Следующие авторы написали эту статью.
-
Delyn Choong | Старший архитектор облачных решений — Данные и ИИ
Чтобы просмотреть неопубликованные профили LinkedIn, войдите в LinkedIn.
Дальнейшие шаги