Операции машинного обучения

В этой статье описываются три архитектуры Azure для операций машинного обучения со сквозной интеграцией и конвейерами непрерывной доставки (CI/CD) и переобучением конвейеров. Архитектуры предназначены для этих приложений ИИ:

Классическое машинное обучение
Компьютерное зрение (CV)
Обработка естественного языка

Эти архитектуры являются продуктом проекта MLOps версии 2. Они включают лучшие практики, которые архитекторы решений определили в процессе разработки различных решений машинного обучения. Результат — это развертываемые, повторяемые и обслуживаемые шаблоны. Все три архитектуры используют службу Машинное обучение Azure.

Для получения реализации с примерами шаблонов развертывания для MLOps версии 2, см. репозиторий GitHub Azure MLOps v2.

Потенциальные варианты использования

Классическое машинное обучение: прогнозирование временных рядов, регрессия и классификация табличных структурированных данных являются наиболее распространенными вариантами использования в этой категории. Вот некоторые примеры.
- Классификация двоичная и многолейбловая.
- Линейная, полиномиальная, гребня, лассо, квантильная и байесская регрессия.
- ARIMA, авторегрессионные, SARIMA, VAR, SES, LSTM.
CV: Фреймворк MLOps в этой статье в основном сосредоточен на вариантах использования CV в сегментации и классификации изображений.
Обработка естественного языка: эту платформу MLOps можно использовать для реализации:
- Распознавание именованных сущностей
- Классификация текстов
- Создание текста
- Анализ тональности
- Перевод текста
- Ответы на вопросы
- Сводка
- Определение предложений
- Распознавание языка
- Тегирование частей речи

Имитации ИИ, глубокое обучение с подкреплением и другие формы ИИ не описаны в этой статье.

MLOps как ключевая область проектирования для нагрузок ИИ

Планирование и реализация MLOps и GenAIOps — это основная область проектирования рабочих нагрузок ИИ в Azure. Сведения о том, почему эти рабочие нагрузки машинного обучения требуют специализированных операций, см. в разделе MLOps и GenAIOps для рабочих нагрузок ИИ на платформе Azure в рамках Azure Well-Architected.

Архитектура

Шаблон архитектуры MLOps версии 2 состоит из четырех основных модульных компонентов или этапов жизненного цикла MLOps:

Инфраструктура данных
Администрирование и настройка
Разработка моделей или внутренний этап цикла
Развертывание модели или этап внешнего цикла

Предыдущие компоненты, соединения между ними и типичные лица являются стандартными для всех архитектур сценариев MLOps версии 2. Варианты детализации каждого компонента зависят от сценария.

Базовая архитектура MLOps версии 2 для Машинное обучение — это классический сценарий машинного обучения для табличных данных. Архитектуры CV и NLP развиваются и модифицируют эту базовую архитектуру.

MLOps версии 2 охватывает следующие архитектуры, описанные в этой статье:

Классическая архитектура машинного обучения
Архитектура CV в сфере машинного обучения
архитектура обработки естественного языка с помощью машинного обучения

Классическая архитектура машинного обучения

Скачайте файл Visio для этой архитектуры.

Рабочий процесс классической архитектуры машинного обучения

Инфраструктура данных

Этот компонент иллюстрирует инфраструктуру данных организации, а также потенциальные источники и цели данных для проекта в области науки о данных. Инженеры данных являются основными владельцами этого компонента жизненного цикла MLOps версии 2. Платформы данных Azure на этой схеме не являются исчерпывающими или предписательными. Зеленый флажок указывает источники данных и целевые объекты, представляющие рекомендуемые рекомендации, основанные на варианте использования клиента.
Администрирование и настройка

Этот компонент является первым шагом в развертывании решения MLOps версии 2. Она состоит из всех задач, связанных с созданием и управлением ресурсами и ролями, связанными с проектом. Например, команда инфраструктуры может:
1. Создайте репозитории исходного кода проекта.
2. Используйте Bicep или Terraform для создания рабочих пространств машинного обучения.
3. Создание или изменение наборов данных и вычислительных ресурсов для разработки и развертывания моделей.
4. Определите пользователей группы проектов, их роли и элементы управления доступом к другим ресурсам.
5. Создайте конвейеры CI/CD.
6. Создайте компоненты мониторинга для сбора и создания оповещений для метрик модели и инфраструктуры.
Основной человек, связанный с этим этапом, является команда инфраструктуры, но организация может также иметь инженеров данных, инженеров машинного обучения или специалистов по обработке и анализу данных.
Разработка моделей (внутренний этап цикла)

Этап внутреннего цикла состоит из итеративного рабочего процесса обработки и анализа данных, который действует в выделенной и безопасной рабочей области Машинное обучение. На предыдущей схеме показан типичный рабочий процесс. Процесс начинается с приема данных, перемещается через аналитический анализ данных, экспериментацию, разработку и оценку моделей, а затем регистрирует модель для использования в рабочей среде. Этот модульный компонент не зависит и адаптируется к процессу, который ваша команда обработки и анализа данных использует для разработки моделей.

Лица, связанные с этим этапом, включают специалистов по обработке и анализу данных и инженеров машинного обучения.
реестры машинного обучения

После того как команда по обработке и анализу данных разрабатывает модель, которую они могут развернуть в рабочей среде, они регистрируют модель в реестре рабочих областей Машинное обучение. Конвейеры CI, которые активируются автоматически путем регистрации модели или путем утверждения в цикле человека, повышают уровень модели и любые другие зависимости модели до этапа развертывания модели.

Лица, связанные с этим этапом, обычно являются инженерами машинного обучения.
Развертывание модели (этап внешнего цикла)

Развертывание модели или этап внешнего цикла состоит из предварительной подготовки и тестирования, развертывания рабочей среды и мониторинга модели, данных и инфраструктуры. Когда модель соответствует критериям организации и варианта использования, конвейеры CD способствуют модели и связанным ресурсам через производство, мониторинг и потенциальное переобучение.

Лица, связанные с этим этапом, являются главным образом инженерами машинного обучения.
Стадия и тестирование

Этап промежуточного и тестового тестирования зависит от методик клиента. Этот этап обычно включает такие операции, как переобучение и тестирование кандидата модели на рабочих данных, тестирование производительности конечных точек при развертываниях, проверка качества данных, модульное тестирование и проверки на предубежденность модели и данных в рамках ответственного использования ИИ. Этот этап выполняется в одной или нескольких выделенных и безопасных рабочих областях Машинное обучение.
Развертывание на производственной среде

После прохождения промежуточного и тестового этапа инженеры машинного обучения могут использовать утверждение с участием человека для перевода модели в эксплуатацию. Варианты развертывания модели включают управляемый пакетный конечный пункт для пакетных сценариев, либо управляемую сетевую конечную точку или развертывание Kubernetes, которые используют Azure Arc для онлайн-сценариев, практически в режиме реального времени. Как правило, эксплуатация происходит в одной или нескольких выделенных и безопасных рабочих областях, посвящённых машинному обучению.
Наблюдение

Инженеры по машинному обучению контролируют компоненты в платформе разработки, тестирования и рабочей среде для сбора метрик, связанных с изменениями в производительности модели, данных и инфраструктуры. Они могут использовать эти метрики для принятия мер. Мониторинг моделей и данных может включать проверку смещения моделей и данных, производительность модели на новых данных и вопросы ответственного использования ИИ. Мониторинг инфраструктуры может выявить медленный ответ конечной точки, неадекватную емкость вычислений или сетевые проблемы.
Мониторинг данных и моделей: события и действия

На основе критериев модели и данных, таких как пороговые значения метрик или расписания, автоматизированные триггеры и уведомления могут реализовать соответствующие действия. Например, триггер может переобучить модель для использования новых данных производства, а затем вернуть модель на этап промежуточной и тестирования для предварительной оценки. Или проблема с моделью или данными может вызвать действие, которое требует обратного цикла к этапу разработки модели, где специалисты по обработке и анализу данных могут исследовать проблему и потенциально разработать новую модель.
Мониторинг инфраструктуры: события и действия

Автоматические триггеры и уведомления могут реализовать соответствующие действия, которые необходимо выполнить на основе критериев инфраструктуры, таких как задержка ответа конечной точки или недостаточное количество вычислительных ресурсов для развертывания. Автоматические триггеры и уведомления могут активировать цикл обратно в этап установки и администрирования, где команда инфраструктуры может исследовать проблему и потенциально перенастроить вычислительные ресурсы и сетевые ресурсы.

архитектура Машинное обучение CV

Скачайте файл Visio для этой архитектуры.

Рабочий процесс для архитектуры CV

Архитектура Машинное обучение CV основана на классической архитектуре машинного обучения, но она имеет изменения, относящиеся к защищенным сценариям CV.

Инфраструктура данных

Этот компонент демонстрирует хранилище данных организации и потенциальные источники данных и целевые объекты для проекта обработки и анализа данных. Инженеры данных являются основными владельцами этого компонента в жизненном цикле MLOps версии 2. Платформы данных Azure на этой схеме не являются исчерпывающими или предписательными. Изображения для сценариев CV могут поступать из различных источников данных. Для повышения эффективности при разработке и развертывании моделей CV с использованием машинного обучения рекомендуется использование Хранилище BLOB-объектов Azure и Azure Data Lake Storage.
Администрирование и настройка

Этот компонент является первым шагом в развертывании MLOps версии 2. Она состоит из всех задач, связанных с созданием и управлением ресурсами и ролями, связанными с проектом. Для сценариев CV администрирование и настройка среды MLOps версии 2 в значительной степени совпадает с классическим машинным обучением, но включает дополнительный шаг. Команда инфраструктуры использует функцию маркировки изображений с помощью машинного обучения или другого инструмента для создания проектов по маркировке и аннотированию изображений.
Разработка моделей (внутренний этап цикла)

Этап внутреннего цикла состоит из итеративного рабочего процесса обработки и анализа данных, выполняемого в выделенной и безопасной рабочей области Машинное обучение. Основное различие между этим рабочим процессом и классическим сценарием машинного обучения заключается в том, что метка изображений и заметки являются ключевым компонентом этого цикла разработки.
реестры машинного обучения

После того как команда по обработке и анализу данных разрабатывает модель, которую они могут развернуть в рабочей среде, они регистрируют модель в реестре рабочих областей Машинное обучение. Конвейеры CI, которые активируются автоматически регистрацией модели или прикрытым утверждением типа "человек в цикле", повышают уровень модели и любые другие зависимости модели до этапа развертывания модели.
Развертывание модели (этап внешнего цикла)

Этап развертывания модели или внешнего цикла состоит из предварительного развертывания и тестирования, развертывания рабочей среды и мониторинга модели, данных и инфраструктуры. Когда модель соответствует критериям организации и варианта использования, конвейеры CD способствуют модели и связанным ресурсам через производство, мониторинг и потенциальное переобучение.
Стадия и тестирование

Этап промежуточного и тестового тестирования зависит от методик клиента. Этот этап обычно включает такие операции, как тестовые развертывания для производительности конечных точек, проверки качества данных, модульного тестирования и ответственные проверки ИИ на наличие предвзятости моделей и данных. Для сценариев CV инженерам машинного обучения не нужно повторно обучать модель-кандидат на производственных данных из-за ограничений времени и ресурсов. Вместо этого команда обработки и анализа данных может использовать рабочие данные для разработки моделей. Кандидатная модель, зарегистрированная в цикле разработки, оценивается для рабочей среды. Этот этап выполняется в одной или нескольких выделенных и безопасных рабочих областях Машинное обучение.
Развертывание на производственной среде

После прохождения промежуточного и тестового этапа инженеры машинного обучения могут использовать утверждение с участием человека для перевода модели в эксплуатацию. Варианты развертывания модели включают управляемый пакетный конечный пункт для пакетных сценариев, либо управляемую сетевую конечную точку или развертывание Kubernetes, которые используют Azure Arc для онлайн-сценариев, практически в режиме реального времени. Как правило, эксплуатация происходит в одной или нескольких выделенных и безопасных рабочих областях, посвящённых машинному обучению.
Наблюдение

Инженеры по машинному обучению контролируют компоненты в платформе разработки, тестирования и рабочей среде для сбора метрик, связанных с изменениями в производительности модели, данных и инфраструктуры. Они могут использовать эти метрики для принятия мер. Мониторинг моделей и данных может включать проверку производительности модели на новых изображениях. Мониторинг инфраструктуры может выявить медленный ответ конечной точки, неадекватную емкость вычислений или сетевые проблемы.
Мониторинг данных и моделей: события и действия

Этапы мониторинга данных и модели и событий и действий MLOps для обработки естественного языка являются ключевыми отличиями от классического машинного обучения. Автоматическая переобучение обычно не выполняется в сценариях CV при обнаружении снижения производительности модели на новых изображениях. В этом случае процесс с участием человека необходим для просмотра и аннотирования новых изображений для модели, которая демонстрирует плохую производительность. Следующее действие часто возвращается к циклу разработки модели, чтобы обновить модель с новыми изображениями.
Мониторинг инфраструктуры: события и действия

Автоматические триггеры и уведомления могут реализовать соответствующие действия, которые необходимо выполнить на основе критериев инфраструктуры, таких как задержка ответа конечной точки или недостаточное количество вычислительных ресурсов для развертывания. Автоматические триггеры и уведомления могут активировать цикл обратно в этап установки и администрирования, где команда инфраструктуры может исследовать проблему и потенциально перенастроить среду, вычислительные ресурсы и сетевые ресурсы.

архитектура обработки естественного языка Машинное обучение

Скачайте файл Visio для этой архитектуры.

Рабочий процесс для архитектуры обработки естественного языка

Архитектура обработки естественного языка Машинное обучение основана на классической архитектуре машинного обучения, но имеет некоторые изменения, относящиеся к сценариям NLP.

Инфраструктура данных

Этот компонент демонстрирует хранилище данных организации и потенциальные источники данных и целевые объекты для проекта обработки и анализа данных. Инженеры данных являются основными владельцами этого компонента в жизненном цикле MLOps версии 2. Платформы данных Azure на этой схеме не являются исчерпывающими или предписательными. Зеленый флажок указывает источники и целевые объекты, представляющие рекомендуемые рекомендации, основанные на варианте использования клиента.
Администрирование и настройка

Этот компонент является первым шагом в развертывании MLOps версии 2. Она состоит из всех задач, связанных с созданием и управлением ресурсами и ролями, связанными с проектом. Для сценариев обработки естественного языка администрирование и настройка среды MLOps версии 2 в значительной степени совпадают с классическим машинным обучением, но с дополнительным шагом: создание проектов меток и заметок с помощью функции маркировки машинного обучения или другого средства.
Разработка моделей (внутренний этап цикла)

Этап внутреннего цикла состоит из итеративного рабочего процесса обработки и анализа данных, выполняемого в выделенной и безопасной рабочей области Машинное обучение. Типичный цикл разработки модели NLP отличается от классического сценария машинного обучения в том, что типичные этапы разработки для этого сценария включают аннотаторы для предложений и маркеризации, нормализации и внедрения текстовых данных.
реестры машинного обучения

После того как команда по обработке и анализу данных разрабатывает модель, которую они могут развернуть в рабочей среде, они регистрируют модель в реестре рабочих областей Машинное обучение. Конвейеры CI, которые активируются автоматически регистрацией модели или прикрытым утверждением типа "человек в цикле", повышают уровень модели и любые другие зависимости модели до этапа развертывания модели.
Развертывание модели (этап внешнего цикла)

Этап развертывания модели или внешнего цикла состоит из предварительного развертывания и тестирования, развертывания рабочей среды и мониторинга модели, данных и инфраструктуры. Когда модель соответствует критериям организации и варианта использования, конвейеры CD способствуют модели и связанным ресурсам через производство, мониторинг и потенциальное переобучение.
Стадия и тестирование

Этап промежуточного и тестового тестирования зависит от методик клиента. Этот этап обычно включает такие операции, как переобучение и тестирование кандидата модели на рабочих данных, тестирование производительности конечных точек при развертываниях, проверка качества данных, модульное тестирование и проверки на предубежденность модели и данных в рамках ответственного использования ИИ. Этот этап выполняется в одной или нескольких выделенных и безопасных рабочих областях Машинное обучение.
Развертывание на производственной среде

После прохождения промежуточного и тестового этапа инженеры машинного обучения могут использовать утверждение с участием человека для перевода модели в эксплуатацию. Варианты развертывания модели включают управляемый пакетный конечный пункт для пакетных сценариев, либо управляемую сетевую конечную точку или развертывание Kubernetes, которые используют Azure Arc для онлайн-сценариев, практически в режиме реального времени. Как правило, эксплуатация происходит в одной или нескольких выделенных и безопасных рабочих областях, посвящённых машинному обучению.
Наблюдение

Инженеры по машинному обучению контролируют компоненты в платформе разработки, тестирования и рабочей среде для сбора метрик, связанных с изменениями в производительности модели, данных и инфраструктуры. Они могут использовать эти метрики для принятия мер. Мониторинг моделей и данных может включать проверку дрейфа моделей и данных, производительность модели на новых текстовых данных и проблемы ответственного ИИ. Мониторинг инфраструктуры может выявить проблемы, такие как медленный ответ конечной точки, неадекватная емкость вычислений и сетевые проблемы.
Мониторинг данных и моделей: события и действия

Как и в архитектуре CV, данные и модели мониторинга и этапы событий и действий MLOps для обработки естественного языка являются ключевыми отличиями от классического машинного обучения. Автоматическое переобучение, как правило, не выполняется в сценариях обработки естественного языка при обнаружении снижения производительности модели на новом тексте. В этом случае процесс "человек в контуре" необходим для проверки и аннотирования новых текстовых данных для модели, которая демонстрирует низкую производительность. Часто следующее действие — вернуться к циклу разработки модели, чтобы обновить модель с новыми текстовыми данными.
Мониторинг инфраструктуры: события и действия

Автоматические триггеры и уведомления могут реализовать соответствующие действия, которые необходимо выполнить на основе критериев инфраструктуры, таких как задержка ответа конечной точки или недостаточное количество вычислительных ресурсов для развертывания. Автоматические триггеры и уведомления могут активировать цикл обратно в этап установки и администрирования, где команда инфраструктуры может исследовать проблему и потенциально перенастроить вычислительные ресурсы и сетевые ресурсы.

Компоненты

Машинное обучение — это облачная служба, которую можно использовать для обучения, оценки, развертывания и управления моделями машинного обучения в масштабе. В этой архитектуре это основная платформа для разработки моделей, развертывания, мониторинга и управления в течение жизненного цикла MLOps.
Azure Pipelines — это система сборки и тестирования, основанная на Azure DevOps и используемая для конвейеров сборки и выпуска. Azure Pipelines разделяет эти конвейеры на логические шаги, называемые задачами. В этой архитектуре она автоматизирует рабочие процессы CI/CD и управляет ими, чтобы обеспечить согласованное развертывание и тестирование решений машинного обучения.
GitHub — это платформа размещения кода. В этой архитектуре GitHub — это центральный репозиторий для исходного кода, управления версиями и совместной работы. Он интегрируется с конвейерами CI/CD для автоматизации.
Azure Arc — это платформа, которая использует Azure Resource Manager для управления ресурсами Azure и локальными ресурсами. Ресурсы могут включать виртуальные машины, кластеры Kubernetes и базы данных. В этой архитектуре Azure Arc обеспечивает унифицированное управление и мониторинг для гибридных и многооблачных сред машинного обучения.
Kubernetes — это система с открытым исходным кодом, которую можно использовать для автоматизации развертывания, масштабирования и управления контейнерными приложениями. В этой архитектуре Kubernetes оркеструет контейнерные рабочие нагрузки машинного обучения для обеспечения масштабируемых, эффективных и устойчивых развертываний.
Azure Data Lake Storage — это файловая система, совместимая с Hadoop. Он имеет интегрированное иерархическое пространство имен, а также огромный масштаб и экономию Хранилище BLOB-объектов. В этой архитектуре он хранит большие объемы структурированных и неструктурированных данных для рабочих процессов машинного обучения и управляет ими.
Microsoft Fabric — это единая платформа, которая может соответствовать потребностям вашей организации в данных и аналитике. В этой архитектуре Fabric содействует интеграции, подготовке и аналитике данных от начала до конца для поддержки компонента архитектуры данных в MLOps.
Центры событий Azure — это служба, которая использует потоки данных, создаваемые клиентскими приложениями. В этой архитектуре Центры событий собирают и хранят данные потоковой передачи в режиме реального времени, чтобы обеспечить сбор и анализ данных для конвейеров машинного обучения. Клиенты могут подключаться к конечным точкам концентратора для получения сообщений для обработки. Эта архитектура использует интеграцию Data Lake Storage.

Другие вопросы

Предыдущий шаблон архитектуры MLOps версии 2 имеет несколько важных компонентов, включая Azure RBAC, которые соответствуют заинтересованным лицам бизнеса, эффективному управлению пакетами и надежным механизмам мониторинга. Эти компоненты совместно способствуют успешной реализации и управлению рабочими процессами машинного обучения.

Azure RBAC на основе ролей

Важно управлять доступом к данным и ресурсам машинного обучения. Azure RBAC предоставляет надежную платформу для управления тем, кто может выполнять определенные действия и получать доступ к определенным областям в решении. Разработайте стратегию сегментации идентичности, чтобы согласовать её с жизненным циклом моделей машинного обучения и персонажами, включенными в процесс. Каждый человек имеет определенный набор обязанностей, которые отражаются в их ролях RBAC Azure и членстве в группах.

Примеры персон

Чтобы обеспечить соответствующую сегментацию в рабочей нагрузке машинного обучения, рассмотрите следующие распространенные персоны, которые определяют разработку группы Azure RBAC на основе удостоверений.

Специалист по обработке и анализу данных и инженер машинного обучения

Специалисты по обработке и анализу данных и инженеры машинного обучения выполняют различные действия по машинному обучению и обработке и анализу данных в рамках жизненного цикла разработки программного обеспечения проекта. Их обязанности включают анализ и предварительную обработку данных. Специалисты по обработке и анализу данных и инженеры машинного обучения отвечают за обучение, оценку и развертывание моделей. Обязанности этих ролей также включают работы по устранению неисправностей в моделях машинного обучения, пакетах и данных. Эти обязанности недоступны для службы технической поддержки платформы.