Управление ИИ

В этой статье приводятся рекомендации по управлению рабочими нагрузками ИИ на протяжении всего жизненного цикла. Организации обеспечивают согласованную производительность ИИ при создании структурированных операционных процессов, реализации правильного управления развертыванием и поддержании комплексных методик мониторинга.

Схема, на которую показаны 6 этапов внедрения ИИ: стратегия, планирование, подготовка, управление, защита, управление.

Управление операциями искусственного интеллекта

Операционные платформы предоставляют структуру для управления сложными проектами ИИ. Эти платформы обеспечивают согласованность между командами разработчиков и сокращают ошибки, которые замедляют циклы доставки. Для обеспечения надежного управления рабочими нагрузками ИИ необходимо установить четкие операционные процессы. Это делается следующим образом:

  1. Создайте центр превосходства ИИ для стратегического руководства. Центр превосходства искусственного интеллекта предоставляет стратегический надзор и техническое руководство по развертыванию ИИ в организации. Эта группа гарантирует соответствие подходов ИИ с бизнес-целями и техническими требованиями. Используйте центр превосходства ИИ , чтобы оценить, какой подход управления соответствует потребностям вашей организации и создавать стандарты развертывания, которые поддерживают управление и инновации.

  2. Выберите подходящую операционную платформу для типа рабочей нагрузки. Для разных рабочих нагрузок искусственного интеллекта требуются различные операционные подходы, влияющие на процессы и решения по инструментам команды. Этот выбор определяет методологию разработки и интеграцию стека технологий. Используйте платформы MLOps для традиционных рабочих процессов машинного обучения и GenAIOps для создания рабочих нагрузок искусственного интеллекта.

  3. Стандартизируйте средства разработки во всех командах. Согласованное инструментирование устраняет проблемы совместимости между средами команд и сокращает кривые обучения для разработчиков. Этот подход предотвращает проблемы интеграции и ускоряет циклы разработки. Определите и стандартизируйте использование пакетов SDK и API для согласованности между командами разработки. Дополнительные сведения см. в разделе "Выбор подходящего пакета SDK для поддержки варианта использования"

  4. Создайте выделенные песочницы для экспериментов. Среды песочницы позволяют безопасное тестирование, не влияя на рабочие системы и предоставляя командам свободу для тестирования новых подходов. В этих средах экспериментальный код не влияет на стабильные рабочие нагрузки. Используйте среду песочницы, которая остается отличной от сред разработки, тестирования и рабочей среды в жизненном цикле разработки ИИ. Обеспечение согласованности между средами разработки, тестирования и эксплуатации, чтобы предотвратить критические изменения во время перемещения между средами.

  5. Упрощение операций, когда это возможно. Новые возможности упрощают настройку и развертывание агентов и точно настроенных моделей без специальных знаний. Для традиционной точной настройки требуются квалифицированные специалисты по данным для составления наборов данных и создания конвейеров, специфичных для задачи, что увеличивает сложность операций. Используйте Настройка Copilot (предварительная версия) в Microsoft 365 для точной настройки моделей для внутренних задач, не требуя специальных знаний.

Управление развертыванием ИИ

Управление развертыванием искусственного интеллекта определяет, кто может развертывать ресурсы ИИ и управлять этими конечными точками. Структурированный подход гарантирует, что организации балансируют скорость разработки с требованиями к управлению. Необходимо установить четкий центр развертывания для обеспечения согласованного управления ресурсами ИИ. Это делается следующим образом:

  1. Предоставьте группам рабочей нагрузки центр развертывания в пределах определенных границ управления. Группы рабочей нагрузки ускоряют разработку при управлении развертыванием ресурсов ИИ, не ожидая центральных процессов утверждения. Эта автономия снижает узкие места и позволяет быстро реагировать на бизнес-требования при сохранении стандартов организации. Используйте Политика Azure для обеспечения согласованного управления в средах рабочей нагрузки и создания политик ИИ, которые устраняют пробелы в управлении. Для Майкрософт Foundry разверните экземпляр на единицу бизнеса и используйте проекты Foundry для каждого варианта использования в бизнес-подразделении, а не создание централизованного общего ресурса в бизнес-подразделениях.

  2. Определите четкие политики развертывания ИИ для обоих подходов к управлению. Политики искусственного интеллекта обеспечивают защиту, которая предотвращает смещение конфигурации и пробелы в безопасности, обеспечивая соответствие стандартам организации. Эти политики снижают риск несанкционированного использования ресурсов ИИ. Создайте политики искусственного интеллекта для принудительного применения параметров фильтра содержимого и предотвращения использования запрещенных моделей, а затем четко общаться с этими политиками всем командам. Проводите регулярные аудиты, чтобы обеспечить соответствие требованиям.

  3. Создание конвейеров непрерывной интеграции и доставки для развертывания. Автоматизированные конвейеры сокращают ошибки, возникающие из-за ручных процессов, и обеспечивают согласованные развертывания в средах, они обеспечивают повторяющиеся процессы, которые выявляют проблемы на ранних стадиях. Эти конвейеры поддерживают стандарты качества на протяжении всей разработки. Создайте конвейеры данных, охватывающие проверки качества кода, модульные и интеграционные тесты и потоки экспериментов. Включите шаги по производственному развертыванию с процессами утверждения вручную для продвижения релизов. Сохраняйте разделение между моделями и клиентскими интерфейсами, чтобы обеспечить независимые обновления компонентов.

Управление моделями ИИ

Управление моделями искусственного интеллекта включает структуры управления, непрерывный мониторинг и обслуживание производительности с течением времени. Этот процесс помогает организациям выравнивать модели с этическими стандартами, отслеживать производительность моделей и обеспечивать эффективность систем ИИ в соответствии с бизнес-целями. Для обеспечения надежной производительности искусственного интеллекта необходимо установить комплексные процессы управления моделями. Это делается следующим образом:

  1. Определите базовые показатели измерения ИИ для отслеживания производительности. Базовые показатели измерения обеспечивают соответствие моделей ИИ бизнес-целям и этическим стандартам. Эти базовые показатели предоставляют объективные критерии оценки производительности модели и ответственного соответствия ИИ в организации. Создайте ключевые показатели эффективности, связанные с ответственными принципами искусственного интеллекта, такими как справедливость, прозрачность и точность, а затем сопоставляйте эти ключевые показатели эффективности с конкретными рабочими нагрузками ИИ.

  2. Быстро определите первопричины проблем с производительностью. Видимость каждого этапа взаимодействия СИ помогает изолировать проблемы и эффективно реализовывать корректирующие действия, предотвращая каскадные сбои в системах. Например, определите, возникают ли ошибки чат-бота из-за формирования запроса или из-за того, как модель понимает контекст. Используйте встроенные средства, такие как Azure Monitor и Application Insights, для выявления узких мест производительности и аномалий заранее.

  3. Переобучение моделей ИИ на основе критериев производительности. Модели ухудшаются с течением времени из-за изменений данных и требуют повторного обучения для поддержания релевантности. Регулярное переобучение гарантирует, что системы ИИ остаются в курсе бизнес-потребностей и шаблонов данных. Планирование переобучения на основе метрик производительности модели или бизнес-требований для поддержания актуальности систем ИИ. Оцените начальные затраты на обучение, чтобы оценить оптимальную частоту переобучения, так как переобучение может быть дорогостоящим. Поддерживайте управление версиями для моделей и убедитесь, что механизмы отката для неэффективных версий.

  4. Определите процессы продвижения модели с контрольными точками качества. Шлюзы качества обеспечивают доступ только проверенных моделей к рабочим средам. Эти процессы препятствуют тому, чтобы плохо работающие модели оказывали воздействие на бизнес-операции, и поддерживают согласованные стандарты качества. Используйте критерии производительности для повышения уровня обученных, точно настроенных и переобученных моделей в более высоких средах. Определите критерии производительности, уникальные для каждого приложения, и создайте четкие рабочие процессы повышения, которые включают в себя этапы тестирования и проверки.

  5. Отслеживайте расписания выхода модели на пенсию, чтобы предотвратить нарушения работы служб. Отслеживание выхода на пенсию модели предотвращает проблемы с производительностью при завершении поддержки поставщиков. Организации, которые пропускают даты выхода на пенсию, сталкиваются с непредвиденными проблемами с ухудшением обслуживания или совместимостью. Отслеживайте даты выхода на пенсию для предварительно обученных моделей для поддержания функциональности при удалении поставщиков служб. Например, обновите созданные модели искусственного интеллекта перед прекращением использования для поддержки системных функций. Используйте портал Foundry для просмотра дат вывода моделей из эксплуатации для всех развертываний.

Управление затратами на ИИ

Управление расходами на искусственный интеллект гарантирует, что организации контролируют расходы, сохраняя производительность при использовании ресурсов вычислений, хранилища и токенов. Организации нуждаются в структурированных стратегиях надзора за затратами и оптимизации, чтобы предотвратить переполнение бюджета и повысить эффективность ресурсов. Необходимо создать комплексные процессы управления затратами для достижения прогнозируемых расходов на искусственный интеллект. Это делается следующим образом:

  1. Реализуйте рекомендации по управлению затратами для каждого средства Foundry. Различные средства Foundry имеют уникальные модели ценообразования и функции оптимизации, влияющие на общую стоимость владения. Понимание структур затрат, относящихся к службе, помогает организациям выбирать наиболее экономичные варианты для своих рабочих нагрузок. Например, следуйте инструкциям по управлению затратами для Foundry , чтобы оптимизировать расходы для каждого типа службы.

  2. Отслеживайте шаблоны использования, чтобы повысить эффективность выставления счетов. Понимание точек останова затрат предотвращает ненужные расходы и помогает организациям оптимизировать распределение ресурсов. Отслеживание шаблонов использования раскрывает возможности для настройки моделей и архитектуры с целью повышения эффективности расходов. Отслеживайте маркеры в минуту (TPM) и запросы в минуту (RPM), чтобы понять шаблоны использования, а затем настроить модели и архитектуру на основе этих шаблонов. Используйте пороговые значения фиксированной цены для таких служб, как создание изображений или почасовая настройка, чтобы избежать непредвиденных расходов. Рассмотрим модели выставления счетов на основе обязательств для согласованных шаблонов использования, чтобы сократить общие затраты.

  3. Создание автоматизированного мониторинга затрат и оповещений. Автоматические оповещения предотвращают переполнение бюджета, уведомляя команды о непредвиденных расходах, прежде чем они влияют на бюджеты проектов. Эти оповещения обеспечивают упреждающее управление затратами и помогают организациям поддерживать финансовый контроль над инициативами искусственного интеллекта. Настройте оповещения бюджета в Azure Cost Management для отслеживания расходов по предопределенным пороговым значениям и создания стратегий бюджетирования, которые соответствуют бизнес-целям. Создайте оповещения с несколькими пороговых значениями, чтобы обеспечить раннее предупреждение о увеличении затрат.

Управление данными ИИ

Управление данными искусственного интеллекта обеспечивает точность, целостность и соответствие требованиям на протяжении всего жизненного цикла ИИ. Организациям требуется структурированное управление данными и процессы контроля качества для обеспечения надежной производительности искусственного интеллекта. Для достижения согласованных результатов искусственного интеллекта необходимо установить комплексные методики управления данными. Это делается следующим образом:

  1. Создание и обслуживание золотых наборов данных для согласованной проверки. Золотые наборы данных предоставляют стандартные тесты для тестирования моделей ИИ в разных средах и версиях. Эти достоверные наборы данных обеспечивают согласованные критерии оценки и помогают обнаруживать снижение производительности с течением времени. Разработайте золотые наборы данных, представляющие шаблоны рабочих данных и используйте эти наборы данных для регулярного тестирования и проверки во всех рабочих нагрузках ИИ. Регулярно обновляйте золотые наборы данных, чтобы отразить текущие бизнес-требования и шаблоны данных.

  2. Реализуйте безопасные конвейеры данных с помощью элементов управления целостностью. Целостность конвейера данных предотвращает повреждение и обеспечивает надежную производительность модели искусственного интеллекта. Безопасные конвейеры защищают конфиденциальную информацию и поддерживают качество данных от сбора с помощью предварительной обработки и хранения. Создайте настраиваемые конвейеры данных, включающие проверки на каждом этапе и реализующие элементы управления безопасностью для защиты данных во время процесса конвейера. Используйте автоматическое тестирование для проверки качества и согласованности данных перед отправкой данных в модели искусственного интеллекта.

  3. Отслеживайте классификации конфиденциальности данных и реагируйте на изменения. Классификации конфиденциальности данных изменяются из-за бизнес-требований и нормативных обновлений. Организации должны отслеживать эти изменения и обновлять системы искусственного интеллекта соответствующим образом, чтобы обеспечить соответствие требованиям и безопасность. Разработка процессов для выявления изменений конфиденциальности данных и реализации процедур для удаления или замены конфиденциальных данных в подчиненных системах ИИ. Используйте Microsoft Defender для облака и Microsoft Purview для маркировки конфиденциальных данных и управления конфиденциальными данными во всей организации. При изменении чувствительности выявите все модели ИИ, использующие эти данные, и переучите их с помощью наборов данных без реклассифицированной чувствительной информации.

Управление непрерывностью бизнес-процессов ИИ

Управление непрерывностью бизнес-процессов защищает системы ИИ от сбоев и обеспечивает быстрое восстановление при возникновении инцидентов. Организации нуждаются в стратегиях нескольких регионов и проверенных процедурах восстановления для обеспечения доступности службы искусственного интеллекта. Эффективное планирование непрерывности предотвращает расширенные сбои, влияющие на бизнес-операции. Необходимо установить комплексные процессы непрерывности бизнес-процессов, чтобы обеспечить надежную устойчивость системы искусственного интеллекта. Это делается следующим образом:

  1. Реализуйте непрерывный мониторинг во всех компонентах ИИ. Рабочие нагрузки искусственного интеллекта изменяются с течением времени из-за эволюции данных, обновлений моделей или изменений в поведении пользователя. Непрерывный мониторинг обнаруживает эти изменения рано и предотвращает снижение производительности, которое влияет на бизнес-результаты. Отслеживайте развертывания ИИ, модели ИИ и данные ИИ, чтобы обеспечить соответствие рабочих нагрузок установленным ключевым показателем эффективности. Проводите регулярные аудиты для оценки систем искусственного интеллекта в соответствии с определенными принципами и метриками ИИ.

  2. Развертывание систем ИИ в нескольких регионах для обеспечения высокой доступности. Развертывания с несколькими регионами препятствуют отдельным точкам сбоя и обеспечивают доступность служб ИИ во время региональных сбоев. Этот подход обеспечивает географическую избыточность, которая защищает от сбоев инфраструктуры и стихийных бедствий. Разверните как генеративные, так и традиционные системы ИИ в нескольких регионах Azure и реализуйте необходимую избыточность для обученных и оптимизированных моделей, чтобы избежать необходимости повторного обучения при сбоях. Используйте Azure Front Door или Диспетчер трафика Azure для автоматического маршрутизации трафика между регионами.

  3. Регулярно тестируйте планы аварийного восстановления для проверки эффективности. Регулярное тестирование определяет пробелы в процедурах восстановления и гарантирует, что команды могут эффективно восстанавливать системы ИИ во время реальных инцидентов. Эти тесты проверяют правильность работы всех компонентов после восстановления и помогают организациям уточнить свои процедуры реагирования. Выполняйте ежеквартальные тесты планов аварийного восстановления, включая процессы восстановления данных и процедуры проверки для всех компонентов ИИ. Документируйте результаты теста и обновите процедуры восстановления на основе уроков, извлеченных из каждого цикла тестирования.

  4. Реализуйте управление версиями для всех системных компонентов ИИ. Системы управления версиями отслеживают изменения и обеспечивают быстрое восстановление предыдущих конфигураций во время сценариев восстановления. Этот подход предоставляет тропы аудита для изменений и гарантирует, что команды могут эффективно выявлять и ревертировать проблемные изменения. Используйте Git для управления изменениями моделей, конвейеров данных и конфигураций системы во всех рабочих нагрузках ИИ. Реализуйте автоматизированный аудит, отслеживающий изменения модели и системы, чтобы команды могли быстро выявлять и изменять незапланированные изменения, влияющие на производительность.

  5. Создание стратегий автоматического резервного копирования для ресурсов ИИ. Автоматическое резервное копирование гарантирует, что критически важные компоненты ИИ остаются защищенными без вмешательства вручную. Эти стратегии предотвращают потерю данных и сокращают время восстановления, когда системам требуется восстановление после инцидентов. Создайте расписания автоматического резервного копирования для обученных моделей, наборов данных и файлов конфигурации с помощью Azure Backup или служба хранилища Azure с геоизбыточными параметрами. Сохраните резервные копии в отдельных регионах от основных развертываний, чтобы обеспечить доступность во время региональных сбоев.

  6. Процедуры восстановления документов с четкими обязанностями. Четкая документация гарантирует, что команды могут последовательно выполнять процедуры восстановления во время стрессовых ситуаций. Документированные процедуры сокращают время восстановления и предотвращают ошибки, возникающие при работе команд без установленных рекомендаций. Создайте модули Runbook, которые определяют пошаговые процедуры восстановления для различных сценариев сбоя и назначают определенные роли и обязанности участникам группы для каждой задачи восстановления. Регулярно обновляйте документацию, чтобы отразить изменения в архитектуре ИИ и процессах восстановления.

Следующий шаг