Управление службами платформы Azure (PaaS) для искусственного интеллекта

В этой статье представлены рекомендации по управлению для организаций, работающих с рабочими нагрузками искусственного интеллекта на Azure. Он посвящен Azure решениям платформы как услуга (PaaS) для искусственного интеллекта.

Управление развертываниями ИИ

Согласованные конфигурации развертывания повышают безопасность, соответствие и эффективность работы во всех средах ИИ. Организации, которые стандартизуют подход развертывания, сокращают смещение конфигурации и обеспечивают надежную производительность. Необходимо реализовать систематические методики развертывания, которые соответствуют вашим бизнес-требованиям. Это делается следующим образом:

  1. Выберите подходящую операционную модель для вашей организации. Модели развертывания создают логические границы, такие как домены данных или бизнес-функции, чтобы обеспечить автономию, управление и отслеживание затрат. Разверните экземпляр Майкрософт Foundry для каждого подразделения, так как совместное использование одного экземпляра в нескольких подразделениях ограничивает отслеживание затрат и создает ограничения ресурсов. Определите проект для каждого варианта использования и используйте проекты на основе концентраторов только в том случае, если командам требуется общий ресурс. Дополнительные сведения см. в разделе Какой тип проекта Foundry мне нужен? и типы ресурсов Майкрософт Foundry.

  2. Развернитесь в регионы, соответствующие вашим требованиям. Размещение моделей зависит от конкретных требований к задержке, пропускной способности и соответствию требованиям, определяющим оптимальную производительность. Проверьте таблицу доступности продуктов в регионе Azure , чтобы подтвердить поддержку необходимого аппаратного обеспечения и функций, а также правил размещения данных перед развертыванием, чтобы обеспечить производительность и соответствие нормативным требованиям.

  3. Непрерывно отслеживайте ресурсы развертывания ИИ. Мониторинг ресурсов записывает данные о производительности и определяет проблемы, прежде чем они влияют на пользователей. Параметры диагностики записывают журналы и метрики для всех ключевых служб, включая Foundry и инструменты Foundry. Этот мониторинг обеспечивает видимость работоспособности системы и обеспечивает упреждающее разрешение проблем. См. также Оповещения базовой линии Azure Monitor.

  4. Централизованное управление ресурсами развертывания. Централизованное управление ресурсами обеспечивает согласованный контроль над всеми развертываниями ИИ. Используйте центр управления в Foundry для настройки проектов Foundry, отслеживания использования ресурсов и управления доступом. Такой подход обеспечивает стандартизированное распределение ресурсов и управление затратами. Кроме того, отслеживайте расходы в Foundry.

  5. Используйте Azure API Management в качестве единого шлюза для нескольких развертываний. Управление API обеспечивает согласованную безопасность, масштабируемость, ограничение скорости, квоты маркеров и централизованный мониторинг при подключении нескольких приложений или команд. Этот подход стандартизирует шаблоны доступа и снижает затраты на управление в службах ИИ. Дополнительные сведения см. в статье Access Azure OpenAI и другие языковые модели через шлюз.

Управление моделями ИИ

Мониторинг модели гарантирует соответствие выходных данных принципам ответственного искусственного интеллекта и обеспечению точности с течением времени. Модели искусственного интеллекта меняется из-за изменения данных, поведения пользователей или внешних факторов, которые могут привести к неточным результатам или этическим проблемам. Необходимо реализовать непрерывный мониторинг, чтобы обнаруживать и устранять эти изменения заранее. Это делается следующим образом:

  1. Отслеживайте выходные данные модели для обеспечения качества и выравнивания. Процессы мониторинга обеспечивают соответствие рабочих нагрузок ответственным целевым объектам ИИ и ожидаемым результатам. Используйте функции наблюдения Foundry и отслеживайте приложения. Для службы Foundry Agent отслеживайте развертывания агентов.

  2. Непрерывно отслеживайте метрики производительности модели. Мониторинг производительности помогает определить проблемы, когда точность или качество отклика снижается ниже допустимых пороговых значений. Отслеживайте задержку во время отклика и точность результатов векторного поиска с помощью трассировки в Foundry.

  3. Рассмотрите возможность внедрения генеративного шлюза ИИ для расширенного мониторинга. Azure API Management обеспечивает возможности ведения журнала и мониторинга, которые платформы не предоставляют в собственном коде, включая коллекцию исходных IP-адресов, отслеживание входного текста и анализ вывода текста. Этот подход предоставляет комплексные следы аудита и данные мониторинга. Для получения дополнительной информации см. раздел Реализация журналирования и мониторинга для языковых моделей Служба Azure OpenAI.

  4. Выберите вычислительные ресурсы. В Foundry вычислительные ресурсы поддерживают основные развертывания моделей и тонкой настройки. Стандартизируйте типы вычислений, среды выполнения и периоды завершения работы между вычислительными экземплярами, кластерами и бессерверными параметрами.

Управление данными ИИ

Качество данных определяет точность и надежность выходных данных модели ИИ. Организации, поддерживающие высококачественные стандарты данных, обеспечивают лучшую производительность модели и снижают риск предвзятых или неточных результатов. Необходимо реализовать методы систематического управления данными, чтобы обеспечить согласованное качество модели. Это делается следующим образом:

  1. Непрерывно отслеживайте смещение данных. Обнаружение смещения данных определяет, когда входные шаблоны данных изменяются с базовых показателей обучения, что может снизить производительность модели с течением времени. Отслеживайте точность и смещение данных как в рабочих нагрузках создания, так и в негенеративных рабочих нагрузках искусственного интеллекта, чтобы обеспечить актуальность моделей и реагирование на текущие условия. Используйте оценки в Foundry для установления базовых показателей мониторинга и пороговых значений обнаружения.

  2. Настройте автоматические оповещения для снижения производительности. Системы оповещения предоставляют раннее предупреждение, когда производительность модели падает ниже допустимых пороговых значений, что позволяет предпринять упреждающее вмешательство до того, как проблемы затронут пользователей. Настройте пользовательские оповещения для обнаружения отклонений производительности и активации рабочих процессов исправления, когда моделям требуется переобучение или корректировка.

  3. Убедитесь, что соблюдаются стандарты качества обработки данных. Требования к подготовке данных различаются между типами рабочих нагрузок ИИ, но должны поддерживать согласованные стандарты качества во всех реализациях. Для генеративного ИИ структурирование данных в нужном формате с соответствующим разбиением на блоки, обогащением и встраиванием для оптимального использования модели ИИ. Дополнительные сведения см. в руководстве по проектированию и разработке решения RAG.

Реализация непрерывности бизнес-процессов

Непрерывность бизнес-процессов гарантирует, что службы ИИ остаются доступными во время региональных сбоев или сбоев служб. Прерывания служб могут повлиять на критически важные бизнес-операции, зависящие от возможностей искусственного интеллекта, что делает планирование непрерывности необходимым для обеспечения устойчивости организации. Для обеспечения доступности службы необходимо реализовать стратегии развертывания с несколькими регионами. Это делается следующим образом:

  1. Развертывание служб ИИ в нескольких регионах. Развертывания с несколькими регионами обеспечивают избыточность, которая поддерживает доступность службы, когда отдельные регионы испытывают сбои или ограничения емкости. Реализуйте стратегии развертывания с несколькими регионами для Foundry и Azure OpenAI для обеспечения согласованной доставки служб.

  2. Настройте механизмы автоматического переключения при отказе. Автоматическое аварийное переключение сокращает время восстановления и гарантирует непрерывную доставку услуг, когда первичные регионы становятся недоступными. Настройте маршрутизацию трафика и балансировку нагрузки между регионами, чтобы обеспечить простой переход во время сбоев службы.

Следующий шаг