Наблюдаемость в генеративном ИИ

Жизненный цикл приложений ИИ требует надежных платформ оценки, чтобы системы ИИ предоставляли точные, релевантные и надежные выходные данные. Без строгой оценки системы ИИ рискуют создавать ответы, которые являются неточными, несогласованными, плохо обоснованными или потенциально вредными. Наблюдаемость позволяет командам измерять и улучшать качество и безопасность выходных данных искусственного интеллекта на протяжении всего жизненного цикла разработки— от выбора модели с помощью мониторинга рабочей среды.

Что такое наблюдаемость?

Наблюдаемость искусственного интеллекта относится к способности отслеживать, понимать и устранять неполадки систем ИИ на протяжении всего жизненного цикла. Вы можете отслеживать, оценивать, интегрировать автоматизированные шлюзы качества в конвейеры CI/CD и собирать такие сигналы, как метрики оценки, журналы, трассировки и выходные данные модели, чтобы получить представление о производительности, качестве, безопасности и работоспособности эксплуатации.

Основные возможности наблюдения

Microsoft Foundry предоставляет три основных возможности, которые совместно работают для обеспечения комплексной наблюдаемости в жизненном цикле приложений ИИ:

Оценки

Эксперты оценивают качество, безопасность и надежность ответов ИИ на протяжении всего процесса разработки. Microsoft Foundry предоставляет встроенные оценщики, включая метрики качества общего назначения (согласованность, беглость), RAG-специфические метрики (обоснованность, релевантность), безопасность и защита (ненависть/несправедливость, насилие, защищенные материалы), а также метрики, специфичные для агента (точность вызова инструментов, завершение задачи) и другие. Вы также можете создавать пользовательские инструменты оценки, адаптированные к специфическим требованиям вашего домена.

Для получения полного списка встроенных оценщиков см. Справочник по встроенным оценщикам.

Мониторинг

Мониторинг рабочей среды гарантирует, что развернутые приложения ИИ поддерживают качество и производительность в реальных условиях. Интегрированная с Azure Monitor Application Insights, Microsoft Foundry предоставляет панели мониторинга в режиме реального времени для отслеживания операционных метрик, потребления маркеров, задержки, частоты ошибок и показателей качества. Вы можете настроить оповещения, если выходные данных не соответствуют пороговым значениям качества или создают вредное содержимое, что позволит быстро решить проблемы.

Дополнительные сведения о настройке производственного мониторинга см. на панели "Мониторинг агентов".

Трассировка

Распределенная трассировка фиксирует поток выполнения приложений ИИ, обеспечивая видимость вызовов LLM, вызовов инструментов, решений агента и зависимостей между службами. Основанные на стандартах OpenTelemetry и интегрированные с Azure Monitor Application Insights, трассировка позволяет отлаживать сложное поведение агентов, определять узкие места производительности и понимать цепочки многошагового рассуждения. Microsoft Foundry поддерживает трассировку популярных платформ, включая LangChain, LangGraph, пакет SDK для агентов OpenAI и платформу агента Microsoft.

Рекомендации по реализации трассировки см. в обзоре агента трассировки.

Что такое оценщики?

Оценочные средства — это специализированные инструменты, которые измеряют качество, безопасность и надежность ответов ИИ в течение всего жизненного цикла разработки.

Для получения полного списка встроенных оценщиков см. Справочник по встроенным оценщикам.

Оценщики включаются на каждом этапе жизненного цикла ИИ, чтобы обеспечить надежность, безопасность и эффективность.

Схема жизненного цикла приложений ИИ, показывающая выбор модели, создание приложения ИИ и эксплуатацию.

Три этапа оценки жизненного цикла приложений ИИ

Выбор базовой модели

Выберите правильную базовую модель, сравнивая качество, производительность задач, этические соображения и профили безопасности в разных моделях.

Инструменты в наличии: Microsoft Foundry benchmark для сравнения моделей с общедоступными наборами данных или собственными данными, а также пакет Azure AI Evaluation SDK для тестирования конкретных конечных точек моделей.

Оценка перед производством

Перед развертыванием тщательное тестирование гарантирует, что агент ИИ или приложение готовы к работе. Этот этап проверяет производительность с помощью наборов данных оценки, определяет пограничные варианты, оценивает надежность и измеряет ключевые метрики, включая соблюдение задач, заземление, релевантность и безопасность. Для создания агентов, готовых к использованию в производственных условиях, с многошаговыми диалогами, вызовами инструментов и управлением состоянием см. в разделе "Служба агента Foundry".

Схема предварительной оценки моделей и приложений с шестью шагами.

Средства оценки и подходы:

Мониторинг после производства

После развертывания непрерывное наблюдение гарантирует, что ваше приложение ИИ поддерживает качество в реальных условиях:

  • Операционные метрики: регулярное измерение ключевых метрик агента ИИ
  • Непрерывная оценка: оценка качества и безопасности производственного трафика с использованием выборочного метода анализа
  • Запланированная оценка: запланированная оценка качества и безопасности с помощью тестовых наборов данных для обнаружения смещения системы
  • Запланированное создание красной команды: запланированное состязательное тестирование для проверки уязвимостей безопасности и безопасности
  • оповещения Azure Monitor: уведомления, когда выходные данные не соответствуют порогам качества или создают нежелательное содержимое.

Интегрированная с Azure Monitor Application Insights панель мониторинга Foundry предоставляет аналитические сведения о производительности, безопасности и качествах в режиме реального времени, обеспечивая быстрое разрешение проблем и поддержание доверия пользователей.

Краткий справочник по оценке

Цель Процесс Параметры, рекомендации и примеры
Как настроить трассировку? Настройка распределенной трассировки Обзор трассировки

Трассировка с помощью SDK для программных агентов
Что вы оцениваете? Определение или создание соответствующих оценивателей Встроенные вычислители

Пользовательские оценщики
образцы SDK
Python
примеры пакета SDK
C# sdk
Какие данные следует использовать? Отправка или создание соответствующего набора данных Выбор или создание набора данных
Как выполнять оценки? Запуск оценки Запуск оценки агента

Удалённый запуск в облаке
Как работало мое приложение на основе модели или ИИ? Анализ результатов Просмотр результатов оценки

Анализ кластера
Как улучшить? Анализ результатов и оптимизация агентов Анализ сбоев оценки с помощью анализа кластера.

Оптимизация агентов и повторная оценка.

Просмотрите результаты оценки.

Поддержка регионов, ограничения скорости и поддержка виртуальной сети

Чтобы узнать, какие регионы поддерживают оценщиков с поддержкой ИИ, ограничения скорости, применяемые к процессам оценки, и как настроить поддержку виртуальной сети для сетевой изоляции, см. раздел поддержка регионов, ограничения скорости и поддержка виртуальной сети для оценки.

Цены

Функции наблюдаемости, такие как оценки рисков и безопасности и оценки в песочнице агента, оплачиваются по мере использования, как указано на странице цен на Azure.

Важно

Оценки в тестовой среде агентов включены по умолчанию для всех проектов Foundry и учитываются в биллинге на основе потребления. Чтобы отключить оценки на площадке агентов, выберите показатели в правом верхнем углу площадки агентов и отмените выбор всех оценщиков.

Снимок экрана: портал Foundry, на котором показаны игровые площадки агентов с выбранными метриками.