Наблюдаемость в генеративном ИИ

Жизненный цикл приложений ИИ требует надежных платформ оценки, чтобы системы ИИ предоставляли точные, релевантные и надежные выходные данные. Без строгой оценки системы ИИ рискуют создавать ответы, которые являются неточными, несогласованными, плохо обоснованными или потенциально вредными. Наблюдаемость позволяет командам измерять и улучшать качество и безопасность выходных данных искусственного интеллекта на протяжении всего жизненного цикла разработки— от выбора модели с помощью мониторинга рабочей среды.

Что такое наблюдаемость?

Наблюдаемость искусственного интеллекта относится к способности отслеживать, понимать и устранять неполадки систем ИИ на протяжении всего жизненного цикла. Вы можете отслеживать, оценивать, интегрировать автоматизированные шлюзы качества в конвейеры CI/CD и собирать такие сигналы, как метрики оценки, журналы, трассировки и выходные данные модели, чтобы получить представление о производительности, качестве, безопасности и работоспособности эксплуатации.

Основные возможности наблюдения

Microsoft Foundry предоставляет три основных возможности, которые совместно работают для обеспечения комплексной наблюдаемости в жизненном цикле приложений ИИ:

Оценки

Эксперты оценивают качество, безопасность и надежность ответов ИИ на протяжении всего процесса разработки. Microsoft Foundry предоставляет встроенные оценщики, включая метрики качества общего назначения (согласованность, беглость), RAG-специфические метрики (обоснованность, релевантность), безопасность и защита (ненависть/несправедливость, насилие, защищенные материалы), а также метрики, специфичные для агента (точность вызова инструментов, завершение задачи) и другие. Вы также можете создавать пользовательские инструменты оценки, адаптированные к специфическим требованиям вашего домена.

Для получения полного списка встроенных оценщиков см. Справочник по встроенным оценщикам.

Мониторинг

Мониторинг рабочей среды гарантирует, что развернутые приложения ИИ поддерживают качество и производительность в реальных условиях. Интегрированная с Azure Monitor Application Insights, Microsoft Foundry предоставляет панели мониторинга в режиме реального времени для отслеживания операционных метрик, потребления маркеров, задержки, частоты ошибок и показателей качества. Вы можете настроить оповещения, если выходные данных не соответствуют пороговым значениям качества или создают вредное содержимое, что позволит быстро решить проблемы.

Дополнительные сведения о настройке производственного мониторинга см. на панели "Мониторинг агентов".

Трассировка

Распределенная трассировка фиксирует поток выполнения приложений ИИ, обеспечивая видимость вызовов LLM, вызовов инструментов, решений агента и зависимостей между службами. Основанные на стандартах OpenTelemetry и интегрированные с Azure Monitor Application Insights, трассировка позволяет отлаживать сложное поведение агентов, определять узкие места производительности и понимать цепочки многошагового рассуждения. Microsoft Foundry поддерживает трассировку популярных платформ, включая LangChain, LangGraph, пакет SDK для агентов OpenAI и платформу агента Microsoft.

Рекомендации по реализации трассировки см. в обзоре агента трассировки.

Что такое оценщики?

Оценочные средства — это специализированные инструменты, которые измеряют качество, безопасность и надежность ответов ИИ в течение всего жизненного цикла разработки.

Для получения полного списка встроенных оценщиков см. Справочник по встроенным оценщикам.

Оценщики включаются на каждом этапе жизненного цикла ИИ, чтобы обеспечить надежность, безопасность и эффективность.

Три этапа оценки жизненного цикла приложений ИИ

Выбор базовой модели

Выберите правильную базовую модель, сравнивая качество, производительность задач, этические соображения и профили безопасности в разных моделях.

Инструменты в наличии: Microsoft Foundry benchmark для сравнения моделей с общедоступными наборами данных или собственными данными, а также пакет Azure AI Evaluation SDK для тестирования конкретных конечных точек моделей.

Оценка перед производством

Перед развертыванием тщательное тестирование гарантирует, что агент ИИ или приложение готовы к работе. Этот этап проверяет производительность с помощью наборов данных оценки, определяет пограничные варианты, оценивает надежность и измеряет ключевые метрики, включая соблюдение задач, заземление, релевантность и безопасность. Для создания агентов, готовых к использованию в производственных условиях, с многошаговыми диалогами, вызовами инструментов и управлением состоянием см. в разделе "Служба агента Foundry".

Средства оценки и подходы:

Используйте собственные данные: оценивайте приложения ИИ с использованием собственных данных с качеством, безопасностью или настраиваемыми инструментами оценки. Используйте мастер оценки портала Foundry или пакет SDK Foundry и просмотрите результаты на портале Foundry.
агент AI red teaming agent: агент AI red teaming имитирует сложные атаки с помощью фреймворка PyRIT от компании Microsoft для выявления уязвимостей в области защиты и безопасности перед развертыванием. Лучше всего использовать с процессами, включающими участие человека.

Мониторинг после производства

После развертывания непрерывное наблюдение гарантирует, что ваше приложение ИИ поддерживает качество в реальных условиях:

Операционные метрики: регулярное измерение ключевых метрик агента ИИ
Непрерывная оценка: оценка качества и безопасности производственного трафика с использованием выборочного метода анализа
Запланированная оценка: запланированная оценка качества и безопасности с помощью тестовых наборов данных для обнаружения смещения системы
Запланированное создание красной команды: запланированное состязательное тестирование для проверки уязвимостей безопасности и безопасности
оповещения Azure Monitor: уведомления, когда выходные данные не соответствуют порогам качества или создают нежелательное содержимое.

Интегрированная с Azure Monitor Application Insights панель мониторинга Foundry предоставляет аналитические сведения о производительности, безопасности и качествах в режиме реального времени, обеспечивая быстрое разрешение проблем и поддержание доверия пользователей.

Краткий справочник по оценке

Цель	Процесс	Параметры, рекомендации и примеры
Как настроить трассировку?	Настройка распределенной трассировки	Обзор трассировки Трассировка с помощью SDK для программных агентов
Что вы оцениваете?	Определение или создание соответствующих оценивателей	Встроенные вычислители Пользовательские оценщики образцы SDK Python примеры пакета SDK C# sdk
Какие данные следует использовать?	Отправка или создание соответствующего набора данных	Выбор источника данных
Как выполнять оценки?	Запуск оценки	Запуск оценки агента Удалённый запуск в облаке
Как работало мое приложение на основе модели или ИИ?	Анализ результатов	Просмотр результатов оценки Анализ кластера
Как улучшить?	Анализ результатов и оптимизация агентов	Анализ сбоев оценки с помощью анализа кластера. Оптимизация агентов и повторная оценка. Просмотрите результаты оценки.

Поддержка регионов, ограничения скорости и поддержка виртуальной сети

Чтобы узнать, какие регионы поддерживают оценщиков с поддержкой ИИ, ограничения скорости, применяемые к процессам оценки, и как настроить поддержку виртуальной сети для сетевой изоляции, см. раздел поддержка регионов, ограничения скорости и поддержка виртуальной сети для оценки.

Цены

Функции наблюдаемости, такие как оценки рисков и безопасности и оценки в песочнице агента, оплачиваются по мере использования, как указано на странице цен на Azure.

Важно

Оценки в тестовой среде агентов включены по умолчанию для всех проектов Foundry и учитываются в биллинге на основе потребления. Чтобы отключить оценки на площадке агентов, выберите показатели в правом верхнем углу площадки агентов и отмените выбор всех оценщиков.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-20