Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Жизненный цикл приложений ИИ требует надежных платформ оценки, чтобы системы ИИ предоставляли точные, релевантные и надежные выходные данные. Без строгой оценки системы ИИ рискуют создавать ответы, которые являются неточными, несогласованными, плохо обоснованными или потенциально вредными. Наблюдаемость позволяет командам измерять и улучшать качество и безопасность выходных данных искусственного интеллекта на протяжении всего жизненного цикла разработки— от выбора модели с помощью мониторинга рабочей среды.
Что такое наблюдаемость?
Наблюдаемость искусственного интеллекта относится к способности отслеживать, понимать и устранять неполадки систем ИИ на протяжении всего жизненного цикла. Вы можете отслеживать, оценивать, интегрировать автоматизированные шлюзы качества в конвейеры CI/CD и собирать такие сигналы, как метрики оценки, журналы, трассировки и выходные данные модели, чтобы получить представление о производительности, качестве, безопасности и работоспособности эксплуатации.
Основные возможности наблюдения
Microsoft Foundry предоставляет три основных возможности, которые совместно работают для обеспечения комплексной наблюдаемости в жизненном цикле приложений ИИ:
Оценки
Эксперты оценивают качество, безопасность и надежность ответов ИИ на протяжении всего процесса разработки. Microsoft Foundry предоставляет встроенные оценщики, включая метрики качества общего назначения (согласованность, беглость), RAG-специфические метрики (обоснованность, релевантность), безопасность и защита (ненависть/несправедливость, насилие, защищенные материалы), а также метрики, специфичные для агента (точность вызова инструментов, завершение задачи) и другие. Вы также можете создавать пользовательские инструменты оценки, адаптированные к специфическим требованиям вашего домена.
Для получения полного списка встроенных оценщиков см. Справочник по встроенным оценщикам.
Мониторинг
Мониторинг рабочей среды гарантирует, что развернутые приложения ИИ поддерживают качество и производительность в реальных условиях. Интегрированная с Azure Monitor Application Insights, Microsoft Foundry предоставляет панели мониторинга в режиме реального времени для отслеживания операционных метрик, потребления маркеров, задержки, частоты ошибок и показателей качества. Вы можете настроить оповещения, если выходные данных не соответствуют пороговым значениям качества или создают вредное содержимое, что позволит быстро решить проблемы.
Дополнительные сведения о настройке производственного мониторинга см. на панели "Мониторинг агентов".
Трассировка
Распределенная трассировка фиксирует поток выполнения приложений ИИ, обеспечивая видимость вызовов LLM, вызовов инструментов, решений агента и зависимостей между службами. Основанные на стандартах OpenTelemetry и интегрированные с Azure Monitor Application Insights, трассировка позволяет отлаживать сложное поведение агентов, определять узкие места производительности и понимать цепочки многошагового рассуждения. Microsoft Foundry поддерживает трассировку популярных платформ, включая LangChain, LangGraph, пакет SDK для агентов OpenAI и платформу агента Microsoft.
Рекомендации по реализации трассировки см. в обзоре агента трассировки.
Что такое оценщики?
Оценочные средства — это специализированные инструменты, которые измеряют качество, безопасность и надежность ответов ИИ в течение всего жизненного цикла разработки.
Для получения полного списка встроенных оценщиков см. Справочник по встроенным оценщикам.
Оценщики включаются на каждом этапе жизненного цикла ИИ, чтобы обеспечить надежность, безопасность и эффективность.
Три этапа оценки жизненного цикла приложений ИИ
Выбор базовой модели
Выберите правильную базовую модель, сравнивая качество, производительность задач, этические соображения и профили безопасности в разных моделях.
Инструменты в наличии: Microsoft Foundry benchmark для сравнения моделей с общедоступными наборами данных или собственными данными, а также пакет Azure AI Evaluation SDK для тестирования конкретных конечных точек моделей.
Оценка перед производством
Перед развертыванием тщательное тестирование гарантирует, что агент ИИ или приложение готовы к работе. Этот этап проверяет производительность с помощью наборов данных оценки, определяет пограничные варианты, оценивает надежность и измеряет ключевые метрики, включая соблюдение задач, заземление, релевантность и безопасность. Для создания агентов, готовых к использованию в производственных условиях, с многошаговыми диалогами, вызовами инструментов и управлением состоянием см. в разделе "Служба агента Foundry".
Средства оценки и подходы:
Используйте собственные данные: оценивайте приложения ИИ с использованием собственных данных с качеством, безопасностью или настраиваемыми инструментами оценки. Используйте мастер оценки портала Foundry или пакет SDK Foundry и просмотрите результаты на портале Foundry.
агент AI red teaming agent: агент AI red teaming имитирует сложные атаки с помощью фреймворка PyRIT от компании Microsoft для выявления уязвимостей в области защиты и безопасности перед развертыванием. Лучше всего использовать с процессами, включающими участие человека.
Мониторинг после производства
После развертывания непрерывное наблюдение гарантирует, что ваше приложение ИИ поддерживает качество в реальных условиях:
- Операционные метрики: регулярное измерение ключевых метрик агента ИИ
- Непрерывная оценка: оценка качества и безопасности производственного трафика с использованием выборочного метода анализа
- Запланированная оценка: запланированная оценка качества и безопасности с помощью тестовых наборов данных для обнаружения смещения системы
- Запланированное создание красной команды: запланированное состязательное тестирование для проверки уязвимостей безопасности и безопасности
- оповещения Azure Monitor: уведомления, когда выходные данные не соответствуют порогам качества или создают нежелательное содержимое.
Интегрированная с Azure Monitor Application Insights панель мониторинга Foundry предоставляет аналитические сведения о производительности, безопасности и качествах в режиме реального времени, обеспечивая быстрое разрешение проблем и поддержание доверия пользователей.
Краткий справочник по оценке
| Цель | Процесс | Параметры, рекомендации и примеры |
|---|---|---|
| Как настроить трассировку? | Настройка распределенной трассировки |
Обзор трассировки Трассировка с помощью SDK для программных агентов |
| Что вы оцениваете? | Определение или создание соответствующих оценивателей |
Встроенные вычислители Пользовательские оценщики образцы SDK Python примеры пакета SDK C# sdk |
| Какие данные следует использовать? | Отправка или создание соответствующего набора данных | Выбор или создание набора данных |
| Как выполнять оценки? | Запуск оценки |
Запуск оценки агента Удалённый запуск в облаке |
| Как работало мое приложение на основе модели или ИИ? | Анализ результатов |
Просмотр результатов оценки Анализ кластера |
| Как улучшить? | Анализ результатов и оптимизация агентов | Анализ сбоев оценки с помощью анализа кластера. Оптимизация агентов и повторная оценка. Просмотрите результаты оценки. |
Поддержка регионов, ограничения скорости и поддержка виртуальной сети
Чтобы узнать, какие регионы поддерживают оценщиков с поддержкой ИИ, ограничения скорости, применяемые к процессам оценки, и как настроить поддержку виртуальной сети для сетевой изоляции, см. раздел поддержка регионов, ограничения скорости и поддержка виртуальной сети для оценки.
Цены
Функции наблюдаемости, такие как оценки рисков и безопасности и оценки в песочнице агента, оплачиваются по мере использования, как указано на странице цен на Azure.
Важно
Оценки в тестовой среде агентов включены по умолчанию для всех проектов Foundry и учитываются в биллинге на основе потребления. Чтобы отключить оценки на площадке агентов, выберите показатели в правом верхнем углу площадки агентов и отмените выбор всех оценщиков.