Наблюдаемость в генерируемом ИИ (классическая модель)

В настоящее время просмотр:Версия портала Foundry (классическая версия) - Переключиться на версию для нового портала Foundry

Важно

Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

Жизненный цикл приложений ИИ требует надежных платформ оценки, чтобы системы ИИ предоставляли точные, релевантные и надежные выходные данные. Без строгой оценки системы ИИ рискуют создавать ответы, которые являются неточными, несогласованными, плохо обоснованными или потенциально вредными. Наблюдаемость позволяет командам измерять и улучшать качество и безопасность выходных данных искусственного интеллекта на протяжении всего жизненного цикла разработки— от выбора модели с помощью мониторинга рабочей среды.

Примечание

Пакет Microsoft Foundry SDK и портал Foundry находятся в общедоступной предварительной версии, но API обычно доступны для оценки моделей и наборов данных (оценка агентов остается в общедоступной предварительной версии). Пакет SDK для оценки Azure ИИ и оценщики, помеченные как 'предварительная версия' и упомянутые в этой статье, в настоящее время находятся в стадии общедоступной предварительной версии повсеместно.

Что такое наблюдаемость?

Наблюдаемость искусственного интеллекта относится к способности отслеживать, понимать и устранять неполадки систем ИИ на протяжении всего жизненного цикла. Команды могут отслеживать, оценивать, интегрировать автоматизированные шлюзы качества в конвейеры CI/CD и собирать такие сигналы, как метрики оценки, журналы, трассировки и выходные данные модели для обеспечения видимости производительности, качества, безопасности и эксплуатационной надежности.

Основные возможности наблюдения

Microsoft Foundry предоставляет три основных возможности, которые совместно работают для обеспечения комплексной наблюдаемости в жизненном цикле приложений ИИ:

Оценки

Эксперты оценивают качество, безопасность и надежность ответов ИИ на протяжении всего процесса разработки. Microsoft Foundry предоставляет встроенные вычислители для метрик качества общего назначения (согласованность, беглость), RAG-конкретных метрик (обоснованность, релевантность), а также безопасность и защита (ненависть/несправедливость, насилие, защищенные материалы) и метрики для конкретных агентов (точность вызова инструмента, завершение задачи). Команды также могут создавать пользовательские оценщики, адаптированные к их специфическим требованиям в данной области.

Для получения полного списка встроенных оценщиков см. Справочник по встроенным оценщикам.

Мониторинг

Мониторинг рабочей среды гарантирует, что развернутые приложения ИИ поддерживают качество и производительность в реальных условиях. Интегрированная с Azure Monitor Application Insights, Microsoft Foundry предоставляет панели мониторинга в режиме реального времени для отслеживания операционных метрик, потребления маркеров, задержки, частоты ошибок и показателей качества. Команды могут настроить оповещения, если выходные данные не соответствуют пороговым значениям качества или создают вредное содержимое, что позволяет быстро решить проблемы.

Дополнительные сведения о настройке мониторинга работы в производственной среде см. в статьях "Мониторинг ваших генеративных приложений ИИ" и "Непрерывная оценка агентов ИИ".

Трассировка

Распределенная трассировка фиксирует поток выполнения приложений ИИ, обеспечивая видимость вызовов LLM, вызовов инструментов, решений агента и зависимостей между службами. Основанные на стандартах OpenTelemetry и интегрированные с Application Insights, трассировка позволяет отлаживать сложное поведение агента, выявлять узкие места производительности и понимать цепочки многоэтапных рассуждений. Microsoft Foundry поддерживает трассировку популярных платформ, включая LangChain, Semantic Kernel и пакет SDK для агентов OpenAI.

Инструкции по реализации трассировки см. в разделе "Трассировка приложения " и "Трассировка" с помощью пакета SDK для агентов.

Что такое оценщики?

Оценочные средства — это специализированные инструменты, которые измеряют качество, безопасность и надежность ответов ИИ в течение всего жизненного цикла разработки.

Для получения полного списка встроенных оценщиков см. Справочник по встроенным оценщикам.

Оценщики включаются на каждом этапе жизненного цикла ИИ, чтобы обеспечить надежность, безопасность и эффективность.

Три этапа оценки жизненного цикла приложений ИИ

Выбор базовой модели

Выберите правильную базовую модель, сравнивая качество, производительность задач, этические соображения и профили безопасности в разных моделях.

Инструменты в наличии: Microsoft Foundry benchmark для сравнения моделей с общедоступными наборами данных или собственными данными, а также пакет Azure AI Evaluation SDK для тестирования конкретных конечных точек моделей.

Оценка перед производством

Перед развертыванием тщательное тестирование гарантирует, что агент ИИ или приложение готовы к работе. Этот этап проверяет производительность с помощью наборов данных оценки, определяет пограничные варианты, оценивает надежность и измеряет ключевые метрики, включая соблюдение задач, заземление, релевантность и безопасность. Для создания агентов, готовых к использованию в производственных условиях, с многошаговыми диалогами, вызовами инструментов и управлением состоянием см. в разделе "Служба агента Foundry".

Средства оценки и подходы:

Предоставление собственных данных: оценка агентов и приложений ИИ с помощью собственных данных с качеством, безопасностью или пользовательскими вычислителями. Используйте мастер оценки Foundry или Azure AI Evaluation SDK и просматривайте результаты на портале Foundry.
AI red teaming агент: AI red teaming агент имитирует сложные атаки злоумышленников с помощью платформы PyRIT Microsoft для выявления уязвимостей безопасности и защиты. Лучше всего использовать с процессами, включающими участие человека.

Кроме того, можно использовать портал Foundry для тестирования создаваемых приложений ИИ.

Мониторинг после производства

После развертывания непрерывное наблюдение гарантирует, что ваше приложение ИИ поддерживает качество в реальных условиях:

Операционные метрики: регулярное измерение ключевых метрик агента ИИ
Непрерывная оценка: оценка качества и безопасности производственного трафика с использованием выборочного метода анализа
Запланированная оценка: запланированная оценка качества и безопасности с помощью тестовых наборов данных для обнаружения смещения системы
Запланированное создание красной команды: запланированное состязательное тестирование для проверки уязвимостей безопасности и безопасности
оповещения Azure Monitor: уведомления, когда выходные данные не соответствуют порогам качества или создают нежелательное содержимое.

Интегрированная с Azure Monitor Application Insights панель мониторинга Foundry предоставляет аналитические сведения о производительности, безопасности и качествах в режиме реального времени, обеспечивая быстрое разрешение проблем и поддержание доверия пользователей.

Краткая памятка для оценки

Цель	Процесс	Параметры, рекомендации и примеры
Как настроить трассировку?	Настройка распределенной трассировки	Трассировка приложения Трассировка с помощью SDK для программных агентов
Что вы оцениваете?	Определение или создание соответствующих оценивателей	Встроенные вычислители Пользовательские оценщики образцы SDK Python примеры пакета SDK C# sdk
Какие данные следует использовать?	Отправка или создание соответствующего набора данных	Создание искусственного набора данных Запуск тестирования на уязвимость искусственного интеллекта в облаке
Как выполнять оценки?	Запуск оценки	Запуск оценки агента Удалённый запуск в облаке Локальный запуск
Как работала моя модель/приложение?	Анализ результатов	Просмотр результатов оценки
Как улучшить?	Анализ результатов оценки и оптимизация агентов	Оптимизация агентов путем повторного выполнения вычислений см. в статье "Оценка формируемых моделей и приложений ИИ" на портале. Анализ результатов оценки.

Поддержка регионов, ограничения скорости и поддержка виртуальной сети

Чтобы узнать, какие регионы поддерживают оценщиков с поддержкой ИИ, ограничения скорости, применяемые к процессам оценки, и как настроить поддержку виртуальной сети для сетевой изоляции, см. раздел поддержка регионов, ограничения скорости и поддержка виртуальной сети для оценки.

Цены

Функции наблюдаемости, такие как оценки рисков и безопасности и непрерывные оценки, выставляются на основе потребления, как указано в странице цен Azure.