Поделиться через


Наблюдаемость в генеративном ИИ

Замечание

Эта статья относится к порталу Microsoft Foundry (классическая модель).

🔄 Перейдите в новую документацию по Microsoft Foundry, если вы используете новый портал.

Замечание

Эта статья относится к порталу Microsoft Foundry (новый).

Это важно

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Для получения дополнительной информации см. Дополнительные условия использования для предварительных версий Microsoft Azure.

Жизненный цикл приложений ИИ требует надежных платформ оценки, чтобы системы ИИ предоставляли точные, релевантные и надежные выходные данные. Без строгой оценки системы ИИ рискуют создавать ответы, которые являются неточными, несогласованными, плохо обоснованными или потенциально вредными. Наблюдаемость позволяет командам измерять и улучшать качество и безопасность выходных данных искусственного интеллекта на протяжении всего жизненного цикла разработки— от выбора модели с помощью мониторинга рабочей среды.

Замечание

Пакет SDK Microsoft Foundry для оценки и портала Foundry находятся в общедоступной предварительной версии, но API обычно доступны для оценки модели и набора данных (оценка агента остается в общедоступной предварительной версии). Пакет SDK для оценки ИИ Azure и инструменты, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии везде.

Замечание

Пакет SDK Microsoft Foundry для оценки и портала Foundry находятся в общедоступной предварительной версии, но API обычно доступны для оценки модели и набора данных (оценка агента остается в общедоступной предварительной версии). Оценщики, помеченные как (публичная предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии повсеместно.

Что такое наблюдаемость?

Наблюдаемость искусственного интеллекта относится к способности отслеживать, понимать и устранять неполадки систем ИИ на протяжении всего жизненного цикла. Команды могут отслеживать, оценивать, интегрировать автоматизированные шлюзы качества в потоки CI/CD и собирать такие сигналы, как метрики оценки, журналы, трассировки и выходные данные модели, для обеспечения видимости производительности, качества, безопасности и эксплуатационной готовности.

Основные возможности наблюдения

Microsoft Foundry предоставляет три основных возможности, которые совместно работают для обеспечения комплексной наблюдаемости в жизненном цикле приложений ИИ:

Evaluation

Оценщики измеряют качество, безопасность и надежность ответов ИИ на протяжении всей разработки. Microsoft Foundry предоставляет встроенные оценщики для метрик качества общего назначения (согласованность, беглость), RAG-специфичных метрик (обоснованность, релевантность), безопасности и защиты (ненависть/несправедливость, насилие, защищенные материалы) и метрик, специфичных для агента (точность вызова инструмента, завершение задачи). Команды также могут создавать пользовательские оценщики, адаптированные к требованиям их специфичных доменов.

Для получения полного списка встроенных оценивателей см. справочник по встроенным оценивателям.

Мониторинг

Мониторинг рабочей среды гарантирует, что развернутые приложения ИИ поддерживают качество и производительность в реальных условиях. Интегрированная с Azure Monitor Application Insights, Microsoft Foundry предоставляет панели мониторинга в режиме реального времени для отслеживания операционных метрик, потребления маркеров, задержки, частоты ошибок и оценки качества. Команды могут настроить оповещения, когда выходные данные не соответствуют пороговым значениям качества или создают вредоносный контент, что позволяет быстро разрешать проблемы.

Дополнительные сведения о настройке производственного мониторинга см. на панели мониторинга агентов.

Отслеживание

Распределенная трассировка фиксирует поток выполнения приложений ИИ, обеспечивая видимость вызовов LLM, вызовов инструментов, решений агента и зависимостей между службами. Основанная на стандартах OpenTelemetry и интегрированная с Application Insights, трассировка выполнения позволяет отлаживать сложное поведение агентов, выявлять узкие места производительности и понимать многоэтапные цепочки рассуждений. Microsoft Foundry поддерживает трассировку популярных платформ, включая LangChain, семантический ядро и пакет SDK для агентов OpenAI.

Инструкции по реализации трассировки см. в разделе "Трассировка приложения " и "Трассировка" с помощью пакета SDK для агентов.

Что такое оценщики?

Оценочные средства — это специализированные инструменты, которые измеряют качество, безопасность и надежность ответов ИИ на протяжении всего жизненного цикла разработки.

Для получения полного списка встроенных оценивателей см. справочник по встроенным оценивателям.

Оценщики интегрируются на каждом этапе жизненного цикла ИИ, чтобы обеспечить надежность, безопасность и эффективность.

Схема жизненного цикла приложений ИИ, показывающая выбор модели, создание приложения ИИ и эксплуатацию.

Три этапа оценки жизненного цикла приложений ИИ

Выбор базовой модели

Выберите правильную базовую модель, сравнивая качество, производительность задач, этические соображения и профили безопасности в разных моделях.

Доступные средства: Microsoft Foundry benchmark для сравнения моделей с общедоступными наборами данных или собственными данными, а также пакет SDK для оценки ИИ Azure для тестирования определенных конечных точек модели.

Оценка перед производством

Перед развертыванием тщательное тестирование гарантирует, что агент ИИ или приложение готовы к работе. Этот этап проверяет производительность с помощью наборов данных оценки, определяет пограничные варианты, оценивает надежность и измеряет ключевые метрики, включая соблюдение задач, заземление, релевантность и безопасность. Сведения о создании готовых к продуктивной эксплуатации агентов с помощью многошаговых диалогов, вызовов инструментов и управления состоянием см. в разделе "Служба агента Foundry".

Схема предварительной оценки моделей и приложений с шестью шагами.

Средства оценки и подходы:

  • Используйте собственные данные: оценивайте агентов и приложения ИИ с помощью своих данных с качеством, безопасностью или пользовательскими оценщиками. Используйте мастер оценки Foundry или пакет SDK для оценки ИИ Azure и просмотрите результаты на портале Foundry.

  • Агент красной команды ИИ: Агент красной команды ИИ имитирует сложные состязательные атаки с помощью платформы PyRIT Microsoft для выявления уязвимостей в безопасности и защите. Лучше всего использовать с процессами с участием человека.

Кроме того, можно использовать портал Foundry для тестирования создаваемых приложений ИИ.

  • Использование собственных данных: оценка приложений ИИ с помощью собственных данных с учетом качества, безопасности или пользовательских оценщиков. Используйте мастер оценки портала Foundry или пакет SDK Foundry и просмотрите результаты на портале Foundry.

  • Агент красной команды ИИ: агент красной команды ИИ имитирует сложные атаки с помощью платформы PyRIT Корпорации Майкрософт для выявления уязвимостей в области безопасности и защиты перед развертыванием. Лучше всего использовать с процессами с участием человека.

Мониторинг после производства

После развертывания непрерывное наблюдение гарантирует, что ваше приложение ИИ поддерживает качество в реальных условиях:

После развертывания непрерывное наблюдение гарантирует, что ваше приложение ИИ поддерживает качество в реальных условиях:

  • Операционные метрики: регулярное измерение ключевых метрик агента ИИ
  • Непрерывная оценка: оценка качества и безопасности производственного трафика на основе выборочного анализа
  • Запланированная оценка: запланированная оценка качества и безопасности с помощью тестовых наборов данных для обнаружения дрейфа системы
  • Запланированное тестирование красной командой: запланированное состязательное тестирование для проверки уязвимостей безопасности и защищенности
  • Оповещения Azure Monitor: уведомления, когда выходные данные не соответствуют качественным пороговым значениям или производят вредное содержимое

Интегрированная с Azure Monitor Application Insights панель мониторинга Foundry предоставляет аналитические сведения о производительности, безопасности и качествах в режиме реального времени, обеспечивая быстрое разрешение проблем и поддержание доверия пользователей.

Памятка по оценке

Цель Процедура Параметры, рекомендации и примеры
Как настроить трассировку? Настройка распределенной трассировки Трассировка приложения

Трассировка с помощью пакета SDK для агентов
Для чего вы оцениваете? Определение или создание соответствующих оценщиков Встроенные вычислители

Пользовательские оценщики

Примеры пакета SDK для Python

Примеры пакета SDK для C#
Какие данные следует использовать? Отправка или создание соответствующего набора данных Создание искусственного набора данных

Проведение красных командных учений с использованием искусственного интеллекта в облаке
Как выполнять оценки? Запуск оценки Запуски оценки агента

Удаленный запуск в облаке

Локальный запуск
Как выполнялась модель или приложение? Анализ результатов Просмотр результатов оценки
Как улучшить? Анализ результатов оценки и оптимизация агентов Оптимизация агентов путем повторного выполнения вычислений см. в статье "Оценка формируемых моделей и приложений ИИ" на портале.

Анализ результатов оценки.
Цель Процедура Параметры, рекомендации и примеры
Как настроить трассировку? Настройка распределенной трассировки Обзор трассировки

Трассировка с помощью пакета SDK для агентов
Для чего вы оцениваете? Определение или создание соответствующих оценщиков Встроенные вычислители

Пользовательские оценщики

Примеры пакета SDK для Python

Примеры пакета SDK для C#
Какие данные следует использовать? Отправка или создание соответствующего набора данных Выбор или создание набора данных
Как выполнять оценки? Запуск оценки Запуски оценки агента

Удаленный запуск в облаке
Как работает моя модель/применимый ИИ? Анализ результатов Просмотр результатов оценки

Анализ кластера
Как улучшить? Анализ результатов и оптимизация агентов Анализ сбоев оценки с помощью анализа кластера.

Оптимизация агентов и повторная оценка.

Просмотрите результаты оценки.

Поддержка регионов, ограничения скорости и поддержка виртуальной сети

Чтобы узнать, какие регионы поддерживают оценщиков, поддерживаемых ИИ, ограничения скорости, применяемые к проведению вычислений, и как настроить поддержку виртуальной сети для сетевой изоляции, см. поддержку регионов, ограничения скорости и поддержку виртуальной сети для оценки.

Ценообразование

Функции наблюдения, такие как оценки рисков и безопасности и непрерывные оценки, выставляются на основе потребления, как показано на странице цен Azure.

Это важно

Оценки в тестовой среде агентов включены по умолчанию для всех проектов Foundry и учитываются при выставлении счетов на основе потребления. Чтобы отключить оценки в интерфейсе агентов, выберите блок метрик и отмените выбор всех оценщиков.

Снимок экрана: портал Foundry, на котором показана площадка агентов с выбранным полем метрик.

Функции наблюдаемости, такие как оценки рисков и безопасности и оценки на игровой площадке агента, выставляются на основе потребления, как указано на нашей странице цен Azure.

Это важно

Оценки на игровой площадке агентов включены по умолчанию для всех проектов Foundry и включены в выставление счетов на основе потребления. Чтобы отключить оценки игровой площадки, выберите метрики в правом верхнем углу игровой площадки агентов и отмените выбор всех вычислителей.

Снимок экрана: портал Foundry, на котором показаны игровые площадки агентов с выбранными метриками.