Мониторинг моделей для созданных приложений ИИ (предварительная версия)

Предупреждение

Разработка функций потока запросов закончилась 20 апреля 2026 г. Функция будет полностью прекращена 20 апреля 2027 г. В дату выхода на пенсию, Prompt Flow переходит в режим только для чтения. Существующие потоки будут продолжать работать до этой даты.

Рекомендуемое действие: Перенесите рабочие нагрузки Prompt Flow на Microsoft Agent Framework до 20 апреля 2027 г.

Модели мониторинга в рабочей среде являются важной частью жизненного цикла ИИ. Изменения в данных и поведении потребителей со временем могут повлиять на работу вашего приложения генеративного ИИ, что приводит к устаревшим системам, которые негативно сказываются на бизнес-результатах и подвергают организации рискам нарушения соответствия, экономическим и репутационным рискам.

Важно

Мониторинг моделей для создаваемых приложений ИИ в настоящее время находится в общедоступной предварительной версии. Эти предварительные просмотры предоставляются без соглашения об уровне обслуживания и не рекомендуются для операций в производственной среде. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

Машинное обучение Azure мониторинг модели для создаваемых приложений ИИ упрощает мониторинг приложений LLM в рабочей среде для обеспечения безопасности и качества на регулярной основе, чтобы обеспечить максимальное влияние на бизнес. Мониторинг в конечном счете помогает поддерживать качество и безопасность создаваемых приложений ИИ. К возможностям и интеграциям относятся:

  • Сбор рабочих данных с помощью сборщика данных модели.
  • Ответственные метрики оценки ИИ, такие как заземленность, согласованность, плавность, актуальность и сходство, которые совместимы с метриками оценки потока подсказок Машинное обучение Azure.
  • Возможность настраивать оповещения для нарушений на основе целевых объектов организации и выполнять мониторинг на регулярной основе.
  • Используйте результаты в полнофункциональной панели мониторинга в рабочей области в Студия машинного обучения Azure.
  • Интеграция с метриками оценки потока подсказок в Машинное обучение Azure, анализ производственных данных для своевременного оповещения и визуализация этих метрик с течением времени.

Основные понятия мониторинга моделей см. в статье Model monitoring with Машинное обучение Azure (preview). Из этой статьи вы узнаете, как отслеживать создание приложения искусственного интеллекта, поддерживаемого управляемой конечной точкой в Сети. Действия, которые вы выполните:

Метрики оценки

Метрики создаются следующими передовыми языковыми моделями GPT, настроенными с конкретными инструкциями по оценке (шаблонами запросов), которые работают в качестве моделей оценщика для задач преобразования последовательностей. Эта методика показала сильные эмпирические результаты и высокую корреляцию с человеческим решением по сравнению со стандартными метриками оценки и анализа искусственного интеллекта. Дополнительные сведения об оценке потока запроса см. в статье "Отправка массового теста" и оценка потока (предварительная версия).

Эти модели GPT поддерживаются и будут настроены в качестве ресурса OpenAI Azure:

  • GPT-3.5 Turbo
  • GPT-4
  • GPT-4-32k

Поддерживаются следующие метрики. Дополнительные сведения о каждой метрии см. в описании и вариантах использования метрик оценки мониторинга.

  • Обоснованность: оценивает, насколько хорошо сформированные ответы модели соответствуют данным из входного источника.
  • Релевантность: оценивает степень, в которой сформированные ответы модели имеют отношение к заданным вопросам и непосредственно связаны с заданными вопросами.
  • Согласованность: оценивает, насколько хорошо языковая модель может производить выходные данные, которые плавно читаются, выглядят естественно и напоминают человеческий язык.
  • Fluency: оценивает владение языком в прогнозируемом ответе генерируемого ИИ. Он оценивает, насколько хорошо созданный текст соответствует грамматическим правилам, синтаксическим структурам и правильному использованию словаря, что приводит к лингвистически правильным и естественным и звучным ответам.
  • Сходство: оценивает сходство между эталонным предложением (или документом) и предложением, сгенерированным моделью ИИ.

Требования к конфигурации метрик

Для измерения безопасности и качества поколения требуются следующие входные данные (имена столбцов данных).

  • текст запроса — исходный запрос (также известный как "входные данные" или "вопрос")
  • Текст завершения — окончательное завершение вызова API, возвращаемого (также известное как "выходные данные" или "ответ")
  • текст контекста — все данные контекста, отправляемые вызову API, вместе с исходным запросом. Например, если вы хотите получить результаты поиска только из определенных сертифицированных источников или веб-сайтов, это можно определить в шагах оценки. Это необязательный шаг, который можно настроить с помощью потока запроса.
  • текст конечной истины — определяемый пользователем текст как "источник истины" (необязательно)

Какие параметры настраиваются в ресурсе данных, определяют, какие метрики можно создать, в соответствии с этой таблицей:

Метрика Командная строка Завершение Контекст Земля истина
Согласованность Обязательно Обязательно - -
Плавность Обязательно Обязательно - -
Заземленность Обязательно Обязательно Обязательно -
Актуальность Обязательно Обязательно Обязательно -
Сходство Обязательно Обязательно - Обязательно

Необходимые условия

  1. ресурс Azure OpenAI: Ресурс Azure OpenAI должен быть создан с достаточной квотой. Этот ресурс используется в качестве конечной точки оценки.
  2. Управляемое удостоверение: Создайте управляемое удостоверение с назначенным пользователем (UAI) и присоедините его к рабочей области, следуя руководству Присоединение управляемого удостоверения с назначенным пользователем с использованием CLI версии 2 с достаточным доступом к роли, как определяется на следующем шаге.
  3. Role access: Чтобы назначить роль с необходимыми разрешениями, необходимо иметь разрешение owner или Microsoft.Authorization/roleAssignments/write на ресурс. Обновление подключений и разрешений может занять несколько минут. Эти дополнительные роли должны быть назначены вашему UAI:
    • Ресурс: Рабочее пространство
    • Role: Машинное обучение Azure Специалист по обработке и анализу данных
  4. Workspace connection: Следуя этому руководству, вы используете управляемое удостоверение, представляющее учетные данные Azure для конечной точки OpenAI, используемой для вычисления метрик мониторинга. Не удаляйте подключение после его использования в потоке.
    • Версия API: 2023-03-15-preview
  5. Развертывание потока запроса: Создайте среду выполнения потока запроса, следуя этому руководству, запустите поток и убедитесь, что развертывание настроено, используя эту статью в качестве руководства.
    • Входные и выходные данные потока: При создании монитора необходимо указать правильное имя выходных данных потока и запомнить эти имена столбцов. В этой статье мы используем следующее:
      • Входные данные (обязательные): "запрос"
      • Выходные данные (обязательно): "Завершение"
        • Выходные данные (необязательно): "context" | "истинные данные"
    • Сбор данных: В мастере развертывания потока запроса (шаг 2 мастера развертывания потока запроса) переключатель "сбор данных вывода" должен быть включен с помощью сборщика данных модели.
    • Выходные данные: В мастере развертывания (шаг 3), убедитесь, что вы выбрали необходимые выходные данные, перечисленные выше (например, завершение | контекст | ground_truth), которые соответствуют вашим требованиям к конфигурации метрик.

Примечание

Если вычислительный экземпляр находится за виртуальной сетью, см. раздел "Сетевая изоляция" в потоке запросов.

Создание монитора

Создайте монитор на странице обзора мониторинга: снимок экрана: создание монитора для приложения.

Настройка основных параметров мониторинга

В мастере создания мониторинга измените тип задачи модели на запрос и завершение, как показано на снимке экрана (A). Снимок экрана: настройка базовых параметров мониторинга для создания искусственного интеллекта.

Настройка ресурса данных

Если вы использовали сборщик данных модели, выберите два ресурса данных (входные и выходные данные). Снимок экрана: настройка ресурса данных для создания искусственного интеллекта.

Выбор сигналов мониторинга

Снимок экрана: параметры конфигурации сигнала мониторинга в диалоговом окне параметров мониторинга.

  1. Настройте подключение к рабочей области (A) на снимке экрана.
    1. Необходимо правильно настроить подключение к рабочей области, в противном случае вы увидите следующее: снимок экрана, показывающий ненастроенный сигнал мониторинга.
  2. Введите имя развертывания оценщика Azure OpenAI (B).
  3. (Необязательно) Присоединение входных и выходных данных рабочей модели: входные и выходные данные рабочей модели автоматически присоединяются службой мониторинга (C). Это можно настроить при необходимости, но никаких действий не требуется. По умолчанию столбец объединения называется correlationid.
  4. (Необязательно) Настройка пороговых значений метрик: допустимая оценка для каждого экземпляра фиксирована в 3/5. Вы можете настроить приемлемый общий процент сдачи в диапазоне от 1 до 99 %.
  • Вручную введите имена столбцов из потока запроса (E). Стандартные имена : ("запрос" | "завершение" | "context" | "ground_truth") но их можно настроить в соответствии с ресурсом данных.

  • (Необязательно) Задайте частоту выборки (F).

  • После настройки сигнал больше не будет отображать предупреждение. Снимок экрана: конфигурации сигналов мониторинга без предупреждения.

Настройка уведомлений

Никаких действий не требуется. При необходимости можно настроить больше получателей. Снимок экрана: конфигурации уведомлений мониторинга.

Подтверждение конфигурации сигнала мониторинга

При успешной настройке монитор должен выглядеть следующим образом: снимок экрана, показывающий настроенный сигнал мониторинга.

Подтверждение состояния мониторинга

Если задание конвейера мониторинга успешно настроено, показано следующее: снимок экрана, показывающий успешно настроенный сигнал мониторинга.

Потребление результатов

Страница обзора мониторинга

Обзор монитора содержит общие сведения о производительности сигнала. Вы можете перейти на страницу сведений о сигнале для получения дополнительных сведений. Снимок экрана: обзор монитора.

Страница сведений о сигнале

Страница сведений о сигнале позволяет просматривать метрики с течением времени (А) и просматривать гистограммы распределения (B).

Снимок экрана: страница сведений о сигнале.

Устранение оповещений

Можно настроить только пороговые значения сигнала. Допустимая оценка фиксирована на 3/5, и можно настроить поле "приемлемый общий % проходимости". Снимок экрана: настройка пороговых значений сигнала.

Дальнейшие действия