Запуск вычислений на портале Microsoft Foundry

Важно

Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

Протестируйте созданные модели ИИ и агенты, выполнив оценки, которые измеряют производительность, качество и безопасность. Используйте оценки перед развертыванием для проверки поведения или после развертывания для мониторинга качества рабочей среды. Оценивание запускает вашу модель или агент на тестовых данных и оценивает результаты с помощью встроенных или пользовательских оценщиков.

В этой статье показано, как создавать и запускать оценки на портале Foundry.

Необходимые условия

  • Подписка Azure. Создайте аккаунт бесплатно.

  • Проект Microsoft Foundry. Создайте проект , если у вас его нет.

  • Одно из следующих вариантов в зависимости от целевого объекта оценки:

    • Оценка агента: Агент в вашем проекте.
    • Оценка модели: развернутая модель или доступ к мгновенным моделям.
    • Оценка набора данных: тестовый набор данных в формате CSV или JSONL, содержащий предварительно существующие модели или выходные данные агента.
  • Подключение Azure OpenAI с развернутой моделью GPT (например, gpt-4.1-mini). Требуется для оценки качества с помощью ИИ.

  • Роль пользователя Foundry в проекте Foundry . Дополнительные сведения см. в разделе Управление доступом на основе ролей для Microsoft Foundry.

    Важно

    Недавно были переименованы роли RBAC в Foundry. Foundry User, Foundry Owner, Foundry Account Owner и Foundry Project Manager ранее назывались пользователь Azure AI, владелец Azure AI, владелец учетной записи Azure AI и руководитель проекта Azure AI. Пока новое название внедряется, в некоторых местах вы всё ещё можете видеть прежние названия. Идентификаторы ролей и основные разрешения не меняются из-за переименования.

Выбор подхода оценки

Выберите подход оценки на основе того, что требуется протестировать:

Цель Scope Источник данных лучше всего подходит для
Agent Полные беседы Имитированные данные Тестирование комплексного поведения агента с помощью синтетических сценариев перед развертыванием.
Agent Полные беседы Существующие беседы Оценка реальных взаимодействий пользователей для мониторинга качества рабочей среды.
Agent Отдельные повороты Существующий набор данных Отладка ответов конкретных агентов, использование средства тестирования, детальный анализ.
Agent Отдельные повороты Искусственные данные Тестирование одноходовых сценариев вопросов и ответов или RAG с использованием сгенерированных запросов.
Agent Отдельные повороты Существующие трассировки Оценка исторических трассировок агентов в вашем проекте.
Модель Отдельные повороты Искусственные данные Тестирование ответов модели с использованием сгенерированных запросов.
Модель Отдельные повороты Существующий набор данных Сравнительный анализ производительности модели на специально подобранном наборе тестов.
Набор данных Отдельные повороты (Целевой набор данных) Оценка предварительных выходных данных без повторного запуска модели или агента.

Tip

Начните с Агент > Полные диалоги > имитированные данные, чтобы проверить поведение агента в контролируемых сценариях. Используйте существующие беседы после того, как агент находится в рабочей среде для мониторинга производительности в реальном мире.

Создание оценки

Вы можете запустить оценку из нескольких мест на портале Foundry:

  • Страница оценки: в левой области выберите "Создать оценку>".
  • Страница "Модели": перейдите к модели, перейдите на вкладку "Оценка ", а затем нажмите кнопку "Создать".
  • Страница "Агенты": перейдите к агенту, перейдите на вкладку "Оценка ", а затем нажмите кнопку "Создать".
  • Игровая площадка агента: перейдите к агенту, выберите вкладку Площадка, затем выберите Метрики>, выполните полную оценку.

Шаг 1. Выбор целевого объекта оценки

При создании оценки сначала выберите целевой объект оценки. Цель определяет, что будет оцениваться:

Цель Description
Agent Оценивает выходные данные, созданные выбранным агентом на основе входных данных, заданных пользователем. Работает как для агентов моментального реагирования, так и для хостинг агентов.
Модель Оценивает результат, созданный выбранной моделью и запросом, заданным пользователем.
Набор данных Вычисляет предварительно существующие выходные данные модели или агента из тестового набора данных.
Traces Оценивает взаимодействие агента, уже записанное в Application Insights. Выберите агента и диапазон времени, а портал извлекает соответствующие лог-файлы для оценки. Сведения об эквиваленте пакета SDK см. в разделе "Оценка трассировки".

Tip

Мгновенные модели. Мгновенные модели — это модели без развертывания, которые можно использовать немедленно без создания развертывания. При создании оценки можно выбрать моментальную модель в качестве целевого объекта оценки или модели судьи непосредственно из средства выбора модели.

Шаг 2. Выбор области оценки

Примечание

Этот шаг отображается только для целевых объектов агента и набора данных . Оценки моделей всегда используют отдельные повороты.

Выберите способ оценки производительности агента:

Scope Description лучше всего подходит для
Полные беседы (предварительная версия) Оценивает полные многоэтапные беседы от начала до завершения. Измеряет общее качество беседы, завершение задачи и удовлетворенность пользователей. Тестирование сквозного опыта взаимодействия с агентом, уровня удовлетворенности клиентов и хода диалога.
Отдельные повороты Оценивает ответы отдельных агентов в беседах. Измеряет метрики для каждого хода, такие как точность выбора инструментов и качество ответа. Отладка конкретных действий агента, использование средства тестирования и детальный анализ.

Шаг 3. Выбор источника данных

Параметры источника данных зависят от целевого объекта оценки и области.

Для оценки бесед (полные беседы агента >) (предварительная версия)

Выберите место, из которого приходят данные беседы:

Имитированные данные

Создайте синтетические диалоги, запустив агента на описаниях сценариев из набора данных. Используйте этот параметр для проверки поведения агента в управляемых сценариях перед развертыванием.

  1. Выберите имитированные данные.

  2. Выберите "Создать", чтобы открыть диалоговое окно конфигурации моделирования.

  3. Выберите файл: выберите набор данных, содержащий описания сценариев. Каждая строка в наборе данных описывает сценарий, используемый для создания имитации беседы.

    Снимок экрана: предварительный просмотр набора данных в диалоговом окне моделирования.

  4. Выберите модель: выберите модель, которая имитирует пользователя в беседе:

    • gpt-4.1 (рекомендуется для сложных сценариев)
    • gpt-4o
    • gpt-4o-mini
    • gpt-4.1-mini
  5. Настройка параметров имитации:

    • Количество имитированных бесед в каждом сценарии: количество бесед для каждой строки в наборе данных (1–5). Несколько бесед на каждый сценарий помогают определить дисперсию в поведении агента.
    • Количество поворотов на беседу: максимально допустимое количество поворотов для каждой беседы (1–50). Беседа заканчивается, когда задача завершена или достигнуто это ограничение.
  6. Нажмите кнопку "Подтвердить", чтобы сохранить конфигурацию имитации.

Существующие беседы

Оцените реальные беседы, которые у вашего агента уже были с пользователями.

  1. Выберите Существующие разговоры.
  2. Настройка параметров фильтрации:
    • Количество бесед: максимальное количество бесед для выборки из диапазона дат (1–100).
    • Диапазон времени: фильтрация бесед по периоду времени. Используйте быстрые фильтры (последний день, 7D, 1M, 3M) или выберите настраиваемый диапазон дат.
  3. Просмотрите и выберите нужные диалоги, чтобы включить их в оценку.

Для оценки отдельных поворотов

Выберите место, откуда приходят данные оценки:

Искусственные данные

Создайте тестовые запросы с помощью ИИ. Выберите "Искусственный " и настройте количество строк и запрос, описывающий создаваемые данные. Вы также можете отправлять файлы для повышения релевантности.

Примечание

Для создания искусственных данных требуется модель с возможностями API ответов. Сведения о доступности см. в разделе " Доступность региона API ответов".

Существующий набор данных

Используйте подготовленный набор данных в формате CSV или JSONL. Выберите существующий набор данных и выберите файл из ресурсов данных проекта. Поддерживаются только форматы ФАЙЛОВ CSV и JSONL.

Существующие трассировки (только для агента)

Оцените исторические трассировки агентов в вашем проекте. Выберите Существующие трассировки и отфильтруйте по диапазону дат, чтобы выбрать трассировки.

Многомодальное содержимое (предварительная версия)

Все целевые объекты оценки поддерживают изображение и звуковое содержимое. Каждый тип контента использует определенную схему JSONL:

Содержимое изображения:

  • image_url: изображение в виде URI данных (например, data:image/png;base64,...) или общедоступный URL-адрес.
  • caption: текстовое описание содержимого изображения.
{"image_url": "data:image/png;base64,iVBOR...", "caption": "A red to blue color gradient"}

Звуковое содержимое:

  • audio_data: аудио как URI-данные с закодированными в Base64 данными WAV (например, data:audio/wav;base64,...).
  • expected: текстовое описание ожидаемого звукового содержимого.

Примечание

В настоящее время поддерживается только формат звука WAV.

{"audio_data": "data:audio/wav;base64,UklGR...", "expected": "A short beep tone at 440 Hz"}

Наборы данных также могут использовать формат беседы чата, где данные аудио и изображений внедрены в один столбец сообщения чата в виде URI данных или общедоступных URL-адресов.

В следующем примере показан столбец с данными беседы, содержащий встроенные изображения и аудиофайлы.

[
  {
    "role": "system",
    "content": "..."
  },
  {
    "role": "user",
    "content": [
      {
        "type": "text",
        "text": "What are in these images?"
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "https://example.com/path/image.png"
        }
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "data:image/png;base64,iVBORw0KGgo..."
        }
      }
    ]
  },
  {
    "role": "assistant",
    "content": "..."
  },
  {
    "role": "user",
    "content": [
      {
        "type": "text",
        "text": "Tell me the tones for the voices?"
      },
      {
        "type": "input_audio",
        "input_audio": {
          "data": "https://example.com/path/voice.wav",
          "format": "wav"
        }
      },
      {
        "type": "input_audio",
        "input_audio": {
          "data": "data:audio/wav;base64,UklGRigAAA...",
          "format": "wav"
        }
      }
    ]
  }
]

Вы можете просматривать изображения и воспроизводить звуковые клипы непосредственно в потоке создания оценки и в представлении результатов оценки.

Шаг 4. Настройка агентов

Примечание

Этот шаг отображается только для оценки агента .

Настройте поведение агента во время оценки:

  1. Просмотрите список агентов, участвующих в оценке.
  2. Для каждого агента выберите "Настроить" , чтобы настроить его поведение:
    • Системный запрос: измените инструкции агента для оценки.
    • Запрос пользователя. Укажите, как каждый элемент набора данных отправляется агенту во время оценки.
  3. Запуск оценки сохраняет конфигурацию агента.

Настройка запроса пользователя

Запрос пользователя определяет, как тестовые входные данные передаются агенту. По умолчанию портал использует {{item.query}} для передачи запроса к набору данных напрямую вашему агенту.

В большинстве случаев можно использовать значение по умолчанию. Измените это значение только в том случае, если агент ожидает другой входной формат. Например, если ваш агент использует протокол хостингового агента или требует структурированного ввода с дополнительными полями.

Распространенные шаблоны:

Format Когда использовать
{{item.query}} Default. Передает поле запроса из набора данных напрямую.
{{item.messages}} Для агентов, ожидающих журнала бесед в качестве входных данных.
Настраиваемый JSON Для размещённых агентов или API, которым требуется структурированное тело запроса.

Tip

Используйте настраиваемые запросы для тестирования пограничных вариантов или конкретных сценариев, которые могут не возникать в наборе данных.

Шаг 5. Настройка сопоставления полей

Примечание

Этот шаг появляется при использовании существующих данных (существующие беседы, существующий набор данных или существующие трассировки).

Сопоставляйте поля данных с полями, которые ожидает каждый вычислитель. Обязательные поля зависят от области оценки.

Для оценки диалогов (многошаговых)

Поле Description Обязательный
Сообщения Сообщения разговора в формате чата. Да
tool_definitions Определения инструментов или функций, доступные агенту. Да

Для оценки отдельных ходов (за один ход)

Поле Description Обязательный
query Пользовательский запрос или подсказка. Да
response Ответ модели или агента. Да
контекст Извлечённый контекст для сценариев RAG. Нет
ground_truth Ожидаемый правильный ответ для сравнения. Нет
tool_calls Вызовы инструмента, выполненные агентом. Нет
tool_definitions Доступные определения инструментов. Нет

Портал автоматически пытается сопоставить поля набора данных. Если поле отображается как unassigned, выберите раскрывающийся список, чтобы вручную назначить столбец из набора данных.

Примечание

Обязательные поля помечены звездочкой (*). Проверка завершается с ошибкой, если обязательные поля остаются незаполненными.

Шаг 6. Выбор условий тестирования

Выберите оценщиков для вашей оценки. Microsoft Foundry предоставляет три категории встроенных оценщиков. Доступные оценщики зависят от объёма оценки.

Оценщики агентов

Оцените, как эффективно агенты обрабатывают задачи, инструменты и намерения пользователя. Доступно только для отдельных областей поворотов .

Эвалуатор Description
Определение намерения Оценивает, правильно ли агент определил намерение пользователя и учёл его.
Соблюдение задач Измеряет, насколько хорошо агент выполнил инструкции и ограничения.
Успешный вызов инструмента Оценивает, были ли вызовы инструментов успешно выполнены.
Выбор инструмента Оценивает, выбрал ли агент подходящие средства для задачи.
Использование результатов инструмента Оценивает, насколько эффективно агент использовал результаты работы инструментов в своих ответах.
Точность ввода инструмента Измеряет, предоставил ли агент правильные входные данные для инструментов.
Точность вызова инструмента Общая точность использования инструментов.

Оценщики качества

Измеряйте общее качество созданных ответов. Большинство оценщиков качества доступны для всех областей оценки. Оценщики, помеченные значком ★, поддерживают анализ как на уровне беседы, так и на уровне реплики.

Эвалуатор Description Поддержка бесед
Удовлетворенность клиентов Прогнозирует удовлетворенность пользователей взаимодействием с агентом.
Завершение задачи Определяет, успешно ли агент выполнил запрошенную задачу.
Согласованность Измеряет логический поток и согласованность ответов.
Groundedness Измеряет, насколько ответы основаны на предоставленном контексте.
Полнота ответа Определяет, полностью ли ответы отвечают на запросы пользователей.
Fluency Оценивает качество естественного языка.
Relevance Оценивает, как соответствующие ответы относятся к запросу.

Оценщики безопасности

Определите потенциальные риски содержимого и безопасности. Доступно только для отдельных областей поворотов .

Эвалуатор Description
Насилие Обнаруживает насильственное содержимое в ответах.
Половой Обнаруживает сексуальное содержимое.
Самоповредение Обнаруживает контент, связанный с самоповреждением.
Ненависть и несправедливость Обнаруживает ненавистное или предвзятое содержимое.

Портал предварительно выбирает рекомендуемых оценщиков на основе цели и объема оценки:

  • Полные диалоги: Удовлетворенность клиентов, Выполнение задач, Согласованность, Обоснованность
  • Отдельные реплики (существующие данные): все оценщики Agent, а также оценщики Quality и Safety
  • Отдельные реплики (синтетические/трассировочные): Релевантность, Обоснованность, Беглость, Согласованность

Tip

При необходимости можно добавить или удалить оценщиков. Выберите настраиваемые вычислители , чтобы использовать вычислители, определенные в проекте.

Шаг 7. Просмотр и отправка

  1. Введите имя для оценки.
  2. Проверьте конфигурацию:
    • Целевой объект оценки и область
    • Источник данных и набор данных
    • Выбранные оценщики
    • Сопоставления полей (если применимо)
  3. Нажмите кнопку "Отправить ", чтобы начать оценку.

После отправки запускается оценочный процесс. Оценки обычно выполняются в течение нескольких минут в зависимости от размера набора данных и количества имитируемых бесед.

Чтобы убедиться, что оценка успешно началась:

  1. В левой области выберите "Оценка".
  2. Найдите оценку в списке. В столбце "Состояние " отображается текущее состояние:
    • В процессе: Выполняется оценка.
    • Завершено: оценка завершилась успешно.
    • Частично: некоторые средства оценки завершились успешно, а другие — с ошибкой.
    • Сбой. При оценке возникла ошибка.

Чтобы просмотреть подробные результаты, выберите имя оценки или просмотрите результаты оценки.

Tip

Для рабочих процессов программной оценки используйте пакет SDK для оценки Azure ИИ. Узнайте , как выполнить пакетную оценку с помощью пакета SDK.

Troubleshooting

Проверка завершается по тайм-ауту или выполняется медленно

  • Уменьшите количество бесед или строк набора данных.
  • Для симуляций уменьшите максимальное количество ходов в разговоре.
  • Убедитесь, что модель судьи имеет достаточную квоту.

Ошибки сопоставления полей

  • Убедитесь, что набор данных содержит обязательные столбцы для области оценки.
  • Для оценки бесед убедитесь, что столбец сообщений содержит правильно отформатированные сообщения чата.
  • Убедитесь, что имена столбцов в наборе данных соответствуют ожидаемым именам полей.

Квота модели превышена

  • Модель-оценщик, используемая для оценок с использованием ИИ, расходует вашу квоту Azure OpenAI.
  • Используйте меньший набор данных или дождитесь обновления квоты.
  • Рассмотрите возможность использования gpt-4.1-mini вместо gpt-4.1 для экономичной оценки.

Лучшие практики

Для оценок на основе моделирования

  • Начните с малого: начните с 1 диалога для каждого сценария и 5–10 реплик, чтобы проверить конфигурацию, прежде чем масштабировать.
  • Различные сценарии. Включите различные описания сценариев для тестирования различных возможностей агента.
  • Дорабатывайте запросы: если агенты ведут себя неожиданно, используйте шаг Настройка агентов, чтобы скорректировать запросы.

Для существующих оценок диалогов

  • Пример представителя: выберите беседы, представляющие типичные взаимодействия с пользователем.
  • Учитывайте пограничные случаи: Не ограничивайтесь оценкой только успешных диалогов — включайте и сложные сценарии.
  • Регулярная оценка: планируйте регулярные оценки, чтобы отслеживать производительность агента с течением времени.

Для оценки моделей

  • Тестовые наборы данных. Используйте стандартизированные наборы данных для сравнения производительности модели в разных версиях.
  • Протестируйте развернутые и мгновенные модели: сравнивайте настроенные развертывания с базовыми моделями.

Для оценки набора данных

  • Выходные данные предварительного вычисления: создание выходных данных в автономном режиме и массовое вычисление для повышения эффективности затрат.
  • Версия наборов данных: отслеживайте версию набора данных, в которой были получены результаты оценки.

Общие советы

  • Сравнение оценщиков: выполните одни и те же данные с помощью нескольких вычислителей, чтобы получить комплексное представление.
  • Отслеживание тенденций. Используйте журнал оценки для выявления улучшений производительности или регрессий.
  • Действовать по результатам: используйте аналитические сведения об оценке для уточнения запросов агента, определений инструментов и конфигураций.

Дополнительные сведения об оценке моделей и агентов сгенерированных ИИ: