Запуск вычислений на портале Microsoft Foundry

Важно

Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

Оцените производительность и безопасность генеративных моделей ИИ и агентов, протестировав их на тестовом наборе данных. Во время оценки модель или агент тестируются с помощью набора данных, а его производительность измеряется с помощью встроенных и настраиваемых вычислителей.

Используйте портал Foundry для выполнения вычислений, просмотра результатов и анализа метрик.

Необходимые условия

  • Тестовый набор данных в формате CSV или JSON Lines (JSONL) или модель или агент для оценки.

  • Подключение Azure OpenAI с развернутой моделью GPT, которая поддерживает завершение чата (например, gpt-5-mini). Требуется только для оценки качества с помощью ИИ.

  • Роль пользователя Foundry в проекте Foundry . Дополнительные сведения см. в разделе Управление доступом на основе ролей для Microsoft Foundry.

    Важно

    Недавно были переименованы роли RBAC в Foundry. Foundry User, Foundry Owner, Foundry Account Owner и Foundry Project Manager ранее назывались пользователь Azure AI, владелец Azure AI, владелец учетной записи Azure AI и руководитель проекта Azure AI. Пока новое название внедряется, в некоторых местах вы всё ещё можете видеть прежние названия. Идентификаторы ролей и основные разрешения не меняются из-за переименования.

Создание оценки

Вы можете запустить оценку из нескольких мест на портале Foundry:

  • Страница оценки: в левой области выберите "Создать оценку>".
  • Страница "Модели": перейдите к модели, перейдите на вкладку "Оценка ", а затем нажмите кнопку "Создать".
  • Страница "Агенты": перейдите к агенту, перейдите на вкладку "Оценка ", а затем нажмите кнопку "Создать".
  • Игровая площадка агента: перейдите к агенту, выберите вкладку Площадка, затем выберите Метрики>, выполните полную оценку.

Целевой объект оценки

При создании оценки сначала выберите целевой объект оценки. Цель определяет, что будет оцениваться:

  • Агент: оценивает выходные данные, созданные выбранным агентом и определяемым пользователем входными данными. Работает как для агентов моментального реагирования, так и для хостинг агентов.
  • Модель. Вычисляет выходные данные, созданные выбранной моделью и определяемым пользователем запросом.
  • Набор данных: вычисляет предварительно существующие модели или выходные данные агента из тестового набора данных.
  • Трассировки: Оценивает взаимодействия агентов, уже записанные в Application Insights. Выберите агента и диапазон времени, а портал извлекает соответствующие лог-файлы для оценки. Сведения об эквиваленте пакета SDK см. в разделе "Оценка трассировки".

Выбор или создание набора данных

Укажите набор данных для оценки. Вы можете отправить собственный набор данных или создать его искусственным способом.

  • Добавьте новый набор данных: отправьте файлы из локального хранилища. Поддерживаются только форматы ФАЙЛОВ CSV и JSONL. Предварительный просмотр тестовых данных отображается на правой панели.
  • Создание искусственного набора данных: создайте искусственный набор данных, если у вас нет тестовых данных. Укажите ресурс, количество строк и запрос, описывающий создаваемые данные. Вы также можете отправлять файлы для повышения релевантности.

Примечание

Для создания искусственных данных требуется модель с возможностями API ответов. Сведения о доступности см. в разделе " Доступность региона API ответов".

Многомодальное содержимое (предварительная версия)

Все целевые объекты оценки — агент, модель, набор данных и трассировки — поддерживают изображение и звуковое содержимое. Каждый тип контента использует определенную схему JSONL:

Содержимое изображения:

  • image_url: изображение в виде URI данных (например, data:image/png;base64,...) или общедоступный URL-адрес.
  • caption: текстовое описание содержимого изображения.
{"image_url": "data:image/png;base64,iVBOR...", "caption": "A red to blue color gradient"}

Звуковое содержимое:

  • audio_data: аудио как URI-данные с закодированными в Base64 данными WAV (например, data:audio/wav;base64,...).
  • expected: текстовое описание ожидаемого звукового содержимого.

Примечание

В настоящее время поддерживается только формат звука WAV.

{"audio_data": "data:audio/wav;base64,UklGR...", "expected": "A short beep tone at 440 Hz"}

Наборы данных также могут использовать формат беседы чата, где данные аудио и изображений внедрены в один столбец сообщения чата в виде URI данных или общедоступных URL-адресов.

В следующем примере показан столбец с данными беседы, содержащий встроенные изображения и аудиофайлы.

[
  {
    "role": "system",
    "content": "..."
  },
  {
    "role": "user",
    "content": [
      {
        "type": "text",
        "text": "What are in these images?"
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "https://my-website.com/path/image.png"
        }
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "data:image/png;base64,iVBORw0KGgo..."
        }
      }
    ]
  },
  { 
    "role": "assistant", 
    "content": "..." 
  }, 
  { 
    "role": "user", 
    "content": [
      {         "type": "text", 
        "text": "Tell me the tones for the voices?" 
      },
      { 
        "type": "input_audio", 
        "input_audio": {
          "data": "https://my-website.com/path/voice.wav", 
          "format": "wav" 
        }
      },
      { 
        "type": "input_audio", 
        "input_audio": { 
          "data": "data:audio/wav;base64,UklGRigAAA...", 
          "format": "wav" 
        } 
      }
    ] 
  } 
] 

Вы можете просматривать изображения и воспроизводить звуковые клипы непосредственно в потоке создания оценки и в представлении результатов оценки.

Настройка условий тестирования

Выберите оценщиков для вашей оценки. Microsoft Foundry предоставляет три категории встроенных оценщиков:

  • Оценщики агентов — оценивают, насколько эффективно агенты обрабатывают задачи, инструменты и намерения пользователя.
  • Оценщики качества — измеряют общее качество созданных ответов. Включает в себя метрики, поддерживаемые ИИ (требуется развертывание модели в роли судьи), и метрики обработки естественного языка (математические, часто требуют эталонных данных).
  • Оценщики безопасности — выявляют потенциальные риски содержимого и безопасности в генерированном выходе. Для оценки безопасности не требуется развертывание модели.

Вы также можете создать собственные пользовательские оценщики и выбрать их при настройке критериев тестирования.

Полный список доступных оценщиков см. в разделе Встроенные вычислители.

Сопоставление данных

Для разных вычислителей требуются различные входные данные. Портал автоматически сопоставляет поля набора данных с полями, которые ожидает каждый вычислитель. При необходимости проверьте сопоставление и переназначьте поля.

Если портал не может автоматически сопоставить поле, поле отображается как Не назначено. Выберите выпадающий список, чтобы вручную назначить столбец из вашего набора данных. Обязательные поля помечены звездочкой (*) — оценщики завершают проверку с ошибкой, если обязательные поля остаются незаполненными.

Сведения о требованиях к полям для каждого оценщика см. на соответствующих страницах оценщиков в разделе встроенных оценщиков.

Проверка и отправка

После завершения настройки укажите имя для оценки, просмотрите параметры и нажмите кнопку "Отправить".

После отправки запускается оценочный процесс. Оценки обычно выполняются в течение нескольких минут в зависимости от размера набора данных. Чтобы просмотреть результаты, выберите имя оценки на странице оценки или просмотрите результаты оценки.

Дополнительные сведения об оценке моделей и агентов сгенерированных ИИ: