Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Важно
Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.
Оцените производительность и безопасность генеративных моделей ИИ и агентов, протестировав их на тестовом наборе данных. Во время оценки модель или агент тестируются с помощью набора данных, а его производительность измеряется с помощью встроенных и настраиваемых вычислителей.
Используйте портал Foundry для выполнения вычислений, просмотра результатов и анализа метрик.
Необходимые условия
Тестовый набор данных в формате CSV или JSON Lines (JSONL) или модель или агент для оценки.
Подключение Azure OpenAI с развернутой моделью GPT, которая поддерживает завершение чата (например,
gpt-5-mini). Требуется только для оценки качества с помощью ИИ.Роль пользователя Foundry в проекте Foundry . Дополнительные сведения см. в разделе Управление доступом на основе ролей для Microsoft Foundry.
Важно
Недавно были переименованы роли RBAC в Foundry. Foundry User, Foundry Owner, Foundry Account Owner и Foundry Project Manager ранее назывались пользователь Azure AI, владелец Azure AI, владелец учетной записи Azure AI и руководитель проекта Azure AI. Пока новое название внедряется, в некоторых местах вы всё ещё можете видеть прежние названия. Идентификаторы ролей и основные разрешения не меняются из-за переименования.
Создание оценки
Вы можете запустить оценку из нескольких мест на портале Foundry:
- Страница оценки: в левой области выберите "Создать оценку>".
- Страница "Модели": перейдите к модели, перейдите на вкладку "Оценка ", а затем нажмите кнопку "Создать".
- Страница "Агенты": перейдите к агенту, перейдите на вкладку "Оценка ", а затем нажмите кнопку "Создать".
- Игровая площадка агента: перейдите к агенту, выберите вкладку Площадка, затем выберите Метрики>, выполните полную оценку.
Целевой объект оценки
При создании оценки сначала выберите целевой объект оценки. Цель определяет, что будет оцениваться:
- Агент: оценивает выходные данные, созданные выбранным агентом и определяемым пользователем входными данными. Работает как для агентов моментального реагирования, так и для хостинг агентов.
- Модель. Вычисляет выходные данные, созданные выбранной моделью и определяемым пользователем запросом.
- Набор данных: вычисляет предварительно существующие модели или выходные данные агента из тестового набора данных.
- Трассировки: Оценивает взаимодействия агентов, уже записанные в Application Insights. Выберите агента и диапазон времени, а портал извлекает соответствующие лог-файлы для оценки. Сведения об эквиваленте пакета SDK см. в разделе "Оценка трассировки".
Выбор или создание набора данных
Укажите набор данных для оценки. Вы можете отправить собственный набор данных или создать его искусственным способом.
- Добавьте новый набор данных: отправьте файлы из локального хранилища. Поддерживаются только форматы ФАЙЛОВ CSV и JSONL. Предварительный просмотр тестовых данных отображается на правой панели.
- Создание искусственного набора данных: создайте искусственный набор данных, если у вас нет тестовых данных. Укажите ресурс, количество строк и запрос, описывающий создаваемые данные. Вы также можете отправлять файлы для повышения релевантности.
Примечание
Для создания искусственных данных требуется модель с возможностями API ответов. Сведения о доступности см. в разделе " Доступность региона API ответов".
Многомодальное содержимое (предварительная версия)
Все целевые объекты оценки — агент, модель, набор данных и трассировки — поддерживают изображение и звуковое содержимое. Каждый тип контента использует определенную схему JSONL:
Содержимое изображения:
-
image_url: изображение в виде URI данных (например,data:image/png;base64,...) или общедоступный URL-адрес. -
caption: текстовое описание содержимого изображения.
{"image_url": "data:image/png;base64,iVBOR...", "caption": "A red to blue color gradient"}
Звуковое содержимое:
-
audio_data: аудио как URI-данные с закодированными в Base64 данными WAV (например,data:audio/wav;base64,...). -
expected: текстовое описание ожидаемого звукового содержимого.
Примечание
В настоящее время поддерживается только формат звука WAV.
{"audio_data": "data:audio/wav;base64,UklGR...", "expected": "A short beep tone at 440 Hz"}
Наборы данных также могут использовать формат беседы чата, где данные аудио и изображений внедрены в один столбец сообщения чата в виде URI данных или общедоступных URL-адресов.
В следующем примере показан столбец с данными беседы, содержащий встроенные изображения и аудиофайлы.
[
{
"role": "system",
"content": "..."
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "What are in these images?"
},
{
"type": "image_url",
"image_url": {
"url": "https://my-website.com/path/image.png"
}
},
{
"type": "image_url",
"image_url": {
"url": "data:image/png;base64,iVBORw0KGgo..."
}
}
]
},
{
"role": "assistant",
"content": "..."
},
{
"role": "user",
"content": [
{ "type": "text",
"text": "Tell me the tones for the voices?"
},
{
"type": "input_audio",
"input_audio": {
"data": "https://my-website.com/path/voice.wav",
"format": "wav"
}
},
{
"type": "input_audio",
"input_audio": {
"data": "data:audio/wav;base64,UklGRigAAA...",
"format": "wav"
}
}
]
}
]
Вы можете просматривать изображения и воспроизводить звуковые клипы непосредственно в потоке создания оценки и в представлении результатов оценки.
Настройка условий тестирования
Выберите оценщиков для вашей оценки. Microsoft Foundry предоставляет три категории встроенных оценщиков:
- Оценщики агентов — оценивают, насколько эффективно агенты обрабатывают задачи, инструменты и намерения пользователя.
- Оценщики качества — измеряют общее качество созданных ответов. Включает в себя метрики, поддерживаемые ИИ (требуется развертывание модели в роли судьи), и метрики обработки естественного языка (математические, часто требуют эталонных данных).
- Оценщики безопасности — выявляют потенциальные риски содержимого и безопасности в генерированном выходе. Для оценки безопасности не требуется развертывание модели.
Вы также можете создать собственные пользовательские оценщики и выбрать их при настройке критериев тестирования.
Полный список доступных оценщиков см. в разделе Встроенные вычислители.
Сопоставление данных
Для разных вычислителей требуются различные входные данные. Портал автоматически сопоставляет поля набора данных с полями, которые ожидает каждый вычислитель. При необходимости проверьте сопоставление и переназначьте поля.
Если портал не может автоматически сопоставить поле, поле отображается как Не назначено. Выберите выпадающий список, чтобы вручную назначить столбец из вашего набора данных. Обязательные поля помечены звездочкой (*) — оценщики завершают проверку с ошибкой, если обязательные поля остаются незаполненными.
Сведения о требованиях к полям для каждого оценщика см. на соответствующих страницах оценщиков в разделе встроенных оценщиков.
Проверка и отправка
После завершения настройки укажите имя для оценки, просмотрите параметры и нажмите кнопку "Отправить".
После отправки запускается оценочный процесс. Оценки обычно выполняются в течение нескольких минут в зависимости от размера набора данных. Чтобы просмотреть результаты, выберите имя оценки на странице оценки или просмотрите результаты оценки.
Связанное содержимое
Дополнительные сведения об оценке моделей и агентов сгенерированных ИИ: