Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Важно
Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.
Оцените производительность и безопасность генеративных моделей ИИ и агентов, проверив их на тестовом наборе данных. Во время оценки модель или агент тестируются с помощью набора данных, а его производительность измеряется с помощью встроенных и настраиваемых вычислителей.
Используйте портал Foundry для выполнения вычислений, просмотра результатов и анализа метрик.
Необходимые условия
- Тестовый набор данных в формате CSV или JSON Lines (JSONL) или модель или агент для оценки.
- Подключение Azure OpenAI с развернутой моделью GPT, поддерживающей завершение чата (например,
gpt-5-mini). Требуется только для оценки качества с помощью ИИ. - Роль пользователя Azure AI в проекте Foundry. Для получения дополнительной информации см. управление доступом на основе ролей для Microsoft Foundry.
Создание оценки
Вы можете запустить оценку из нескольких мест на портале Foundry:
- Страница оценки: в левой области выберите "Создать оценку>".
- Страница "Модели": перейдите к модели, перейдите на вкладку "Оценка ", а затем нажмите кнопку "Создать".
- Страница "Агенты": перейдите к агенту, перейдите на вкладку "Оценка ", а затем нажмите кнопку "Создать".
- Игровая площадка агента: перейдите к агенту, перейдите на вкладку "Детская площадка ", а затем выберите "Метрики>", чтобы выполнить полную оценку.
Целевой объект оценки
При создании оценки сначала выберите целевой объект оценки. Цель определяет, на что направлена оценка:
- Агент: оценивает выходные данные, созданные выбранным агентом и определяемым пользователем входными данными. Работает как для оперативных агентов, так и для хостинг-агентов.
- Модель. Вычисляет выходные данные, созданные выбранной моделью и определяемым пользователем запросом.
- Набор данных: вычисляет предварительно существующие модели или выходные данные агента из тестового набора данных.
Выбор или создание набора данных
Укажите набор данных для оценки. Вы можете отправить собственный набор данных или создать его искусственным способом.
- Добавьте новый набор данных: отправьте файлы из локального хранилища. Поддерживаются только форматы ФАЙЛОВ CSV и JSONL. Предварительный просмотр тестовых данных отображается на правой панели.
- Создание искусственного набора данных: создайте искусственный набор данных, если у вас нет тестовых данных. Укажите ресурс, количество строк и запрос, описывающий создаваемые данные. Вы также можете отправлять файлы для повышения релевантности.
Примечание
Для создания искусственных данных требуется модель с возможностями API ответов. Сведения о доступности см. в разделе " Доступность региона API ответов".
Многомодальное содержимое (предварительная версия)
Все целевые объекты оценки — агент, модель, набор данных и трассировки — поддерживают изображение и звуковое содержимое. Каждый тип контента использует определенную схему JSONL:
Содержимое изображения:
-
image_url: изображение в виде URI данных (например,data:image/png;base64,...) или общедоступный URL-адрес. -
caption: текстовое описание содержимого изображения.
{"image_url": "data:image/png;base64,iVBOR...", "caption": "A red to blue color gradient"}
Звуковое содержимое:
-
audio_data: аудио в виде URI данных с данными WAV, закодированными в Base64 (например,data:audio/wav;base64,...). -
expected: текстовое описание ожидаемого звукового содержимого.
Примечание
В настоящее время поддерживается только формат звука WAV.
{"audio_data": "data:audio/wav;base64,UklGR...", "expected": "A short beep tone at 440 Hz"}
Наборы данных также могут использовать формат беседы чата, где данные аудио и изображения внедрены в один столбец сообщения чата в качестве URI данных или общедоступные URL-адреса.
В следующем примере показан столбец набора данных беседы с встроенным изображением и звуковым содержимым.
[
{
"role": "system",
"content": "..."
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "What are in these images?"
},
{
"type": "image_url",
"image_url": {
"url": "https://my-website.com/path/image.png"
}
},
{
"type": "image_url",
"image_url": {
"url": "data:image/png;base64,iVBORw0KGgo..."
}
}
]
},
{
"role": "assistant",
"content": "..."
},
{
"role": "user",
"content": [
{ "type": "text",
"text": "Tell me the tones for the voices?"
},
{
"type": "input_audio",
"input_audio": {
"data": "https://my-website.com/path/voice.wav",
"format": "wav"
}
},
{
"type": "input_audio",
"input_audio": {
"data": "data:audio/wav;base64,UklGRigAAA...",
"format": "wav"
}
}
]
}
]
Вы можете просматривать изображения и воспроизводить звуковые клипы непосредственно в потоке создания оценки и в представлении результатов оценки.
Настройка условий тестирования
Выберите оценщиков, которые будут использоваться для оценки. Microsoft Foundry предоставляет три категории встроенных вычислителей:
- Оценщики агентов — оценивают, как эффективно агенты обрабатывают задачи, инструменты и намерения пользователя.
- Оценщики качества — измеряют общее качество созданных ответов. Включает в себя метрики с поддержкой искусственного интеллекта (требуется развертывание модели для оценки) и метрики NLP (математические, часто требуют эталонных данных).
- Оценщики безопасности — выявляют потенциальные риски содержимого и безопасности в сгенерированном выходном содержимом. Для оценки безопасности не требуется развертывание модели.
Вы также можете создать собственные пользовательские оценщики и выбрать их при настройке критериев тестирования.
Полный список доступных оценщиков см. в разделе Встроенные вычислители.
Сопоставление данных
Для разных вычислителей требуются различные входные данные. Портал автоматически сопоставляет поля набора данных с полями, которые ожидает каждый вычислитель. При необходимости проверьте сопоставление и переназначьте поля.
Если портал не может автоматически сопоставить поле, поле отображается как неназначено. Выберите выпадающее поле, чтобы вручную назначить столбец из набора данных. Обязательные поля помечены звездочкой (*) — проверяющие не пройдут, если обязательные поля остаются незаполненными.
Сведения о требованиях к полям для каждого оценщика см. на соответствующих страницах встроенных оценщиков.
Проверка и отправка
После завершения настройки укажите имя для оценки, просмотрите параметры и нажмите кнопку "Отправить".
После отправки начинается выполнение оценки. Оценки обычно выполняются в течение нескольких минут в зависимости от размера набора данных. Чтобы просмотреть результаты, выберите имя оценки на странице оценки или просмотрите результаты оценки.
Связанное содержимое
Дополнительные сведения об оценке моделей и агентов сгенерированных ИИ: