Просмотр результатов оценки на портале Microsoft Foundry

В этой статье описано, как:

Находите и открывайте запуски оценивания.
Просмотр агрегированных и выборочных метрик.
Сравните результаты между запусками.
Интерпретация категорий и вычислений метрик.
Диагностика и устранение отсутствующих или частичных метрик.

Необходимые условия

Роль пользователя Azure AI в проекте Foundry. Для получения дополнительной информации см. управление доступом на основе ролей для Microsoft Foundry.
Завершенный цикл оценки.
- Сведения о выполнении вычислений на портале см. в разделе "Оценка моделей и приложений сгенерированных ИИ".
- Сведения о выполнении вычислений из пакета SDK см. в статье "Выполнение вычислений из пакета SDK " или "Оценка агентов ИИ".

Просмотр результатов оценки

На портале Foundry перейдите в проект и выберите "Оценка " в левой области.

Выберите запуск оценки из списка, чтобы открыть страницу сведений. Если процесс все еще выполняется, состояние показывает в процессе и обновляется автоматически при завершении.

На странице сведений показано:

Поле	Описание
Имя	Имя запуска оценки.
Цель	Модель или агент, подвергнут оценке.
Набор данных	Используемый тестовый набор данных. Щелкните значок скачивания, чтобы экспортировать его в виде CSV-файла.
Статус	Текущее состояние выполнения (выполнение, завершение или сбой).
Маркеры оценки	Маркеры, используемые оценщиками в процессе выполнения.
Целевые маркеры	Маркеры, потребляемые оцениваемой моделью или агентом.
Оценки	Суммарная оценка для каждого используемого оценщика.

Наведите указатель мыши на ячейку оценки, чтобы просмотреть сведения об использовании маркеров и дополнительный контекст.
Выберите дополнительные сведения о метриках, чтобы просмотреть определения метрик и формулы оценки.

Сведения о процессе выполнения оценки

Выберите имя запуска, чтобы просмотреть результаты на уровне строк для каждого отдельного запроса. Для каждой строки можно увидеть запрос, ответ, истинное значение, оценку эксперта и объяснение этой оценки.

Сравнение результатов оценки

Чтобы сравнить два или более запусков, выберите запуски, которые вы хотите сравнить и запустить процесс.

Выберите два или более запусков на странице сведений об оценке.
Выберите "Сравнить".

Вы увидите параллельное представление сравнения для всех выбранных запусков.

Сравнение использует статистическое t-тестирование, что дает более конфиденциальные и надежные результаты для принятия решений. Вы можете использовать различные функции этой функции:

Сравнение базовых показателей. Задав базовый запуск, можно определить эталонную точку, с которой можно сравнить другие запуски. Вы можете увидеть, как каждый запуск отклоняется от выбранного стандарта.
Статистическая оценка t-тестирования: каждая ячейка предоставляет результаты stat-sig с различными цветовыми кодами. Вы также можете навести указатель мыши на ячейку, чтобы получить размер выборки и p-значение.

Легенда	Определение
Улучшенный прочный	Высокий stat-sig (p<=0,001) и перемещен в нужном направлении
Улучшенный Слабый	Stat-sig (0.001<p<=0,05) и перемещен в нужном направлении
Деградированный (сильный)	Высокий stat-sig (p<=0,001) и перемещен в неправильном направлении
Пониженная и слабая	Stat-sig (0.001<p<=0.05) и перемещен в неправильном направлении
ChangedStrong	Высокая статистическая значимость (p<=0.001) и требуемое направление нейтральное
ИзмененоСлабый	Stat-sig (0.001<p<=0.05) и требуемое направление нейтральное
Безрезультатно	Слишком мало примеров или p>=0,05

Примечание

Вид сравнения не сохраняется. Если вы покидаете страницу, вы можете повторно выбрать запуски и выбрать команду "Сравнить ", чтобы повторно создать представление.

Общие сведения о встроенных метриках оценки

Понимание встроенных метрик важно для оценки производительности и эффективности приложения ИИ. Изучая эти ключевые средства измерения, вы можете интерпретировать результаты, принимать обоснованные решения и настраивать приложение для достижения оптимальных результатов.

Дополнительные сведения см. в разделе "Встроенные оценщики".

Устранение неполадок

Симптом	Возможная причина	Действие
Выполнение остается в ожидании	Высокая загрузка или поставленные в очередь задания	Обновите, проверьте квоту и повторно отправьте в случае задержки.
Отсутствующие метрики	Не выбран при создании	Повторное выполнение и выбор необходимых метрик
Все метрики безопасности ноль	Категория отключена или неподдерживаемая модель	Подтверждение поддержки модели и вычислителя в оценках рисков и безопасности
Неожиданно низкое заземление	Получение/контекст неполное	Проверка задержки создания или извлечения контекста

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-05-01