Просмотр результатов оценки на портале Microsoft Foundry

В этой статье описано, как:

  • Находите и открывайте запуски оценивания.
  • Просмотр агрегированных и выборочных метрик.
  • Сравните результаты между запусками.
  • Интерпретация категорий и вычислений метрик.
  • Диагностика и устранение отсутствующих или частичных метрик.

Необходимые условия

Просмотр результатов оценки

  1. На портале Foundry перейдите в проект и выберите "Оценка " в левой области.

  2. Выберите запуск оценки из списка, чтобы открыть страницу сведений. Если процесс все еще выполняется, состояние показывает в процессе и обновляется автоматически при завершении.

    На странице сведений показано:

    Поле Описание
    Имя Имя запуска оценки.
    Цель Модель или агент, подвергнут оценке.
    Набор данных Используемый тестовый набор данных. Щелкните значок скачивания, чтобы экспортировать его в виде CSV-файла.
    Статус Текущее состояние выполнения (выполнение, завершение или сбой).
    Маркеры оценки Маркеры, используемые оценщиками в процессе выполнения.
    Целевые маркеры Маркеры, потребляемые оцениваемой моделью или агентом.
    Оценки Суммарная оценка для каждого используемого оценщика.

    Снимок экрана: страница оценки с списком запусков с столбцами Name, Status, Target, Evaluation token, Target token и Scores.

  3. Наведите указатель мыши на ячейку оценки, чтобы просмотреть сведения об использовании маркеров и дополнительный контекст.

    Снимок экрана страницы оценки результатов при наведении курсора на ячейку с оценкой, показывающую подсказку с разбивкой по использованию токенов.

  4. Выберите дополнительные сведения о метриках, чтобы просмотреть определения метрик и формулы оценки.

Сведения о процессе выполнения оценки

Выберите имя запуска, чтобы просмотреть результаты на уровне строк для каждого отдельного запроса. Для каждой строки можно увидеть запрос, ответ, истинное значение, оценку эксперта и объяснение этой оценки.

Сравнение результатов оценки

Чтобы сравнить два или более запусков, выберите запуски, которые вы хотите сравнить и запустить процесс.

  1. Выберите два или более запусков на странице сведений об оценке.
  2. Выберите "Сравнить".

Вы увидите параллельное представление сравнения для всех выбранных запусков.

Сравнение использует статистическое t-тестирование, что дает более конфиденциальные и надежные результаты для принятия решений. Вы можете использовать различные функции этой функции:

  • Сравнение базовых показателей. Задав базовый запуск, можно определить эталонную точку, с которой можно сравнить другие запуски. Вы можете увидеть, как каждый запуск отклоняется от выбранного стандарта.
  • Статистическая оценка t-тестирования: каждая ячейка предоставляет результаты stat-sig с различными цветовыми кодами. Вы также можете навести указатель мыши на ячейку, чтобы получить размер выборки и p-значение.
Легенда Определение
Улучшенный прочный Высокий stat-sig (p<=0,001) и перемещен в нужном направлении
Улучшенный Слабый Stat-sig (0.001<p<=0,05) и перемещен в нужном направлении
Деградированный (сильный) Высокий stat-sig (p<=0,001) и перемещен в неправильном направлении
Пониженная и слабая Stat-sig (0.001<p<=0.05) и перемещен в неправильном направлении
ChangedStrong Высокая статистическая значимость (p<=0.001) и требуемое направление нейтральное
ИзмененоСлабый Stat-sig (0.001<p<=0.05) и требуемое направление нейтральное
Безрезультатно Слишком мало примеров или p>=0,05

Примечание

Вид сравнения не сохраняется. Если вы покидаете страницу, вы можете повторно выбрать запуски и выбрать команду "Сравнить ", чтобы повторно создать представление.

Общие сведения о встроенных метриках оценки

Понимание встроенных метрик важно для оценки производительности и эффективности приложения ИИ. Изучая эти ключевые средства измерения, вы можете интерпретировать результаты, принимать обоснованные решения и настраивать приложение для достижения оптимальных результатов.

Дополнительные сведения см. в разделе "Встроенные оценщики".

Устранение неполадок

Симптом Возможная причина Действие
Выполнение остается в ожидании Высокая загрузка или поставленные в очередь задания Обновите, проверьте квоту и повторно отправьте в случае задержки.
Отсутствующие метрики Не выбран при создании Повторное выполнение и выбор необходимых метрик
Все метрики безопасности ноль Категория отключена или неподдерживаемая модель Подтверждение поддержки модели и вычислителя в оценках рисков и безопасности
Неожиданно низкое заземление Получение/контекст неполное Проверка задержки создания или извлечения контекста