Поделиться через


Просмотр результатов оценки на портале Microsoft Foundry

Замечание

Этот документ относится к порталу Microsoft Foundry (классическая модель).

Замечание

Этот документ относится к порталу Microsoft Foundry (new).

Узнайте, как просмотреть результаты оценки на портале Microsoft Foundry. Просмотр и интерпретация данных оценки модели ИИ, метрик производительности и оценки качества. Доступ к результатам потоков, сеансов игровой площадки и пакета SDK для принятия решений на основе данных.

После визуализации результатов оценки тщательно изучите их. Просмотрите отдельные результаты, сравните их в нескольких запусках оценки и определите тенденции, шаблоны и несоответствия, чтобы получить аналитические сведения о производительности системы ИИ в различных условиях.

Из этой статьи вы узнаете:

  • Найдите и откройте запуски оценки.
  • Просмотр агрегированных метрик и метрик на уровне образцов.
  • Сравните результаты между запусками.
  • Интерпретация категорий и вычислений метрик.
  • Устранение неполадок с отсутствующими или неполными метриками.

Просмотр результатов оценки

После отправки оценки найдите запуск на странице оценки . Фильтрация или настройка столбцов для фокусировки на выполнении интересующих вас задач. Просмотрите общие показатели быстро, прежде чем углубляться в детали.

Подсказка

Вы можете просмотреть запуск оценки с любой версией promptflow-evals SDK или azure-ai-evaluation версии 1.0.0b1, 1.0.0b2, 1.0.0b3. Включите переключатель "Показать все запуски", чтобы найти запуск.

Выберите Подробнее о метриках для определений и формул.

Снимок экрана: сведения о метриках оценки.

Выберите запуск, чтобы открыть подробные сведения о наборе данных, типе задачи, запросе, параметрах и метриках для каждой выборки. Панель мониторинга метрик визуализирует скорость передачи или статистическую оценку для каждой метрики.

Осторожность

Пользователи, которые ранее управляли развертываниями моделей и выполняли оценки с помощью, oai.azure.comа затем подключены к платформе разработчика Microsoft Foundry, имеют следующие ограничения при использовании ai.azure.com:

  • Эти пользователи не могут просматривать свои оценки, созданные с помощью API OpenAI Azure. Чтобы просмотреть эти оценки, они должны вернуться в oai.azure.com.
  • Эти пользователи не могут использовать API Azure OpenAI для выполнения вычислений в Foundry. Вместо этого они должны продолжать использовать oai.azure.com для этой задачи. Однако они могут использовать оценщики Azure OpenAI, доступные непосредственно в Foundry (ai.azure.com) в разделе создания набора данных. Параметр для точной оценки модели не поддерживается, если развертывание является миграцией из Azure OpenAI в Foundry.

Для сценария загрузки набора данных и использования собственного хранилища существует несколько требований к конфигурации:

  • Проверка подлинности учетной записи должна осуществляться через Microsoft Entra ID.
  • Хранилище должно быть добавлено в учетную запись. Добавление его в проект приводит к ошибкам службы.
  • Пользователи должны добавить свой проект в учетную запись хранения с помощью управления доступом на портале Azure.

Дополнительные сведения о создании оценок с использованием инструментария оценивания OpenAI в хабе Azure OpenAI см. в статье Об использовании Azure OpenAI в оценке моделей Foundry.

В оборудовании литейного производства внедрена концепция групповых запусков. Можно создать несколько запусков в группе, которая использует общие характеристики, такие как метрики и наборы данных, чтобы упростить сравнение. После запуска оценки найдите группу на странице оценки , которая содержит список оценок групп и связанных метаданных, таких как количество целевых объектов и дата последнего изменения.

Выберите запуск группы для просмотра сведений, включая каждый запуск и основные метрики, такие как длительность выполнения, маркеры и оценки оценщика, для каждого запуска в этой группе.

Выбрав запуск в этой группе, можно также выполнить детализацию для просмотра подробных данных строки для этого конкретного запуска.

Выберите Подробнее о метриках для определений и формул.

Панель мониторинга метрик

В разделе панели метрик агрегированные представления разбиваются по метрикам, которые включают качество ИИ (ИИ с поддержкой), риск и безопасность (предварительная версия), качество ИИ (обработка естественного языка) и настраиваемые (если применимо). Результаты оцениваются в процентах успешности/неуспешности на основе критериев, выбранных при создании оценивания. Дополнительные сведения о определениях метрик и их вычислении см. в разделе "Что такое оценщики?".

  • Для метрик качества ИИ (СИ) результаты агрегируются посредством усреднения всех оценок по каждой метрике. Если вы используете Groundedness Pro, выходные данные являются бинарными, а агрегированная оценка отображает коэффициент успешности: (#trues / #instances) × 100. Снимок экрана, на котором показана вкладка
  • Для метрик риска и безопасности (предварительная версия) результаты агрегируются по частоте дефектов.
    • Вред содержимого: процент экземпляров, превышающих пороговое значение серьезности (по умолчанию Medium).
    • Для защищенного материала и косвенной атаки уровень дефектов вычисляется как процент экземпляров, в которых выходные данные удовлетворяются, используя формулу true(Defect Rate = (#trues / #instances) × 100). Снимок экрана: вкладка панели мониторинга метрик риска и безопасности.
  • Для метрик качества ИИ (NLP) результаты агрегируются по среднему показателю на метрики. Снимок экрана: вкладка панели мониторинга качества ИИ (NLP).

Результаты выполнения оценки и скорость передачи

Вы можете просмотреть каждый запуск в группе на странице "Оценка запусков и скорость передачи результатов". В этом представлении показаны запуск, целевой показатель, состояние, длительность выполнения, токены и уровень пропускной способности для каждого выбранного вычислителя.

Если вы хотите отменить запуски, можно сделать это, выбрав каждый запуск и нажав кнопку "Отмена запусков" в верхней части таблицы.

Подробная таблица результатов метрик

Используйте таблицу под панелью мониторинга для проверки каждого примера данных. Сортируйте по метрикам, чтобы получить наиболее высокопроизводительные образцы и выявить систематические пробелы (неправильные результаты, сбои безопасности, задержка). Используйте поиск для объединения связанных тем сбоев в кластеры. Примените настройку столбца, чтобы сосредоточиться на ключевых метриках.

Типичные действия:

  • Фильтрация по низким оценкам для обнаружения повторяющихся шаблонов.
  • При появлении системных пробелов измените запросы или отточите их.
  • Экспорт для автономного анализа.

Ниже приведены некоторые примеры результатов метрик для сценария ответа на вопросы:

Снимок экрана: результаты метрик для сценария ответа на вопросы.

Некоторые оценки имеют подоценки, которые позволяют просматривать JSON результатов подоценок. Чтобы просмотреть результаты, выберите "Вид" в ФОРМАТЕ JSON.

Снимок экрана, показывающий подробные результаты метрик с выбранным JSON.

Просмотрите JSON в предварительном просмотре JSON:

Снимок экрана: предварительная версия JSON.

Ниже приведены некоторые примеры результатов метрик для сценария беседы. Чтобы просмотреть результаты оценки для каждого этапа многоэтапной беседы, выберите «Просмотр результатов по этапам» в столбце «Беседа».

Снимок экрана: результаты метрик для сценария беседы.

При выборе опции Просмотр результатов оценки по ходам вы увидите следующий экран:

Снимок экрана с результатами оценки по каждому шагу.

Для оценки безопасности в много модальном сценарии (текст и изображения) можно лучше понять результат оценки, просмотрив изображения из входных и выходных данных в подробной таблице результатов метрик. Поскольку мультимодальная оценка в настоящее время поддерживается только для сценариев беседы, вы можете выбрать просмотр результатов оценки для каждого хода, чтобы проверить входные и выходные данные для каждого хода.

Снимок экрана, показывающий диалоговое окно изображения из колонки беседы.

Выберите изображение, чтобы развернуть его и просмотреть. По умолчанию все изображения размыты, чтобы защитить вас от потенциально вредного содержимого. Чтобы четко просмотреть изображение, включите переключатель " Проверить размытие изображения ".

Снимок экрана: размытое изображение и переключатель

Результаты оценки могут иметь разные значения для разных аудиторий. Например, оценки безопасности могут создать метку для низкой серьезности насильственного содержимого, которое может не соответствовать определению рецензента человека о том, насколько сильно это конкретное насильственное содержимое. Установленный при создании оценки проходной балл определяет, присваивается ли оценка «сдал» или «не сдал». Есть столбец обратной связи от пользователя, в котором можно выбрать значок с поднятым или опущенным пальцем при просмотре результатов оценки. Этот столбец можно использовать для записи, какие экземпляры были утверждены или помечены как неверные рецензентом человека.

Снимок экрана: результаты метрик риска и безопасности с человеческими отзывами.

Чтобы понять каждую метрику риска содержимого, просмотрите определения метрик в разделе "Отчет " или просмотрите тест в разделе панели мониторинга метрик .

Если что-то не так с выполнением тестового запуска, вы также можете использовать журналы для его отладки. Ниже приведены некоторые примеры журналов, которые можно использовать для отладки выполнения оценки:

Снимок экрана, показывающий журналы, которые можно использовать для отладки запуска оценки.

Если вы оцениваете поток подсказок, можно выбрать кнопку "Вид в потоке", чтобы перейти на страницу оценки потока и обновить ваш поток. Например, можно добавить дополнительные инструкции мета-запроса или изменить некоторые параметры и повторно оценить.

Данные о выполнении оценки

Чтобы просмотреть по очереди данные для отдельных запусков, выберите имя запуска. Это представление позволяет просматривать результаты оценки, в свою очередь, для каждого используемого вычислителя.

Сравнение результатов оценки

Чтобы сравнить два или более запусков, выберите нужные запуски и запустите процесс. Нажмите кнопку "Сравнить " или кнопку "Переключиться на панель мониторинга" для подробного представления панели мониторинга. Анализируйте и сравнивайте производительность и результаты нескольких запусков, чтобы принимать обоснованные решения и целенаправленно улучшать их.

Снимок экрана: параметр сравнения вычислений.

В представлении панели мониторинга у вас есть доступ к двум ценным компонентам: диаграмме сравнения метрик и таблице сравнения. Эти инструменты можно использовать для параллельного анализа выбранных запусков проверки. Вы можете сравнить различные аспекты каждого примера данных с легкостью и точностью.

Замечание

По умолчанию старые запуски оценки имеют соответствующие строки между столбцами. Тем не менее, при создании новых проверок необходимо специально настроить соответствие столбцов. Убедитесь, что одно и то же имя используется в качестве значения имени критерия во всех оценках, которые необходимо сравнить.

На следующем сниме экрана показаны результаты, когда поля совпадают:

Снимок экрана: автоматизированные оценки, когда поля совпадают.

Если пользователь не использует то же имя критерия при создании оценки, поля не совпадают, что приводит к тому, что платформа не сможет напрямую сравнить результаты:

Снимок экрана: автоматизированные оценки, когда поля не совпадают.

В таблице сравнения наведите указатель мыши на выполнение, которое вы хотите использовать в качестве эталонной точки, и задайте ее в качестве базового плана. Активируйте переключатель "Показать изменения" для визуализации различий между исходными и другими запусками для числовых значений. Выберите переключатель «Показать только разницу», чтобы отобразить только строки, отличающиеся среди выбранных запусков, помогая выявить различия.

Используя эти функции сравнения, вы можете принять обоснованное решение, чтобы выбрать лучшую версию:

  • Сравнение базовых показателей. Задав базовый запуск, можно определить эталонную точку, с которой можно сравнить другие запуски. Вы можете увидеть, как каждый запуск отклоняется от выбранного стандарта.
  • Оценка числовых значений: Включение параметра "Показать разность" помогает понять степень различий между базовым и другими прогонами. Эти сведения помогут оценить, как выполняются различные прогоны с точки зрения конкретных метрик оценки.
  • Изоляция различий. Функция "Показать только разницу" упрощает анализ, выделяя только области, в которых существуют несоответствия между запусками. Эта информация может быть важной в том, чтобы определить, где необходимы улучшения или корректировки.

Используйте инструменты сравнения, чтобы выбрать наиболее эффективную конфигурацию и избежать регрессий в безопасности или укорененности.

Снимок экрана: результаты параллельной оценки.

Чтобы упростить комплексное сравнение двух или более запусков, можно выбрать нужные запуски и инициировать процесс.

  1. Выберите два или более запусков на странице сведений об оценке.
  2. Выберите Сравнить.

Он создает параллельное представление сравнения для всех выбранных запусков.

Сравнение вычисляется на основе статистики t-теста, что дает более чувствительные и надежные результаты для принятия решений. Вы можете использовать различные функции этой функции:

  • Сравнение базовых показателей. Задав базовый запуск, можно определить эталонную точку, с которой можно сравнить другие запуски. Вы можете увидеть, как каждый запуск отклоняется от выбранного стандарта.
  • Оценка статистики t-testing: каждая ячейка предоставляет результаты stat-sig с различными цветовыми кодами. Вы также можете навести указатель мыши на ячейку, чтобы получить размер выборки и p-значение.
Легенда Definition
УлучшеннаяСильная Высокий stat-sig (p<=0,001) и перемещен в нужном направлении
Улучшенный Слабый Stat-sig (0.001<p<=0,05) и перемещен в нужном направлении
ДеградированныйПрочный Высокая статистическая значимость (p<=0,001) и изменения в неправильном направлении
Ослабленная деградация Stat-sig (0.001<p<=0.05) и перемещен в неправильном направлении
ChangedStrong Высокая статистическая значимость (p<=0.001), и требуемое направление нейтральное.
ChangedWeak Stat-sig (0.001<p<=0.05) и требуемое направление нейтральное
С неопределенным результатом Слишком мало примеров или p>=0,05

Замечание

Вид сравнения не будет сохранён. Если вы покидаете страницу, вы можете повторно выбрать запуски и выбрать команду "Сравнить ", чтобы повторно создать представление.

Измерение уязвимости джейлбрейка

Оценка уязвимости джейлбрейка — это сравнительное измерение, а не метрика, поддерживаемая ИИ. Запустите оценки на двух разных наборах данных с красными командами: базовый набор данных состязательного теста и один и тот же состязательный тестовый набор с внедрением в тюрьму в первую очередь. Вы можете использовать симулятор состязательности данных для создания набора данных с внедрением или без нее. Убедитесь, что значение имени критерия совпадает с каждой метрикой оценки при настройке выполнения.

Чтобы проверить, уязвимо ли ваше приложение к джейлбрейку, укажите базовый уровень и включите переключатель показателей дефектов при джейлбрейке в таблице сравнения. Частота дефектов джейлбрейка — это процент экспериментов в тестовом наборе данных, где внедрение джейлбрейка приводит к более высокому баллу по серьезности для любой метрики риска содержимого по сравнению с контрольным показателем во всем наборе данных. Выберите несколько оценок на панели сравнения, чтобы просмотреть разницу в уровнях дефектов.

Снимок экрана: результаты оценки бок о бок с активированным дефектом jailbreak.

Подсказка

Частота дефектов при взломе вычисляется только для наборов данных одинакового размера и когда все запуски включают метрики риска контента и безопасности.

Общие сведения о встроенных метриках оценки

Понимание встроенных метрик важно для оценки производительности и эффективности приложения ИИ. Изучая эти ключевые средства измерения, вы можете интерпретировать результаты, принимать обоснованные решения и настраивать приложение для достижения оптимальных результатов.

Дополнительные сведения см. в статье "Что такое оценщики?".

Устранение неполадок

Симптом Возможная причина Действие
Выполнение остается в ожидании Высокая загрузка или задания в очереди Обновите, проверьте квоту и отправьте повторно, если процесс занимает много времени.
Отсутствующие метрики Не выбран при создании Повторное выполнение и выбор необходимых метрик
Все метрики безопасности ноль Категория отключена или неподдерживаемая модель Подтверждение матрицы поддержки моделей и метрик
Неожиданно низкая устойчивость Процесс извлечения/контекст неполный Проверка задержки построения или восстановления контекста

Узнайте, как оценить созданные приложения ИИ: