Просмотр результатов оценки на портале Azure AI Foundry

2025-05-19

Страница оценки портала Azure AI Foundry — это универсальный центр, который позволяет не только визуализировать и оценивать результаты, но и служить центром управления для оптимизации, устранения неполадок и выбора идеальной модели ИИ для ваших потребностей в развертывании. Это однократное решение для принятия решений на основе данных и повышения производительности в проектах Azure AI Foundry. Вы можете легко получить доступ к результатам из различных источников, включая поток, сеанс быстрого тестирования на площадке, пользовательский интерфейс отправки оценки и пакет SDK. Эта гибкость гарантирует, что вы можете взаимодействовать с результатами таким образом, чтобы лучше подходить к рабочему процессу и предпочтениям.

Когда вы визуализировали результаты оценки, вы можете подробно изучить его. Это включает возможность просматривать отдельные результаты и сравнивать эти результаты в нескольких запусках оценки. С помощью этого можно определить тенденции, шаблоны и несоответствия, получить бесценные аналитические сведения о производительности системы ИИ в различных условиях.

Из этой статьи вы узнаете:

Просмотрите результат оценки и метрики.
Сравните результаты оценки.
Повышение производительности.
Просмотрите результаты оценки и метрики.

Поиск результатов оценки

После отправки оценки можно найти отправленное выполнение оценки в списке выполнения, перейдя на страницу оценки .

Вы можете отслеживать выполнение оценки и управлять ими в списке выполнения. Благодаря гибкости для изменения столбцов с помощью редактора столбцов и реализации фильтров можно настроить и создать собственную версию списка выполнения. Кроме того, вы можете быстро просмотреть агрегированные метрики оценки во всех запусках, что позволяет выполнять быстрые сравнения.

Подсказка

Чтобы просмотреть оценки с любой версией пакета SDK для запроса и evals или azure-ai-evaluation версии 1.0.0b1, 1.0.0b2, 1.0.0b3, включите переключатель "Показать все запуски" для поиска выполнения.

Для более глубокого понимания того, как производные метрики оценки, можно получить полное объяснение, выбрав параметр "Подробнее о метриках". Этот подробный ресурс содержит аналитические сведения о вычислении и интерпретации метрик, используемых в процессе оценки.

При просмотре таблицы оценок вы можете выбрать конкретную оценку, которая перенесет вас на страницу с подробными сведениями о выполнении. Здесь можно получить доступ к исчерпывающей информации, включая сведения об оценке, такие как тестовый набор данных, тип задачи, запрос, температура и многое другое. Кроме того, можно просмотреть метрики, связанные с каждым примером данных. Панель мониторинга предоставляет визуальное представление процента прохождения для набора данных по каждой проверенной метрике.

Осторожность

Обратная совместимость для пользователей Azure OpenAI, которые подключены к Платформе разработчика Foundry:

Пользователи, которые ранее использовали oai.azure.com для управления развертываниями моделей и запуска вычислений и с тех пор подключены к Платформе разработчиков Foundry (FDP), будут иметь несколько ограничений при использовании ai.azure.com:

Во-первых, пользователи не смогут просматривать свои оценки, созданные с помощью API OpenAI Azure. Вместо этого для просмотра этих данных пользователям необходимо вернуться на oai.azure.com.
Во-вторых, пользователи не смогут использовать API OpenAI Azure для выполнения вычислений в AI Foundry. Вместо этого эти пользователи должны продолжать использовать oai.azure.com для этого. Однако пользователи могут использовать вычислители Azure OpenAI, доступные непосредственно в AI Foundry (ai.azure.com) в параметре создания оценки набора данных. Параметр оценки модели с точной настройкой не поддерживается в случае, если развертывание является миграцией из Azure OpenAI в Azure Foundry.
Для отправки набора данных и выполнения собственного сценария хранения необходимо выполнить несколько требований к конфигурации:
- Проверка подлинности учетной записи должна производиться с использованием Entra ID.
- Хранилище должно быть добавлено в учетную запись (иначе возникнут ошибки в работе службы, если оно добавлено в проект).
- Пользователь должен добавить свой проект в свою учетную запись хранения с помощью управления доступом на портале Azure.

Дополнительные сведения о создании оценок с использованием оценщиков OpenAI в Azure OpenAI Hub см. в статье Об использовании Azure OpenAI в оценке моделей Azure AI Foundry

Диаграммы панели мониторинга метрик

Мы разбиваем агрегированные представления с различными типами метрик по качеству ИИ (ИИ), рискам и безопасности, качеству ИИ (NLP) и пользовательским при необходимости. Результаты отображаются в процентах прохождения или неудачи на основе критериев, выбранных при создании анализа. Дополнительные сведения о каждом определении метрик и его вычислении см. в разделе "Что такое оценщики?".

Для качества ИИ (СИ) мы агрегируем, вычисляя среднее значение для всех показателей для каждой метрики. Если вы вычисляете Groundedness Pro, выходные данные являются двоичными и поэтому агрегированная оценка проходит скорость передачи, которая вычисляется (#trues / #instances) × 100.
Для метрик риска и безопасности мы агрегируем, вычисляя частоту дефектов для каждой метрики.
- Для метрик вреда содержимого частота дефектов определяется как процент экземпляров в тестовом наборе данных, превышающий пороговое значение шкалы серьезности по всему размеру набора данных. По умолчанию пороговое значение — "Средний".
- Для защищенного материала и косвенной атаки частота дефектов вычисляется как процент экземпляров, в которых выходные данные являются "true" (частота дефектов = (#trues / #instances) × 100).
Для метрик качества ИИ (NLP) мы агрегируем, вычисляя среднее значение для всех показателей для каждой метрики.

Подробная таблица результатов метрик

В разделе данных можно провести комплексный анализ каждого отдельного образца данных и связанных метрик. Здесь можно изучить созданные выходные данные и соответствующую оценку метрики, а также узнать, прошел ли тест, основываясь на проходном балле. Этот уровень детализации позволяет принимать решения на основе данных и принимать конкретные действия для повышения производительности модели.

Некоторые потенциальные элементы действий на основе метрик оценки могут включать:

Распознавание шаблонов. Отфильтровав числовые значения и метрики, можно детализировать до примеров с более низкими оценками. Изучите эти примеры, чтобы определить повторяющиеся шаблоны или проблемы в ответах модели. Например, вы можете заметить, что низкие оценки часто возникают при создании содержимого в определенной теме.
Уточнение модели. Используйте аналитические сведения из примеров с более низкой оценкой, чтобы улучшить инструкцию системного запроса или точно настроить модель. Если вы наблюдаете согласованные проблемы, например, согласованность или релевантность, вы также можете соответствующим образом настроить данные или параметры обучения модели.
Настройка столбцов: редактор столбцов позволяет создавать настраиваемое представление таблицы, фокусируясь на метриках и данных, наиболее важных для целей оценки. Это упрощает анализ и помогает более эффективно выявлять тенденции.
Поиск ключевых слов: поле поиска позволяет искать определенные слова или фразы в созданных выходных данных. Это может быть полезно для определения проблем или шаблонов, связанных с определенными разделами или ключевыми словами, и их конкретного решения.

Таблица сведений о метриках предлагает множество данных, которые могут управлять усилиями по улучшению модели, от распознавания шаблонов до настройки представления для эффективного анализа и уточнения модели на основе выявленных проблем.

Ниже приведены некоторые примеры результатов метрик для сценария ответа на вопросы:

Некоторые оценки имеют подоценки, которые позволяют просматривать JSON результатов этих подоценок. Чтобы просмотреть результаты, выберите "Вид в ФОРМАТЕ JSON ", чтобы открыть результаты.

Ниже приведены некоторые примеры результатов метрик для сценария беседы. Чтобы просмотреть результаты по ходу многошагового диалога, выберите "Просмотреть результаты оценки по шагам" в столбце диалога.

При выборе параметра "Просмотреть результаты оценки на поворот" вы увидите следующий экран:

Для оценки безопасности в много модальном сценарии (текстовые и изображения) можно просмотреть изображения из входных и выходных данных в таблице результатов подробных метрик, чтобы лучше понять результат оценки. Так как многофакторная оценка в настоящее время поддерживается только для сценариев беседы, можно выбрать "Просмотреть результаты оценки на поворот", чтобы проверить входные и выходные данные для каждого поворота.

Выберите изображение, чтобы развернуть его и просмотреть. По умолчанию все изображения размыты, чтобы защитить вас от потенциально вредного содержимого. Чтобы четко просмотреть изображение, включите переключатель "Проверить изображение размытия".

Результаты оценки могут иметь разные значения для разных аудиторий. Например, оценки безопасности могут создать метку для "низкой" серьезности насильственного содержимого, которое может не соответствовать определению рецензента человека о том, насколько серьезным может быть конкретное насильственное содержимое. Проход/непроход определяется установленной проходной оценкой во время создания критериев оценки. Мы предоставляем столбец обратной связи с большими пальцами вверх и пальцем вниз при проверке результатов оценки на поверхность, какие экземпляры были утверждены или помечены как неверные рецензентом человека.

При понимании каждой метрики риска контента можно легко просмотреть определение каждой метрики, вернувшись в раздел Отчет и на панели мониторинга метрик изучить тест.

Если с выполнением что-то не так, можно также выполнить отладку ознакомительного выполнения с помощью журналов.

Ниже приведены некоторые примеры журналов, которые можно использовать для отладки выполнения оценки:

При оценке потока запроса можно выбрать кнопку "Вид в потоке ", чтобы перейти на страницу вычисляемого потока, чтобы обновить поток. Например, добавление дополнительной инструкции мета-запроса или изменение некоторых параметров и повторное вычисление.

Сравнение результатов оценки

Чтобы упростить комплексное сравнение двух или более запусков, можно выбрать нужные запуски и инициировать процесс, нажав кнопку "Сравнить ", или для общего подробного представления панели мониторинга кнопка "Переключиться на панель мониторинга ". Эта функция позволяет анализировать и контрастировать производительность и результаты нескольких запусков, обеспечивая более информированное принятие решений и целевые улучшения.

В представлении панели мониторинга есть доступ к двум ценным компонентам: диаграмме сравнения метрик и таблице сравнения. Эти средства позволяют выполнять параллельный анализ выбранных запусков оценки, что позволяет сравнить различные аспекты каждого примера данных с легкостью и точностью.

Замечание

Более ранние запуски оценок по умолчанию имеют соответствие строк между столбцами. Тем не менее, при создании новых проверок необходимо специально настроить соответствие столбцов. Для этого убедитесь, что одно и то же имя используется в качестве имени критерия между всеми оценками, которые вы хотите сравнить.

Интерфейс, когда поля одинаковы:

Если пользователь не использует то же имя критерия при создании оценки, поля не будут совпадать, что приводит к тому, что платформа не сможет напрямую сравнить результаты:

В таблице сравнения у вас есть возможность установить базовый план для сравнения, наведите указатель мыши на конкретный запуск, который вы хотите использовать в качестве эталонной точки и задать в качестве базового плана. Кроме того, активировав переключатель show delta, можно легко визуализировать различия между базовым запуском и другими запусками для числовых значений. Кроме того, при включении переключателя "Показать только разницу" в таблице отображаются только строки, которые отличаются между выбранными запусками, помогая в идентификации различных вариантов.

Используя эти функции сравнения, вы можете принять обоснованное решение, чтобы выбрать лучшую версию:

Сравнение базовых показателей. Задав базовый запуск, можно определить эталонную точку, с которой можно сравнить другие запуски. Это позволяет узнать, как каждый запуск отклоняется от выбранного стандарта.
Оценка числовых значений: включение параметра Show delta помогает понять степень различий между базовыми и другими запусками. Это полезно для оценки того, как различные запуски выполняются с точки зрения конкретных метрик оценки.
Изоляция различий: функция "Показать только разницу" упрощает анализ, выделяя только области, в которых существуют несоответствия между запусками. Это может быть важно в том, чтобы определить, где необходимы улучшения или корректировки.

С помощью этих средств сравнения можно определить, какая версия модели или системы лучше всего подходит для определенных критериев и метрик, в конечном счете помогая вам выбрать наиболее оптимальный вариант для вашего приложения.

Измерение уязвимости в тюрьме

Оценка тюрьмы — это сравнительное измерение, а не метрика с поддержкой ИИ. Запустите оценки на двух разных наборах данных с красными командами: базовый набор данных состязательного теста и один и тот же состязательный тестовый набор с внедрением в тюрьму в первую очередь. Вы можете использовать симулятор состязательности данных для создания набора данных с внедрением или без нее. Убедитесь, что имя критерия совпадает с каждой метрикой оценки при настройке запусков.

Чтобы понять, уязвим ли ваше приложение к джейл-брейк, можно указать базовый показатель, а затем включить переключатель "Скорость дефектов в тюрьме" в таблице сравнения. Частота дефектов в тюрьме определяется как процент экземпляров в тестовом наборе данных, где внедрение с помощью тюрьмы создало более высокую оценку серьезности для любой метрики риска содержимого относительно базового уровня по всему размеру набора данных. Вы можете выбрать несколько вычислений на панели мониторинга сравнения, чтобы просмотреть разницу в скорости дефектов.

Подсказка

Частота дефектов в тюрьме сравнительно вычисляется только для наборов данных одного размера и только если все запуски включают риск содержимого и метрики безопасности.

Общие сведения о встроенных метриках оценки

Понимание встроенных метрик жизненно важно для оценки производительности и эффективности приложения ИИ. Получив аналитические сведения об этих ключевых средствах измерения, вы лучше можете интерпретировать результаты, принимать обоснованные решения и настраивать приложение для достижения оптимальных результатов. Чтобы узнать больше о важности каждой метрики, о том, как она вычисляется, ее роль в оценке различных аспектов модели, а также о том, как интерпретировать результаты для улучшения на основе данных, см. в разделе "Метрики оценки и мониторинга".

Узнайте больше о том, как оценить созданные приложения ИИ:

Узнайте больше о методах устранения вреда.

Поделиться через