Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье описано, как:
- Находите и открывайте запуски оценивания.
- Просмотр агрегированных и выборочных метрик.
- Сравните результаты между запусками.
- Интерпретация категорий и вычислений метрик.
- Диагностика и устранение отсутствующих или частичных метрик.
Необходимые условия
- Роль пользователя Azure AI в проекте Foundry. Для получения дополнительной информации см. управление доступом на основе ролей для Microsoft Foundry.
- Завершенный цикл оценки.
- Сведения о выполнении вычислений на портале см. в разделе "Оценка моделей и приложений сгенерированных ИИ".
- Сведения о выполнении вычислений из пакета SDK см. в статье "Выполнение вычислений из пакета SDK " или "Оценка агентов ИИ".
Просмотр результатов оценки
На портале Foundry перейдите в проект и выберите "Оценка " в левой области.
Выберите запуск оценки из списка, чтобы открыть страницу сведений. Если процесс все еще выполняется, состояние показывает в процессе и обновляется автоматически при завершении.
На странице сведений показано:
Поле Описание Имя Имя запуска оценки. Цель Модель или агент, подвергнут оценке. Набор данных Используемый тестовый набор данных. Щелкните значок скачивания, чтобы экспортировать его в виде CSV-файла. Статус Текущее состояние выполнения (выполнение, завершение или сбой). Маркеры оценки Маркеры, используемые оценщиками в процессе выполнения. Целевые маркеры Маркеры, потребляемые оцениваемой моделью или агентом. Оценки Суммарная оценка для каждого используемого оценщика. Наведите указатель мыши на ячейку оценки, чтобы просмотреть сведения об использовании маркеров и дополнительный контекст.
Выберите дополнительные сведения о метриках, чтобы просмотреть определения метрик и формулы оценки.
Сведения о процессе выполнения оценки
Выберите имя запуска, чтобы просмотреть результаты на уровне строк для каждого отдельного запроса. Для каждой строки можно увидеть запрос, ответ, истинное значение, оценку эксперта и объяснение этой оценки.
Сравнение результатов оценки
Чтобы сравнить два или более запусков, выберите запуски, которые вы хотите сравнить и запустить процесс.
- Выберите два или более запусков на странице сведений об оценке.
- Выберите "Сравнить".
Вы увидите параллельное представление сравнения для всех выбранных запусков.
Сравнение использует статистическое t-тестирование, что дает более конфиденциальные и надежные результаты для принятия решений. Вы можете использовать различные функции этой функции:
- Сравнение базовых показателей. Задав базовый запуск, можно определить эталонную точку, с которой можно сравнить другие запуски. Вы можете увидеть, как каждый запуск отклоняется от выбранного стандарта.
- Статистическая оценка t-тестирования: каждая ячейка предоставляет результаты stat-sig с различными цветовыми кодами. Вы также можете навести указатель мыши на ячейку, чтобы получить размер выборки и p-значение.
| Легенда | Определение |
|---|---|
| Улучшенный прочный | Высокий stat-sig (p<=0,001) и перемещен в нужном направлении |
| Улучшенный Слабый | Stat-sig (0.001<p<=0,05) и перемещен в нужном направлении |
| Деградированный (сильный) | Высокий stat-sig (p<=0,001) и перемещен в неправильном направлении |
| Пониженная и слабая | Stat-sig (0.001<p<=0.05) и перемещен в неправильном направлении |
| ChangedStrong | Высокая статистическая значимость (p<=0.001) и требуемое направление нейтральное |
| ИзмененоСлабый | Stat-sig (0.001<p<=0.05) и требуемое направление нейтральное |
| Безрезультатно | Слишком мало примеров или p>=0,05 |
Примечание
Вид сравнения не сохраняется. Если вы покидаете страницу, вы можете повторно выбрать запуски и выбрать команду "Сравнить ", чтобы повторно создать представление.
Общие сведения о встроенных метриках оценки
Понимание встроенных метрик важно для оценки производительности и эффективности приложения ИИ. Изучая эти ключевые средства измерения, вы можете интерпретировать результаты, принимать обоснованные решения и настраивать приложение для достижения оптимальных результатов.
Дополнительные сведения см. в разделе "Встроенные оценщики".
Устранение неполадок
| Симптом | Возможная причина | Действие |
|---|---|---|
| Выполнение остается в ожидании | Высокая загрузка или поставленные в очередь задания | Обновите, проверьте квоту и повторно отправьте в случае задержки. |
| Отсутствующие метрики | Не выбран при создании | Повторное выполнение и выбор необходимых метрик |
| Все метрики безопасности ноль | Категория отключена или неподдерживаемая модель | Подтверждение поддержки модели и вычислителя в оценках рисков и безопасности |
| Неожиданно низкое заземление | Получение/контекст неполное | Проверка задержки создания или извлечения контекста |