Справочник встроенных оценщиков (классический)

В настоящее время просмотр:Версия портала Foundry (классическая версия) - Переключиться на версию для нового портала Foundry

Важно

Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

Microsoft Foundry предоставляет полный набор встроенных оценщиков для оценки качества, безопасности и надежности ответов ИИ на протяжении всего жизненного цикла разработки. Эта ссылка содержит сведения обо всех доступных вычислителях, их целях, необходимых входных данных и рекомендациях по выбору подходящего вычислителя для вашего варианта использования. Вы также можете создавать пользовательские оценщики, адаптированные к конкретным критериям оценки.

Примечание

Пакет Microsoft Foundry SDK и портал Foundry находятся в общедоступной предварительной версии, но API обычно доступны для оценки моделей и наборов данных (оценка агентов остается в общедоступной предварительной версии). Пакет SDK для оценки Azure ИИ и оценщики, помеченные как 'предварительная версия' и упомянутые в этой статье, в настоящее время находятся в стадии общедоступной предварительной версии повсеместно.

Оценщики общего назначения

Эвалуатор Цель
Согласованность Измеряет логическую согласованность и поток ответов.
Плавность Измеряет качество естественного языка и удобочитаемость.

Дополнительные сведения см. в разделе "Оценка общего назначения".

Средства оценки схожести текста

Эвалуатор Цель
Сходство Измерение текстового сходства с использованием искусственного интеллекта.
Оценка F1 Гармоничный средний коэффициент точности и отзыва в токене перекрывается между ответом и земной правдой.
BLEU Оценка BLEU для качества перевода измеряет перекрытия в n-граммах между ответом и эталонным текстом.
GLEU Вариант Google-BLEU для оценки на уровне предложения измеряет совпадения n-грамм между ответом и эталоном.
РУЖ Recall-Oriented вспомогательная система для оценки краткого изложения измеряет перекрытие n-грамм между ответом и эталонными данными.
МЕТЕОР Метрика для оценки перевода с явным порядком измеряет совпадения в n-граммах между ответом и эталоном.

Чтобы узнать больше, обратитесь к оценщикам текстового сходства.

Оценщики RAG

Эвалуатор Цель
Извлечение Измеряет, насколько эффективно система получает соответствующую информацию.
Извлечение документов Измеряет точность результатов извлечения, учитывая эталонные данные.
Заземленность Измеряет согласованность ответа относительно полученного контекста.
Groundedness Pro (предварительная версия) Измеряет, согласуется ли ответ с учетом полученного контекста.
Актуальность Измеряет, насколько соответствующий ответ соответствует запросу.
Полнота ответа В той мере, в какой ответ является полным и не отсутствует критическая информация, относительно эталонной истины.

Дополнительные сведения см. в статье о вычислителях расширенного поколения (RAG).

Оценщики рисков и безопасности

Эвалуатор Цель
Ненависть и несправедливость Определяет предвзятое, дискриминационное или ненавистное содержимое.
Сексуальный Определяет неуместное сексуальное содержимое.
Насилия Обнаруживает насильственное содержимое или подстрекательство.
Самоповреждение Обнаруживает содержимое, повышающее или описывающее самоповредение.
Безопасность содержимого Комплексная оценка различных проблем безопасности.
Защищенные материалы Обнаруживает несанкционированное использование материалов, защищенных авторским правом или других защищенных материалов.
Уязвимость кода Определяет проблемы безопасности в созданном коде.
Необоснованные атрибуты Обнаруживает вымышленные или галлюцинированные сведения, полученные из взаимодействия с пользователем.

Дополнительные сведения см. в статье о оценках рисков и безопасности.

Оценщики агентов

Эвалуатор Цель
Разрешение намерений (бета-версия) Измеряет, насколько точно агент идентифицирует пользовательские намерения и обращается к ним.
Соблюдение задач (предварительная версия) Измеряет, насколько хорошо агент следует за идентифицированными задачами.
Точность вызова инструмента (предварительный просмотр) Измеряет, насколько хорошо агент выбирает и использует правильные инструменты.

Чтобы узнать больше, см. Оценщики агентов.

Azure оценщики OpenAI

Эвалуатор Цель
Маркировщик моделей Классифицирует содержимое с помощью пользовательских рекомендаций и меток.
Средство проверки строки Выполняет гибкие проверки текста и сопоставление шаблонов.
Сходство текста Оценивает качество текста или определяет семантическую близость.
Оценивание модели Создает числовые оценки (настраиваемый диапазон) для содержимого на основе пользовательских рекомендаций.

Дополнительные сведения см. в статье Azure OpenAI Graders.

Пользовательские оценщики

Помимо встроенных оценщиков, вы можете создавать пользовательские вычислители, адаптированные к конкретным критериям оценки. Пользовательские оценщики позволяют определять уникальную логику оценки, правила проверки и метрики качества, которые соответствуют вашим бизнес-требованиям и потребностям конкретного приложения.

Дополнительные сведения см. в разделе "Пользовательские оценщики".

Объединение оценщиков

Для комплексной оценки качества объедините несколько оценщиков:

  • Приложения RAG: извлечение, обоснованность, релевантность и безопасность содержимого
  • Приложения агента: точность вызова инструментов + соответствие задачам + разрешение намерений + безопасность содержимого
  • Приложения перевода: BLEU + МЕТЕОР + Беглость + Связность
  • Все приложения: Добавить оценщиков рисков и безопасности (ненависть и несправедливость, сексуальное содержание, насилие, самоповреждение) для ответственного использования ИИ