Справочник по встроенным вычислителям

Important

Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

Microsoft Foundry включает встроенные вычислители для оценки качества, безопасности и надежности ответов ИИ на протяжении всего жизненного цикла разработки. В этом справочнике перечислены все доступные вычислители, их цели и рекомендации по выбору подходящего для вашего варианта использования. Вы также можете создавать пользовательские вычислители , адаптированные к конкретным критериям оценки.

Вычислители общего назначения

Evaluator Purpose
Coherence Измеряет логическую согласованность и поток ответов.
Fluency Измеряет качество естественного языка и удобочитаемость.

Дополнительные сведения см. в разделе "Оценка общего назначения".

Средство оценки сходства текста

Evaluator Purpose
Similarity Измерение сходства с использованием искусственного интеллекта.
F1 Score Гармоничный средний коэффициент точности и отзыва в токене перекрывается между ответом и земной правдой.
BLEU Двуязычная оценка недоумение оценки для мер качества перевода перекрывается в n-граммах между ответом и земной правдой.
GLEU Google-BLEU вариант для оценки на уровне предложений перекрывается в n-граммах между ответом и основной истинностью.
ROUGE Recall-Oriented Understudy for Gisting Assessment измеряет пересечения в n-граммах между ответом и реальностью.
METEOR Метрика для оценки перевода с явными мерами упорядочивания перекрывается в n-граммах между ответом и земной правдой.

Дополнительные сведения см. в разделе оценщиков сходства текста.

RAG evaluators

Evaluator Purpose
Retrieval Измеряет, насколько эффективно система получает соответствующую информацию.
Document Retrieval Измеряет точность в результатах извлечения, учитывая истину земли.
Groundedness Измеряет, насколько заземлен ответ находится в полученном контексте. Возвращает оценку от 1 до 5, используя модельное решение.
Groundedness Pro (предварительная версия) Измеряет, находится ли ответ в полученном контексте с помощью службы Безопасность содержимого ИИ Azure. Возвращает двоичный проход или сбой, не требуя развертывания модели.
Relevance Измеряет, насколько соответствующий ответ соответствует запросу.
Полнота ответа (предварительная версия) Меры в той степени, в какой степени ответ завершен (не отсутствует критическая информация) в отношении истины земли.

Дополнительные сведения см. в статье о вычислителях расширенного поколения (RAG).

Вычислители рисков и безопасности

Evaluator Purpose
Ненависть и несправедливость Определяет предвзятое, дискриминационное или ненавистное содержимое.
Sexual Определяет неуместное сексуальное содержимое.
Violence Обнаруживает насильственное содержимое или подстрекательство.
Self-Harm Обнаруживает содержимое, повышающее или описывающее самоповредение.
Protected Materials Обнаруживает несанкционированное использование защищенного или защищенного содержимого.
Непрямая атака (XPIA) Измеряет, упал ли ответ на непрямую попытку взлома тюрьмы, введенную с помощью полученного контекста.
Code Vulnerability Определяет проблемы безопасности в созданном коде.
Ungrounded Attributes Обнаруживает вымышленные или галлюцинированные сведения, полученные из взаимодействия с пользователем.
Запрещенные действия (предварительная версия) Измеряет способность агента ИИ участвовать в поведении, которые нарушают явно запрещенные действия.
Утечка конфиденциальных данных (предварительная версия) Измеряет уязвимость агента ИИ к раскрытию конфиденциальной информации.

Дополнительные сведения см. в статье о оценках рисков и безопасности.

Agent evaluators

Evaluator Purpose
Соблюдение задач (предварительная версия) Измеряет, следует ли агенту выполнять определенные задачи в соответствии с системными инструкциями.
Завершение задачи (предварительная версия) Измеряет, успешно ли агент выполнил запрошенную задачу.
Разрешение намерений (предварительная версия) Измеряет, насколько точно агент определяет намерения пользователей и обращается к ней.
Эффективность навигации по задачам Определяет, соответствует ли последовательность шагов агента оптимальному или ожидаемому пути для измерения эффективности.
Точность вызова средства Измеряет общее качество вызовов инструментов, включая выбор, правильность параметров и эффективность.
Tool Selection Измеряет, выбран ли агент наиболее подходящие и эффективные инструменты для задачи.
Точность ввода средства Проверяет правильность всех параметров вызова средства с строгими критериями, включая приземление, тип, формат, полноту и соответствие.
Использование выходных данных средства Измеряет, правильно ли агент интерпретирует и использует контекстно выходные данные средства в ответах и последующих вызовах.
Успех вызова средства Определяет, успешно ли выполняются все вызовы инструментов без технических сбоев.

Дополнительные сведения см. в разделе оценщиков агентов.

Azure оценки OpenAI

Evaluator Purpose
Model Labeler Классифицирует содержимое с помощью пользовательских рекомендаций и меток.
String Checker Выполняет гибкие проверки текста и сопоставление шаблонов.
Text Similarity Оценивает качество текста или определяет семантику закрытия.
Model Scorer Создает числовые оценки (настраиваемый диапазон) для содержимого на основе пользовательских рекомендаций.

Дополнительные сведения см. в статье Azure OpenAI Graders.

Пользовательские вычислители (предварительная версия)

Помимо встроенных оценщиков, вы можете создавать пользовательские вычислители, адаптированные к конкретным критериям оценки. Пользовательские вычислители позволяют определять уникальную логику оценки, правила проверки и метрики качества, которые соответствуют вашим бизнес-требованиям и потребностям конкретного приложения.

Дополнительные сведения см. в разделе "Пользовательские оценщики".

Combining evaluators

Для комплексной оценки качества объедините несколько оценщиков:

  • Приложения RAG: извлечение и заземление + релевантность и безопасность содержимого
  • Приложения агента: точность вызова средства + соблюдение задач и разрешение намерений и безопасность содержимого
  • Приложения перевода: BLEU + МЕТЕОР + Fluency + Согласованность
  • Все приложения: добавление оценщиков рисков и безопасности (ненависть и несправедливость, сексуальность, насилие, Self-Harm) для ответственной практики ИИ