Справочник по встроенным вычислителям

Important

Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

Microsoft Foundry включает встроенные вычислители для оценки качества, безопасности и надежности ответов ИИ на протяжении всего жизненного цикла разработки. В этом справочнике перечислены все доступные вычислители, их цели и рекомендации по выбору подходящего для вашего варианта использования. Вы также можете создавать пользовательские вычислители , адаптированные к конкретным критериям оценки.

Вычислители общего назначения

Evaluator	Purpose
Coherence	Измеряет логическую согласованность и поток ответов.
Fluency	Измеряет качество естественного языка и удобочитаемость.

Дополнительные сведения см. в разделе "Оценка общего назначения".

Средство оценки сходства текста

Evaluator	Purpose
Similarity	Измерение сходства с использованием искусственного интеллекта.
F1 Score	Гармоничный средний коэффициент точности и отзыва в токене перекрывается между ответом и земной правдой.
BLEU	Двуязычная оценка недоумение оценки для мер качества перевода перекрывается в n-граммах между ответом и земной правдой.
GLEU	Google-BLEU вариант для оценки на уровне предложений перекрывается в n-граммах между ответом и основной истинностью.
ROUGE	Recall-Oriented Understudy for Gisting Assessment измеряет пересечения в n-граммах между ответом и реальностью.
METEOR	Метрика для оценки перевода с явными мерами упорядочивания перекрывается в n-граммах между ответом и земной правдой.

Дополнительные сведения см. в разделе оценщиков сходства текста.

RAG evaluators

Evaluator	Purpose
Retrieval	Измеряет, насколько эффективно система получает соответствующую информацию.
Document Retrieval	Измеряет точность в результатах извлечения, учитывая истину земли.
Groundedness	Измеряет, насколько заземлен ответ находится в полученном контексте. Возвращает оценку от 1 до 5, используя модельное решение.
Groundedness Pro (предварительная версия)	Измеряет, находится ли ответ в полученном контексте с помощью службы Безопасность содержимого ИИ Azure. Возвращает двоичный проход или сбой, не требуя развертывания модели.
Relevance	Измеряет, насколько соответствующий ответ соответствует запросу.
Полнота ответа (предварительная версия)	Меры в той степени, в какой степени ответ завершен (не отсутствует критическая информация) в отношении истины земли.

Дополнительные сведения см. в статье о вычислителях расширенного поколения (RAG).

Вычислители рисков и безопасности

Evaluator	Purpose
Ненависть и несправедливость	Определяет предвзятое, дискриминационное или ненавистное содержимое.
Sexual	Определяет неуместное сексуальное содержимое.
Violence	Обнаруживает насильственное содержимое или подстрекательство.
Self-Harm	Обнаруживает содержимое, повышающее или описывающее самоповредение.
Protected Materials	Обнаруживает несанкционированное использование защищенного или защищенного содержимого.
Непрямая атака (XPIA)	Измеряет, упал ли ответ на непрямую попытку взлома тюрьмы, введенную с помощью полученного контекста.
Code Vulnerability	Определяет проблемы безопасности в созданном коде.
Ungrounded Attributes	Обнаруживает вымышленные или галлюцинированные сведения, полученные из взаимодействия с пользователем.
Запрещенные действия (предварительная версия)	Измеряет способность агента ИИ участвовать в поведении, которые нарушают явно запрещенные действия.
Утечка конфиденциальных данных (предварительная версия)	Измеряет уязвимость агента ИИ к раскрытию конфиденциальной информации.

Дополнительные сведения см. в статье о оценках рисков и безопасности.

Agent evaluators

Evaluator	Purpose
Соблюдение задач (предварительная версия)	Измеряет, следует ли агенту выполнять определенные задачи в соответствии с системными инструкциями.
Завершение задачи (предварительная версия)	Измеряет, успешно ли агент выполнил запрошенную задачу.
Разрешение намерений (предварительная версия)	Измеряет, насколько точно агент определяет намерения пользователей и обращается к ней.
Эффективность навигации по задачам	Определяет, соответствует ли последовательность шагов агента оптимальному или ожидаемому пути для измерения эффективности.
Точность вызова средства	Измеряет общее качество вызовов инструментов, включая выбор, правильность параметров и эффективность.
Tool Selection	Измеряет, выбран ли агент наиболее подходящие и эффективные инструменты для задачи.
Точность ввода средства	Проверяет правильность всех параметров вызова средства с строгими критериями, включая приземление, тип, формат, полноту и соответствие.
Использование выходных данных средства	Измеряет, правильно ли агент интерпретирует и использует контекстно выходные данные средства в ответах и последующих вызовах.
Успех вызова средства	Определяет, успешно ли выполняются все вызовы инструментов без технических сбоев.

Дополнительные сведения см. в разделе оценщиков агентов.

Azure оценки OpenAI

Evaluator	Purpose
Model Labeler	Классифицирует содержимое с помощью пользовательских рекомендаций и меток.
String Checker	Выполняет гибкие проверки текста и сопоставление шаблонов.
Text Similarity	Оценивает качество текста или определяет семантику закрытия.
Model Scorer	Создает числовые оценки (настраиваемый диапазон) для содержимого на основе пользовательских рекомендаций.

Дополнительные сведения см. в статье Azure OpenAI Graders.

Пользовательские вычислители (предварительная версия)

Помимо встроенных оценщиков, вы можете создавать пользовательские вычислители, адаптированные к конкретным критериям оценки. Пользовательские вычислители позволяют определять уникальную логику оценки, правила проверки и метрики качества, которые соответствуют вашим бизнес-требованиям и потребностям конкретного приложения.

Дополнительные сведения см. в разделе "Пользовательские оценщики".

Combining evaluators

Для комплексной оценки качества объедините несколько оценщиков:

Приложения RAG: извлечение и заземление + релевантность и безопасность содержимого
Приложения агента: точность вызова средства + соблюдение задач и разрешение намерений и безопасность содержимого
Приложения перевода: BLEU + МЕТЕОР + Fluency + Согласованность
Все приложения: добавление оценщиков рисков и безопасности (ненависть и несправедливость, сексуальность, насилие, Self-Harm) для ответственной практики ИИ

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-30