Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Important
Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.
Microsoft Foundry включает встроенные вычислители для оценки качества, безопасности и надежности ответов ИИ на протяжении всего жизненного цикла разработки. В этом справочнике перечислены все доступные вычислители, их цели и рекомендации по выбору подходящего для вашего варианта использования. Вы также можете создавать пользовательские вычислители , адаптированные к конкретным критериям оценки.
Вычислители общего назначения
| Evaluator | Purpose |
|---|---|
| Coherence | Измеряет логическую согласованность и поток ответов. |
| Fluency | Измеряет качество естественного языка и удобочитаемость. |
Дополнительные сведения см. в разделе "Оценка общего назначения".
Средство оценки сходства текста
| Evaluator | Purpose |
|---|---|
| Similarity | Измерение сходства с использованием искусственного интеллекта. |
| F1 Score | Гармоничный средний коэффициент точности и отзыва в токене перекрывается между ответом и земной правдой. |
| BLEU | Двуязычная оценка недоумение оценки для мер качества перевода перекрывается в n-граммах между ответом и земной правдой. |
| GLEU | Google-BLEU вариант для оценки на уровне предложений перекрывается в n-граммах между ответом и основной истинностью. |
| ROUGE | Recall-Oriented Understudy for Gisting Assessment измеряет пересечения в n-граммах между ответом и реальностью. |
| METEOR | Метрика для оценки перевода с явными мерами упорядочивания перекрывается в n-граммах между ответом и земной правдой. |
Дополнительные сведения см. в разделе оценщиков сходства текста.
RAG evaluators
| Evaluator | Purpose |
|---|---|
| Retrieval | Измеряет, насколько эффективно система получает соответствующую информацию. |
| Document Retrieval | Измеряет точность в результатах извлечения, учитывая истину земли. |
| Groundedness | Измеряет, насколько заземлен ответ находится в полученном контексте. Возвращает оценку от 1 до 5, используя модельное решение. |
| Groundedness Pro (предварительная версия) | Измеряет, находится ли ответ в полученном контексте с помощью службы Безопасность содержимого ИИ Azure. Возвращает двоичный проход или сбой, не требуя развертывания модели. |
| Relevance | Измеряет, насколько соответствующий ответ соответствует запросу. |
| Полнота ответа (предварительная версия) | Меры в той степени, в какой степени ответ завершен (не отсутствует критическая информация) в отношении истины земли. |
Дополнительные сведения см. в статье о вычислителях расширенного поколения (RAG).
Вычислители рисков и безопасности
| Evaluator | Purpose |
|---|---|
| Ненависть и несправедливость | Определяет предвзятое, дискриминационное или ненавистное содержимое. |
| Sexual | Определяет неуместное сексуальное содержимое. |
| Violence | Обнаруживает насильственное содержимое или подстрекательство. |
| Self-Harm | Обнаруживает содержимое, повышающее или описывающее самоповредение. |
| Protected Materials | Обнаруживает несанкционированное использование защищенного или защищенного содержимого. |
| Непрямая атака (XPIA) | Измеряет, упал ли ответ на непрямую попытку взлома тюрьмы, введенную с помощью полученного контекста. |
| Code Vulnerability | Определяет проблемы безопасности в созданном коде. |
| Ungrounded Attributes | Обнаруживает вымышленные или галлюцинированные сведения, полученные из взаимодействия с пользователем. |
| Запрещенные действия (предварительная версия) | Измеряет способность агента ИИ участвовать в поведении, которые нарушают явно запрещенные действия. |
| Утечка конфиденциальных данных (предварительная версия) | Измеряет уязвимость агента ИИ к раскрытию конфиденциальной информации. |
Дополнительные сведения см. в статье о оценках рисков и безопасности.
Agent evaluators
| Evaluator | Purpose |
|---|---|
| Соблюдение задач (предварительная версия) | Измеряет, следует ли агенту выполнять определенные задачи в соответствии с системными инструкциями. |
| Завершение задачи (предварительная версия) | Измеряет, успешно ли агент выполнил запрошенную задачу. |
| Разрешение намерений (предварительная версия) | Измеряет, насколько точно агент определяет намерения пользователей и обращается к ней. |
| Эффективность навигации по задачам | Определяет, соответствует ли последовательность шагов агента оптимальному или ожидаемому пути для измерения эффективности. |
| Точность вызова средства | Измеряет общее качество вызовов инструментов, включая выбор, правильность параметров и эффективность. |
| Tool Selection | Измеряет, выбран ли агент наиболее подходящие и эффективные инструменты для задачи. |
| Точность ввода средства | Проверяет правильность всех параметров вызова средства с строгими критериями, включая приземление, тип, формат, полноту и соответствие. |
| Использование выходных данных средства | Измеряет, правильно ли агент интерпретирует и использует контекстно выходные данные средства в ответах и последующих вызовах. |
| Успех вызова средства | Определяет, успешно ли выполняются все вызовы инструментов без технических сбоев. |
Дополнительные сведения см. в разделе оценщиков агентов.
Azure оценки OpenAI
| Evaluator | Purpose |
|---|---|
| Model Labeler | Классифицирует содержимое с помощью пользовательских рекомендаций и меток. |
| String Checker | Выполняет гибкие проверки текста и сопоставление шаблонов. |
| Text Similarity | Оценивает качество текста или определяет семантику закрытия. |
| Model Scorer | Создает числовые оценки (настраиваемый диапазон) для содержимого на основе пользовательских рекомендаций. |
Дополнительные сведения см. в статье Azure OpenAI Graders.
Пользовательские вычислители (предварительная версия)
Помимо встроенных оценщиков, вы можете создавать пользовательские вычислители, адаптированные к конкретным критериям оценки. Пользовательские вычислители позволяют определять уникальную логику оценки, правила проверки и метрики качества, которые соответствуют вашим бизнес-требованиям и потребностям конкретного приложения.
Дополнительные сведения см. в разделе "Пользовательские оценщики".
Combining evaluators
Для комплексной оценки качества объедините несколько оценщиков:
- Приложения RAG: извлечение и заземление + релевантность и безопасность содержимого
- Приложения агента: точность вызова средства + соблюдение задач и разрешение намерений и безопасность содержимого
- Приложения перевода: BLEU + МЕТЕОР + Fluency + Согласованность
- Все приложения: добавление оценщиков рисков и безопасности (ненависть и несправедливость, сексуальность, насилие, Self-Harm) для ответственной практики ИИ
Related content
- Наблюдаемость в генерируемом ИИ
- Вычислители общего назначения
- Средство оценки сходства текста
- Вычислители для получения дополненного поколения (RAG)
- Вычислители рисков и безопасности
- Agent evaluators
- Azure OpenAI Graders
- Custom evaluators
- Оценка созданных приложений искусственного интеллекта в Foundry