Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В настоящее время просмотр:Версия портала Foundry (классическая версия) - Переключиться на версию для нового портала Foundry
Важно
Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.
Microsoft Foundry предоставляет полный набор встроенных оценщиков для оценки качества, безопасности и надежности ответов ИИ на протяжении всего жизненного цикла разработки. Эта ссылка содержит сведения обо всех доступных вычислителях, их целях, необходимых входных данных и рекомендациях по выбору подходящего вычислителя для вашего варианта использования. Вы также можете создавать пользовательские оценщики, адаптированные к конкретным критериям оценки.
Примечание
Пакет Microsoft Foundry SDK и портал Foundry находятся в общедоступной предварительной версии, но API обычно доступны для оценки моделей и наборов данных (оценка агентов остается в общедоступной предварительной версии). Пакет SDK для оценки Azure ИИ и оценщики, помеченные как 'предварительная версия' и упомянутые в этой статье, в настоящее время находятся в стадии общедоступной предварительной версии повсеместно.
Оценщики общего назначения
| Эвалуатор | Цель |
|---|---|
| Согласованность | Измеряет логическую согласованность и поток ответов. |
| Плавность | Измеряет качество естественного языка и удобочитаемость. |
Дополнительные сведения см. в разделе "Оценка общего назначения".
Средства оценки схожести текста
| Эвалуатор | Цель |
|---|---|
| Сходство | Измерение текстового сходства с использованием искусственного интеллекта. |
| Оценка F1 | Гармоничный средний коэффициент точности и отзыва в токене перекрывается между ответом и земной правдой. |
| BLEU | Оценка BLEU для качества перевода измеряет перекрытия в n-граммах между ответом и эталонным текстом. |
| GLEU | Вариант Google-BLEU для оценки на уровне предложения измеряет совпадения n-грамм между ответом и эталоном. |
| РУЖ | Recall-Oriented вспомогательная система для оценки краткого изложения измеряет перекрытие n-грамм между ответом и эталонными данными. |
| МЕТЕОР | Метрика для оценки перевода с явным порядком измеряет совпадения в n-граммах между ответом и эталоном. |
Чтобы узнать больше, обратитесь к оценщикам текстового сходства.
Оценщики RAG
| Эвалуатор | Цель |
|---|---|
| Извлечение | Измеряет, насколько эффективно система получает соответствующую информацию. |
| Извлечение документов | Измеряет точность результатов извлечения, учитывая эталонные данные. |
| Заземленность | Измеряет согласованность ответа относительно полученного контекста. |
| Groundedness Pro (предварительная версия) | Измеряет, согласуется ли ответ с учетом полученного контекста. |
| Актуальность | Измеряет, насколько соответствующий ответ соответствует запросу. |
| Полнота ответа | В той мере, в какой ответ является полным и не отсутствует критическая информация, относительно эталонной истины. |
Дополнительные сведения см. в статье о вычислителях расширенного поколения (RAG).
Оценщики рисков и безопасности
| Эвалуатор | Цель |
|---|---|
| Ненависть и несправедливость | Определяет предвзятое, дискриминационное или ненавистное содержимое. |
| Сексуальный | Определяет неуместное сексуальное содержимое. |
| Насилия | Обнаруживает насильственное содержимое или подстрекательство. |
| Самоповреждение | Обнаруживает содержимое, повышающее или описывающее самоповредение. |
| Безопасность содержимого | Комплексная оценка различных проблем безопасности. |
| Защищенные материалы | Обнаруживает несанкционированное использование материалов, защищенных авторским правом или других защищенных материалов. |
| Уязвимость кода | Определяет проблемы безопасности в созданном коде. |
| Необоснованные атрибуты | Обнаруживает вымышленные или галлюцинированные сведения, полученные из взаимодействия с пользователем. |
Дополнительные сведения см. в статье о оценках рисков и безопасности.
Оценщики агентов
| Эвалуатор | Цель |
|---|---|
| Разрешение намерений (бета-версия) | Измеряет, насколько точно агент идентифицирует пользовательские намерения и обращается к ним. |
| Соблюдение задач (предварительная версия) | Измеряет, насколько хорошо агент следует за идентифицированными задачами. |
| Точность вызова инструмента (предварительный просмотр) | Измеряет, насколько хорошо агент выбирает и использует правильные инструменты. |
Чтобы узнать больше, см. Оценщики агентов.
Azure оценщики OpenAI
| Эвалуатор | Цель |
|---|---|
| Маркировщик моделей | Классифицирует содержимое с помощью пользовательских рекомендаций и меток. |
| Средство проверки строки | Выполняет гибкие проверки текста и сопоставление шаблонов. |
| Сходство текста | Оценивает качество текста или определяет семантическую близость. |
| Оценивание модели | Создает числовые оценки (настраиваемый диапазон) для содержимого на основе пользовательских рекомендаций. |
Дополнительные сведения см. в статье Azure OpenAI Graders.
Пользовательские оценщики
Помимо встроенных оценщиков, вы можете создавать пользовательские вычислители, адаптированные к конкретным критериям оценки. Пользовательские оценщики позволяют определять уникальную логику оценки, правила проверки и метрики качества, которые соответствуют вашим бизнес-требованиям и потребностям конкретного приложения.
Дополнительные сведения см. в разделе "Пользовательские оценщики".
Объединение оценщиков
Для комплексной оценки качества объедините несколько оценщиков:
- Приложения RAG: извлечение, обоснованность, релевантность и безопасность содержимого
- Приложения агента: точность вызова инструментов + соответствие задачам + разрешение намерений + безопасность содержимого
- Приложения перевода: BLEU + МЕТЕОР + Беглость + Связность
- Все приложения: Добавить оценщиков рисков и безопасности (ненависть и несправедливость, сексуальное содержание, насилие, самоповреждение) для ответственного использования ИИ
Связанное содержимое
- Наблюдаемость в генеративном ИИ
- Вычислители общего назначения
- Средство оценки сходства текста
- Вычислители для получения дополненного поколения (RAG)
- Вычислители рисков и безопасности
- Оценщики агентов
- Azure OpenAI Graders
- Пользовательские оценщики
- Оценка с помощью пакета SDK для Foundry
- Оценка созданных приложений искусственного интеллекта в Foundry