Как оценить созданные модели ИИ и приложения с помощью Azure AI Foundry

2025-05-19

Чтобы тщательно оценить производительность создаваемых моделей ИИ и приложений при применении к существенному набору данных, можно инициировать процесс оценки. Во время этой оценки модель или приложение тестируются с помощью заданного набора данных, а его производительность будет количественно измеряться как с математическими метриками, так и с помощью ИИ. Этот запуск оценки предоставляет подробные сведения о возможностях и ограничениях приложения.

Для выполнения этой оценки можно использовать функцию оценки на портале Azure AI Foundry, комплексную платформу, которая предлагает средства и функции для оценки производительности и безопасности модели создания искусственного интеллекта. На портале Azure AI Foundry вы можете записывать, просматривать и анализировать подробные метрики оценки.

Из этой статьи вы узнаете, как создать тестовое выполнение для модели или тестового набора данных с встроенными метриками оценки из пользовательского интерфейса Azure AI Foundry. Для повышения гибкости можно установить пользовательский поток оценки и использовать пользовательскую функцию оценки . Кроме того, если цель заключается исключительно в проведении пакетного выполнения без какой-либо оценки, вы также можете использовать пользовательскую функцию оценки.

Предпосылки

Чтобы запустить оценку с помощью метрик с помощью ИИ, необходимо подготовить следующее:

Тестовый набор данных в одном из следующих форматов: csv или jsonl.
Подключение Azure OpenAI. Развертывание одной из этих моделей: модели GPT 3.5, GPT 4 или Davinci. Требуется только при выполнении оценки качества с поддержкой ИИ.

Создание оценки со встроенными метриками оценки

Выполнение оценки позволяет создавать выходные данные метрик для каждой строки данных в тестовом наборе данных. Вы можете выбрать одну или несколько метрик оценки, чтобы оценить выходные данные из разных аспектов. Вы можете создать запуск оценки на страницах каталога оценок или моделей в портале Azure AI Foundry. Затем откроется мастер создания оценки, который поможет вам настроить выполнение оценки.

На странице оценки

В раскрывающемся меню слева выберите "Оценка>+ Создать новую оценку".

На странице каталога моделей

В раскрывающемся меню слева выберите моделей, перейдите к определенной модели>, перейдите на вкладку > benchmark Try с собственными данными. Откроется панель оценки модели для создания запуска оценки для выбранной модели.

Целевой объект оценки

При запуске оценки на странице оценки необходимо решить, какой целевой объект оценки является первым. Указав соответствующий целевой объект оценки, мы можем адаптировать оценку к определенной природе приложения, обеспечивая точность и соответствующие метрики. Мы поддерживаем два типа целевого объекта оценки:

Точно настроенная модель: вы хотите оценить выходные данные, созданные выбранной моделью и определяемым пользователем запросом.
Набор данных. У вас уже есть выходные данные модели в тестовом наборе данных.

Настройка тестовых данных

При входе в мастер создания оценок, можно выбрать из существующих наборов данных или загрузить новый набор данных специально для проведения оценки. Тестовый набор данных должен создавать выходные данные модели для оценки. Предварительный просмотр тестовых данных будет отображаться на правой панели.

Выберите существующий набор данных: можно выбрать тестовый набор данных из установленной коллекции наборов данных.
Добавьте новый набор данных: вы можете отправлять файлы из локального хранилища. Мы поддерживаем .csv только форматы и .jsonl форматы файлов. Предварительный просмотр тестовых данных будет отображаться на правой панели.

Настройка условий тестирования

Мы поддерживаем три типа метрик, курируемых корпорацией Майкрософт, для упрощения комплексной оценки приложения:

Качество ИИ (с помощью ИИ): эти метрики оценивают общее качество и согласованность созданного содержимого. Для выполнения этих метрик требуется развертывание модели в качестве судьи.
Качество ИИ (NLP): эти метрики NLP основаны на математических принципах, и они также оценивают общее качество созданного содержимого. Для них часто требуются данные о действительности, но для них не требуется развертывание модели в качестве судьи.
Метрики риска и безопасности: эти метрики сосредоточены на выявлении потенциальных рисков содержимого и обеспечении безопасности созданного содержимого.

При добавлении критериев тестирования различные метрики будут использоваться в рамках оценки. Вы можете обратиться к таблице для полного списка метрик, для которых мы предлагаем поддержку в каждом сценарии. Дополнительные сведения о каждом определении метрик и его вычислении см. в разделе "Что такое оценщики?".

Качество ИИ (СИ)	Качество ИИ (NLP)	Метрики риска и безопасности
Подобие, релевантность, согласованность, fluency, GPT сходства	F1 оценка, ROUGE оценка, BLEU оценка, GLEU оценка, METEOR оценка	Содержимое, связанное с самостоятельной вредом, ненавистное и несправедливое содержимое, насильственное содержимое, сексуальное содержимое, защищенный материал, непрямая атака

При выполнении оценки качества с поддержкой ИИ необходимо указать модель GPT для вычислительного и оценочного процессов.

Метрики качества ИИ (NLP) — это математически основанные измерения, которые оценивают производительность приложения. Они часто требуют данных истины для вычисления. ROUGE — это семейство метрик. Для вычисления показателей можно выбрать тип ROUGE. Различные типы метрик ROUGE предлагают способы оценки качества создания текста. ROUGE-N измеряет перекрытие n-граммов между кандидатом и справочными текстами.

Для оценки риска и безопасности вам не нужно организовывать развертывание. Серверная служба оценки безопасности портала Azure AI Foundry подготавливает модель GPT-4, которая может генерировать оценки серьезности содержимого и причины, чтобы вы могли оценить ваше приложение за вред содержимого.

Замечание

Метрики риска и безопасности с поддержкой ИИ размещаются в серверной службе оценки безопасности Azure AI Foundry и доступны только в следующих регионах: Восточная часть США 2, Центральная Франция, Южная Великобритания, Центральная Швеция

Осторожность

Обратная совместимость для пользователей Azure OpenAI, которые подключены к Платформе разработчика Foundry:

Пользователи, которые ранее использовали oai.azure.com для управления развертываниями моделей и запуска вычислений и с тех пор подключены к Платформе разработчиков Foundry (FDP), будут иметь несколько ограничений при использовании ai.azure.com:

Во-первых, пользователи не смогут просматривать свои оценки, созданные с помощью API OpenAI Azure. Вместо этого для просмотра этих данных пользователям необходимо вернуться на oai.azure.com.
Во-вторых, пользователи не смогут использовать API OpenAI Azure для выполнения вычислений в AI Foundry. Вместо этого эти пользователи должны продолжать использовать oai.azure.com для этого. Однако пользователи могут использовать вычислители Azure OpenAI, доступные непосредственно в AI Foundry (ai.azure.com) в параметре создания оценки набора данных. Параметр оценки модели с точной настройкой не поддерживается в случае, если развертывание является миграцией из Azure OpenAI в Azure Foundry.
Для отправки набора данных и выполнения собственного сценария хранения необходимо выполнить несколько требований к конфигурации:
- Проверка подлинности учетной записи должна производиться с использованием Entra ID.
- Хранилище должно быть добавлено в учетную запись (иначе возникнут ошибки в работе службы, если оно добавлено в проект).
- Пользователь должен добавить свой проект в свою учетную запись хранения с помощью управления доступом на портале Azure.

Дополнительные сведения о создании оценок с использованием оценщиков OpenAI в Azure OpenAI Hub см. в статье Об использовании Azure OpenAI в оценке моделей Azure AI Foundry

Сопоставление данных

Сопоставление данных для оценки. Для каждой добавленной метрики необходимо указать, какие столбцы данных в наборе данных соответствуют входным данным, необходимым в оценке. Различные метрики оценки требуют различных типов входных данных для точных вычислений.

Во время оценки ответ модели оценивается по ключевым входным данным, таким как:

Запрос: обязательный для всех метрик
Контекст: необязательный
Земля истина: необязательно, требуется для метрик качества ИИ (NLP)

Эти сопоставления обеспечивают точное выравнивание данных и критериев оценки.

Рекомендации по конкретным требованиям сопоставления данных для каждой метрики см. в этой таблице:

Требования к метрику запросов и ответов

Единица измерения	Запрос	Ответ	Контекст	Земля истина
Обоснованность	Обязательный: Str	Обязательный: Str	Обязательный: Str	Не применимо
Согласованность	Обязательный: Str	Обязательный: Str	Не применимо	Не применимо
Беглость	Обязательный: Str	Обязательный: Str	Не применимо	Не применимо
Актуальность	Обязательный: Str	Обязательный: Str	Обязательный: Str	Не применимо
Сходство GPT	Обязательный: Str	Обязательный: Str	Не применимо	Обязательный: Str
Оценка F1	Не применимо	Обязательный: Str	Не применимо	Обязательный: Str
Оценка BLEU	Не применимо	Обязательный: Str	Не применимо	Обязательный: Str
Оценка GLEU	Не применимо	Обязательный: Str	Не применимо	Обязательный: Str
ОЦЕНКА МЕТЕОРА	Не применимо	Обязательный: Str	Не применимо	Обязательный: Str
Оценка ROUGE	Не применимо	Обязательный: Str	Не применимо	Обязательный: Str
Контент, связанный с самоповреждением	Обязательный: Str	Обязательный: Str	Не применимо	Не применимо
Ненавистное и несправедливое содержимое	Обязательный: Str	Обязательный: Str	Не применимо	Не применимо
Насильственное содержимое	Обязательный: Str	Обязательный: Str	Не применимо	Не применимо
Сексуальное содержимое	Обязательный: Str	Обязательный: Str	Не применимо	Не применимо
Защищаемый материал	Обязательный: Str	Обязательный: Str	Не применимо	Не применимо
Непрямая атака	Обязательный: Str	Обязательный: Str	Не применимо	Не применимо

Запрос: запрос, запрашивающий определенные сведения.
Ответ: ответ на запрос, созданный моделью.
Контекст: источник, который ответ создается в отношении (т. е. документов приземления)...
Земля истина: ответ на запрос, созданный пользователем или человеком в качестве истинного ответа.

Проверка и завершение

После завершения всех необходимых конфигураций вы можете задать необязательное имя для оценки. Затем вы можете просмотреть и нажать кнопку Отправить, чтобы запустить оценку.

Тонко настроенная оценка модели

Чтобы создать новую оценку для выбранного развертывания модели, можно использовать модель GPT для создания примеров вопросов или выбрать из установленной коллекции наборов данных.

Настройка тестовых данных для точно настроенной модели

Настройте тестовый набор данных, используемый для оценки. Этот набор данных отправляется в модель для создания ответов для оценки. У вас есть два варианта настройки тестовых данных:

Создание примера вопросов
Использование существующего набора данных (или отправка нового набора данных)

Создание примера вопросов

Если у вас нет легкодоступного набора данных и вы хотите запустить оценку с небольшим примером, выберите развертывание модели, которое вы хотите оценить на основе выбранного раздела. Мы поддерживаем модели Azure OpenAI и другие открытые модели, совместимые с развертыванием бессерверных API, таких как мета LIama и семейства Phi-3. Этот раздел помогает адаптировать созданное содержимое к интересующей вас области. Запросы и ответы создаются в режиме реального времени, и вы можете повторно создать их по мере необходимости.

Использование набора данных

Вы также можете выбрать из установленной коллекции наборов данных или отправить новый набор данных.

Выбор метрик оценки

После этого можно перейти к настройке условий тестирования. При выборе условий добавляются метрики и необходимо сопоставить столбцы набора данных с необходимыми полями для оценки. Эти сопоставления обеспечивают точное выравнивание данных и критериев оценки. Выбрав нужные критерии теста, вы можете просмотреть оценку, при необходимости измените имя оценки, а затем нажмите кнопку "Отправить ", чтобы отправить выполнение оценки и перейти на страницу оценки, чтобы просмотреть результаты.

Замечание

Созданный набор данных сохраняется в хранилище BLOB-объектов проекта после создания ознакомительного запуска.

Просмотр и управление вычислителями в библиотеке оценщиков

Библиотека вычислителя — это централизованное место, которое позволяет просматривать сведения и состояние оценщиков. Вы можете просматривать и управлять вычислителями майкрософт.

Библиотека вычислителя также включает управление версиями. При необходимости можно сравнить различные версии работы, восстановить предыдущие версии и упростить совместную работу с другими пользователями.

Чтобы использовать библиотеку вычислителя на портале Azure AI Foundry, перейдите на страницу оценки проекта и перейдите на вкладку библиотеки оценки.

Чтобы просмотреть дополнительные сведения, можно выбрать имя вычислителя. Вы можете просмотреть имя, описание и параметры, а также проверить все файлы, связанные с оценщиком. Ниже приведены некоторые примеры курированных вычислителей Майкрософт:

Для оценки производительности и качества, курируемых корпорацией Майкрософт, можно просмотреть запрос заметки на странице сведений. Эти запросы можно адаптировать к собственному варианту использования, изменив параметры или критерии в соответствии с вашими данными и целями в пакете SDK для оценки ИИ Azure. Например, можно выбрать средство оценки заземления и проверить файл запроса, показывающий, как вычислить метрику.
Для оценщиков рисков и безопасности, курируемых корпорацией Майкрософт, можно увидеть определение метрик. Например, можно выбрать средство оценки содержимого, связанного с самообслуживанием, и узнать, что это означает, и как корпорация Майкрософт определяет различные уровни серьезности для этой метрики безопасности.

Узнайте больше о том, как оценить созданные приложения ИИ: