Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Замечание
Этот документ относится к порталу Microsoft Foundry (классическая модель).
Замечание
Этот документ относится к порталу Microsoft Foundry (new).
Чтобы тщательно оценить производительность создаваемых моделей ИИ и приложений в значительном наборе данных, инициируйте процесс оценки. Во время этой оценки модель или приложение тестируются с заданным набором данных, а его производительность измеряется с помощью математических метрик и метрик с поддержкой ИИ. Этот цикл оценки предоставляет исчерпывающую информацию о возможностях и ограничениях приложения.
Используйте функцию оценки на портале Microsoft Foundry, платформу, которая предлагает средства и функции для оценки производительности и безопасности созданных моделей искусственного интеллекта. На портале Foundry журналируйте, просматривайте и анализируйте подробные оценочные показатели.
В этой статье объясняется, как создать выполнение оценки для модели, агента или тестового набора данных с помощью встроенных метрик оценки из пользовательского интерфейса Foundry. Для повышения гибкости можно установить пользовательский поток оценки и использовать пользовательскую функцию оценки . Используйте пользовательскую функцию оценки для выполнения пакетного выполнения без оценки.
Предпосылки
- Тестовый набор данных в одном из следующих форматов: CSV или JSON Lines (JSONL).
- Подключение Azure OpenAI к развертыванию одной из этих моделей: модель GPT-3.5, модель GPT-4 или модель Davinci. Это необходимо только для оценки качества с помощью ИИ.
- Тестовый набор данных, модель или агент в одном из следующих форматов: CSV или JSON Lines (JSONL).
- Подключение Azure OpenAI. Развертывание одной из этих моделей: модель GPT-3.5, модель GPT-4 или модель Davinci. Требуется только при выполнении оценки качества с поддержкой ИИ.
Создание оценки со встроенными метриками оценки
Выполнение оценки позволяет создавать выходные данные метрик для каждой строки данных в тестовом наборе данных. Выберите одну или несколько метрик оценки, чтобы оценить выходные данные из различных аспектов. Создайте запуск оценки из страниц каталога оценок или страниц каталога моделей на портале Foundry. Мастер создания оценки поможет вам настроить запуск оценки.
На странице оценки
В левой области выберите "Создать>оценку".
В левой области выберите "Создать оценку>".
На странице каталога моделей
На странице модели или тестовой площадки агента
На странице игровой площадки для моделей или игровой площадки агента выберите >" или выберите "Метрики>.
Целевой объект оценки
При запуске оценки на странице "Оценка " выберите целевой объект оценки. Указание соответствующего целевого объекта оценки настраивает оценку для конкретной природы приложения, обеспечивая точные и соответствующие метрики. Мы поддерживаем два типа целевых показателей оценки:
- Модель. Этот выбор оценивает выходные данные, созданные выбранной моделью и определяемым пользователем запросом.
- Набор данных: выходные данные, созданные моделью, уже находятся в тестовом наборе данных.
При запуске оценки на странице "Оценка " сначала необходимо выбрать целевой объект оценки. Указав соответствующий целевой объект оценки, мы можем адаптировать оценку к определенной природе приложения, обеспечивая точность и соответствующие метрики. Мы поддерживаем три типа целевых показателей оценки:
- Модель. Этот выбор оценивает выходные данные, созданные выбранной моделью и определяемым пользователем запросом.
- Агент: этот выбор оценивает выходные данные, созданные выбранным агентом и определяемым пользователем запросом.
- Набор данных: выходные данные, созданные моделью или агентом, уже находятся в тестовом наборе данных.
Настройка тестовых данных
В мастере создания оценки выберите из предварительно созданных наборов данных или отправьте новый набор данных для оценки. Тестовый набор данных должен иметь созданные моделью выходные данные, которые будут использоваться для оценки. Предварительный просмотр тестовых данных отображается на правой панели.
Выберите существующий набор данных: можно выбрать тестовый набор данных из установленной коллекции наборов данных.
Добавьте новый набор данных: отправьте файлы из локального хранилища. Поддерживаются только форматы ФАЙЛОВ CSV и JSONL. Предварительный просмотр тестовых данных отображается на правой панели.
Выбор или создание набора данных
Если вы решили оценить модель или агент, необходимо, чтобы набор данных действовал в качестве входных данных для этих целевых объектов, чтобы ответы могли оцениваться вычислителями. На шаге набора данных можно выбрать или отправить собственный набор данных или создать искусственный набор данных.
- Добавьте новый набор данных: отправьте файлы из локального хранилища. Поддерживаются только форматы ФАЙЛОВ CSV и JSONL. Предварительный просмотр тестовых данных отображается на правой панели.
- Создание искусственного набора данных: искусственные наборы данных полезны в ситуациях, когда отсутствуют данные или не имеют доступа к данным для тестирования модели или созданного агента. При создании искусственных данных вы выбираете ресурс для создания данных, количество строк, которые вы хотите создать, и должны ввести запрос, описывающий тип данных, которые вы хотите создать. Кроме того, вы можете отправить файлы, чтобы повысить релевантность набора данных для требуемой задачи агента или модели.
Замечание
Эта функция недоступна во всех регионах. Создание искусственных данных доступно в регионах, поддерживающих API ответа. Актуальный список поддерживаемых регионов см. в статье о доступности api ответов OpenAI в Azure.
Настройка условий тестирования
Мы поддерживаем три типа метрик, курируемых корпорацией Майкрософт, для упрощения комплексной оценки приложения:
- Качество ИИ (СИ) — эти метрики оценивают общее качество и согласованность созданного содержимого. Для того чтобы запустить эти метрики, вам необходимо развертывание модели для их оценки.
- Качество ИИ (NLP): эти метрики обработки естественного языка (NLP) являются математическими, и они также оценивают общее качество созданного содержимого. Для них часто требуются данные о реальных значениях, но они не требуют развертывания модели для оценки.
- Метрики риска и безопасности: эти метрики сосредоточены на выявлении потенциальных рисков содержимого и обеспечении безопасности созданного содержимого.
Вы также можете создать пользовательские метрики и выбрать их в качестве критериев оценки на этапе установления тестовых критериев.
При добавлении критериев тестирования различные метрики будут использоваться в рамках оценки. Вы можете обратиться к таблице для полного списка метрик, для которых мы предлагаем поддержку в каждом сценарии. Дополнительные сведения о определениях метрик и их вычислении см. в разделе "Что такое оценщики?".
| Качество ИИ (СИ) | Качество ИИ (NLP) | Метрики риска и безопасности |
|---|---|---|
| Подобие, релевантность, согласованность, fluency, GPT сходства | F1 score, ROUGE score, BLEU score, GLEU score, METEOR score (оценочные метрики) | Содержимое, связанное с самостоятельной вредом, ненавистное и несправедливое содержимое, насильственное содержимое, сексуальное содержимое, защищенный материал, непрямая атака |
При выполнении оценки качества с поддержкой ИИ необходимо указать модель GPT для процесса вычисления или оценки.
Метрики качества ИИ (NLP) — это математически основанные измерения, которые оценивают производительность приложения. Они часто требуют данных истины для вычисления. ROUGE — это семейство метрик. Для вычисления показателей можно выбрать тип ROUGE. Различные типы метрик ROUGE предлагают способы оценки качества создания текста. ROUGE-N измеряет перекрытие n-граммов между кандидатом и справочными текстами.
Для оценки риска и безопасности вам не нужно организовывать развертывание. Портал Foundry предоставляет модель GPT-4, которая может генерировать оценки уровня риска контента и обоснование, чтобы позволить оценить ваше приложение на предмет потенциального вреда контента.
Замечание
Метрики риска и безопасности с поддержкой искусственного интеллекта размещаются в оценках безопасности Foundry и доступны только в следующих регионах: Восточная часть США 2, Центральная Франция, Южная Великобритания, Центральная Швеция.
Осторожность
Пользователи, которые ранее управляли развертываниями моделей и выполняли оценки с помощью, oai.azure.comа затем подключены к платформе разработчика Microsoft Foundry, имеют следующие ограничения при использовании ai.azure.com:
- Эти пользователи не могут просматривать свои оценки, созданные с помощью API OpenAI Azure. Чтобы просмотреть эти оценки, они должны вернуться в
oai.azure.com. - Эти пользователи не могут использовать API Azure OpenAI для выполнения вычислений в Foundry. Вместо этого они должны продолжать использовать
oai.azure.comдля этой задачи. Однако они могут использовать оценщики Azure OpenAI, доступные непосредственно в Foundry (ai.azure.com) в разделе создания набора данных. Параметр для точной оценки модели не поддерживается, если развертывание является миграцией из Azure OpenAI в Foundry.
Для сценария загрузки набора данных и использования собственного хранилища существует несколько требований к конфигурации:
- Проверка подлинности учетной записи должна осуществляться через Microsoft Entra ID.
- Хранилище должно быть добавлено в учетную запись. Добавление его в проект приводит к ошибкам службы.
- Пользователи должны добавить свой проект в учетную запись хранения с помощью управления доступом на портале Azure.
Дополнительные сведения о создании оценок с использованием инструментария оценивания OpenAI в хабе Azure OpenAI см. в статье Об использовании Azure OpenAI в оценке моделей Foundry.
Сопоставление данных
Сопоставление данных для оценки. Для каждой добавленной метрики необходимо указать, какие столбцы данных в наборе данных соответствуют входным данным, необходимым в оценке. Различные метрики оценки требуют различных типов входных данных для точных вычислений.
Во время оценки ответ модели оценивается по ключевым входным данным, таким как:
- Запрос: обязательный для всех метрик.
- Контекст: необязательно.
- Эталонные данные: необязательны, но требуются для оценки качества ИИ (NLP).
Эти сопоставления обеспечивают точное выравнивание данных и критериев оценки.
Сопоставление данных для оценки. Различные метрики оценки требуют различных типов входных данных для точных вычислений.
На основе созданного или отправленного набора данных мы автоматически сопоставляем эти поля набора данных с полями, присутствующих в вычислителях. Однако всегда следует дважды проверить сопоставление полей, чтобы убедиться в его точности. При необходимости можно переназначить поля.
Требования к метрику запросов и ответов
Рекомендации по конкретным требованиям сопоставления данных для каждой метрики см. в этой таблице:
| Единица измерения | Запрос | Ответ | Контекст | Земля истина |
|---|---|---|---|---|
| Обоснованность | Обязательный: Str | Обязательный: Str | Обязательный: Str | Не применяется |
| Согласованность | Обязательный: Str | Обязательный: Str | Не применяется | Не применяется |
| Беглость | Обязательный: Str | Обязательный: Str | Не применяется | Не применяется |
| Актуальность | Обязательный: Str | Обязательный: Str | Обязательный: Str | Не применяется |
| Сходство GPT | Обязательный: Str | Обязательный: Str | Не применяется | Обязательный: Str |
| Оценка F1 | Не применяется | Обязательный: Str | Не применяется | Обязательный: Str |
| Оценка BLEU | Не применяется | Обязательный: Str | Не применяется | Обязательный: Str |
| Оценка GLEU | Не применяется | Обязательный: Str | Не применяется | Обязательный: Str |
| ОЦЕНКА МЕТЕОРА | Не применяется | Обязательный: Str | Не применяется | Обязательный: Str |
| Оценка ROUGE | Не применяется | Обязательный: Str | Не применяется | Обязательный: Str |
| Контент, связанный с самоповреждением | Обязательный: Str | Обязательный: Str | Не применяется | Не применяется |
| Ненавистное и несправедливое содержимое | Обязательный: Str | Обязательный: Str | Не применяется | Не применяется |
| Насильственное содержимое | Обязательный: Str | Обязательный: Str | Не применяется | Не применяется |
| Сексуальное содержимое | Обязательный: Str | Обязательный: Str | Не применяется | Не применяется |
| Защищаемый материал | Обязательный: Str | Обязательный: Str | Не применяется | Не применяется |
| Непрямая атака | Обязательный: Str | Обязательный: Str | Не применяется | Не применяется |
- Запрос: запрос, запрашивающий конкретные сведения.
- Ответ: ответ на запрос, созданный моделью.
- Контекст: источник, на который основан ответ. (Пример: основные документы.)
- Эталонный ответ: ответ на запрос, составленный человеком, который служит истинным ответом.
Просмотр и отправка
После завершения необходимой конфигурации укажите необязательное имя для вашей оценки. Просмотрите параметры и нажмите кнопку "Отправить ", чтобы начать выполнение оценки.
После завершения всех необходимых конфигураций, можно задать название для вашей оценки. Затем можно просмотреть выполнение оценки и выбрать Отправить, чтобы отправить результаты.
Оценка модели
Чтобы создать новую оценку для выбранного развертывания модели, можно использовать модель GPT для создания примеров вопросов или выбрать из установленной коллекции наборов данных.
Настройка тестовых данных для модели
Настройте тестовый набор данных, используемый для оценки. Этот набор данных отправляется в модель для создания ответов для оценки. У вас есть два варианта настройки тестовых данных:
- Создание примера вопросов
- Использование существующего набора данных (или отправка нового набора данных)
Создание примера вопросов
Если у вас нет набора данных, который легко доступен и требуется выполнить оценку с небольшим примером, выберите развертывание модели, которую вы хотите оценить на основе выбранного раздела. Поддерживаются модели Azure OpenAI и другие открытые модели, совместимые с бессерверным развертыванием API, например с моделями семейства Meta Llama и Phi-3.
Этот раздел настраивает созданное содержимое в интересующую вас область. Запросы и ответы создаются в режиме реального времени, и их можно повторно создать по мере необходимости.
Используйте ваш набор данных
Вы также можете выбрать из установленной коллекции наборов данных или отправить новый набор данных.
Выбор метрик оценки
Чтобы настроить критерии тестирования, нажмите кнопку "Далее". При выборе условий добавляются метрики и необходимо сопоставить столбцы набора данных с необходимыми полями для оценки. Эти сопоставления обеспечивают точное выравнивание данных и критериев оценки.
Выбрав нужные критерии теста, можно просмотреть оценку, при необходимости изменить имя оценки, а затем нажмите кнопку "Отправить". Перейдите на страницу оценки, чтобы просмотреть результаты.
Замечание
Набор данных, сформированный, сохраняется в объектном хранилище проекта после создания оценочного запуска.
Просмотр и управление вычислителями в библиотеке оценщиков
Просматривайте данные и статус ваших оценщиков в библиотеке оценщиков в одном месте. Просмотр и управление инструментариями оценки, курируемыми компанией Майкрософт.
Библиотека вычислителя также включает управление версиями. При необходимости можно сравнить различные версии работы, восстановить предыдущие версии и упростить совместную работу с другими пользователями.
Чтобы использовать библиотеку оценщика на портале Foundry, зайдите на страницу Evaluation вашего проекта и выберите вкладку библиотека оценщика.
Выберите имя вычислителя, чтобы просмотреть дополнительные сведения, включая имя, описание, параметры и все связанные файлы. Ниже приведены некоторые примеры оценщиков, курируемых корпорацией Майкрософт.
- Для специализированных оценщиков производительности и качества, отобранных корпорацией Майкрософт, просмотрите подсказку для аннотирования на странице сведений. Адаптируйте эти запросы к вашему варианту использования. Измените параметры или критерии на основе данных и целей в пакете SDK для оценки ИИ Azure. Например, можно выбрать Groundedness-Evaluator и проверить файл запроса, который показывает, как мы вычисляем метрику.
- Сведения об оценках рисков и безопасности, курируемых корпорацией Майкрософт, см. в определении метрик. Например, выберите Self-Harm-Related-Content-Evaluator, чтобы узнать, что это означает, и понять, как корпорация Майкрософт определяет уровни серьезности.
Связанный контент
Дополнительные сведения об оценке создаваемых приложений ИИ: