Поделиться через


Оценка моделей и приложений генерированных ИИ с помощью Microsoft Foundry

Замечание

Этот документ относится к порталу Microsoft Foundry (классическая модель).

Замечание

Этот документ относится к порталу Microsoft Foundry (new).

Чтобы тщательно оценить производительность создаваемых моделей ИИ и приложений в значительном наборе данных, инициируйте процесс оценки. Во время этой оценки модель или приложение тестируются с заданным набором данных, а его производительность измеряется с помощью математических метрик и метрик с поддержкой ИИ. Этот цикл оценки предоставляет исчерпывающую информацию о возможностях и ограничениях приложения.

Используйте функцию оценки на портале Microsoft Foundry, платформу, которая предлагает средства и функции для оценки производительности и безопасности созданных моделей искусственного интеллекта. На портале Foundry журналируйте, просматривайте и анализируйте подробные оценочные показатели.

В этой статье объясняется, как создать выполнение оценки для модели, агента или тестового набора данных с помощью встроенных метрик оценки из пользовательского интерфейса Foundry. Для повышения гибкости можно установить пользовательский поток оценки и использовать пользовательскую функцию оценки . Используйте пользовательскую функцию оценки для выполнения пакетного выполнения без оценки.

Предпосылки

  • Тестовый набор данных в одном из следующих форматов: CSV или JSON Lines (JSONL).
  • Подключение Azure OpenAI к развертыванию одной из этих моделей: модель GPT-3.5, модель GPT-4 или модель Davinci. Это необходимо только для оценки качества с помощью ИИ.
  • Тестовый набор данных, модель или агент в одном из следующих форматов: CSV или JSON Lines (JSONL).
  • Подключение Azure OpenAI. Развертывание одной из этих моделей: модель GPT-3.5, модель GPT-4 или модель Davinci. Требуется только при выполнении оценки качества с поддержкой ИИ.

Создание оценки со встроенными метриками оценки

Выполнение оценки позволяет создавать выходные данные метрик для каждой строки данных в тестовом наборе данных. Выберите одну или несколько метрик оценки, чтобы оценить выходные данные из различных аспектов. Создайте запуск оценки из страниц каталога оценок или страниц каталога моделей на портале Foundry. Мастер создания оценки поможет вам настроить запуск оценки.

На странице оценки

В левой области выберите "Создать>оценку".

В левой области выберите "Создать оценку>".

На странице каталога моделей

  1. В левой области выберите каталог моделей.

  2. Перейдите к модели.

  3. Перейдите на вкладку "Тесты".

  4. Выберите "Попробовать с собственными данными". Этот вариант открывает панель оценки модели, где можно провести оценку для выбранной модели.

    Снимок экрана: кнопка

На странице модели или тестовой площадки агента

На странице игровой площадки для моделей или игровой площадки агента выберите >" или выберите "Метрики>.

Целевой объект оценки

При запуске оценки на странице "Оценка " выберите целевой объект оценки. Указание соответствующего целевого объекта оценки настраивает оценку для конкретной природы приложения, обеспечивая точные и соответствующие метрики. Мы поддерживаем два типа целевых показателей оценки:

  • Модель. Этот выбор оценивает выходные данные, созданные выбранной моделью и определяемым пользователем запросом.
  • Набор данных: выходные данные, созданные моделью, уже находятся в тестовом наборе данных.

При запуске оценки на странице "Оценка " сначала необходимо выбрать целевой объект оценки. Указав соответствующий целевой объект оценки, мы можем адаптировать оценку к определенной природе приложения, обеспечивая точность и соответствующие метрики. Мы поддерживаем три типа целевых показателей оценки:

  • Модель. Этот выбор оценивает выходные данные, созданные выбранной моделью и определяемым пользователем запросом.
  • Агент: этот выбор оценивает выходные данные, созданные выбранным агентом и определяемым пользователем запросом.
  • Набор данных: выходные данные, созданные моделью или агентом, уже находятся в тестовом наборе данных.

Настройка тестовых данных

В мастере создания оценки выберите из предварительно созданных наборов данных или отправьте новый набор данных для оценки. Тестовый набор данных должен иметь созданные моделью выходные данные, которые будут использоваться для оценки. Предварительный просмотр тестовых данных отображается на правой панели.

  • Выберите существующий набор данных: можно выбрать тестовый набор данных из установленной коллекции наборов данных.

    Снимок экрана: параметр выбора тестовых данных при создании новой оценки.

  • Добавьте новый набор данных: отправьте файлы из локального хранилища. Поддерживаются только форматы ФАЙЛОВ CSV и JSONL. Предварительный просмотр тестовых данных отображается на правой панели.

    Снимок экрана: параметр отправки файла, который можно использовать при создании новой оценки.

Выбор или создание набора данных

Если вы решили оценить модель или агент, необходимо, чтобы набор данных действовал в качестве входных данных для этих целевых объектов, чтобы ответы могли оцениваться вычислителями. На шаге набора данных можно выбрать или отправить собственный набор данных или создать искусственный набор данных.

  • Добавьте новый набор данных: отправьте файлы из локального хранилища. Поддерживаются только форматы ФАЙЛОВ CSV и JSONL. Предварительный просмотр тестовых данных отображается на правой панели.
  • Создание искусственного набора данных: искусственные наборы данных полезны в ситуациях, когда отсутствуют данные или не имеют доступа к данным для тестирования модели или созданного агента. При создании искусственных данных вы выбираете ресурс для создания данных, количество строк, которые вы хотите создать, и должны ввести запрос, описывающий тип данных, которые вы хотите создать. Кроме того, вы можете отправить файлы, чтобы повысить релевантность набора данных для требуемой задачи агента или модели.

Замечание

Эта функция недоступна во всех регионах. Создание искусственных данных доступно в регионах, поддерживающих API ответа. Актуальный список поддерживаемых регионов см. в статье о доступности api ответов OpenAI в Azure.

Настройка условий тестирования

Мы поддерживаем три типа метрик, курируемых корпорацией Майкрософт, для упрощения комплексной оценки приложения:

  • Качество ИИ (СИ) — эти метрики оценивают общее качество и согласованность созданного содержимого. Для того чтобы запустить эти метрики, вам необходимо развертывание модели для их оценки.
  • Качество ИИ (NLP): эти метрики обработки естественного языка (NLP) являются математическими, и они также оценивают общее качество созданного содержимого. Для них часто требуются данные о реальных значениях, но они не требуют развертывания модели для оценки.
  • Метрики риска и безопасности: эти метрики сосредоточены на выявлении потенциальных рисков содержимого и обеспечении безопасности созданного содержимого.

Вы также можете создать пользовательские метрики и выбрать их в качестве критериев оценки на этапе установления тестовых критериев.

При добавлении критериев тестирования различные метрики будут использоваться в рамках оценки. Вы можете обратиться к таблице для полного списка метрик, для которых мы предлагаем поддержку в каждом сценарии. Дополнительные сведения о определениях метрик и их вычислении см. в разделе "Что такое оценщики?".

Качество ИИ (СИ) Качество ИИ (NLP) Метрики риска и безопасности
Подобие, релевантность, согласованность, fluency, GPT сходства F1 score, ROUGE score, BLEU score, GLEU score, METEOR score (оценочные метрики) Содержимое, связанное с самостоятельной вредом, ненавистное и несправедливое содержимое, насильственное содержимое, сексуальное содержимое, защищенный материал, непрямая атака

При выполнении оценки качества с поддержкой ИИ необходимо указать модель GPT для процесса вычисления или оценки.

Снимок экрана, на котором показана оценочная шкала Лайкерта с метриками качества ИИ (искусственный интеллект), перечисленными в предустановках.

Метрики качества ИИ (NLP) — это математически основанные измерения, которые оценивают производительность приложения. Они часто требуют данных истины для вычисления. ROUGE — это семейство метрик. Для вычисления показателей можно выбрать тип ROUGE. Различные типы метрик ROUGE предлагают способы оценки качества создания текста. ROUGE-N измеряет перекрытие n-граммов между кандидатом и справочными текстами.

Снимок экрана: сходство текста с метриками качества ИИ (NLP), перечисленными в предустановках.

Для оценки риска и безопасности вам не нужно организовывать развертывание. Портал Foundry предоставляет модель GPT-4, которая может генерировать оценки уровня риска контента и обоснование, чтобы позволить оценить ваше приложение на предмет потенциального вреда контента.

Замечание

Метрики риска и безопасности с поддержкой искусственного интеллекта размещаются в оценках безопасности Foundry и доступны только в следующих регионах: Восточная часть США 2, Центральная Франция, Южная Великобритания, Центральная Швеция.

Снимок экрана, на котором показана метрика Насильственного содержимого, которая является одной из метрик риска и безопасности.

Осторожность

Пользователи, которые ранее управляли развертываниями моделей и выполняли оценки с помощью, oai.azure.comа затем подключены к платформе разработчика Microsoft Foundry, имеют следующие ограничения при использовании ai.azure.com:

  • Эти пользователи не могут просматривать свои оценки, созданные с помощью API OpenAI Azure. Чтобы просмотреть эти оценки, они должны вернуться в oai.azure.com.
  • Эти пользователи не могут использовать API Azure OpenAI для выполнения вычислений в Foundry. Вместо этого они должны продолжать использовать oai.azure.com для этой задачи. Однако они могут использовать оценщики Azure OpenAI, доступные непосредственно в Foundry (ai.azure.com) в разделе создания набора данных. Параметр для точной оценки модели не поддерживается, если развертывание является миграцией из Azure OpenAI в Foundry.

Для сценария загрузки набора данных и использования собственного хранилища существует несколько требований к конфигурации:

  • Проверка подлинности учетной записи должна осуществляться через Microsoft Entra ID.
  • Хранилище должно быть добавлено в учетную запись. Добавление его в проект приводит к ошибкам службы.
  • Пользователи должны добавить свой проект в учетную запись хранения с помощью управления доступом на портале Azure.

Дополнительные сведения о создании оценок с использованием инструментария оценивания OpenAI в хабе Azure OpenAI см. в статье Об использовании Azure OpenAI в оценке моделей Foundry.

Сопоставление данных

Сопоставление данных для оценки. Для каждой добавленной метрики необходимо указать, какие столбцы данных в наборе данных соответствуют входным данным, необходимым в оценке. Различные метрики оценки требуют различных типов входных данных для точных вычислений.

Во время оценки ответ модели оценивается по ключевым входным данным, таким как:

  • Запрос: обязательный для всех метрик.
  • Контекст: необязательно.
  • Эталонные данные: необязательны, но требуются для оценки качества ИИ (NLP).

Эти сопоставления обеспечивают точное выравнивание данных и критериев оценки.

Снимок экрана, отображающий сопоставление запроса, контекста и эталона с входным данным для оценки.

Сопоставление данных для оценки. Различные метрики оценки требуют различных типов входных данных для точных вычислений.

На основе созданного или отправленного набора данных мы автоматически сопоставляем эти поля набора данных с полями, присутствующих в вычислителях. Однако всегда следует дважды проверить сопоставление полей, чтобы убедиться в его точности. При необходимости можно переназначить поля.

Требования к метрику запросов и ответов

Рекомендации по конкретным требованиям сопоставления данных для каждой метрики см. в этой таблице:

Единица измерения Запрос Ответ Контекст Земля истина
Обоснованность Обязательный: Str Обязательный: Str Обязательный: Str Не применяется
Согласованность Обязательный: Str Обязательный: Str Не применяется Не применяется
Беглость Обязательный: Str Обязательный: Str Не применяется Не применяется
Актуальность Обязательный: Str Обязательный: Str Обязательный: Str Не применяется
Сходство GPT Обязательный: Str Обязательный: Str Не применяется Обязательный: Str
Оценка F1 Не применяется Обязательный: Str Не применяется Обязательный: Str
Оценка BLEU Не применяется Обязательный: Str Не применяется Обязательный: Str
Оценка GLEU Не применяется Обязательный: Str Не применяется Обязательный: Str
ОЦЕНКА МЕТЕОРА Не применяется Обязательный: Str Не применяется Обязательный: Str
Оценка ROUGE Не применяется Обязательный: Str Не применяется Обязательный: Str
Контент, связанный с самоповреждением Обязательный: Str Обязательный: Str Не применяется Не применяется
Ненавистное и несправедливое содержимое Обязательный: Str Обязательный: Str Не применяется Не применяется
Насильственное содержимое Обязательный: Str Обязательный: Str Не применяется Не применяется
Сексуальное содержимое Обязательный: Str Обязательный: Str Не применяется Не применяется
Защищаемый материал Обязательный: Str Обязательный: Str Не применяется Не применяется
Непрямая атака Обязательный: Str Обязательный: Str Не применяется Не применяется
  • Запрос: запрос, запрашивающий конкретные сведения.
  • Ответ: ответ на запрос, созданный моделью.
  • Контекст: источник, на который основан ответ. (Пример: основные документы.)
  • Эталонный ответ: ответ на запрос, составленный человеком, который служит истинным ответом.

Просмотр и отправка

После завершения необходимой конфигурации укажите необязательное имя для вашей оценки. Просмотрите параметры и нажмите кнопку "Отправить ", чтобы начать выполнение оценки.

После завершения всех необходимых конфигураций, можно задать название для вашей оценки. Затем можно просмотреть выполнение оценки и выбрать Отправить, чтобы отправить результаты.

Оценка модели

Чтобы создать новую оценку для выбранного развертывания модели, можно использовать модель GPT для создания примеров вопросов или выбрать из установленной коллекции наборов данных.

Настройка тестовых данных для модели

Настройте тестовый набор данных, используемый для оценки. Этот набор данных отправляется в модель для создания ответов для оценки. У вас есть два варианта настройки тестовых данных:

  • Создание примера вопросов
  • Использование существующего набора данных (или отправка нового набора данных)
Создание примера вопросов

Если у вас нет набора данных, который легко доступен и требуется выполнить оценку с небольшим примером, выберите развертывание модели, которую вы хотите оценить на основе выбранного раздела. Поддерживаются модели Azure OpenAI и другие открытые модели, совместимые с бессерверным развертыванием API, например с моделями семейства Meta Llama и Phi-3.

Этот раздел настраивает созданное содержимое в интересующую вас область. Запросы и ответы создаются в режиме реального времени, и их можно повторно создать по мере необходимости.

Используйте ваш набор данных

Вы также можете выбрать из установленной коллекции наборов данных или отправить новый набор данных.

Снимок экрана: выбор источника данных и выделения с помощью существующего набора данных.

Выбор метрик оценки

Чтобы настроить критерии тестирования, нажмите кнопку "Далее". При выборе условий добавляются метрики и необходимо сопоставить столбцы набора данных с необходимыми полями для оценки. Эти сопоставления обеспечивают точное выравнивание данных и критериев оценки.

Выбрав нужные критерии теста, можно просмотреть оценку, при необходимости изменить имя оценки, а затем нажмите кнопку "Отправить". Перейдите на страницу оценки, чтобы просмотреть результаты.

Замечание

Набор данных, сформированный, сохраняется в объектном хранилище проекта после создания оценочного запуска.

Просмотр и управление вычислителями в библиотеке оценщиков

Просматривайте данные и статус ваших оценщиков в библиотеке оценщиков в одном месте. Просмотр и управление инструментариями оценки, курируемыми компанией Майкрософт.

Библиотека вычислителя также включает управление версиями. При необходимости можно сравнить различные версии работы, восстановить предыдущие версии и упростить совместную работу с другими пользователями.

Чтобы использовать библиотеку оценщика на портале Foundry, зайдите на страницу Evaluation вашего проекта и выберите вкладку библиотека оценщика.

Выберите имя вычислителя, чтобы просмотреть дополнительные сведения, включая имя, описание, параметры и все связанные файлы. Ниже приведены некоторые примеры оценщиков, курируемых корпорацией Майкрософт.

  • Для специализированных оценщиков производительности и качества, отобранных корпорацией Майкрософт, просмотрите подсказку для аннотирования на странице сведений. Адаптируйте эти запросы к вашему варианту использования. Измените параметры или критерии на основе данных и целей в пакете SDK для оценки ИИ Azure. Например, можно выбрать Groundedness-Evaluator и проверить файл запроса, который показывает, как мы вычисляем метрику.
  • Сведения об оценках рисков и безопасности, курируемых корпорацией Майкрософт, см. в определении метрик. Например, выберите Self-Harm-Related-Content-Evaluator, чтобы узнать, что это означает, и понять, как корпорация Майкрософт определяет уровни серьезности.

Дополнительные сведения об оценке создаваемых приложений ИИ: