Как оценить созданные модели ИИ и приложения с помощью Azure AI Studio
Чтобы тщательно оценить производительность создаваемых моделей ИИ и приложений при применении к существенному набору данных, можно инициировать процесс оценки. Во время этой оценки модель или приложение тестируются с помощью заданного набора данных, а его производительность будет количественно измеряться как с математическими метриками, так и с помощью ИИ. Этот запуск оценки предоставляет подробные сведения о возможностях и ограничениях приложения.
Чтобы выполнить эту оценку, можно использовать функции оценки в Azure AI Studio, комплексную платформу, которая предлагает средства и функции для оценки производительности и безопасности модели создания искусственного интеллекта. В AI Studio вы можете записывать, просматривать и анализировать подробные метрики оценки.
Из этой статьи вы узнаете, как создать тестовое выполнение для модели, тестовый набор данных или поток со встроенными метриками оценки из пользовательского интерфейса Azure AI Studio. Для повышения гибкости можно установить пользовательский поток оценки и использовать пользовательскую функцию оценки . Кроме того, если цель заключается исключительно в проведении пакетного выполнения без какой-либо оценки, вы также можете использовать пользовательскую функцию оценки.
Необходимые компоненты
Чтобы запустить оценку с помощью метрик с помощью ИИ, необходимо подготовить следующее:
- Тестовый набор данных в одном из следующих форматов:
csv
илиjsonl
. - Подключение Azure OpenAI. Развертывание одной из этих моделей: модели GPT 3.5, GPT 4 или Davinci. Требуется только при выполнении оценки качества с поддержкой ИИ.
Создание оценки со встроенными метриками оценки
Выполнение оценки позволяет создавать выходные данные метрик для каждой строки данных в тестовом наборе данных. Вы можете выбрать одну или несколько метрик оценки, чтобы оценить выходные данные из разных аспектов. Вы можете создать запуск оценки на основе страниц оценки, каталога моделей или потоков запроса в AI Studio. Затем откроется мастер создания оценки, который поможет вам настроить выполнение оценки.
На странице оценки
В раскрывающемся меню слева выберите "Оценка>+ Создать новую оценку".
На странице каталога моделей
В раскрывающемся меню слева выберите каталог> моделей, перейдите к определенной модели>, перейдите на вкладку > benchmark Try с собственными данными. Откроется панель оценки модели для создания запуска оценки для выбранной модели.
На странице потока
В раскрывающемся меню слева выберите пункт "Оценка>автоматической оценки потока>запроса".
Целевой объект оценки
При запуске оценки на странице оценки необходимо сначала решить, что такое целевой объект оценки. Указав соответствующий целевой объект оценки, мы можем адаптировать оценку к определенной природе приложения, обеспечивая точность и соответствующие метрики. Мы поддерживаем три типа целевого объекта оценки:
- Модель и запрос. Вы хотите оценить выходные данные, созданные выбранной моделью и определяемым пользователем запросом.
- Набор данных. У вас уже есть выходные данные модели в тестовом наборе данных.
- Поток запроса: вы создали поток и хотите оценить выходные данные из потока.
Оценка потока данных или набора данных
При вводе мастера создания оценки можно указать необязательное имя для выполнения оценки. В настоящее время мы предлагаем поддержку сценария запроса и ответа, который предназначен для приложений, которые включают ответы на запросы пользователей и предоставляют ответы с контекстной информацией или без них.
При необходимости можно добавить описания и теги для оценки для улучшения организации, контекста и простоты извлечения.
Вы также можете использовать панель справки для проверки часто задаваемых вопросы и руководства по мастеру.
Если вы оцениваете поток запроса, можно выбрать поток для оценки. Если вы инициируете оценку на странице "Поток", мы автоматически выбираем поток для оценки. Если вы планируете оценить другой поток, можно выбрать другой. Важно отметить, что в потоке может быть несколько узлов, каждый из которых может иметь собственный набор вариантов. В таких случаях необходимо указать узел и варианты, которые необходимо оценить во время процесса оценки.
Настройка тестовых данных
Вы можете выбрать существующие наборы данных или передать новый набор данных специально для оценки. Тестовый набор данных должен создавать выходные данные модели для оценки, если на предыдущем шаге не выбран поток.
Выберите существующий набор данных: можно выбрать тестовый набор данных из установленной коллекции наборов данных.
Добавьте новый набор данных: вы можете отправлять файлы из локального хранилища. Мы поддерживаем
.csv
только форматы и.jsonl
форматы файлов.Сопоставление данных для потока. Если вы выбираете поток для оценки, убедитесь, что столбцы данных настроены на соответствие необходимым входным данным для выполнения пакетного выполнения, создавая выходные данные для оценки. Затем оценка будет проведена с помощью выходных данных потока. Затем настройте сопоставление данных для входных данных на следующем шаге.
Выберите метрики
Мы поддерживаем три типа метрик, курируемых корпорацией Майкрософт, для упрощения комплексной оценки приложения:
- Качество ИИ (с помощью ИИ): эти метрики оценивают общее качество и согласованность созданного содержимого. Для выполнения этих метрик требуется развертывание модели в качестве судьи.
- Качество ИИ (NLP): эти метрики NLP основаны на математических принципах, и они также оценивают общее качество созданного содержимого. Для них часто требуются данные о действительности, но для них не требуется развертывание модели в качестве судьи.
- Метрики риска и безопасности: эти метрики сосредоточены на выявлении потенциальных рисков содержимого и обеспечении безопасности созданного содержимого.
Вы можете обратиться к таблице для полного списка метрик, для которых мы предлагаем поддержку в каждом сценарии. Дополнительные сведения о определении каждой метрики и ее вычислении см. в разделе "Оценка и мониторинг метрик".
Качество ИИ (СИ) | Качество ИИ (NLP) | Метрики риска и безопасности |
---|---|---|
Подобие, релевантность, согласованность, fluency, GPT сходства | F1 score, ROUGE, score, BLEU score, GLEU score, METEOR score | Содержимое, связанное с самостоятельной вредом, ненавистное и несправедливое содержимое, насильственное содержимое, сексуальное содержимое, защищенный материал, непрямая атака |
При выполнении оценки качества ИИ необходимо указать модель GPT для процесса вычисления. Выберите подключение Azure OpenAI и развертывание с помощью GPT-3.5, GPT-4 или модели Davinci для наших вычислений.
Метрики качества ИИ (NLP) — это математически основанные измерения, которые оценивают производительность приложения. Они часто требуют данных истины для вычисления. ROUGE — это семейство метрик. Для вычисления показателей можно выбрать тип ROUGE. Различные типы метрик ROUGE предлагают способы оценки качества создания текста. ROUGE-N измеряет перекрытие n-граммов между кандидатом и справочными текстами.
Для метрик риска и безопасности вам не нужно предоставлять подключение и развертывание. Серверная служба оценки безопасности Azure AI Studio подготавливает модель GPT-4, которая может генерировать оценки серьезности содержимого и причины, чтобы вы могли оценить ваше приложение за вред содержимого.
Вы можете задать пороговое значение, чтобы вычислить частоту дефектов для метрик вреда содержимого (содержимое, связанное с самонаправным и несправедливым контентом, насильственным контентом, сексуальным контентом). Скорость дефектов вычисляется путем принятия процента экземпляров с уровнями серьезности (очень низкий, низкий, средний, высокий) над пороговым значением. По умолчанию пороговое значение устанавливается как "Средний".
Для защищенного материала и косвенной атаки скорость дефектов вычисляется путем получения процента экземпляров, в которых выходные данные являются "true" (скорость дефектов = (#trues / #instances) × 100).
Примечание.
Метрики риска и безопасности с поддержкой искусственного интеллекта размещаются в серверной службе оценки безопасности Azure AI Studio и доступны только в следующих регионах: Восточная часть США 2, Центральная Франция, Южная Великобритания, Центральная Швеция
Сопоставление данных для оценки: необходимо указать, какие столбцы данных в наборе данных соответствуют входным данным, необходимым для оценки. Различные метрики оценки требуют различных типов входных данных для точных вычислений.
Примечание.
Если вы оцениваете данные, "ответ" должен сопоставляться с столбцом ответа в наборе ${data$response}
данных. Если вы оцениваете поток, то "ответ" должен поступать из выходных данных ${run.outputs.response}
потока.
Рекомендации по конкретным требованиям сопоставления данных для каждой метрики см. в этой таблице:
Требования к метрику запросов и ответов
Метрика | Query | Response | Контекст | Земля истина |
---|---|---|---|---|
Соответствие эталонным данным | Обязательный: Str | Обязательный: Str | Обязательный: Str | Н/П |
Согласованность | Обязательный: Str | Обязательный: Str | Неприменимо | Неприменимо |
Беглость | Обязательный: Str | Обязательный: Str | Неприменимо | Неприменимо |
С сортировкой по релевантности | Обязательный: Str | Обязательный: Str | Обязательный: Str | Н/П |
Сходство GPT | Обязательный: Str | Обязательный: Str | Н/П | Обязательный: Str |
Оценка F1 | Н/П | Обязательный: Str | Н/П | Обязательный: Str |
Оценка BLEU | Н/П | Обязательный: Str | Н/П | Обязательный: Str |
Оценка GLEU | Н/П | Обязательный: Str | Н/П | Обязательный: Str |
ОЦЕНКА МЕТЕОРА | Н/П | Обязательный: Str | Н/П | Обязательный: Str |
Оценка ROUGE | Н/П | Обязательный: Str | Н/П | Обязательный: Str |
Содержимое, связанное с самостоятельной вредом | Обязательный: Str | Обязательный: Str | Неприменимо | Неприменимо |
Ненавистное и несправедливое содержимое | Обязательный: Str | Обязательный: Str | Неприменимо | Неприменимо |
Насильственное содержимое | Обязательный: Str | Обязательный: Str | Неприменимо | Неприменимо |
Сексуальное содержимое | Обязательный: Str | Обязательный: Str | Неприменимо | Неприменимо |
Защищаемый материал | Обязательный: Str | Обязательный: Str | Неприменимо | Неприменимо |
Непрямая атака | Обязательный: Str | Обязательный: Str | Неприменимо | Неприменимо |
- Запрос: запрос, запрашивающий определенные сведения.
- Ответ: ответ на запрос, созданный моделью.
- Контекст: источник, который ответ создается в отношении (т. е. документов приземления)...
- Земля истина: ответ на запрос, созданный пользователем или человеком в качестве истинного ответа.
Проверка и завершение
После завершения всех необходимых конфигураций можно просмотреть и перейти к нажатию кнопки "Отправить", чтобы отправить выполнение оценки.
Оценка модели и запроса
Чтобы создать новую оценку для развертывания выбранной модели и определенного запроса, используйте упрощенную панель оценки модели. Этот упрощенный интерфейс позволяет настраивать и инициировать оценки в одной консолидированной панели.
Основные сведения
Чтобы начать, можно настроить имя для запуска оценки. Затем выберите развертывание модели, которую вы хотите оценить. Мы поддерживаем модели Azure OpenAI и другие открытые модели, совместимые с моделью как услуга (MaaS), такие как мета-Ллома и семейства Phi-3. При необходимости можно настроить параметры модели, такие как максимальная реакция, температура и верхний P в зависимости от необходимости.
В текстовом поле "Системное сообщение" укажите запрос для вашего сценария. Дополнительные сведения о создании запроса см. в каталоге запросов. Вы можете добавить пример, чтобы отобразить нужные ответы чата. Он попытается имитировать любые ответы, добавленные здесь, чтобы убедиться, что они соответствуют правилам, которые вы указали в системном сообщении.
Настройка тестовых данных
После настройки модели и запроса настройте тестовый набор данных, который будет использоваться для оценки. Этот набор данных будет отправлен в модель для создания ответов для оценки. У вас есть три варианта настройки тестовых данных:
- Создание примера данных
- Использование существующего набора данных
- Добавление набора данных
Если у вас нет доступного набора данных и вы хотите запустить оценку с небольшим примером, можно выбрать вариант использования модели GPT для создания примеров вопросов на основе выбранного раздела. Этот раздел помогает адаптировать созданное содержимое к интересующей вас области. Запросы и ответы будут созданы в режиме реального времени, и вы можете повторно создать их по мере необходимости.
Примечание.
Созданный набор данных будет сохранен в хранилище BLOB-объектов проекта после создания оценки.
Сопоставление данных
Если вы решили использовать существующий набор данных или отправить новый набор данных, необходимо сопоставить столбцы набора данных с необходимыми полями для оценки. Во время оценки ответ модели будет оцениваться по ключевым входным данным, таким как:
- Запрос: обязательный для всех метрик
- Контекст: необязательный
- Земля истина: необязательно, требуется для метрик качества ИИ (NLP)
Эти сопоставления обеспечивают точное выравнивание данных и критериев оценки.
Выбор метрик оценки
Последний шаг — выбрать то, что вы хотите оценить. Вместо выбора отдельных метрик и необходимости ознакомиться со всеми доступными параметрами, мы упростим процесс, позволяя выбрать категории метрик, которые лучше всего соответствуют вашим потребностям. При выборе категории все соответствующие метрики в этой категории будут вычисляться на основе столбцов данных, указанных на предыдущем шаге. Выбрав категории метрик, можно выбрать "Создать", чтобы отправить выполнение оценки и перейти на страницу оценки, чтобы просмотреть результаты.
Мы поддерживаем три категории:
- Качество ИИ (с помощью ИИ): необходимо предоставить развертывание модели Azure OpenAI в качестве судьи для вычисления вспомогательных метрик ИИ.
- Качество ИИ (NLP)
- Безопасность
Качество ИИ (СИ) | Качество ИИ (NLP) | Безопасность |
---|---|---|
Заземленность (требуется контекст), релевантность (требуется контекст), Согласованность, Fluency | F1 score, ROUGE, score, BLEU score, GLEU score, METEOR score | Содержимое, связанное с самостоятельной вредом, ненавистное и несправедливое содержимое, насильственное содержимое, сексуальное содержимое, защищенный материал, непрямая атака |
Создание оценки с помощью пользовательского потока оценки
Вы можете разрабатывать собственные методы оценки:
На странице потока: в раскрывающемся меню слева выберите пункт "Оценка>пользовательской оценки потока>запроса".
Просмотр и управление вычислителями в библиотеке оценщиков
Библиотека вычислителя — это централизованное место, которое позволяет просматривать сведения и состояние оценщиков. Вы можете просматривать и управлять вычислителями майкрософт.
Совет
Вы можете использовать пользовательские вычислители с помощью пакета SDK потока запроса. Дополнительные сведения см. в статье "Оценка с помощью пакета SDK потока запросов".
Библиотека вычислителя также включает управление версиями. При необходимости можно сравнить различные версии работы, восстановить предыдущие версии и упростить совместную работу с другими пользователями.
Чтобы использовать библиотеку вычислителя в AI Studio, перейдите на страницу оценки проекта и перейдите на вкладку библиотеки вычислителя.
Чтобы просмотреть дополнительные сведения, можно выбрать имя вычислителя. Вы можете просмотреть имя, описание и параметры, а также проверить все файлы, связанные с оценщиком. Ниже приведены некоторые примеры курированных вычислителей Майкрософт:
- Для оценки производительности и качества, курируемых корпорацией Майкрософт, можно просмотреть запрос заметки на странице сведений. Эти запросы можно адаптировать к собственному варианту использования, изменив параметры или критерии в соответствии с вашими данными и целями пакета SDK для оценки ИИ Azure. Например, можно выбрать средство оценки заземления и проверить файл запроса, показывающий, как вычислить метрику.
- Для оценщиков рисков и безопасности, курируемых корпорацией Майкрософт, можно увидеть определение метрик. Например, можно выбрать средство оценки содержимого, связанного с самообслуживанием, и узнать, что это означает, и как корпорация Майкрософт определяет различные уровни серьезности для этой метрики безопасности.
Следующие шаги
Узнайте больше о том, как оценить созданные приложения ИИ:
- Оценка созданных приложений ИИ с помощью игровой площадки
- Просмотр результатов оценки
- Узнайте больше о методах устранения вреда.
- Примечание о прозрачности для оценки безопасности Azure AI Studio.