Отправка пакетного запуска и оценка потока

2025-05-02

Это важно

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Для получения дополнительной информации см. Дополнительные условия использования для предварительных версий Microsoft Azure.

Чтобы оценить, насколько хорошо ваш поток работает с большим набором данных, вы можете выполнить пакетный запуск и использовать метод оценки в системе prompt flow.

Из этой статьи вы узнаете:

Отправка пакетного запуска и использование метода оценки
Просмотр результатов оценки и метрик
Запуск нового раунда оценки
Проверка истории выполнения пакета и сравнение метрик
Общие сведения о встроенных методах оценки
Способы повышения производительности потока

Предпосылки

Для пакетного выполнения и использования метода оценки необходимо подготовить следующее:

Тестовый набор данных для пакетного выполнения. Набор данных должен находиться в одном из следующих форматов: .csvили .tsv.jsonl. Данные также должны содержать заголовки, соответствующие входным именам потока. Если входные данные потока включают сложную структуру, например список или словарь, используйте jsonl формат для представления данных.
Доступный вычислительный сеанс для выполнения пакетного запуска. Вычислительный сеанс — это облачный ресурс, который выполняет поток и создает выходные данные. Дополнительные сведения о сеансах вычислений см. в разделе "Вычислительный сеанс".

Отправка пакетного запуска и использование метода оценки

Пакетный запуск позволяет запускать поток с большим набором данных и создавать выходные данные для каждой строки данных. Вы также можете выбрать метод оценки для сравнения выходных данных потока с определенными критериями и целями. Метод оценки — это специальный тип потока , который вычисляет метрики для выходных данных потока на основе различных аспектов. Оценочный запуск выполняется для вычисления метрик, когда он отправляется с пакетной обработкой.

Чтобы запустить пакетную обработку с оценкой, выберите кнопку Оценка — Настраиваемая оценка. Выбрав пользовательскую оценку, можно отправить пакетный запуск с методами оценки или отправить пакетный запуск без оценки для потока.

Сначала вас попросят дать вашему пакетному запуску описательное и распознаваемое имя. Вы также можете написать описание и добавить теги (пары "ключ-значение") в пакетный запуск. После завершения настройки нажмите кнопку "Далее ".

Во-вторых, необходимо выбрать или отправить набор данных, с которым вы хотите протестировать поток. Для выполнения этого пакетного выполнения также необходимо выбрать доступный вычислительный сеанс.

Поток запросов также поддерживает сопоставление входных данных с конкретным столбцом данных в наборе данных. Это означает, что столбец можно назначить определенному входу. Колонку можно сопоставить с входными данными, используя формат ${data.XXX}. Если вы хотите назначить константное значение входным данным, можно напрямую ввести это значение.

Затем на следующем шаге можно выбрать метод оценки для проверки производительности этого потока. Вы можете напрямую нажать кнопку "Далее ", чтобы пропустить этот шаг, если вы не хотите применить какой-либо метод оценки или вычислить какие-либо метрики. В противном случае, если вы хотите запустить пакетное выполнение с помощью оценки, можно выбрать один или несколько методов оценки. Оценка начинается после завершения пакетного запуска. Вы также можете запустить еще один раунд оценки после завершения пакетного запуска. Дополнительные сведения о том, как начать новый раунд оценки, см. в статье "Запуск нового раунда оценки".

В следующем разделе сопоставления входных данных необходимо указать источники входных данных, необходимые для метода оценки. Например, столбец правды земли может поступать из набора данных. По умолчанию оценка использует тот же набор данных, что и тестовый набор данных, предоставленный для тестового запуска. Однако если соответствующие метки или целевые значения истинности находятся в другом наборе данных, можно легко переключиться на этот.

Если источник данных находится из выходных данных запуска, источник указывается как ${run.output.[ OutputName]}
Если источник данных находится из тестового набора данных, источник указывается как ${data.[ ColumnName]}

Замечание

Если оценка не требует данных из набора данных, вам не нужно ссылаться на столбцы набора данных в разделе сопоставления входных данных, указывая, что выбор набора данных является необязательной конфигурацией. Выбор набора данных не влияет на результат оценки.

Если метод оценки использует большие языковые модели (LLM) для измерения производительности ответа потока, необходимо также задать подключения для узлов LLM в методах оценки.

Затем можно выбрать команду "Далее ", чтобы просмотреть параметры и выбрать " Отправить ", чтобы запустить пакетный запуск с оценкой.

Просмотр результатов оценки и метрик

После отправки можно найти отправленную пакетную команду на вкладке списка выполнения на странице потока запроса. Выберите запуск, чтобы перейти на страницу результатов выполнения.

На странице сведений о выполнении можно выбрать "Сведения" , чтобы проверить сведения об этом пакетном запуске.

Выходные данные

Базовый результат и трассировка

Сначала вас перенаправят на вкладку 'Выход', чтобы просмотреть входные и выходные данные строку за строкой. На странице вкладки вывода отображается список результатов, включая идентификатор строки, входные данные, выходные данные, состояние, системные метрики и время создания.

Для каждой строки выбор Просмотр трассировки позволяет вам наблюдать и отлаживать конкретный тестовый случай на подробной странице трассировки.

Добавьте результат оценки и трассировку

При выборе Добавить результаты оценки можно выбрать связанные итерации оценки, и в конце таблицы отображаются добавленные столбцы, которые показывают результат оценки для каждой строки данных. Для сравнения можно добавить несколько выходных данных оценки.

Последние метрики оценки отображаются на левой панели обзора .

Основные сведения

В правой части находится Обзор, предоставляющий общую информацию о запуске, такую как количество выполнений для каждой точки данных, общее число токенов и длительность пробега.

Последние агрегированные метрики запуска оценки отображаются здесь по умолчанию; вы можете выбрать опцию «Просмотр запуска оценки», чтобы перейти к просмотру самого запуска оценки.

Обзор можно развернуть и свернуть здесь, и вы можете выбрать представление полных сведений, которые будут направлять вас на вкладку "Обзор " рядом с вкладкой "Вывод", где содержатся более подробные сведения об этом выполнении.

Запуск нового раунда оценки

Если вы уже завершили пакетное выполнение, можно запустить еще один раунд оценки, чтобы отправить новый запуск оценки, чтобы вычислить метрики для выходных данных без повторного запуска потока. Это полезно и может сэкономить ваши средства на повторный запуск потока, когда:

Вы не выбрали метод оценки для расчета метрик при отправке пакетного запуска, и решили сделать это сейчас.
Вы уже использовали метод оценки для вычисления метрики. Вы можете начать еще один раунд оценки, чтобы вычислить другую метрику.
Оценка завершилась сбоем, но поток успешно создал выходные данные. Вы можете снова отправить оценку.

Перейдите на вкладку "Запуски потока команд". Затем откройте страницу деталей пакетного запуска и выберите "Оценить для начала нового раунда оценки.

После настройки конфигурации можно выбрать "Отправить" для этого нового раунда оценки. После отправки вы сможете увидеть новую запись в списке выполнения потока запроса. После завершения выполнения оценки можно проверить результат оценки на вкладке "Выходные данные" панели сведений о пакетном запуске. Чтобы просмотреть результат, необходимо выбрать новый запуск оценки.

Дополнительные сведения о метриках, вычисляемых встроенными методами оценки, см. в разделе о встроенных методах оценки.

Обзор

На вкладке "Обзор" отображаются подробные сведения о выполнении, включая свойства выполнения, входной набор данных, выходной набор данных, теги и описание.

Записи

Выбор вкладки "Журналы" позволяет просматривать журналы выполнения, которые могут быть полезны для подробной отладки ошибок выполнения. Файлы журнала можно скачать на локальный компьютер.

Снимок

На вкладке "Моментальный снимок" можно увидеть снимок состояния запуска. Вы можете просмотреть DAG вашего потока. Кроме того, вы можете клонировать его для создания нового потока. Вы также можете развернуть его в качестве сетевой конечной точки.

Проверка истории выполнения пакета и сравнение метрик

В некоторых сценариях вы изменяете поток, чтобы повысить его производительность. Вы можете отправить несколько пакетных запусков, чтобы сравнить производительность потока с различными версиями. Вы также можете сравнить метрики, вычисляемые различными методами оценки, чтобы увидеть, какой из них подходит для вашего потока.

Чтобы проверить журнал выполнения пакета потока, можно выбрать кнопку "Просмотр пакетного запуска " на странице потока. Вы увидите список пакетных запусков, отправленных для этого потока.

Чтобы проверить детали, можно выбрать каждый пакетный запуск. Можно также выбрать несколько пакетных выполнений и нажать на Визуализация результатов, чтобы сравнить метрики и результаты пакетных выполнений.

На панели "Визуализировать выходные данные" в таблице "Запуски и метрики " отображаются сведения о выбранных запусках с выделением. Другие запуски, которые принимают выходные данные выбранных запусков в качестве входных данных, также перечислены.

В таблице "Выходные данные" можно сравнить выбранные пакетные запуски по каждой строке примера. Выбрав значок визуализации глаза в таблице "Запуски и метрики", выходные данные этого запуска будут добавлены в соответствующий базовый запуск.

Общие сведения о встроенных методах оценки

В потоке запросов мы предоставляем несколько встроенных методов оценки, которые помогут оценить производительность выходных данных потока. Каждый метод оценки вычисляет различные метрики. В следующей таблице приведен список встроенных методов оценки и их описания.

Метод оценки	Метрики	Описание	Обязательное подключение	Обязательные входные данные	Значение оценки
Оценка точности классификации	Точность	Измеряет производительность системы классификации, сравнивая выходные данные с правдой.	нет	прогнозирование, земная правда	в диапазоне [0, 1].
Оценка релевантности QnA по парной оценке	Счёт, победа/поражение	Оценивает качество ответов, созданных системой ответов на вопросы. Он включает назначение показателей релевантности каждому ответу на основе того, насколько хорошо он соответствует пользовательскому вопросу, сравнивая различные ответы на базовый ответ, и агрегирование результатов для получения метрик, таких как средние показатели выигрыша и оценки релевантности.	Да	вопрос, ответ (нет оснований или контекста)	Оценка: 0-100, победа/проигрыш: 1/0
Оценка достоверности QnA	Обоснованность	Измеряет, насколько прогнозируемые ответы модели основаны на источнике входных данных. Даже если ответы LLM являются истинными, если их нельзя проверить по источнику, то это необоснованно.	Да	вопрос, ответ, контекст (без эталонной истины)	От 1 до 5, где 1 — худший, а 5 — лучший.
Оценка сходства GPT QnA	Сходство GPT	Измеряет сходство между референсными ответами пользователя и ответом, предсказанным моделью, используя модель GPT.	Да	вопрос, ответ, земная истина (контекст не нужен)	в диапазоне [0, 1].
Оценка релевантности QnA	Актуальность	Измеряет, насколько релевантны прогнозируемые ответы модели, относятся к заданным вопросам.	Да	вопрос, ответ, контекст (без эталонной истины)	От 1 до 5, где 1 — худший, а 5 — лучший.
Оценка согласованности QnA	Согласованность	Измеряет качество всех предложений в прогнозируемом ответе модели и как они соответствуют естественно.	Да	вопрос, ответ (нет оснований или контекста)	От 1 до 5, где 1 — худший, а 5 — лучший.
Оценка fluency QnA	Беглость	Измеряет, насколько грамматически и лингвистически корректен предсказанный ответ модели.	Да	вопрос, ответ (нет оснований или контекста)	от 1 до 5, где 1 — худший, а 5 — лучший
Оценка показателей QnA f1	Оценка F1	Измеряет соотношение количества общих слов между прогнозом модели и правдой земли.	нет	вопрос, ответ, земная истина (контекст не нужен)	в диапазоне [0, 1].
Оценка сходства QnA Ada	Сходство Ada	Вычисляет векторные представления на уровне предложений и документов с помощью API векторных представлений Ada для эталонных данных и предсказаний. Затем вычисляет сходство косинуса между ними (одно число с плавающей запятой)	Да	вопрос, ответ, земная истина (контекст не нужен)	в диапазоне [0, 1].

Способы повышения производительности потока

После проверки встроенных методов из оценки можно попытаться улучшить производительность потока следующим образом:

Проверьте выходные данные для отладки любого потенциального сбоя потока.
Измените поток, чтобы повысить производительность. Это включает в себя, но не ограничивается следующими:
- Измените запрос
- Изменение системного сообщения
- Изменение параметров потока
- Изменение логики потока

Дополнительные сведения о том, как создать запрос, который может достичь цели, см. в статье "Введение в проектирование запросов", "Методы разработки запросов" и "Системная платформа сообщений" и рекомендации по шаблонам для больших языковых моделей (LLMS).

В этом документе вы узнали, как отправить пакетное выполнение и использовать встроенный метод оценки для измерения качества выходных данных потока. Вы также узнали, как просмотреть результат оценки и метрики, а также как начать новый раунд оценки с другим методом или подмножеством вариантов. Мы надеемся, что этот документ поможет улучшить эффективность потока и достигать ваших целей благодаря быстродействию потока.