Отправка пакетного запуска и оценка потока (классическая модель)

Применяется только к:Портал Foundry (классический). Эта статья недоступна для нового портала Foundry. Дополнительные сведения о новом портале.

Примечание

Содержание в новой документации Microsoft Foundry может открываться по ссылкам в этой статье вместо документации Foundry (классической версии), которую вы просматриваете сейчас.

Предупреждение

Разработка функций потока запросов закончилась 20 апреля 2026 г. Функция будет полностью прекращена 20 апреля 2027 г. В дату выхода на пенсию, Prompt Flow переходит в режим только для чтения. Существующие потоки будут продолжать работать до этой даты.

Рекомендуемое действие: Перенесите рабочие нагрузки Prompt Flow на Microsoft Agent Framework до 20 апреля 2027 г.

Чтобы оценить, насколько хорошо выполняется ваш поток с большим набором данных, вы можете отправить пакетный запуск и использовать метод оценки в Prompt Flow.

Из этой статьи вы узнаете:

  • Отправка пакетного запуска и использование метода оценки
  • Просмотр результатов оценки и метрик
  • Запуск нового раунда оценки
  • Проверка истории выполнения пакета и сравнение метрик
  • Общие сведения о встроенных методах оценки
  • Способы повышения производительности потока

Необходимые условия

Важно

Эта статья предоставляет устаревшую поддержку для проектов на основе концентраторов. Он не будет работать для проектов Foundry. Узнайте , какой у меня тип проекта?

примечание о совместимости SDK. Для примеров кода требуется определенная версия пакета SDK для Foundry Microsoft. При возникновении проблем совместимости рассмотрите возможность миграции из концентратора в проект Foundry.

Для пакетного выполнения и использования метода оценки необходимо подготовить следующее:

  • Тестовый набор данных для пакетного выполнения. Набор данных должен находиться в одном из следующих форматов: .csvили .tsv.jsonl. Данные также должны содержать заголовки, соответствующие входным именам потока. Если входные данные потока включают сложную структуру, например список или словарь, используйте jsonl формат для представления данных.
  • Доступный вычислительный сеанс для выполнения пакетного запуска. Вычислительный сеанс — это облачный ресурс, который выполняет поток и создает выходные данные. Дополнительные сведения о сеансах вычислений см. в разделе "Вычислительный сеанс".

Отправка пакетного запуска и использование метода оценки

Пакетный запуск позволяет запускать поток с большим набором данных и создавать выходные данные для каждой строки данных. Вы также можете выбрать метод оценки для сравнения выходных данных потока с определенными критериями и целями. Метод оценки — это специальный тип потока , который вычисляет метрики для выходных данных потока на основе различных аспектов. Запуск оценки выполняется для вычисления метрик при пакетной обработке.

Чтобы начать пакетный запуск с оценкой, выберите кнопку ОценкаНастраиваемая оценка. Выбрав пользовательскую оценку, можно отправить пакетный запуск с методами оценки или отправить пакетный запуск без оценки для потока.

На этом снимке экрана показана кнопка запуска пакетного выполнения и оценки.

Во-первых, вам будет предложено предоставить пакетному запуску описательное и распознаваемое имя. Вы также можете написать описание и добавить теги (пары "ключ-значение") в пакетный запуск. После завершения настройки нажмите кнопку "Далее ".

Снимок экрана: базовый параметр пользовательской оценки

Во-вторых, необходимо выбрать или отправить набор данных, с которым вы хотите протестировать поток. Для выполнения этого пакетного выполнения также необходимо выбрать доступный вычислительный сеанс.

Поток запросов также поддерживает сопоставление входных данных потока с определенным столбцом данных в наборе данных. Это означает, что столбец можно назначить определенному входу. Столбец можно назначить входным данным, ссылаясь на ${data.XXX} формат. Если вы хотите назначить константное значение входным данным, можно напрямую ввести это значение.

Снимок экрана: параметр пакетного запуска пользовательской оценки

Затем на следующем шаге можно выбрать метод оценки для проверки производительности этого потока. Вы можете напрямую нажать кнопку "Далее ", чтобы пропустить этот шаг, если вы не хотите применить какой-либо метод оценки или вычислить какие-либо метрики. В противном случае, если вы хотите запустить пакетное выполнение с помощью оценки, можно выбрать один или несколько методов оценки. Оценка начинается после завершения пакетного запуска. Вы также можете запустить еще один раунд оценки после завершения пакетного запуска. Дополнительные сведения о том, как начать новый раунд оценки, см. в статье "Запуск нового раунда оценки".

На этом снимка экрана показано, как выбрать методы оценки.

В следующем разделе сопоставления входных данных необходимо указать источники входных данных, необходимые для метода оценки. Например, столбец эталонных данных может происходить из набора данных. По умолчанию оценка использует тот же набор данных, что и тестовый набор данных, предоставленный для тестового запуска. Однако если соответствующие метки или целевые истинные значения находятся в другом наборе данных, вы можете легко переключиться на него.

  • Если источник данных берётся из выходных данных запуска, то он указывается как ${run.output.[OutputName]}
  • Если источник данных находится из тестового набора данных, источник указывается как ${data.[ ColumnName]}

Снимок экрана: настройка параметров оценки, включая сопоставление входных данных и подключение.

Примечание

Если оценка не требует данных из набора данных, вам не нужно ссылаться на столбцы набора данных в разделе сопоставления входных данных, указывая, что выбор набора данных является необязательной конфигурацией. Выбор набора данных не влияет на результат оценки.

Если метод оценки использует большие языковые модели (LLM) для измерения производительности ответа потока, необходимо также задать подключения для узлов LLM в методах оценки.

Затем можно выбрать команду "Далее ", чтобы просмотреть параметры и выбрать " Отправить ", чтобы запустить пакетный запуск с оценкой.

Просмотр результатов оценки и метрик

После отправки можно найти отправленную пакетную команду на вкладке списка выполнения на странице потока запроса. Выберите запуск, чтобы перейти на страницу результатов выполнения.

На странице сведений о выполнении можно выбрать "Сведения" , чтобы проверить сведения об этом пакетном запуске.

Выход

Базовый результат и отслеживание

Сначала вас направят на вкладку "Выход", чтобы последовательно просмотреть входные и выходные данные построчно. На странице вкладки вывода отображается список результатов, включая идентификатор строки, входные данные, выходные данные, состояние, системные метрики и время создания.

Трассировка отключена по умолчанию. Чтобы включить трассировку, вам нужно задать переменную среды PF_DISABLE_TRACING значением false. Одним из способов этого является добавление следующего элемента в узел Python:

import os
os.environ["PF_DISABLE_TRACING"] = "false"

Для каждой строки выбор Просмотреть трассировку позволяет наблюдать и отлаживать конкретный тестовый случай на его детализированной странице трассировки.

Снимок экрана: выходные данные пакетного запуска.

 Снимок экрана сведений о трассировке.

Добавление результата оценки и трассировки

При выборе Добавить выходные данные оценки вы можете выбрать связанные запуски оценки, и в конце таблицы вы увидите добавленные столбцы, показывающие результат оценки для каждой строки данных. Для сравнения можно добавить несколько выходных данных оценки.

Снимок экрана выходных данных пакетного выполнения для добавления результатов оценки.

Последние метрики оценки отображаются на левой панели обзора .

Основные сведения

В правой части раздела "Обзор" представлены общие сведения о запуске, такие как количество выполнений на одну точку данных, общее число маркеров и продолжительность выполнения.

Последние агрегированные метрики оценочного запуска отображаются здесь по умолчанию. Вы можете выбрать «Просмотр выполнения оценки», чтобы перейти непосредственно к просмотру этого выполнения.

Снимок экрана: общие сведения о пакетном запуске на странице выходных данных.

Вы можете развернуть или свернуть обзор здесь. Чтобы просмотреть более подробные сведения об этом запуске, выберите "Просмотреть полную информацию ", чтобы перейти на вкладку "Обзор " рядом с вкладкой "Вывод".

Запуск нового раунда оценки

Если вы уже завершили пакетное выполнение, можно запустить еще один раунд оценки, чтобы отправить новый запуск оценки, чтобы вычислить метрики для выходных данных без повторного запуска потока. Это полезно и может сэкономить ваши средства при повторном запуске потока, когда:

  • Вы не выбрали метод оценки для вычисления метрик при отправке пакетной обработки и решили сделать это сейчас.
  • Вы уже использовали метод оценки для вычисления метрики. Вы можете начать еще один раунд оценки, чтобы вычислить другую метрику.
  • Ваш тестовый запуск завершился неудачей, но процесс успешно создал выходные данные. Вы можете снова отправить оценку.

Перейдите на вкладку Запуски потока задач. Затем перейдите на страницу сведений о пакетном запуске и выберите Оценить, чтобы начать другой раунд оценки.

Снимок экрана: запуск новой оценки на основе пакетного выполнения.

После настройки конфигурации можно выбрать "Отправить" для этого нового раунда оценки. После отправки вы сможете увидеть новую запись в списке выполнения потока запроса. После завершения выполнения оценки можно проверить результат оценки на вкладке "Выходные данные" панели сведений о пакетном запуске. Чтобы просмотреть результат, необходимо выбрать новый запуск оценки.

Дополнительные сведения о метриках, вычисляемых встроенными методами оценки, см. в разделе о встроенных методах оценки.

Обзор

На вкладке "Обзор" отображаются подробные сведения о выполнении, включая свойства выполнения, входной набор данных, выходной набор данных, теги и описание.

Логи

Выбор вкладки "Журналы" позволяет просматривать журналы выполнения, которые могут быть полезны для подробной отладки ошибок выполнения. Файлы журнала можно скачать на локальный компьютер.

Снимок

На вкладке "Моментальный снимок" отображается моментальный снимок запуска. Вы можете просмотреть DAG потока. Кроме того, вы можете клонировать его для создания нового потока. Вы также можете развернуть его в качестве сетевой конечной точки.

Снимок экрана: моментальный снимок пакетного запуска.

Проверка истории выполнения пакета и сравнение метрик

В некоторых сценариях вы изменяете поток, чтобы повысить его производительность. Вы можете отправить несколько пакетных запусков, чтобы сравнить производительность потока с различными версиями. Вы также можете сравнить метрики, вычисляемые различными методами оценки, чтобы увидеть, какой из них подходит для вашего потока.

Чтобы проверить журнал выполнения пакета потока, можно выбрать кнопку "Просмотр пакетного запуска " на странице потока. Вы увидите список пакетных запусков, отправленных для этого потока.

На этом снимке экрана показана кнопка визуализации выходных данных на странице списка выполнения.

Для проверки сведений можно выбрать каждый пакетный запуск. Можно также выбрать несколько пакетных запусков и нажать на Визуализация выходных данных, чтобы сравнить метрики и выходные данные этих запусков.

На панели "Визуализировать выходные данные" в таблице "Запуски и метрики " отображаются сведения о выбранных запусках с выделением. Другие запуски, которые принимают выходные данные выбранных запусков в качестве входных данных, также перечислены.

В таблице "Выходные данные" можно сравнить выбранные пакетные запуски по каждой строке образца. Выбрав значок визуализации глаза в таблице "Запуски и метрики", выходные данные этого запуска будут добавлены в соответствующий базовый запуск.

Общие сведения о встроенных методах оценки

В системе потока запросов мы предоставляем несколько встроенных методов оценки, которые помогут вам измерить производительность результатов вашего потока. Каждый метод оценки вычисляет различные метрики. В следующей таблице приведен список встроенных методов оценки и их описания.

Метод оценки Метрики Описание Обязательное подключение Обязательные входные данные Балльное значение
Оценка точности классификации Точность Измеряет производительность системы классификации, сравнивая выходные данные с правдой. Нет прогнозирование, земная правда в диапазоне [0, 1].
Оценка релевантности QnA по парной оценке Оценка, победа и потеря Оценивает качество ответов, созданных системой ответов на вопросы. Он включает назначение показателей релевантности каждому ответу на основе того, насколько хорошо он соответствует пользовательскому вопросу, сравнивая различные ответы на базовый ответ, и агрегирование результатов для получения метрик, таких как средние показатели выигрыша и оценки релевантности. Да вопрос, ответ (нет исходной информации или контекста) Оценка: 0-100, победа/проигрыш: 1/0
Оценка достоверности QnA Заземленность Измеряет, насколько прогнозируемые ответы модели основываются на источнике входных данных. Даже если ответы LLM являются истинными, но не проверяются по источнику, то они необоснованные. Да вопрос, ответ, контекст (без достоверного источника) От 1 до 5, где 1 — это худший, а 5 — лучший.
Оценка сходства QnA GPT Сходство GPT Измеряет сходство между истинными ответами, предоставленными пользователем, и ответом, прогнозируемым моделью с использованием GPT. Да вопрос, ответ, земная истина (контекст не нужен) в диапазоне [0, 1].
Оценка релевантности QnA Актуальность Измеряет, насколько соответствуют задаваемым вопросам прогнозируемые моделью ответы. Да вопрос, ответ, контекст (без достоверного источника) От 1 до 5, где 1 — это худший, а 5 — лучший.
Оценка согласованности системы QnA Согласованность Измеряет качество всех предложений в предсказанном ответе модели и то, насколько естественно они сочетаются друг с другом. Да вопрос, ответ (нет исходной информации или контекста) От 1 до 5, где 1 — это худший, а 5 — лучший.
Оценка беглости QnA Плавность Измеряет, насколько грамматически и лингвистически правильным является прогнозируемый ответ модели. Да вопрос, ответ (нет исходной информации или контекста) от 1 до 5, где 1 — худший, а 5 — лучший
Оценка показателей QnA f1 Оценка F1 Измеряет долю общих слов между прогнозом модели и эталонной истиной. Нет вопрос, ответ, земная истина (контекст не нужен) в диапазоне [0, 1].
Оценка сходства QnA Ada Сходство Ada Вычисляет внедрения на уровне предложения и документа с помощью API для внедрений Ada как для эталонных данных, так и для прогнозов. Затем вычисляет сходство косинуса между ними (одно число с плавающей запятой) Да вопрос, ответ, земная истина (контекст не нужен) в диапазоне [0, 1].

Способы повышения производительности потока

После проверки встроенных методов из оценки можно попытаться улучшить производительность потока следующим образом:

  • Проверьте выходные данные для отладки любого потенциального сбоя потока.
  • Измените поток, чтобы повысить производительность. Это включает в себя, но не ограничивается следующими:
    • Измените запрос
    • Изменение системного сообщения
    • Изменение параметров потока
    • Изменение логики потока

Дополнительные сведения о том, как создать запрос, который может достичь цели, см. в статье "Введение в проектирование запросов", "Методы разработки запросов" и "Системная платформа сообщений" и рекомендации по шаблонам для больших языковых моделей (LLMS).

В этом документе вы изучили, как отправить пакетное задание и использовать встроенный метод оценки для измерения качества результатов потока. Вы также узнали, как просмотреть результат оценки и метрики, а также как начать новый раунд оценки с другим методом или подмножеством вариантов. Мы надеемся, что этот документ поможет улучшить производительность рабочего процесса и достичь ваших целей с помощью оперативного потока.

Дальнейшие действия