Отправка пакетного запуска и оценка потока
Внимание
Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.
Чтобы оценить, насколько хорошо выполняется поток с большим набором данных, можно отправить пакетный запуск и использовать метод оценки в потоке запросов.
Из этой статьи вы узнаете:
- Отправка пакетного запуска и использование метода оценки
- Просмотр результатов оценки и метрик
- Запуск нового раунда оценки
- Проверка журнала выполнения пакетной службы и сравнение метрик
- Общие сведения о встроенных методах оценки
- Способы повышения производительности потока
Необходимые компоненты
Для пакетного выполнения и использования метода оценки необходимо подготовить следующее:
- Тестовый набор данных для пакетного выполнения. Набор данных должен находиться в одном из следующих форматов:
.csv
или.tsv
.jsonl
. Данные также должны содержать заголовки, соответствующие входным именам потока. Если входные данные потока включают сложную структуру, например список или словарь, используйтеjsonl
формат для представления данных. - Доступный вычислительный сеанс для выполнения пакетного запуска. Вычислительный сеанс — это облачный ресурс, который выполняет поток и создает выходные данные. Дополнительные сведения о сеансах вычислений см. в разделе "Вычислительный сеанс".
Отправка пакетного запуска и использование метода оценки
Пакетный запуск позволяет запускать поток с большим набором данных и создавать выходные данные для каждой строки данных. Вы также можете выбрать метод оценки для сравнения выходных данных потока с определенными критериями и целями. Метод оценки — это специальный тип потока , который вычисляет метрики для выходных данных потока на основе различных аспектов. Выполнение оценки выполняется для вычисления метрик при отправке с помощью пакетного запуска.
Чтобы запустить пакетный запуск с помощью оценки, нажмите кнопку "Оценка " — настраиваемая оценка. Выбрав пользовательскую оценку, можно отправить пакетный запуск с методами оценки или отправить пакетный запуск без оценки для потока.
Во-первых, вам будет предложено предоставить пакетному запуску описательное и распознаваемое имя. Вы также можете написать описание и добавить теги (пары "ключ-значение") в пакетный запуск. После завершения настройки нажмите кнопку "Далее ".
Во-вторых, необходимо выбрать или отправить набор данных, с которым вы хотите протестировать поток. Для выполнения этого пакетного выполнения также необходимо выбрать доступный вычислительный сеанс.
Поток запросов также поддерживает сопоставление входных данных потока с определенным столбцом данных в наборе данных. Это означает, что столбец можно назначить определенному входу. Столбец можно назначить входным данным, ссылаясь на ${data.XXX}
формат. Если вы хотите назначить константное значение входным данным, можно напрямую ввести это значение.
Затем на следующем шаге можно выбрать метод оценки для проверки производительности этого потока. Вы можете напрямую нажать кнопку "Далее ", чтобы пропустить этот шаг, если вы не хотите применить какой-либо метод оценки или вычислить какие-либо метрики. В противном случае, если вы хотите запустить пакетное выполнение с помощью оценки, можно выбрать один или несколько методов оценки. Оценка начинается после завершения пакетного запуска. Вы также можете запустить еще один раунд оценки после завершения пакетного запуска. Дополнительные сведения о том, как начать новый раунд оценки, см. в статье "Запуск нового раунда оценки".
В следующем разделе сопоставления входных данных необходимо указать источники входных данных, необходимые для метода оценки. Например, столбец правды земли может поступать из набора данных. По умолчанию оценка использует тот же набор данных, что и тестовый набор данных, предоставленный для тестового запуска. Однако если соответствующие метки или целевые значения правды находятся в другом наборе данных, можно легко переключиться на этот.
- Если источник данных находится из выходных данных запуска, источник указывается как ${run.output.[ OutputName]}
- Если источник данных находится из тестового набора данных, источник указывается как ${data.[ ColumnName]}
Примечание.
Если оценка не требует данных из набора данных, вам не нужно ссылаться на столбцы набора данных в разделе сопоставления входных данных, указывая, что выбор набора данных является необязательной конфигурацией. Выбор набора данных не влияет на результат оценки.
Если метод оценки использует большие языковые модели (LLM) для измерения производительности ответа потока, необходимо также задать подключения для узлов LLM в методах оценки.
Затем можно выбрать команду "Далее ", чтобы просмотреть параметры и выбрать "Отправить ", чтобы запустить пакетный запуск с оценкой.
Просмотр результатов оценки и метрик
После отправки можно найти отправленную пакетную команду на вкладке списка выполнения на странице потока запроса. Выберите запуск, чтобы перейти на страницу результатов выполнения.
На странице сведений о выполнении можно выбрать "Сведения" , чтобы проверить сведения об этом пакетном запуске.
Выходные данные
Базовый результат и трассировка
Сначала вы будете направлять вас на вкладку "Выходные данные", чтобы просмотреть входные и выходные данные по строкам. На странице вкладки вывода отображается список результатов, включая идентификатор строки, входные данные, выходные данные, состояние, системные метрики и время создания.
Для каждой строки выбор трассировки представления позволяет наблюдать и отлаживать конкретный тестовый случай на его подробной странице трассировки.
Добавление результата оценки и трассировки
При выборе выходных данных оценки "Добавить" можно выбрать связанные запуски оценки, а в конце таблицы отображаются добавленные столбцы, показывающие результат оценки для каждой строки данных. Для сравнения можно добавить несколько выходных данных оценки.
Последние метрики оценки отображаются на левой панели обзора .
Основные сведения
В правой части обзора представлены общие сведения о выполнении, такие как количество выполнения для каждой точки данных, общее количество маркеров и длительность выполнения.
Последние статистические метрики запуска оценки отображаются здесь по умолчанию, чтобы перейти к просмотру самого запуска оценки.
Обзор можно развернуть и свернуть здесь, и вы можете выбрать представление полных сведений, которые будут направлять вас на вкладку "Обзор" рядом с вкладкой "Вывод", где содержатся более подробные сведения об этом выполнении.
Запуск нового раунда оценки
Если вы уже завершили пакетное выполнение, можно запустить еще один раунд оценки, чтобы отправить новый запуск оценки, чтобы вычислить метрики для выходных данных без повторного запуска потока. Это полезно и может сэкономить затраты для повторного запуска потока, когда:
- Вы не выбрали метод оценки, чтобы вычислить метрики при отправке пакетного запуска и решить сделать это сейчас.
- Вы уже использовали метод оценки для вычисления метрики. Вы можете начать еще один раунд оценки, чтобы вычислить другую метрику.
- Сбой выполнения оценки, но поток успешно создал выходные данные. Вы можете снова отправить оценку.
Перейдите на вкладку "Запуски потока запросов". Затем перейдите на страницу сведений о пакетном запуске и выберите "Оценить", чтобы начать другой раунд оценки.
После настройки конфигурации можно выбрать "Отправить" для этого нового раунда оценки. После отправки вы сможете увидеть новую запись в списке выполнения потока запроса. После завершения выполнения оценки можно проверить результат оценки на вкладке "Выходные данные" панели сведений о пакетном запуске. Чтобы просмотреть результат, необходимо выбрать новый запуск оценки.
Дополнительные сведения о метриках, вычисляемых встроенными методами оценки, см. в разделе о встроенных методах оценки.
Обзор
На вкладке "Обзор" отображаются подробные сведения о выполнении, включая свойства выполнения, входной набор данных, выходной набор данных, теги и описание.
Журналы
Выбор вкладки "Журналы" позволяет просматривать журналы выполнения, которые могут быть полезны для подробной отладки ошибок выполнения. Файлы журнала можно скачать на локальный компьютер.
Снимок
На вкладке "Моментальный снимок" отображается моментальный снимок запуска. Вы можете просмотреть DAG потока. Кроме того, вы можете клонировать его для создания нового потока. Вы также можете развернуть его как конечную точку в сети.
Проверка журнала выполнения пакетной службы и сравнение метрик
В некоторых сценариях вы изменяете поток, чтобы повысить его производительность. Вы можете отправить несколько пакетных запусков, чтобы сравнить производительность потока с различными версиями. Вы также можете сравнить метрики, вычисляемые различными методами оценки, чтобы увидеть, какой из них подходит для вашего потока.
Чтобы проверить журнал выполнения пакета потока, можно выбрать кнопку "Просмотр пакетного запуска " на странице потока. Вы увидите список пакетных запусков, отправленных для этого потока.
Чтобы проверить детали, можно выбрать каждый пакетный запуск. Можно также выбрать несколько пакетных запусков и выбрать выходные данные визуализации, чтобы сравнить метрики и выходные данные пакета.
На панели "Визуализировать выходные данные" в таблице "Запуски и метрики" отображаются сведения о выбранных запусках с выделением. Другие запуски, которые принимают выходные данные выбранных запусков в качестве входных данных, также перечислены.
В таблице "Выходные данные" можно сравнить выбранный пакет, выполняемый по каждой строке примера. Выбрав значок визуализации глаза в таблице "Запуски и метрики", выходные данные этого запуска будут добавлены в соответствующий базовый запуск.
Общие сведения о встроенных методах оценки
В потоке запросов мы предоставляем несколько встроенных методов оценки, которые помогут оценить производительность выходных данных потока. Каждый метод оценки вычисляет различные метрики. В следующей таблице приведен список встроенных методов оценки и их описания.
Метод оценки | Показатели | Description | Обязательное подключение | Обязательные входные данные | Значение оценки |
---|---|---|---|---|---|
Оценка точности классификации | Правильность | Измеряет производительность системы классификации, сравнивая выходные данные с правдой. | No | прогнозирование, земная правда | в диапазоне [0, 1]. |
Оценка релевантности QnA по парной оценке | Оценка, победа и потеря | Оценивает качество ответов, созданных системой ответов на вопросы. Он включает назначение показателей релевантности каждому ответу на основе того, насколько хорошо он соответствует пользовательскому вопросу, сравнивая различные ответы на базовый ответ, и агрегирование результатов для получения метрик, таких как средние показатели выигрыша и оценки релевантности. | Да | вопрос, ответ (нет оснований или контекста) | Оценка: 0-100, победа/проигрыш: 1/0 |
Оценка заземления QnA | Заземленность | Измеряет, насколько прогнозируемые ответы модели находятся в источнике входных данных. Даже если ответы LLM являются истинными, если не проверяются по источнику, то не является необоснованным. | Да | вопрос, ответ, контекст (без правды) | От 1 до 5, с 1 быть худшим и 5 быть лучшим. |
Оценка сходства GPT QnA | Сходство GPT | Измеряет сходство между ответами на истину, предоставленными пользователем, и прогнозируемой моделью с помощью модели GPT. | Да | вопрос, ответ, земная истина (контекст не нужен) | в диапазоне [0, 1]. |
Оценка релевантности QnA | С сортировкой по релевантности | Измеряет, насколько релевантны прогнозируемые ответы модели, относятся к заданным вопросам. | Да | вопрос, ответ, контекст (без правды) | От 1 до 5, с 1 быть худшим и 5 быть лучшим. |
Оценка согласованности QnA | Согласованность | Измеряет качество всех предложений в прогнозируемом ответе модели и как они соответствуют естественно. | Да | вопрос, ответ (нет оснований или контекста) | От 1 до 5, с 1 быть худшим и 5 быть лучшим. |
Оценка fluency QnA | Беглость | Измеряет, как грамматически и лингвистически исправить прогнозируемый ответ модели. | Да | вопрос, ответ (нет оснований или контекста) | 1 до 5, с 1 быть худшим и 5 быть лучшим |
Оценка показателей QnA f1 | Оценка F1 | Измеряет соотношение количества общих слов между прогнозом модели и правдой земли. | No | вопрос, ответ, земная истина (контекст не нужен) | в диапазоне [0, 1]. |
Оценка сходства QnA Ada | Сходство Ada | Вычисляет внедрения на уровне предложения (документ) с помощью API внедрения Ada внедрения для как земной истины, так и прогнозирования. Затем вычисляет сходство косинуса между ними (одно число с плавающей запятой) | Да | вопрос, ответ, земная истина (контекст не нужен) | в диапазоне [0, 1]. |
Способы повышения производительности потока
После проверки встроенных методов из оценки можно попытаться улучшить производительность потока следующим образом:
- Проверьте выходные данные для отладки любого потенциального сбоя потока.
- Измените поток, чтобы повысить производительность. Это включает в себя, но не ограничивается следующими:
- Изменение запроса
- Изменение системного сообщения
- Изменение параметров потока
- Изменение логики потока
Дополнительные сведения о том, как создать запрос, который может достичь цели, см. в статье "Введение в проектирование запросов", "Методы разработки запросов" и "Системная платформа сообщений" и рекомендации по шаблонам для больших языковых моделей (LLMS).
В этом документе вы узнали, как отправить пакетное выполнение и использовать встроенный метод оценки для измерения качества выходных данных потока. Вы также узнали, как просмотреть результат оценки и метрики, а также как начать новый раунд оценки с другим методом или подмножеством вариантов. Мы надеемся, что этот документ поможет повысить производительность потока и достичь целей с помощью потока запросов.