Сбор данных с моделей в рабочей среде

ПРИМЕНИМО К:расширение ML версии 2 для Azure CLI (текущая версия)Python SDK для azure-ai-ml версии 2 (текущая версия)

В этой статье вы узнаете о сборе данных из моделей, развернутых в Машинное обучение Azure сетевых конечных точек.

Машинное обучение Azure Сборщик данных обеспечивает ведение журнала входных и выходных данных из моделей, развернутых в управляемых сетевых конечных точках или сетевых конечных точках Kubernetes. Машинное обучение Azure хранит зарегистрированные данные вывода в хранилище объектов BLOB Azure. Затем эти данные можно легко использовать для мониторинга моделей, отладки или аудита, тем самым обеспечивая возможность наблюдения за производительностью развернутых моделей.

Сборщик данных предоставляет:

  • Ведение журнала данных вывода в центральное расположение (Хранилище BLOB-объектов Azure)
  • Поддержка управляемых сетевых конечных точек и сетевых конечных точек Kubernetes
  • Определение на уровне развертывания, позволяющее максимально изменить конфигурацию.
  • Поддержка пэйлоада и кастомного лога

Режимы ведения журнала

Сборщик данных предоставляет два режима журналирования: журналирование содержимого и настраиваемое журналирование. Ведение журнала полезной нагрузки позволяет собирать данные нагрузки HTTP-запроса и ответа из развернутых моделей. С помощью пользовательского ведения журнала Машинное обучение Azure предоставляет пакет SDK Python для ведения журналов pandas DataFrames непосредственно из скрипта оценки. С помощью пользовательского пакета SDK для ведения журнала Python можно регистрировать входные и выходные данные модели, а также данные до, во время и после любых преобразований данных (или предварительной обработки).

Конфигурация сборщика данных

Сборщик данных можно настроить на уровне развертывания, а конфигурация указана во время развертывания. Вы можете настроить назначение хранилища BLOB-объектов Azure, которое получит собранные данные. Вы также можете настроить частоту выборки (от 0 до 100 %) собираемых данных.

Ограничения

Сборщик данных имеет следующие ограничения:

  • Сборщик данных поддерживает ведение журнала только для конечных точек Машинное обучение Azure в онлайн-режиме или в режиме реального времени (управляемых или на Kubernetes).
  • Средство сбора данных Python SDK поддерживает только журналирование табличных данных через pandas DataFrames.

Вопросы и ответы

Сбор данных оценки после развертывания

Почему журналы запросов и ответов отсутствуют или не совпадают с ранними запросами? Сбор данных для предсказания инициализируется при первом поступлении трафика. В течение этого краткого периода прогрева после развертывания ранние запросы или ответы могут быть зарегистрированы независимо. Это поведение ожидается и временно.

Указывает ли это на потерю данных или сбой? Нет. Это по проектированию и не указывает на ошибку, если метрики сбора данных не показывают сбоев.

Как избежать этого при проверке телеметрии? Отправьте несколько запросов на вывод или подождите кратко после развертывания перед выполнением проверок или тестов дыма.