Поделиться через


Эталонное решение для приложений, работающих с изображениями

Узнайте, как сделать вывод распределенной модели изображений из записных книжек эталонного решения с помощью pandas UDF, PyTorch и TensorFlow в общей конфигурации, общей многими приложениями изображений реального мира. В этой конфигурации предполагается, что в хранилище объектов хранится множество изображений и при этом постоянно поступают новые изображения.

Рабочий процесс для вывода модели изображений

Предположим, у вас есть несколько обученных моделей глубокого обучения (DL) для классификации образов и обнаружения объектов, например, MobileNetV2 для обнаружения людей на фотографиях, отправленных пользователем, для защиты конфиденциальности и применения этих моделей DL к сохраненным образам.

Вы можете заново обучить модели и обновить ранее вычисленные прогнозы. Однако загрузка большого количества изображений и применение моделей глубокого обучения требует больших объемов операций ввода-вывода и вычислений. К счастью, рабочая нагрузка вывода имеет предельный параллелизм, и теоретически ее можно легко распределить. В этом руководстве описывается практическое решение, которое содержит два основных этапа:

  1. ETL изображения в Delta таблицу с помощью Auto Loader
  2. Выполнение распределенной инференции с помощью pandas UDF

Загрузка изображений в таблицу Delta с помощью Авто Загрузчика

Для приложений с изображениями, включая задачи обучения и вывода, Databricks рекомендует проводить ETL изображения в таблицу Delta с помощью Автозагрузчика. Автозагрузчик помогает управлять данными и автоматически обрабатывает постоянно поступающие новые образы.

ETL набора данных изображений в ноутбук Delta table

Получите ноутбук

Выполнение распределенного вывода с использованием pandas UDF

В следующих записных книжках используются PyTorch и TensorFlow tf.Keras, чтобы продемонстрировать эталонное решение.

Распределенный инференс с помощью блокнота Pytorch и pandas UDF

Получите ноутбук

Распределенная инференция с помощью ноутбука Keras и pandas UDF

Получите ноутбук

Ограничения: размер файла изображения

Для больших файлов изображений (средний размер образа больше 100 МБ) Databricks рекомендует использовать разностную таблицу только для управления метаданными (список имен файлов) и загрузки изображений из хранилища объектов с использованием их путей при необходимости.