Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Узнайте, как сделать вывод распределенной модели изображений из записных книжек эталонного решения с помощью pandas UDF, PyTorch и TensorFlow в общей конфигурации, общей многими приложениями изображений реального мира. В этой конфигурации предполагается, что в хранилище объектов хранится множество изображений и при этом постоянно поступают новые изображения.
Рабочий процесс для вывода модели изображений
Предположим, у вас есть несколько обученных моделей глубокого обучения (DL) для классификации образов и обнаружения объектов, например, MobileNetV2 для обнаружения людей на фотографиях, отправленных пользователем, для защиты конфиденциальности и применения этих моделей DL к сохраненным образам.
Вы можете заново обучить модели и обновить ранее вычисленные прогнозы. Однако загрузка большого количества изображений и применение моделей глубокого обучения требует больших объемов операций ввода-вывода и вычислений. К счастью, рабочая нагрузка вывода имеет предельный параллелизм, и теоретически ее можно легко распределить. В этом руководстве описывается практическое решение, которое содержит два основных этапа:
- ETL изображения в Delta таблицу с помощью Auto Loader
- Выполнение распределенной инференции с помощью pandas UDF
Загрузка изображений в таблицу Delta с помощью Авто Загрузчика
Для приложений с изображениями, включая задачи обучения и вывода, Databricks рекомендует проводить ETL изображения в таблицу Delta с помощью Автозагрузчика. Автозагрузчик помогает управлять данными и автоматически обрабатывает постоянно поступающие новые образы.
ETL набора данных изображений в ноутбук Delta table
Выполнение распределенного вывода с использованием pandas UDF
В следующих записных книжках используются PyTorch и TensorFlow tf.Keras, чтобы продемонстрировать эталонное решение.
Распределенный инференс с помощью блокнота Pytorch и pandas UDF
Распределенная инференция с помощью ноутбука Keras и pandas UDF
Ограничения: размер файла изображения
Для больших файлов изображений (средний размер образа больше 100 МБ) Databricks рекомендует использовать разностную таблицу только для управления метаданными (список имен файлов) и загрузки изображений из хранилища объектов с использованием их путей при необходимости.