Сохранение кадров данных Apache Spark в виде файлов TFRecord

В этой статье показано, как использовать коннектор spark-tensorflow-connector для сохранения DataFrame Apache Spark в файлы TFRecord и загрузки их с помощью TensorFlow.

Формат файла TFRecord — это простой, ориентированный на записи двоичный формат для данных Машинного обучения. Класс tf.data.TFRecordDataset позволяет выполнять потоковую передачу содержимого одного или нескольких файлов TFRecord в составе входного конвейера.

Использование spark-tensorflow-connector библиотеки

Вы можете использовать соединитель spark-tensorflow-connector для сохранения Apache Spark DataFrames в файлах TFRecord.

spark-tensorflow-connector— это библиотека в экосистеме TensorFlow, которая обеспечивает преобразование между кадрами данных Spark и TFRecords (популярным форматом хранения данных для TensorFlow). С помощью соединителя spark-tensorflow-connector вы можете использовать API Spark DataFrame для чтения файлов TFRecords в DataFrame и записи DataFrame в формате TFRecords.

Примечание.

Библиотека spark-tensorflow-connector включена в Databricks Runtime для машинного обучения. Чтобы использовать spark-tensorflow-connectorверсии и совместимости в примечаниях о выпусках Databricks Runtime, необходимо установить библиотеку из Maven. Дополнительные сведения см. в разделе Пакет Maven или Spark.

Пример. Загрузка данных из файлов TFRecord с помощью TensorFlow

В примере записной книжки показано, как сохранять данные из Кадров данных Apache Spark в файлы TFRecord и загружать файлы TFRecord для обучения машинного обучения.

Файлы TFRecord можно загрузить с помощью класса tf.data.TFRecordDataset. Дополнительные сведения см. в чтении файла TFRecord из TensorFlow.

Подготовьте данные изображений для распределённого использования в DL-записной книжке

Возьми блокнот