Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье показано, как использовать коннектор spark-tensorflow-connector для сохранения DataFrame Apache Spark в файлы TFRecord и загрузки их с помощью TensorFlow.
Формат файла TFRecord — это простой, ориентированный на записи двоичный формат для данных Машинного обучения. Класс tf.data.TFRecordDataset позволяет выполнять потоковую передачу содержимого одного или нескольких файлов TFRecord в составе входного конвейера.
Использование spark-tensorflow-connector библиотеки
Вы можете использовать соединитель spark-tensorflow-connector для сохранения Apache Spark DataFrames в файлах TFRecord.
spark-tensorflow-connector— это библиотека в экосистеме TensorFlow, которая обеспечивает преобразование между кадрами данных Spark и TFRecords (популярным форматом хранения данных для TensorFlow). С помощью соединителя spark-tensorflow-connector вы можете использовать API Spark DataFrame для чтения файлов TFRecords в DataFrame и записи DataFrame в формате TFRecords.
Примечание.
Библиотека spark-tensorflow-connector включена в Databricks Runtime для машинного обучения. Чтобы использовать spark-tensorflow-connectorверсии и совместимости в примечаниях о выпусках Databricks Runtime, необходимо установить библиотеку из Maven. Дополнительные сведения см. в разделе Пакет Maven или Spark.
Пример. Загрузка данных из файлов TFRecord с помощью TensorFlow
В примере записной книжки показано, как сохранять данные из Кадров данных Apache Spark в файлы TFRecord и загружать файлы TFRecord для обучения машинного обучения.
Файлы TFRecord можно загрузить с помощью класса tf.data.TFRecordDataset. Дополнительные сведения см. в чтении файла TFRecord из TensorFlow.