Поделиться через


Формат Parquet в фабрике данных в Microsoft Fabric

В этой статье описывается настройка формата Parquet в конвейере данных фабрики данных в Microsoft Fabric.

Поддерживаемые возможности

Формат Parquet поддерживается для следующих действий и соединителей в качестве источника и назначения.

Категория Соединитель или действие
Поддерживаемый соединитель Amazon S3
Совместимая с Amazon S3
Хранилище BLOB-объектов Azure
Azure Data Lake Storage 1-го поколения
Azure Data Lake Storage 2-го поколения
Файлы Azure
Файловая система
FTP
Google Cloud Storage
HTTP
Lakehouse Files
Хранилище Oracle Cloud
SFTP
Поддерживаемая активность действие Copy (источник или назначение)
Действие поиска
Действие получения метаданных в Фабрике данных Azure
Действие удаления

Формат Parquet в действии копирования

Чтобы настроить формат Parquet, выберите подключение в исходном или целевом месте действия копирования конвейера данных, а затем выберите Parquet в раскрывающемся списке формата файла. Выберите параметры для дальнейшей настройки этого формата.

Снимок экрана: параметры формата файла.

Формат Parquet в качестве источника

После выбора параметров в разделе "Формат файла" в диалоговом окне "Всплывающие параметры формата файла" отображаются следующие свойства.

Снимок экрана: источник формата файла parquet.

  • Тип сжатия: выберите кодек сжатия, используемый для чтения файлов Parquet в раскрывающемся списке. Вы можете выбрать из None, gzip (.gz), snappy, lzo, Brotli (.br),Zstandard, lz4, lz4frame, bzip2 (Bz2), или lz4hadoop.

Формат Parquet в качестве назначения

После выбора параметров в диалоговом окне всплывающих параметров формата файла отображаются следующие свойства.

Снимок экрана: назначение формата файла parquet.

  • Тип сжатия: выберите кодек сжатия, используемый для записи файлов Parquet в раскрывающемся списке. Вы можете выбрать из None, gzip (.gz), snappy, lzo, Brotli (.br),Zstandard, lz4, lz4frame, bzip2 (Bz2), или lz4hadoop.

  • Используйте V-Order: включите оптимизацию времени записи в формат файла parquet. Дополнительные сведения см. в разделе "Оптимизация таблицы Delta Lake" и "V-Order". Он включен по умолчанию.

В разделе "Дополнительные параметры" на вкладке "Назначение " отображаются следующие свойства связанного формата Parquet.

  • Максимальное количество строк для каждого файла: при записи данных в папку можно выбрать запись в несколько файлов и указать максимальные строки для каждого файла. Укажите максимальные строки, которые требуется записать для каждого файла.
  • Префикс имени файла: применимо, если настроены максимальные строки для каждого файла . Оно задает префикс, добавляемый к имени файла при записи данных с разбиением на несколько файлов. Имя присваивается по следующему шаблону: <fileNamePrefix>_00000.<fileExtension>. Если имя файла не указано, префикс имени файла создается автоматически. Это свойство не применяется, если источник является хранилищем на основе файлов или включенным параметром секции хранилища данных.

Сводка таблицы

Parquet в качестве источника

Следующие свойства поддерживаются в разделе источника действия копирования при использовании формата Parquet.

Имя Описание Значение Обязательное поле Свойство скрипта JSON
Формат файлов Формат файла, который требуется использовать. Parquet Да тип (под datasetSettings):
Parquet
Тип сжатия Кодек сжатия, используемый для чтения файлов Parquet. Выберите один из вариантов:
Не допускается
gzip (.gz)
живой
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet в качестве назначения

Следующие свойства поддерживаются в разделе назначения действия копирования при использовании формата Parquet.

Имя Описание Значение Обязательное поле Свойство скрипта JSON
Формат файлов Формат файла, который требуется использовать. Parquet Да тип (под datasetSettings):
Parquet
Использование V-Order Оптимизация времени записи в формат файла Parquet. выбрано или не выбрано No enableVertiParquet
Тип сжатия Кодек сжатия, используемый для записи файлов Parquet. Выберите один из вариантов:
Не допускается
gzip (.gz)
живой
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
Максимальное количество строк на файл При записи данных в папку можно выбрать запись в несколько файлов и указать максимальные строки для каждого файла. Укажите максимальные строки, которые требуется записать для каждого файла. <максимальное количество строк на файл> No maxRowsPerFile
Префикс имени файла Применимо, если настроены максимальные строки для каждого файла . Оно задает префикс, добавляемый к имени файла при записи данных с разбиением на несколько файлов. Имя присваивается по следующему шаблону: <fileNamePrefix>_00000.<fileExtension>. Если имя файла не указано, префикс имени файла создается автоматически. Это свойство не применяется, если источник является хранилищем на основе файлов или включенным параметром секции хранилища данных. <префикс имени файла> No fileNamePrefix