Формат Parquet в фабрике данных в Microsoft Fabric
В этой статье описывается настройка формата Parquet в конвейере данных фабрики данных в Microsoft Fabric.
Поддерживаемые возможности
Формат Parquet поддерживается для следующих действий и соединителей в качестве источника и назначения.
Категория | Соединитель или действие |
---|---|
Поддерживаемый соединитель | Amazon S3 |
Совместимая с Amazon S3 | |
Хранилище BLOB-объектов Azure | |
Azure Data Lake Storage 1-го поколения | |
Azure Data Lake Storage 2-го поколения | |
Файлы Azure | |
Файловая система | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse Files | |
Хранилище Oracle Cloud | |
SFTP | |
Поддерживаемая активность | действие Copy (источник или назначение) |
Действие поиска | |
Действие получения метаданных в Фабрике данных Azure | |
Действие удаления |
Формат Parquet в действии копирования
Чтобы настроить формат Parquet, выберите подключение в исходном или целевом месте действия копирования конвейера данных, а затем выберите Parquet в раскрывающемся списке формата файла. Выберите параметры для дальнейшей настройки этого формата.
Формат Parquet в качестве источника
После выбора параметров в разделе "Формат файла" в диалоговом окне "Всплывающие параметры формата файла" отображаются следующие свойства.
- Тип сжатия: выберите кодек сжатия, используемый для чтения файлов Parquet в раскрывающемся списке. Вы можете выбрать из None, gzip (.gz), snappy, lzo, Brotli (.br),Zstandard, lz4, lz4frame, bzip2 (Bz2), или lz4hadoop.
Формат Parquet в качестве назначения
После выбора параметров в диалоговом окне всплывающих параметров формата файла отображаются следующие свойства.
Тип сжатия: выберите кодек сжатия, используемый для записи файлов Parquet в раскрывающемся списке. Вы можете выбрать из None, gzip (.gz), snappy, lzo, Brotli (.br),Zstandard, lz4, lz4frame, bzip2 (Bz2), или lz4hadoop.
Используйте V-Order: включите оптимизацию времени записи в формат файла parquet. Дополнительные сведения см. в разделе "Оптимизация таблицы Delta Lake" и "V-Order". Он включен по умолчанию.
В разделе "Дополнительные параметры" на вкладке "Назначение " отображаются следующие свойства связанного формата Parquet.
- Максимальное количество строк для каждого файла: при записи данных в папку можно выбрать запись в несколько файлов и указать максимальные строки для каждого файла. Укажите максимальные строки, которые требуется записать для каждого файла.
- Префикс имени файла: применимо, если настроены максимальные строки для каждого файла . Оно задает префикс, добавляемый к имени файла при записи данных с разбиением на несколько файлов. Имя присваивается по следующему шаблону:
<fileNamePrefix>_00000.<fileExtension>
. Если имя файла не указано, префикс имени файла создается автоматически. Это свойство не применяется, если источник является хранилищем на основе файлов или включенным параметром секции хранилища данных.
Сводка таблицы
Parquet в качестве источника
Следующие свойства поддерживаются в разделе источника действия копирования при использовании формата Parquet.
Имя | Описание | Значение | Обязательное поле | Свойство скрипта JSON |
---|---|---|---|---|
Формат файлов | Формат файла, который требуется использовать. | Parquet | Да | тип (под datasetSettings ):Parquet |
Тип сжатия | Кодек сжатия, используемый для чтения файлов Parquet. | Выберите один из вариантов: Не допускается gzip (.gz) живой lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
No | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet в качестве назначения
Следующие свойства поддерживаются в разделе назначения действия копирования при использовании формата Parquet.
Имя | Описание | Значение | Обязательное поле | Свойство скрипта JSON |
---|---|---|---|---|
Формат файлов | Формат файла, который требуется использовать. | Parquet | Да | тип (под datasetSettings ):Parquet |
Использование V-Order | Оптимизация времени записи в формат файла Parquet. | выбрано или не выбрано | No | enableVertiParquet |
Тип сжатия | Кодек сжатия, используемый для записи файлов Parquet. | Выберите один из вариантов: Не допускается gzip (.gz) живой lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
No | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Максимальное количество строк на файл | При записи данных в папку можно выбрать запись в несколько файлов и указать максимальные строки для каждого файла. Укажите максимальные строки, которые требуется записать для каждого файла. | <максимальное количество строк на файл> | No | maxRowsPerFile |
Префикс имени файла | Применимо, если настроены максимальные строки для каждого файла . Оно задает префикс, добавляемый к имени файла при записи данных с разбиением на несколько файлов. Имя присваивается по следующему шаблону: <fileNamePrefix>_00000.<fileExtension> . Если имя файла не указано, префикс имени файла создается автоматически. Это свойство не применяется, если источник является хранилищем на основе файлов или включенным параметром секции хранилища данных. |
<префикс имени файла> | No | fileNamePrefix |