Формат ORC в фабрике данных в Microsoft Fabric

ORC (Оптимизированный столбец строк) — это формат хранилища столбцов, предназначенный для эффективной обработки больших объемов данных в рабочих нагрузках Hadoop. В этой статье описывается настройка формата ORC в конвейере действий копирования в фабрике данных в Microsoft Fabric.

Поддерживаемые возможности

Формат ORC поддерживается для следующих операций и соединителей в качестве источника и назначения.

Категория Соединитель или действие
Поддерживаемый соединитель Amazon S3
Совместимая с Amazon S3
Хранилище BLOB-объектов Azure
Azure Data Lake Storage 2-го поколения
Файлы Azure
Файловая система
FTP
Google Cloud Storage
HTTP
Lakehouse Files
Хранилище Oracle Cloud
SFTP
Поддерживаемая активность Действие копирования (источник или назначение)
Операция поиска
Активность получения метаданных
Удаление активности данных

Формат ORC в копировальной активности

Чтобы настроить формат ORC, выберите подключение в источнике или пункте назначения операции копирования в конвейере, а затем выберите ORC в раскрывающемся списке формата файла. Выберите параметры для дальнейшей настройки этого формата.

Снимок экрана: параметры формата файла.

Формат ORC в качестве источника

После выбора параметров в разделе "Формат файла" в диалоговом окне "Всплывающие параметры формата файла" отображаются следующие свойства.

Снимок экрана: источник формата файла ORC.

  • Тип сжатия: выберите кодек сжатия, используемый для чтения файлов ORC в раскрывающемся списке. Вы можете выбрать вариант None, zlib или snappy.

Формат ORC в качестве конечного назначения

После выбора Настройки в диалоговом окне настроек формата файла отображаются следующие свойства.

Снимок экрана, показывающий место назначения формата файла ORC.

  • Тип сжатия: выберите кодек сжатия, используемый для записи файлов ORC в раскрывающемся списке. Вы можете выбрать вариант None, zlib или snappy.

В разделе "Дополнительные параметры" на вкладке "Назначение " отображаются следующие свойства формата ORC.

  • Максимальное количество строк для каждого файла: при записи данных в папку можно выбрать запись в несколько файлов и указать максимальные строки для каждого файла. Укажите максимальные строки, которые требуется записать для каждого файла.
  • Префикс имени файла: применимо, если настроены максимальные строки для каждого файла . Укажите префикс имени файла при записи данных в несколько файлов, в результате чего используется следующий шаблон: <fileNamePrefix>_00000.<fileExtension>. Если имя файла не указано, префикс имени файла создается автоматически. Это свойство не применяется, если источник является хранилищем данных на основе файлов или хранилищем данных с включенной опцией разделов.

Свойства активности копирования ORC

ORC в качестве источника

Следующие свойства поддерживаются в разделе источника действия копирования при использовании формата ORC.

Имя Описание Значение Обязательное поле Свойство скрипта JSON
Формат файлов Формат файла, который требуется использовать. ORC Да type (under datasetSettings):
Орк
Тип сжатия Кодек сжатия, используемый для чтения файлов ORC. Не допускается
zlib
быстрый
Нет кодек сжатия ORC
ничего
zlib
шустрый

ORC в качестве назначения

Следующие свойства поддерживаются в разделе назначения действия копирования при использовании формата ORC.

Имя Описание Значение Обязательное поле Свойство скрипта JSON
Формат файлов Формат файла, который требуется использовать. ORC Да type (under datasetSettings):
Орк
Тип сжатия Кодек сжатия, используемый для записи файлов ORC. Не допускается
zlib
быстрый
Нет кодек сжатия ORC
ничего
zlib
шустрый
Максимальное количество строк на файл При записи данных в папку можно выбрать запись в несколько файлов и указать максимальные строки для каждого файла. Укажите максимальные строки, которые требуется записать для каждого файла. <максимальное количество строк на файл> Нет maxRowsPerFile
Префикс имени файла Применимо, если настроены максимальные строки для каждого файла . Укажите префикс имени файла при записи данных в несколько файлов, в результате чего используется следующий шаблон: <fileNamePrefix>_00000.<fileExtension>. Если имя файла не указано, префикс имени файла создается автоматически. Это свойство не применяется, если источник является хранилищем данных на основе файлов или хранилищем данных с включенной опцией разделов. <префикс имени файла> Нет Префикс имени файла