Формат Avro в фабрике данных в Microsoft Fabric

Avro — это формат сериализации данных на основе строк, часто используемый в рабочих нагрузках Apache Hadoop. В этой статье описывается, как настроить формат Avro в конвейере копирования в Data Factory в Microsoft Fabric.

Поддерживаемые возможности

Формат Avro поддерживается для следующих действий и соединителей в качестве источника и назначения.

Категория Соединитель или действие
Поддерживаемый соединитель Amazon S3
Совместимая с Amazon S3
Хранилище BLOB-объектов Azure
Azure Data Lake Storage 2-го поколения
Файлы Azure
Файловая система
FTP
Google Cloud Storage
HTTP
Lakehouse Files
Хранилище Oracle Cloud
SFTP
Поддерживаемая активность Действие копирования (источник или назначение)
Операция поиска
Активность получения метаданных
Удаление действия

Формат Avro в операции копирования

Чтобы настроить формат Avro, выберите подключение в источнике или приемнике операции копирования в конвейере, а затем выберите Avro в раскрывающемся списке формата файла. Выберите параметры для дальнейшей настройки этого формата.

Снимок экрана: параметры формата файла.

Формат Avro как источник

После выбора параметров в разделе "Формат файла" в диалоговом окне "Всплывающие параметры формата файла" отображаются следующие свойства.

Снимок экрана: источник формата файла Avro.

  • Тип сжатия: выберите кодек сжатия, используемый для чтения файлов Avro в раскрывающемся списке. Вы можете выбрать вариант None или deflate. Вы также можете выбрать "Добавить динамическое содержимое ", чтобы указать тип в построителе выражений.

  • Уровень сжатия: укажите коэффициент сжатия. Выберите от 1 до 7. Вы также можете выбрать "Добавить динамическое содержимое ", чтобы указать уровень в построителе выражений.

Формат Avro как пункт назначения

После выбора Настройки в диалоговом окне настроек формата файла отображаются следующие свойства.

Снимок экрана: назначение формата файла Avro.

  • Тип сжатия: выберите кодек сжатия, используемый для записи файлов Avro в раскрывающемся списке. Вы можете выбрать вариант None или deflate. Вы также можете выбрать "Добавить динамическое содержимое ", чтобы указать тип в построителе выражений.

  • Уровень сжатия: укажите коэффициент сжатия. Выберите от 1 до 7. Вы также можете выбрать "Добавить динамическое содержимое ", чтобы указать уровень в построителе выражений.

В разделе "Дополнительные параметры" на вкладке "Назначение " отображаются следующие связанные свойства формата Avro.

  • Максимальное количество строк для каждого файла: при записи данных в папку можно выбрать запись в несколько файлов и указать максимальные строки для каждого файла.
  • Префикс имени файла: применимо, если настроены максимальные строки для каждого файла . Укажите префикс имени файла при записи данных в несколько файлов, в результате чего используется следующий шаблон: <fileNamePrefix>_00000.<fileExtension>. Если имя файла не указано, префикс имени файла создается автоматически. Это свойство не применяется, если источник является хранилищем данных на основе файлов или хранилищем данных с включенной опцией разделов.

Свойства действия копирования Avro

Avro в качестве источника

Следующие свойства поддерживаются в разделе Source действия копирования при использовании формата Avro.

Имя Описание Значение Обязательное поле Свойство скрипта JSON
Формат файлов Формат файла, который требуется использовать. Avro Да тип (под datasetSettings):
Avro
Тип сжатия Кодек сжатия, используемый для чтения файлов Avro. Не допускается
сжимать
Нет avroCompressionCodec:

сжатие (deflate)
Уровень сжатия Коэффициент сжатия. От 1 до 7 Нет avroCompressionLevel:
От 1 до 7

Avro в качестве назначения

Следующие свойства поддерживаются в разделе назначения действия копирования при использовании формата Avro.

Имя Описание Значение Обязательное поле Свойство скрипта JSON
Формат файлов Формат файла, который требуется использовать. Avro Да тип (под datasetSettings):
Avro
Тип сжатия Кодек сжатия, используемый для записи файлов Avro. Не допускается
сжимать
Нет avroCompressionCodec:

сжатие (deflate)
Уровень сжатия Коэффициент сжатия. От 1 до 7 Нет avroCompressionLevel:
От 1 до 7
Максимальное количество строк на файл При записи данных в папку можно выбрать запись в несколько файлов и указать максимальные строки для каждого файла. < максимальное количество строк на файл > Нет maxRowsPerFile
Префикс имени файла Применимо, если настроены максимальные строки для каждого файла . Укажите префикс имени файла при записи данных в несколько файлов, в результате чего используется следующий шаблон: <fileNamePrefix>_00000.<fileExtension>. Если имя файла не указано, префикс имени файла создается автоматически. Это свойство не применяется, если источник является хранилищем данных на основе файлов или хранилищем данных с включенной опцией разделов. < префикс имени файла > Нет Префикс имени файла