Двоичный формат в Azure Data Factory и Synapse Analytics

ПРИМЕНИМО К: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

Двоичный формат поддерживается для следующих соединителей: Amazon S3, Совместимое хранилище Amazon S3, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage, и SFTP.

Двоичный набор данных можно использовать в действии Copy activity, GetMetadata activity или Delete activity. При использовании двоичного набора данных служба не анализирует содержимое файла, но обрабатывает его as-is.

Заметка

При использовании двоичного набора данных в операции копирования можно скопировать только из двоичного набора данных в двоичный набор данных.

Свойства набора данных

Полный список разделов и свойств, доступных для определения наборов данных, см. в статье " Наборы данных ". В этом разделе представлен список свойств, поддерживаемых двоичным набором данных.

Свойство Описание Обязательно
тип Свойство типа набора данных должно иметь значение Binary. Yes
местоположение Параметры расположения файлов. Каждый файловый соединитель имеет собственный тип расположения и поддерживает собственный набор свойств в разделе location. Подробные сведения см. в статье о соединителях —> раздел "Свойства набора данных". Yes
сжатие Группа свойств для настройки сжатия файлов. Настройте этот раздел, если вы хотите выполнить сжатие/распаковку при выполнении действия. Нет
тип Кодек сжатия, используемый для чтения и записи двоичных файлов.
Допустимые значения: bzip2, gzip, deflate, ZipDeflate, Tar или TarGzip.
Обратите внимание, что при использовании действия копирования для распаковки файлов ZipDeflate/TarGzip/tar и записи в файловое хранилище данных приемника по умолчанию файлы распаковываются в папку: <path specified in dataset>/<folder named as source compressed file>/, используйте preserveZipFileNameAsFolder/preserveCompressionFileNameAsFolder в источнике действия копирования, чтобы использовать имя сжатого (-ых) файла (-ов) для названия структуры папок.
Нет
уровень Коэффициент сжатия. Применяется, если набор данных используется в приемнике Copy activity.
Допустимые значения: оптимальный или самый быстрый.
- Самый быстрый: операция сжатия должна выполняться как можно быстрее, даже если результирующий файл не является оптимальным сжатием.
- Optimal: операция сжатия должна выполняться оптимально, даже если для ее завершения требуется больше времени. Дополнительные сведения см. в разделе Уровень сжатия.
Нет

Ниже приведен пример двоичного набора данных в Azure Blob Storage:

{
    "name": "BinaryDataset",
    "properties": {
        "type": "Binary",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "compression": {
                "type": "ZipDeflate"
            }
        }
    }
}

Свойства Copy activity

Полный список разделов и свойств, доступных для определения действий, см. в статье Pipelines. В этом разделе представлен список свойств, поддерживаемых двоичным источником и приемником.

Заметка

При использовании двоичного набора данных в операции копирования можно скопировать только из двоичного набора данных в двоичный набор данных.

Двоичный в качестве источника

В разделе *source*, касающемся действия копирования, поддерживаются следующие свойства.

Свойство Описание Обязательно
тип Свойство type источника действия копирования должно иметь значение BinarySource. Yes
настройки формата Группа свойств. См. таблицу параметров двоичного чтения ниже. Нет
настройки магазина Группа свойств, определяющих способ чтения данных из хранилища данных. Каждый коннектор на основе файлов имеет собственные поддерживаемые параметры чтения в разделе storeSettings. Подробности см. в статье о соединителе— раздел свойств для действий копирования>. Нет

Поддерживаемые параметры двоичного чтения в разделе formatSettings:

Свойство Описание Обязательно
тип Тип formatSettings должен иметь значение BinaryReadSettings. Yes
compressionProperties Группа свойств для распаковки данных для данного кодека сжатия. Нет
preserveZipFileNameAsFolder
(в разделе compressionProperties->type как ZipDeflateReadSettings)
Применяется, когда для входного набора данных настроено сжатие ZipDeflate. Указывает, следует ли использовать имя исходного ZIP-файла в качестве имени структуры папок во время копирования.
— Если задано значение true (по умолчанию), служба записывает распакованные файлы в указанное место <path specified in dataset>/<folder named as source zip file>/.
— Если задано значение false, служба записывает разархивированные файлы непосредственно в <path specified in dataset>. Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных ZIP-файлах нет файлов с одинаковыми именами.
Нет
сохранитьИмяФайлаСжатияКакПапку
(в разделе compressionProperties->type как TarGZipReadSettings или TarReadSettings)
Применяется, когда для входного набора данных настроено сжатие TarGzip/Tar. Указывает, следует ли сохранять имя исходного сжатого файла в качестве имени структуры папок во время копирования.
— Если задано значение true (по умолчанию), служба записывает распакованные файлы в <path specified in dataset>/<folder named as source compressed file>/.
— Если задано значение false, служба записывает распакованные файлы непосредственно в <path specified in dataset>. Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных файлах нет файлов с одинаковыми именами.
Нет
"activities": [
    {
        "name": "CopyFromBinary",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "BinarySource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true,
                    "deleteFilesAfterCompletion": true
                },
                "formatSettings": {
                    "type": "BinaryReadSettings",
                    "compressionProperties": {
                        "type": "ZipDeflateReadSettings",
                        "preserveZipFileNameAsFolder": false
                    }
                }
            },
            ...
        }
        ...
    }
]

Двоичный файл в качестве приемника

В разделе *sink* операции копирования поддерживаются следующие свойства.

Свойство Описание Обязательно
тип Свойство type источника действия копирования должно иметь значение BinarySink. Yes
настройки магазина Группа свойств, определяющих способы записи данных в хранилище данных. Каждый файловый соединитель поддерживает собственный набор параметров записи под тегом storeSettings. Подробности см. в статье о соединителе— раздел свойств для действий копирования>. Нет