Поделиться через


Формат XML в фабрике данных в Microsoft Fabric

В этой статье описывается, как настроить формат XML в конвейере данных фабрики данных в Microsoft Fabric.

Поддерживаемые возможности

Формат XML поддерживается для следующих действий и соединителей в качестве источника.

Категория Соединитель или действие
Поддерживаемый соединитель Amazon S3
Совместимая с Amazon S3
Хранилище BLOB-объектов Azure
Azure Data Lake Storage 1-го поколения
Azure Data Lake Storage 2-го поколения
Файлы Azure
Файловая система
FTP
Google Cloud Storage
HTTP
Lakehouse Files
Хранилище Oracle Cloud
SFTP
Поддерживаемая активность Действие копирования (источник/-)
Действие поиска
Действие получения метаданных в Фабрике данных Azure
Действие удаления

Формат XML в действии копирования

Чтобы настроить формат XML, выберите подключение в источнике действия копирования конвейера данных и выберите XML в раскрывающемся списке формата файла. Выберите параметры для дальнейшей настройки этого формата.

Снимок экрана: параметры формата файла.

XML в качестве источника

После выбора параметров в разделе "Формат файла" в диалоговом окне "Всплывающие параметры формата файла" отображаются следующие свойства.

Снимок экрана: выбор формата файла.

  • Тип сжатия: кодек сжатия, используемый для чтения XML-файлов. Вы можете выбрать тип None, bzip2, gzip, deflate, ZipDeflate, TarGZip или tar в раскрывающемся списке.

    Если выбрать ZipDeflate в качестве типа сжатия, сохраните имя ZIP-файла в виде папки в разделе "Дополнительные параметры" на вкладке "Источник ".

    • Сохраните имя ZIP-файла в виде папки: указывает, следует ли сохранять имя исходного ZIP-файла в виде структуры папок во время копирования.
      • Если этот флажок установлен (по умолчанию), служба записывает распакуированные файлы <specified file path>/<folder named as source zip file>/в .
      • Если этот флажок снят, служба записывает распакуированные файлы непосредственно в <specified file path>. Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных ZIP-файлах нет файлов с одинаковыми именами.

    Если выбрать TarGZip/tar в качестве типа сжатия, сохраните имя файла сжатия в качестве папки в разделе "Дополнительные параметры" на вкладке "Источник ".

    • Сохранение имени файла сжатия в виде папки: указывает, следует ли сохранять исходное сжатое имя файла в виде структуры папок во время копирования.
      • Если этот флажок установлен (по умолчанию), служба записывает распакованные файлы <specified file path>/<folder named as source compressed file>/в .
      • Если этот флажок снят, служба записывает распакованные файлы непосредственно в <specified file path>. Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных файлах нет файлов с одинаковыми именами.
  • Уровень сжатия. Укажите коэффициент сжатия при выборе типа сжатия. Вы можете выбрать один из самых быстрых или оптимальных вариантов.

    • Fastest: операция сжатия должна выполняться как можно быстрее, даже если итоговый файл будет сжат не оптимально.
    • Optimal: операция сжатия должна выполняться оптимально, даже если для ее завершения требуется больше времени. Дополнительные сведения см. в разделе Уровень сжатия.
  • Кодировка: укажите тип кодирования, используемый для записи тестовых файлов. Выберите один тип из раскрывающегося списка. Значение по умолчанию — UTF-8.

  • Значение NULL: указывает строковое представление значения NULL. Значение по умолчанию — пустая строка.

В разделе "Дополнительные параметры" на вкладке "Источник " отображаются следующие свойства связанного формата XML.

  • Режим проверки: указывает, следует ли проверять схему XML. Выберите один режим из раскрывающегося списка.

    • Нет. Выберите этот параметр, чтобы не использовать режим проверки.
    • xsd: выберите эту схему, чтобы проверить схему XML с помощью XSD.
    • dtd: выберите это, чтобы проверить схему XML с помощью DTD.

    Снимок экрана: режимы проверки.

  • Пространства имен. Укажите, следует ли включить пространство имен при анализе XML-файлов. Он выбран по умолчанию.

  • Пары префиксов пространства имен: если пространства имен включены, выберите +Создать и укажите URL-адрес и префикс. Вы можете добавить дополнительные пары, нажав кнопку +Создать.
    URI пространства имен для сопоставления префикса используется для именования полей при анализе XML-файла. Если в XML-файле есть и включено пространство имен, по умолчанию имя поля совпадает с именем в XML-документе. Если в этой карте есть элемент, определенный для URI пространства имен, имя поля будет иметь значение prefix:fieldName.

    Снимок экрана: пары префикса пространства имен.

  • Определение типа данных: укажите, следует ли обнаруживать целые числа, двойные и логические типы данных. Он выбран по умолчанию.

Сводка таблицы

XML в качестве источника

Следующие свойства поддерживаются в разделе источника действия копирования при использовании XML-формата.

Имя Описание Значение Обязательно Свойство скрипта JSON
Формат файлов Формат файла, который требуется использовать. XML Да тип (под datasetSettings):
Xml
Тип сжатия Кодек сжатия, используемый для чтения XML-файлов. Не допускается
bzip2
gzip
выкачивать
ZipDeflate
TarGZip
дёготь
No тип (под compression):

bzip2
gzip
выкачивать
ZipDeflate
TarGZip
tar
Уровень сжатия  Коэффициент сжатия. Самая быстрая
Оптимальный 
Без уровень (под compression):
Самый быстрый
Оптимально
Кодирование Тип кодирования, используемый для чтения тестовых файлов. UTF-8 (по умолчанию),"UTF-8 без BOM", "UTF-16LE", "UTF-16BE", "UTF-32LE", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM437", "IBM500", "IBM737", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM865", "IBM865"869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1255" 2", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Без encodingName
Сохранение имени ZIP-файла в качестве папки Указывает, следует ли сохранять имя исходного ZIP-файла в виде структуры папок во время копирования. Выбранный (по умолчанию) или отмена выбора No preserveZipFileNameAsFolder
(под compressionProperties->type как ZipDeflateReadSettings):
true (по умолчанию) или false
Сохранение имени файла сжатия в виде папки Указывает, следует ли сохранять исходное сжатое имя файла в виде структуры папок во время копирования. Выбранный (по умолчанию) или отмена выбора No preserveCompressionFileNameAsFolder
(под compressionProperties->type как TarGZipReadSettings или TarReadSettings):
true (по умолчанию) или false
Значение NULL Строковое представление значения NULL. <значение NULL>
пустая строка (по умолчанию)
Без nullValue
Режим проверки Следует ли проверить xml-схему. Не допускается
xsd
dtd
No validationMode:

xsd
dtd
Пространства имен Следует ли включать пространство имен при синтаксическом анализе XML-файлов. Выбрано (по умолчанию) или не выбрано No пространства имен:
true (по умолчанию) или false
Пары префиксов пространства имен Универсальный код ресурса (URI) пространства имен для сопоставления префикса, который используется для именования полей при анализе XML-файла.
Если в XML-файле есть и включено пространство имен, по умолчанию имя поля совпадает с именем в XML-документе.
Если в этой карте есть элемент, определенный для URI пространства имен, имя поля будет иметь значение prefix:fieldName.
<URL: >< префикс> No namespacePrefixes:
<URL: >< префикс>
Определение типа данных Определяет, следует ли обнаруживать типы данных "целое число", double и логические. Выбрано (по умолчанию) или не выбрано No detectDataType:
true (по умолчанию) или false