Формат текста с разделителями в фабрике данных в Microsoft Fabric

В этой статье описывается настройка формата текста с разделителями в конвейере фабрики данных в Microsoft Fabric.

Поддерживаемые возможности

Формат текста с разделителями поддерживается для следующих действий и соединителей в качестве источника и назначения.

Категория Соединитель или действие
Поддерживаемый соединитель Amazon S3
Совместимая с Amazon S3
Хранилище BLOB-объектов Azure
Azure Data Lake Storage 2-го поколения
Файлы Azure
Файловая система
FTP
Google Cloud Storage
HTTP
Lakehouse Files
Хранилище Oracle Cloud
SFTP
Поддерживаемая активность Действие копирования (источник или назначение)
Операция поиска
Активность получения метаданных
Удаление действия

Формат текста с разделителями в задаче копирования

Чтобы настроить формат текста с разделителями, выберите подключение в источнике или приемнике действия копирования конвейера, а затем выберите DelimitedText в раскрывающемся списке Формата файла. Выберите параметры для дальнейшей настройки этого формата.

Снимок экрана: параметры формата файла.

Формат текста с разделителями как источник

После выбора параметров в разделе "Формат файла" в диалоговом окне "Всплывающие параметры формата файла" отображаются следующие свойства.

Снимок экрана: параметры формата исходного файла.

  • Тип сжатия: кодек сжатия, используемый для чтения текстовых файлов с разделителями. Вы можете выбрать вариант None, bzip2, gzip, deflate, ZipDeflate, TarGzip или tar в раскрывающемся списке.

    Если выбрать ZipDeflate в качестве типа сжатия, Сохранить имя ZIP-файла как папку появится в разделе Дополнительные параметры на вкладке Источник.

    • Сохранение имени ZIP-файла в виде папки: указывает, следует ли сохранять имя исходного ZIP-файла в виде структуры папок во время копирования.
      • Если этот флажок установлен (по умолчанию), служба записывает распакованные файлы в <specified file path>/<folder named as source zip file>/.
      • Если этот флажок снят, служба записывает распакованные файлы непосредственно в <specified file path>. Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных ZIP-файлах нет файлов с одинаковыми именами.

    Если вы выберете TarGzip/tar в качестве типа сжатия, в разделе Дополнительные параметры на вкладке 'Источник' появится опция Сохранить имя файла сжатия как папку.

    • Сохранение имени файла сжатия в виде папки: указывает, следует ли сохранять исходное сжатое имя файла в виде структуры папок во время копирования.
      • Если этот флажок установлен (по умолчанию), служба записывает распакованные файлы в <specified file path>/<folder named as source compressed file>/.
      • Если этот флажок снят, служба записывает распакованные файлы непосредственно в <specified file path>. Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных ZIP-файлах нет файлов с одинаковыми именами.
  • Уровень сжатия. Укажите коэффициент сжатия при выборе типа сжатия. Вы можете выбрать вариант "Оптимальный " или "Быстрый".

    • Fastest: операция сжатия должна выполняться как можно быстрее, даже если итоговый файл будет сжат не оптимально.
    • Optimal: операция сжатия должна выполняться оптимально, даже если для ее завершения требуется больше времени. Дополнительные сведения см. в разделе Уровень сжатия.
  • Разделитель столбцов: символы, используемые для разделения столбцов в файле. Значение по умолчанию — запятая (,).

  • Разделитель строк: укажите символ, используемый для разделения строк в файле. Допускается только один знак. Значением по умолчанию является перевод строки \n.

  • Кодировка: тип кодирования, используемый для чтения и записи тестовых файлов. Значение по умолчанию — UTF-8.

  • Символ экранирования: одиночный символ для экранирования кавычек внутри значения в кавычках. Значение по умолчанию — обратная косая черта\. Если escape-символ определяется как пустая строка, символ кавычки также должен быть задан как пустая строка, в этом случае убедитесь, что все значения столбцов не содержат разделителей.

  • Символ кавычки: один символ для обрамления значений столбца в кавычки, если они содержат разделитель столбцов. Значение по умолчанию — двойные кавычки ("). Если кавычка определена как пустая строка, это означает, что кавычки отсутствуют, и значение столбца не заключается в кавычки. В этом случае escape-символ используется для экранирования разделителя столбцов и самого себя.

  • Первая строка в качестве заголовка: указывает, следует ли обрабатывать и делать первую строку в виде строки заголовка с именами столбцов. Допустимые значения: выбранный и невыбранный (по умолчанию). Если не выбрана первая строка в качестве заголовка, обратите внимание, что предварительный просмотр данных в пользовательском интерфейсе и выходные данные действия поиска автоматически создают имена столбцов как Prop_{n} (начиная с 0), действие копирования требует явного сопоставления из источника в место назначения и поиска столбцов по порядковому номеру (начиная с 1).

  • Значение NULL: указывает строковое представление значения NULL. Значение по умолчанию — пустая строка.

  • Многострочные строки: указывает, содержит ли исходный файл строки, охватывающие несколько строк. Многостроковые значения должны находиться в кавычках. По умолчанию это true. Установка этого параметра на false обеспечивает оптимальную производительность, позволяя одновременное многопоточное чтение. Дополнительные сведения см. в описании оптимизации производительности для копирования текстовых файлов с разделителями.

В разделе «Дополнительные» параметры на вкладке Источник предоставляются другие свойства, связанные с форматом текста с разделителями.

Формат текста с разделителями в качестве целевого формата

После выбора параметров в разделе "Формат файла" в диалоговом окне "Всплывающие параметры формата файла" отображаются следующие свойства.

Снимок экрана: параметры формата целевого файла.

  • Тип сжатия: кодек сжатия, используемый для записи текстовых файлов с разделителями. Вы можете выбрать вариант None, bzip2, gzip, deflate, ZipDeflate, TarGzip или tar в раскрывающемся списке.

  • Уровень сжатия. Укажите коэффициент сжатия при выборе типа сжатия. Вы можете выбрать вариант "Оптимальный " или "Быстрый".

    • Fastest: операция сжатия должна выполняться как можно быстрее, даже если итоговый файл будет сжат не оптимально.
    • Optimal: операция сжатия должна выполняться оптимально, даже если для ее завершения требуется больше времени. Дополнительные сведения см. в разделе Уровень сжатия.
  • Разделитель столбцов: символы, используемые для разделения столбцов в файле. Значение по умолчанию — запятая (,).

  • Разделитель строк: символ, используемый для разделения строк в файле. Допускается только один знак. Значением по умолчанию является перевод строки \n.

  • Кодировка: тип кодирования, используемый для записи тестовых файлов. Значение по умолчанию — UTF-8.

  • Символ экранирования: одиночный символ для экранирования кавычек внутри значения в кавычках. Значение по умолчанию — обратная косая черта\. Если escape-символ определяется как пустая строка, символ кавычки также должен быть задан как пустая строка, в этом случае убедитесь, что все значения столбцов не содержат разделителей.

  • Символ кавычки: один символ для обрамления значений столбца в кавычки, если они содержат разделитель столбцов. Значение по умолчанию — двойные кавычки ("). Если кавычка определена как пустая строка, это означает, что кавычки отсутствуют, и значение столбца не заключается в кавычки. В этом случае escape-символ используется для экранирования разделителя столбцов и самого себя.

  • Первая строка в качестве заголовка: указывает, следует ли обрабатывать и делать первую строку в виде строки заголовка с именами столбцов. Допустимые значения: выбранный и невыбранный (по умолчанию). Если не выбрана первая строка в качестве заголовка, обратите внимание, что предварительный просмотр данных в пользовательском интерфейсе и выходные данные действия поиска автоматически создают имена столбцов как Prop_{n} (начиная с 0), действие копирования требует явного сопоставления из источника в место назначения и поиска столбцов по порядковому номеру (начиная с 1).

  • Значение NULL: указывает строковое представление значения NULL. Значение по умолчанию — пустая строка.

В разделе "Дополнительные" параметры на вкладке "Назначение" отображаются дополнительные свойства формата текста с разделителями.

  • Процитировать весь текст: заключите все значения в кавычки.

  • Расширение файла: расширение файла, используемое для имени выходных файлов, например .csv, .txt.

  • Максимальное количество строк для каждого файла: при записи данных в папку можно выбрать запись в несколько файлов и указать максимальные строки для каждого файла.

  • Префикс имени файла: применимо, если настроены максимальные строки для каждого файла . Укажите префикс имени файла при записи данных в несколько файлов, в результате чего используется следующий шаблон: <fileNamePrefix>_00000.<fileExtension>. Если это свойство не задано, то префикс имени файла будет создан автоматически. Это свойство не применяется, если исходное хранилище является файловым хранилищем или хранилищем данных с включенной опцией секционирования.

Оптимизация производительности для копирования текстовых файлов с разделителями

Служба автоматически оптимизирует производительность при копировании текстовых файлов с разделителями, особенно больших файлов. Однако улучшения производительности не применяются в следующих условиях:

  • Включена проверка согласованности данных.
  • Используется кодировка IBM.
  • Включены многострочные строки.
  • Указан тип сжатия.
  • Определяется настраиваемый разрыв строки.
  • Двоичная копия включена.

Измените приведенные выше параметры, чтобы обеспечить оптимальную производительность.

Сводка таблицы

Текст с разделителями как источник

Следующие свойства поддерживаются в разделе Источник при использовании формата разделённого текста.

Имя Описание Значение Обязательно Свойство скрипта JSON
  Формат файлов Формат файла, который требуется использовать. РазделенныйТекст Да тип (под datasetSettings):
Текст с разделителями
Тип сжатия Кодек сжатия, применяемый для чтения файлов с разделенным текстом. Выберите из:
Не допускается
bzip2
gzip
сжимать
ZipDeflate
TarGzip
tar
Нет тип (под compression):

bzip2
gzip
сжатие (deflate)
ZipDeflate
TarGzip
tar
Сохранение имени ZIP-файла в качестве папки Указывает, следует ли использовать имя исходного ZIP-файла в качестве имени структуры папок во время копирования. Применяется при выборе сжатия ZipDeflate. Выбрать или отменить выбор Нет preserveZipFileNameAsFolder (сохранитьИмяZipФайлаКакПапку)
(в разделе compressionProperties->type как ZipDeflateReadSettings)
Сохранение имени файла сжатия в виде папки Указывает, следует ли сохранять имя исходного сжатого файла в качестве имени структуры папок во время копирования. Применяется при выборе TarGzip/tar сжатия. Выбрать или отменить выбор Нет СохранитьИмяФайлаСжатияКакПапку
(в разделе compressionProperties->type как TarGZipReadSettings или TarReadSettings)
Уровень сжатия  Коэффициент сжатия. Допустимые значения: оптимальный или самый быстрый. Оптимальный или быстрый Нет уровень (под compression):
Самый быстрый
Оптимально
Разделитель столбцов  Знаки, используемые для разделения столбцов в файле.  < выбранный разделитель столбцов >
запятая, (по умолчанию)
Нет разделитель столбцов
Разделитель строк символ, используемый для разделения строк в файле. < выбранный разделитель строк >
\r,\n (по умолчанию) или r\n
Нет разделитель строк
Кодирование Тип кодировки, используемый для чтения и записи тестовых файлов. UTF-8 (по умолчанию), "UTF-8 без BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Нет имя кодировки
Escape-символ Один символ для экранирования кавычек внутри значения в кавычках. Если escape-символ определяется как пустая строка, символ кавычки также должен быть задан как пустая строка, в этом случае убедитесь, что все значения столбцов не содержат разделителей. < выбранный escape-символ >
обратная косая черта\ (по умолчанию)
Нет escapeChar
Символ кавычки Один символ для заключения в кавычки значений колонки, если они содержат разделитель колонок. Если кавычка определена как пустая строка, это означает, что кавычки отсутствуют, и значение столбца не заключается в кавычки. В этом случае escape-символ используется для экранирования разделителя столбцов и самого себя. < выбранный символ цитаты >
двойные кавычки" (по умолчанию)
Нет quoteChar
Первая строка в качестве заголовка Следует ли рассматривать первую строку в заданном листе или диапазоне как строку заголовка с именами столбцов. Выбрано или не выбрано Нет firstRowAsHeader:
true или false (по умолчанию)
Значение NULL Задает строковое представление значения NULL. Значение по умолчанию — пустая строка. < строковое представление значения NULL >
пустая строка (по умолчанию)
Нет нулевое значение
Многострочные строки Указывает, содержит ли исходный файл строки, охватывающие несколько строк. Выбран (по умолчанию) или не выбран Нет multiline:
true (по умолчанию) или false

Текст с разделителями в качестве назначения

Следующие свойства поддерживаются в разделе Назначение действия копирования при использовании формата текстовых файлов с разделителями.

Имя Описание Значение Обязательно Свойство скрипта JSON
  Формат файлов Формат файла, который требуется использовать. РазделенныйТекст Да тип (под datasetSettings):
Текст с разделителями
Тип сжатия Кодек компрессии, используемый для создания файлов с разделенным текстом. Выберите из:
Не допускается
bzip2
gzip
сжимать
ZipDeflate
TarGzip
tar
Нет тип (под compression):

bzip2
gzip
сжатие (deflate)
ZipDeflate
TarGzip
tar
Сохранение имени ZIP-файла в качестве папки Указывает, следует ли использовать имя исходного ZIP-файла в качестве имени структуры папок во время копирования. Выбрать или отменить выбор Нет preserveZipFileNameAsFolder (сохранитьИмяZipФайлаКакПапку)
(в разделе compressionProperties->type как ZipDeflateReadSettings)
Сохранение имени файла сжатия в виде папки Указывает, следует ли сохранять имя исходного сжатого файла в качестве имени структуры папок во время копирования. Выбрать или отменить выбор Нет СохранитьИмяФайлаСжатияКакПапку
(в разделе compressionProperties->type как TarGZipReadSettings или TarReadSettings)
Уровень сжатия  Коэффициент сжатия. Допустимые значения: оптимальный или самый быстрый. Оптимальный или быстрый Нет уровень (под compression):
Самый быстрый
Оптимально
Разделитель столбцов  Знаки, используемые для разделения столбцов в файле.  < выбранный разделитель столбцов >
запятая , (по умолчанию)
Нет разделитель столбцов
Разделитель строк символ, используемый для разделения строк в файле. < выбранный разделитель строк >
\r,\n (по умолчанию) или r\n
Нет разделитель строк
Кодирование Тип кодировки, используемый для чтения и записи тестовых файлов. UTF-8 (по умолчанию), "UTF-8 без BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Нет имя кодировки
Escape-символ Один символ для экранирования кавычек внутри значения в кавычках. Если escape-символ определяется как пустая строка, символ кавычки также должен быть задан как пустая строка, в этом случае убедитесь, что все значения столбцов не содержат разделителей. < выбранный escape-символ >
обратная косая черта\ (по умолчанию)
Нет escapeChar
Символ кавычки Один символ для заключения в кавычки значений колонки, если они содержат разделитель колонок. Если кавычка определена как пустая строка, это означает, что кавычки отсутствуют, и значение столбца не заключается в кавычки. В этом случае escape-символ используется для экранирования разделителя столбцов и самого себя. < выбранный символ цитаты >
двойные кавычки" (по умолчанию)
Нет quoteChar
Первая строка в качестве заголовка Следует ли рассматривать первую строку в заданном листе или диапазоне как строку заголовка с именами столбцов. Выбрано или не выбрано Нет firstRowAsHeader:
true или false (по умолчанию)
Заключите весь текст в кавычки Заключите все значения в кавычки. Выбрано (по умолчанию) или не выбрано Нет quoteAllText:
true (по умолчанию) или false
Расширение файла Расширение файла, используемое для имени выходных файлов. < расширение файла >
.txt (по умолчанию);
Нет расширение файла
Максимальное количество строк на файл Можно выбрать режим записи данных в папку с разбиением на несколько файлов и указать максимальное число строк в одном таком файле. < максимальное количество строк на файл > Нет maxRowsPerFile
Префикс имени файла Применимо, если настроены максимальные строки для каждого файла . Укажите префикс имени файла при записи данных в несколько файлов, в результате чего используется следующий шаблон: <fileNamePrefix>_00000.<fileExtension>. Если это свойство не задано, то префикс имени файла будет создан автоматически. Это свойство не применяется, если исходное хранилище является файловым хранилищем или хранилищем данных с включенной опцией секционирования. < префикс имени файла > Нет Префикс имени файла