Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье описывается настройка формата текста с разделителями в конвейере фабрики данных в Microsoft Fabric.
Поддерживаемые возможности
Формат текста с разделителями поддерживается для следующих действий и соединителей в качестве источника и назначения.
| Категория | Соединитель или действие |
|---|---|
| Поддерживаемый соединитель | Amazon S3 |
| Совместимая с Amazon S3 | |
| Хранилище BLOB-объектов Azure | |
| Azure Data Lake Storage 2-го поколения | |
| Файлы Azure | |
| Файловая система | |
| FTP | |
| Google Cloud Storage | |
| HTTP | |
| Lakehouse Files | |
| Хранилище Oracle Cloud | |
| SFTP | |
| Поддерживаемая активность | Действие копирования (источник или назначение) |
| Операция поиска | |
| Активность получения метаданных | |
| Удаление действия |
Формат текста с разделителями в задаче копирования
Чтобы настроить формат текста с разделителями, выберите подключение в источнике или приемнике действия копирования конвейера, а затем выберите DelimitedText в раскрывающемся списке Формата файла. Выберите параметры для дальнейшей настройки этого формата.
Формат текста с разделителями как источник
После выбора параметров в разделе "Формат файла" в диалоговом окне "Всплывающие параметры формата файла" отображаются следующие свойства.
Тип сжатия: кодек сжатия, используемый для чтения текстовых файлов с разделителями. Вы можете выбрать вариант None, bzip2, gzip, deflate, ZipDeflate, TarGzip или tar в раскрывающемся списке.
Если выбрать ZipDeflate в качестве типа сжатия, Сохранить имя ZIP-файла как папку появится в разделе Дополнительные параметры на вкладке Источник.
-
Сохранение имени ZIP-файла в виде папки: указывает, следует ли сохранять имя исходного ZIP-файла в виде структуры папок во время копирования.
- Если этот флажок установлен (по умолчанию), служба записывает распакованные файлы в
<specified file path>/<folder named as source zip file>/. - Если этот флажок снят, служба записывает распакованные файлы непосредственно в
<specified file path>. Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных ZIP-файлах нет файлов с одинаковыми именами.
- Если этот флажок установлен (по умолчанию), служба записывает распакованные файлы в
Если вы выберете TarGzip/tar в качестве типа сжатия, в разделе Дополнительные параметры на вкладке 'Источник' появится опция Сохранить имя файла сжатия как папку.
-
Сохранение имени файла сжатия в виде папки: указывает, следует ли сохранять исходное сжатое имя файла в виде структуры папок во время копирования.
- Если этот флажок установлен (по умолчанию), служба записывает распакованные файлы в
<specified file path>/<folder named as source compressed file>/. - Если этот флажок снят, служба записывает распакованные файлы непосредственно в
<specified file path>. Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных ZIP-файлах нет файлов с одинаковыми именами.
- Если этот флажок установлен (по умолчанию), служба записывает распакованные файлы в
-
Сохранение имени ZIP-файла в виде папки: указывает, следует ли сохранять имя исходного ZIP-файла в виде структуры папок во время копирования.
Уровень сжатия. Укажите коэффициент сжатия при выборе типа сжатия. Вы можете выбрать вариант "Оптимальный " или "Быстрый".
- Fastest: операция сжатия должна выполняться как можно быстрее, даже если итоговый файл будет сжат не оптимально.
- Optimal: операция сжатия должна выполняться оптимально, даже если для ее завершения требуется больше времени. Дополнительные сведения см. в разделе Уровень сжатия.
Разделитель столбцов: символы, используемые для разделения столбцов в файле. Значение по умолчанию — запятая (
,).Разделитель строк: укажите символ, используемый для разделения строк в файле. Допускается только один знак. Значением по умолчанию является перевод строки
\n.Кодировка: тип кодирования, используемый для чтения и записи тестовых файлов. Значение по умолчанию — UTF-8.
Символ экранирования: одиночный символ для экранирования кавычек внутри значения в кавычках. Значение по умолчанию — обратная косая черта
\. Если escape-символ определяется как пустая строка, символ кавычки также должен быть задан как пустая строка, в этом случае убедитесь, что все значения столбцов не содержат разделителей.Символ кавычки: один символ для обрамления значений столбца в кавычки, если они содержат разделитель столбцов. Значение по умолчанию — двойные кавычки (
"). Если кавычка определена как пустая строка, это означает, что кавычки отсутствуют, и значение столбца не заключается в кавычки. В этом случае escape-символ используется для экранирования разделителя столбцов и самого себя.Первая строка в качестве заголовка: указывает, следует ли обрабатывать и делать первую строку в виде строки заголовка с именами столбцов. Допустимые значения: выбранный и невыбранный (по умолчанию). Если не выбрана первая строка в качестве заголовка, обратите внимание, что предварительный просмотр данных в пользовательском интерфейсе и выходные данные действия поиска автоматически создают имена столбцов как Prop_{n} (начиная с 0), действие копирования требует явного сопоставления из источника в место назначения и поиска столбцов по порядковому номеру (начиная с 1).
Значение NULL: указывает строковое представление значения NULL. Значение по умолчанию — пустая строка.
Многострочные строки: указывает, содержит ли исходный файл строки, охватывающие несколько строк. Многостроковые значения должны находиться в кавычках. По умолчанию это
true. Установка этого параметра наfalseобеспечивает оптимальную производительность, позволяя одновременное многопоточное чтение. Дополнительные сведения см. в описании оптимизации производительности для копирования текстовых файлов с разделителями.
В разделе «Дополнительные» параметры на вкладке Источник предоставляются другие свойства, связанные с форматом текста с разделителями.
Формат текста с разделителями в качестве целевого формата
После выбора параметров в разделе "Формат файла" в диалоговом окне "Всплывающие параметры формата файла" отображаются следующие свойства.
Тип сжатия: кодек сжатия, используемый для записи текстовых файлов с разделителями. Вы можете выбрать вариант None, bzip2, gzip, deflate, ZipDeflate, TarGzip или tar в раскрывающемся списке.
Уровень сжатия. Укажите коэффициент сжатия при выборе типа сжатия. Вы можете выбрать вариант "Оптимальный " или "Быстрый".
- Fastest: операция сжатия должна выполняться как можно быстрее, даже если итоговый файл будет сжат не оптимально.
- Optimal: операция сжатия должна выполняться оптимально, даже если для ее завершения требуется больше времени. Дополнительные сведения см. в разделе Уровень сжатия.
Разделитель столбцов: символы, используемые для разделения столбцов в файле. Значение по умолчанию — запятая (
,).Разделитель строк: символ, используемый для разделения строк в файле. Допускается только один знак. Значением по умолчанию является перевод строки
\n.Кодировка: тип кодирования, используемый для записи тестовых файлов. Значение по умолчанию — UTF-8.
Символ экранирования: одиночный символ для экранирования кавычек внутри значения в кавычках. Значение по умолчанию — обратная косая черта
\. Если escape-символ определяется как пустая строка, символ кавычки также должен быть задан как пустая строка, в этом случае убедитесь, что все значения столбцов не содержат разделителей.Символ кавычки: один символ для обрамления значений столбца в кавычки, если они содержат разделитель столбцов. Значение по умолчанию — двойные кавычки (
"). Если кавычка определена как пустая строка, это означает, что кавычки отсутствуют, и значение столбца не заключается в кавычки. В этом случае escape-символ используется для экранирования разделителя столбцов и самого себя.Первая строка в качестве заголовка: указывает, следует ли обрабатывать и делать первую строку в виде строки заголовка с именами столбцов. Допустимые значения: выбранный и невыбранный (по умолчанию). Если не выбрана первая строка в качестве заголовка, обратите внимание, что предварительный просмотр данных в пользовательском интерфейсе и выходные данные действия поиска автоматически создают имена столбцов как Prop_{n} (начиная с 0), действие копирования требует явного сопоставления из источника в место назначения и поиска столбцов по порядковому номеру (начиная с 1).
Значение NULL: указывает строковое представление значения NULL. Значение по умолчанию — пустая строка.
В разделе "Дополнительные" параметры на вкладке "Назначение" отображаются дополнительные свойства формата текста с разделителями.
Процитировать весь текст: заключите все значения в кавычки.
Расширение файла: расширение файла, используемое для имени выходных файлов, например
.csv,.txt.Максимальное количество строк для каждого файла: при записи данных в папку можно выбрать запись в несколько файлов и указать максимальные строки для каждого файла.
Префикс имени файла: применимо, если настроены максимальные строки для каждого файла . Укажите префикс имени файла при записи данных в несколько файлов, в результате чего используется следующий шаблон:
<fileNamePrefix>_00000.<fileExtension>. Если это свойство не задано, то префикс имени файла будет создан автоматически. Это свойство не применяется, если исходное хранилище является файловым хранилищем или хранилищем данных с включенной опцией секционирования.
Оптимизация производительности для копирования текстовых файлов с разделителями
Служба автоматически оптимизирует производительность при копировании текстовых файлов с разделителями, особенно больших файлов. Однако улучшения производительности не применяются в следующих условиях:
- Включена проверка согласованности данных.
- Используется кодировка IBM.
- Включены многострочные строки.
- Указан тип сжатия.
- Определяется настраиваемый разрыв строки.
- Двоичная копия включена.
Измените приведенные выше параметры, чтобы обеспечить оптимальную производительность.
Сводка таблицы
Текст с разделителями как источник
Следующие свойства поддерживаются в разделе Источник при использовании формата разделённого текста.
| Имя | Описание | Значение | Обязательно | Свойство скрипта JSON |
|---|---|---|---|---|
| Формат файлов | Формат файла, который требуется использовать. | РазделенныйТекст | Да | тип (под datasetSettings):Текст с разделителями |
| Тип сжатия | Кодек сжатия, применяемый для чтения файлов с разделенным текстом. | Выберите из: Не допускается bzip2 gzip сжимать ZipDeflate TarGzip tar |
Нет | тип (под compression): bzip2 gzip сжатие (deflate) ZipDeflate TarGzip tar |
| Сохранение имени ZIP-файла в качестве папки | Указывает, следует ли использовать имя исходного ZIP-файла в качестве имени структуры папок во время копирования. Применяется при выборе сжатия ZipDeflate. | Выбрать или отменить выбор | Нет | preserveZipFileNameAsFolder (сохранитьИмяZipФайлаКакПапку) (в разделе compressionProperties->type как ZipDeflateReadSettings) |
| Сохранение имени файла сжатия в виде папки | Указывает, следует ли сохранять имя исходного сжатого файла в качестве имени структуры папок во время копирования. Применяется при выборе TarGzip/tar сжатия. | Выбрать или отменить выбор | Нет | СохранитьИмяФайлаСжатияКакПапку (в разделе compressionProperties->type как TarGZipReadSettings или TarReadSettings) |
| Уровень сжатия | Коэффициент сжатия. Допустимые значения: оптимальный или самый быстрый. | Оптимальный или быстрый | Нет | уровень (под compression): Самый быстрый Оптимально |
| Разделитель столбцов | Знаки, используемые для разделения столбцов в файле. |
< выбранный разделитель столбцов > запятая , (по умолчанию) |
Нет | разделитель столбцов |
| Разделитель строк | символ, используемый для разделения строк в файле. |
< выбранный разделитель строк > \r,\n (по умолчанию) или r\n |
Нет | разделитель строк |
| Кодирование | Тип кодировки, используемый для чтения и записи тестовых файлов. | UTF-8 (по умолчанию), "UTF-8 без BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Нет | имя кодировки |
| Escape-символ | Один символ для экранирования кавычек внутри значения в кавычках. Если escape-символ определяется как пустая строка, символ кавычки также должен быть задан как пустая строка, в этом случае убедитесь, что все значения столбцов не содержат разделителей. |
< выбранный escape-символ > обратная косая черта \ (по умолчанию) |
Нет | escapeChar |
| Символ кавычки | Один символ для заключения в кавычки значений колонки, если они содержат разделитель колонок. Если кавычка определена как пустая строка, это означает, что кавычки отсутствуют, и значение столбца не заключается в кавычки. В этом случае escape-символ используется для экранирования разделителя столбцов и самого себя. |
< выбранный символ цитаты > двойные кавычки " (по умолчанию) |
Нет | quoteChar |
| Первая строка в качестве заголовка | Следует ли рассматривать первую строку в заданном листе или диапазоне как строку заголовка с именами столбцов. | Выбрано или не выбрано | Нет | firstRowAsHeader: true или false (по умолчанию) |
| Значение NULL | Задает строковое представление значения NULL. Значение по умолчанию — пустая строка. |
< строковое представление значения NULL > пустая строка (по умолчанию) |
Нет | нулевое значение |
| Многострочные строки | Указывает, содержит ли исходный файл строки, охватывающие несколько строк. | Выбран (по умолчанию) или не выбран | Нет | multiline: true (по умолчанию) или false |
Текст с разделителями в качестве назначения
Следующие свойства поддерживаются в разделе Назначение действия копирования при использовании формата текстовых файлов с разделителями.
| Имя | Описание | Значение | Обязательно | Свойство скрипта JSON |
|---|---|---|---|---|
| Формат файлов | Формат файла, который требуется использовать. | РазделенныйТекст | Да | тип (под datasetSettings):Текст с разделителями |
| Тип сжатия | Кодек компрессии, используемый для создания файлов с разделенным текстом. | Выберите из: Не допускается bzip2 gzip сжимать ZipDeflate TarGzip tar |
Нет | тип (под compression): bzip2 gzip сжатие (deflate) ZipDeflate TarGzip tar |
| Сохранение имени ZIP-файла в качестве папки | Указывает, следует ли использовать имя исходного ZIP-файла в качестве имени структуры папок во время копирования. | Выбрать или отменить выбор | Нет | preserveZipFileNameAsFolder (сохранитьИмяZipФайлаКакПапку) (в разделе compressionProperties->type как ZipDeflateReadSettings) |
| Сохранение имени файла сжатия в виде папки | Указывает, следует ли сохранять имя исходного сжатого файла в качестве имени структуры папок во время копирования. | Выбрать или отменить выбор | Нет | СохранитьИмяФайлаСжатияКакПапку (в разделе compressionProperties->type как TarGZipReadSettings или TarReadSettings) |
| Уровень сжатия | Коэффициент сжатия. Допустимые значения: оптимальный или самый быстрый. | Оптимальный или быстрый | Нет | уровень (под compression): Самый быстрый Оптимально |
| Разделитель столбцов | Знаки, используемые для разделения столбцов в файле. |
< выбранный разделитель столбцов > запятая , (по умолчанию) |
Нет | разделитель столбцов |
| Разделитель строк | символ, используемый для разделения строк в файле. |
< выбранный разделитель строк > \r,\n (по умолчанию) или r\n |
Нет | разделитель строк |
| Кодирование | Тип кодировки, используемый для чтения и записи тестовых файлов. | UTF-8 (по умолчанию), "UTF-8 без BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Нет | имя кодировки |
| Escape-символ | Один символ для экранирования кавычек внутри значения в кавычках. Если escape-символ определяется как пустая строка, символ кавычки также должен быть задан как пустая строка, в этом случае убедитесь, что все значения столбцов не содержат разделителей. |
< выбранный escape-символ > обратная косая черта \ (по умолчанию) |
Нет | escapeChar |
| Символ кавычки | Один символ для заключения в кавычки значений колонки, если они содержат разделитель колонок. Если кавычка определена как пустая строка, это означает, что кавычки отсутствуют, и значение столбца не заключается в кавычки. В этом случае escape-символ используется для экранирования разделителя столбцов и самого себя. |
< выбранный символ цитаты > двойные кавычки " (по умолчанию) |
Нет | quoteChar |
| Первая строка в качестве заголовка | Следует ли рассматривать первую строку в заданном листе или диапазоне как строку заголовка с именами столбцов. | Выбрано или не выбрано | Нет | firstRowAsHeader: true или false (по умолчанию) |
| Заключите весь текст в кавычки | Заключите все значения в кавычки. | Выбрано (по умолчанию) или не выбрано | Нет | quoteAllText: true (по умолчанию) или false |
| Расширение файла | Расширение файла, используемое для имени выходных файлов. |
< расширение файла > .txt (по умолчанию); |
Нет | расширение файла |
| Максимальное количество строк на файл | Можно выбрать режим записи данных в папку с разбиением на несколько файлов и указать максимальное число строк в одном таком файле. | < максимальное количество строк на файл > | Нет | maxRowsPerFile |
| Префикс имени файла | Применимо, если настроены максимальные строки для каждого файла . Укажите префикс имени файла при записи данных в несколько файлов, в результате чего используется следующий шаблон: <fileNamePrefix>_00000.<fileExtension>. Если это свойство не задано, то префикс имени файла будет создан автоматически. Это свойство не применяется, если исходное хранилище является файловым хранилищем или хранилищем данных с включенной опцией секционирования. |
< префикс имени файла > | Нет | Префикс имени файла |