Настройка FTP в действии копирования
В этой статье описывается, как использовать действие копирования в конвейере данных для копирования данных из FTP.
Поддерживаемые форматы
FTP поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.
- Формат Avro
- Двоичный формат
- Формат текста с разделителями
- Формат Excel
- Формат JSON
- Формат ORC
- Формат Parquet
- ФОРМАТ XML
Поддерживаемая конфигурация
Для настройки каждой вкладки в действии копирования перейдите к следующим разделам соответственно.
Общие
Ознакомьтесь с руководством по общим параметрам, чтобы настроить вкладку "Общие параметры".
Оригинал
Перейдите на вкладку "Источник" , чтобы настроить источник действия копирования. См. следующее содержимое для подробной конфигурации.
Требуются следующие три свойства:
Тип хранилища данных: выберите "Внешний".
Подключение ion: выберите FTP-подключение из списка подключений. Если подключение не существует, создайте новое FTP-подключение, нажав кнопку "Создать".
Тип пути к файлу: выберите из пути к файлу, Wild карта путь к файлу и список файлов на основе способа чтения файлов.
Путь к файлу: если выбрать этот тип, укажите путь к исходному файлу. Вы можете выбрать исходные файлы или ввести путь к файлу вручную.
Путь к wild-файлу: если выбрать этот тип, укажите путь Wild карта для фильтрации исходных папок или файлов.
Допустимые подстановочные знаки:
*
(соответствует нулю или нескольким символам) и?
(соответствует нулю или одному символу). Используйте^
для экранирования знаков, если имя папки содержит подстановочный знак или этот escape-символ. Дополнительные примеры см. в примерах фильтров папок и файлов.Путь к папке wild карта: укажите путь к папке с помощью wild карта символов для фильтрации исходных папок.
Wild карта имя файла: укажите имя файла с дикими карта символами в заданной папкеPath/wild карта путь к папке для фильтрации исходных файлов.
Список файлов: если выбрать этот тип, укажите путь к папке и путь к списку файлов, чтобы копировать заданный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку. Дополнительные примеры см. в примерах списка файлов.
Путь к папке: укажите путь к исходной папке. Оно должно указываться обязательно.
Путь к списку файлов: укажите путь к текстовому файлу, который содержит список файлов, которые нужно скопировать.
Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите Параметры, чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .
В разделе "Дополнительно" можно указать следующие поля:
Фильтр по последнему изменению: файлы фильтруются на основе последних измененных дат. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.
- Время начала (UTC): файлы выбираются, если время последнего изменения больше или равно заданному времени.
- Время окончания (UTC): файлы выбираются, если время последнего изменения меньше настроенного времени.
Если время начала (UTC) имеет значение datetime, но время окончания (UTC) равно NULL, это означает, что файлы, последние измененные атрибуты которых больше или равно значению даты и времени будут выбраны. Если время окончания (UTC) имеет значение datetime, но время начала (UTC) равно NULL, это означает, что файлы, последние измененные атрибуты которых меньше значения datetime будут выбраны. Свойства могут иметь значение NULL, что означает, что к данным не будет применен фильтр атрибутов файлов.
Отключить блоки: блоки предназначены для оптимизации производительности и происходит под ним. Этот параметр позволяет отключить блоки в каждом файле. При копировании данных с FTP-сервера служба пытается сначала получить длину файла, а затем разделить этот файл на несколько частей и считывать их параллельно. Укажите, поддерживает ли ваш FTP-сервер получение длины файла или поиск для чтения с определенным смещением. По умолчанию он не выбирается.
Включение обнаружения секций: укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. Он не выбирается по умолчанию и не поддерживается при использовании двоичного формата файла.
Корневой путь к секционированиям. Если обнаружение секций включено, укажите абсолютный корневой путь, чтобы читать секционированные папки в виде столбцов данных.
Если параметр не задан (по умолчанию), происходит следующее.- При использовании пути к файлу или списка файлов в источнике корневой путь секции — это настроенный путь.
- При использовании фильтра папки wild карта корневой путь секции является вложенным путем до первого дикого карта.
Например, если вы настраиваете путь следующим
root/folder/year=2020/month=08/day=27
образом:- Если указать корневой путь секции в качестве
root/folder/year=2020
, действие копирования создаст еще два столбца месяца и день со значением "08" и "27" соответственно, в дополнение к столбцам внутри файлов. - Если корневой путь секции не указан, дополнительный столбец не будет создан.
Используйте двоичную передачу: укажите, следует ли использовать режим двоичной передачи. Выберите его, чтобы использовать двоичный режим (по умолчанию) или отменить выбор, чтобы использовать ASCII.
Максимальное число одновременных подключений: это свойство указывает верхний предел параллельных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.
Дополнительные столбцы: добавление дополнительных столбцов данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего. Дополнительные сведения см. в описании "Добавление дополнительных столбцов во время копирования".
Сопоставление
Сведения о настройке вкладки "Сопоставление" см. в разделе "Настройка сопоставлений" на вкладке "Сопоставление". Если в качестве формата файла выбран двоичный файл, сопоставление не будет поддерживаться.
Настройки
Для настройки вкладки Параметры перейдите к разделу "Настройка других параметров" на вкладке "Параметры".
Сводка таблицы
В следующей таблице содержатся дополнительные сведения о действии копирования в FTP.
Оригинал
Имя | Описание | Значение | Обязательное поле | Свойство скрипта JSON |
---|---|---|---|---|
Тип хранилища данных | Тип хранилища данных. | Внешний | Да | / |
Соединение | Подключение FTP к исходному хранилищу данных. | < подключение FTP > | Да | подключение |
Тип пути к файлу | Тип пути к файлу, используемый для получения исходных данных. | • Путь к файлу • Путь к файлу в wild карта • Список файлов |
Да | / |
Путь к файлу | Путь к исходному файлу. | < Путь к файлу> | Да | fileName folderpath |
Дикие карта пути | Путь к исходному файлу карта. | <Путь к файлу в диком формате карта> | Да для Wild карта имя файла | wild карта FolderPath wild карта FileName |
Путь к папке | Путь к исходной папке. | < общий путь к домашней папке> | Да | folderPath |
Путь к списку файлов | Указывает, что нужно скопировать заданный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку. | < Путь к списку файлов > | No | fileListPath |
Формат файлов | Формат файла для исходных данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате для получения подробных сведений. | / | Да | / |
Фильтрация по последней измененной | Файлы с последним измененным временем в диапазоне [время начала, время окончания) будут отфильтрованы для дальнейшей обработки. Время будет применено к часовой поясу UTC в формате yyyy-mm-ddThh:mm:ss.fffZ . Эти свойства можно пропустить, что означает, что фильтр атрибутов файла не будет применен. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Отключение блокирования | Блокирование предназначено для оптимизации производительности и происходит под ним. Этот параметр позволяет отключить блоки в каждом файле. При копировании данных с FTP-сервера служба пытается сначала получить длину файла, а затем разделить этот файл на несколько частей и считывать их параллельно. Укажите, поддерживает ли ваш FTP-сервер получение длины файла или поиск для чтения с определенным смещением. | выбран или не выбран (по умолчанию) | No | disableChunking: true или false (по умолчанию) |
Включение обнаружения секций | Указывает, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. | выбран или не выбран (по умолчанию) | No | enablePartitionDiscovery: true или false (по умолчанию) |
Корневой путь раздела | Абсолютный корневой путь секционирования для чтения секционированных папок в виде столбцов данных. Укажите его при включении обнаружения секций. | < корневой путь секции > | No | partitionRootPath |
Использование двоичной передачи | Указывает, следует ли использовать режим двоичной передачи. Задается значение true, если следует использовать двоичный формат (по умолчанию), и false, если следует использовать ASCII. | выбрано (по умолчанию) или не выбрано | No | useBinaryTransfer: true (по умолчанию) или false |
Максимальное число одновременных подключений | Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. | < верхний предел одновременных подключений > (целое число) |
No | maxConcurrentConnections |
Дополнительные столбцы | Добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего. Дополнительные сведения см. в раздел "Добавление дополнительных столбцов во время копирования" | • Имя •Значение |
No | additionalColumns: •Имя •Значение |