Настройка SFTP в действии копирования
В этой статье описывается, как использовать действие копирования в конвейере данных для копирования данных из SFTP.
Поддерживаемые форматы
SFTP поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.
- Формат Avro
- Двоичный формат
- Формат текста с разделителями
- Формат Excel
- Формат JSON
- Формат ORC
- Формат Parquet
- ФОРМАТ XML
Поддерживаемая конфигурация
Для настройки каждой вкладки в действии копирования перейдите к следующим разделам соответственно.
Общие
Ознакомьтесь с руководством по общим параметрам, чтобы настроить вкладку "Общие параметры".
Оригинал
Перейдите на вкладку "Источник" , чтобы настроить источник действия копирования. См. следующее содержимое для подробной конфигурации.
Требуются следующие три свойства:
Тип хранилища данных: выберите "Внешний".
Подключение. Выберите подключение SFTP из списка подключений. Если подключение не существует, создайте новое подключение SFTP, нажав кнопку "Создать".
Тип пути к файлу: выберите из пути к файлу, Wild карта путь к файлу и список файлов на основе способа чтения файлов.
Путь к файлу: если выбрать этот тип, укажите путь к исходному файлу. Вы можете выбрать исходные файлы или ввести путь к файлу вручную.
Путь к wild-файлу: если выбрать этот тип, укажите путь Wild карта для фильтрации исходных папок или файлов.
Допустимые подстановочные знаки:
*
(соответствует нулю или нескольким символам) и?
(соответствует нулю или одному символу). Используйте^
для экранирования знаков, если имя папки содержит подстановочный знак или этот escape-символ. Дополнительные примеры см. в примерах фильтров папок и файлов.Путь к папке wild карта: укажите путь к папке с помощью wild карта символов для фильтрации исходных папок.
Wild карта имя файла: укажите имя файла с дикими карта символами в заданном пути к папке/диким карта пути к папке для фильтрации исходных файлов.
Список файлов: если выбрать этот тип, укажите путь к папке и путь к списку файлов, чтобы копировать заданный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку. Дополнительные примеры см. в примерах списка файлов.
Путь к папке: укажите путь к исходной папке. Оно должно указываться обязательно.
Путь к списку файлов: укажите путь к текстовому файлу, который содержит список файлов, которые нужно скопировать.
Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите Параметры, чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .
В разделе "Дополнительно" можно указать следующие поля:
Фильтруйте по последнему изменению: файлы фильтруются на основе указанных вами дат последнего изменения. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.
- Время начала (UTC): файлы выбираются, если время последнего изменения больше или равно заданному времени.
- Время окончания (UTC): файлы выбираются, если время последнего изменения меньше настроенного времени.
Если время начала (UTC) имеет значение datetime, но время окончания (UTC) равно NULL, это означает, что файлы, последние измененные атрибуты которых больше или равно значению даты и времени будут выбраны. Если время окончания (UTC) имеет значение datetime, но время начала (UTC) равно NULL, это означает, что файлы, последние измененные атрибуты которых меньше значения datetime будут выбраны. Свойства могут иметь значение NULL, что означает, что к данным не будет применен фильтр атрибутов файлов.
Отключить блоки: блоки предназначены для оптимизации производительности и происходит под ним. Этот параметр позволяет отключить блоки в каждом файле. При копировании данных с SFTP-сервера служба пытается сначала получить длину файла, а затем разделить этот файл на несколько частей и считывать их параллельно. Укажите, поддерживает ли ваш SFTP-сервер получение длины файла или поиск для чтения с определенным смещением. По умолчанию он не выбирается.
Включение обнаружения секций: укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. Он не выбирается по умолчанию и не поддерживается при использовании двоичного формата файла.
Корневой путь к секционированиям. Если обнаружение секций включено, укажите абсолютный корневой путь, чтобы читать секционированные папки в виде столбцов данных.
Если параметр не задан (по умолчанию), происходит следующее.- При использовании пути к файлу или списка файлов в источнике корневой путь секции — это настроенный путь.
- При использовании фильтра папки wild карта корневой путь секции является вложенным путем до первого дикого карта.
Например, если вы настраиваете путь следующим
root/folder/year=2020/month=08/day=27
образом:- Если указать корневой путь секции в качестве
root/folder/year=2020
, действие копирования создаст еще два столбца месяца и день со значением "08" и "27" соответственно, в дополнение к столбцам внутри файлов. - Если корневой путь секции не указан, дополнительный столбец не будет создан.
Максимальное число одновременных подключений: это свойство указывает верхний предел параллельных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.
Дополнительные столбцы: добавление дополнительных столбцов данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего. Дополнительные сведения см. в описании "Добавление дополнительных столбцов во время копирования".
Назначение
Перейдите на вкладку "Назначение" , чтобы настроить назначение действия копирования. См. следующее содержимое для подробной конфигурации.
- Тип хранилища данных: выберите "Внешний".
- Подключение. Выберите подключение SFTP из списка подключений. Если подключение не существует, создайте новое подключение SFTP, нажав кнопку "Создать".
- Путь к файлу: укажите путь к файлу для записи данных. Вы можете выбрать исходные файлы или ввести путь к файлу вручную.
- Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите Параметры, чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .
В разделе "Дополнительно" можно указать следующие поля:
Поведение копирования. Укажите поведение копирования, когда источник является файлами из файлового хранилища данных. Выберите из следующих свойств.
- Плоская иерархия: все файлы из исходной папки находятся на первом уровне целевой папки. Целевые файлы имеют автоматически сформированные имена.
- Файлы слияния: объединяет все файлы из исходной папки в один файл. Если указано имя файла, то оно присваивается объединенному файлу. В противном случае это автоматически созданное имя файла.
- Сохранение иерархии (по умолчанию) — сохраняет иерархию файлов в целевой папке. Относительный путь исходного файла в исходной папке идентичен относительному пути целевого файла в целевой папке.
- Добавление динамического содержимого: выберите это, чтобы указать поведение копирования с помощью динамического содержимого.
Максимальное число одновременных подключений: верхний предел одновременных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.
Время ожидания операции (минуты): укажите время ожидания для записи каждого блока на сервер SFTP. Значение по умолчанию — 60 минут.
Отправка с временным файлом: укажите, следует ли отправлять временные файлы и переименовывать их или напрямую записывать в целевую папку или расположение файла. По умолчанию она выбирается и служба сначала записывает временные файлы, а затем переименовывает их после завершения отправки.
Эта последовательность помогает (1) избегать конфликтов, которые могут привести к повреждению файла, если другие процессы записывают в один и тот же файл, и (2) убедитесь, что исходная версия файла существует во время передачи. Если SFTP-сервер не поддерживает операцию переименования, отключите этот параметр и следите за тем, чтобы не возникало параллельных операций записи в один целевой файл.
Совет
Если при записи данных в SFTP появляется сообщение об ошибке "UserErrorSftpPathNotFound", "UserErrorSftpPermissionDenied" или "SftpOperationFail", а используемый пользователь SFTP имеет необходимые разрешения, проверьте, работает ли операция переименования файлов в службе SFTP. Если это не так, отключите параметр "Отправить с временным файлом" и повторите попытку.
Сопоставление
Сведения о настройке вкладки "Сопоставление" см. в разделе "Настройка сопоставлений" на вкладке "Сопоставление". Если в качестве формата файла выбран двоичный файл, сопоставление не будет поддерживаться.
Настройки
Для настройки вкладки Параметры перейдите к разделу "Настройка других параметров" на вкладке "Параметры".
Сводка таблицы
В следующей таблице содержатся дополнительные сведения о действии копирования в SFTP.
Оригинал
Имя | Описание | Значение | Обязательное поле | Свойство скрипта JSON |
---|---|---|---|---|
Тип хранилища данных | Тип хранилища данных. | Внешний | Да | / |
Соединение | Подключение SFTP к исходному хранилищу данных. | < подключение SFTP > | Да | подключение |
Тип пути к файлу | Тип пути к файлу, используемый для получения исходных данных. | • Путь к файлу • Путь к файлу в wild карта • Список файлов |
Да | / |
Путь к файлу | Путь к исходному файлу. | < Путь к файлу> | Да | fileName folderPath |
Дикие карта пути | Путь к исходному файлу карта. | <Путь к файлу в диком формате карта> | Да для Wild карта имя файла | wild карта FolderPath wild карта FileName |
Путь к папке | Путь к исходной папке. | < Путь к папке> | Да | folderPath |
Путь к списку файлов | Указывает, что нужно скопировать заданный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку. | < Путь к списку файлов > | No | fileListPath |
Формат файлов | Формат файла для исходных данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате для получения подробных сведений. | / | Да | / |
Фильтрация по последней измененной | Файлы с последним измененным временем в диапазоне [время начала, время окончания) будут отфильтрованы для дальнейшей обработки. Время будет применено к часовой поясу UTC в формате yyyy-mm-ddThh:mm:ss.fffZ . Эти свойства можно пропустить, что означает, что фильтр атрибутов файла не будет применен. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Отключение блокирования | Блокирование предназначено для оптимизации производительности и происходит под ним. Этот параметр позволяет отключить блоки в каждом файле. При копировании данных с SFTP-сервера служба пытается сначала получить длину файла, а затем разделить этот файл на несколько частей и считывать их параллельно. Укажите, поддерживает ли ваш SFTP-сервер получение длины файла или поиск для чтения с определенным смещением. | выбран или не выбран (по умолчанию) | No | disableChunking: true или false (по умолчанию) |
Включение обнаружения секций | Указывает, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. | выбран или не выбран (по умолчанию) | No | enablePartitionDiscovery: true или false (по умолчанию) |
Корневой путь раздела | Абсолютный корневой путь секционирования для чтения секционированных папок в виде столбцов данных. Укажите его при включении обнаружения секций. | < корневой путь секции > | No | partitionRootPath |
Максимальное число одновременных подключений | Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. | < верхний предел одновременных подключений > (целое число) |
No | maxConcurrentConnections |
Дополнительные столбцы | Добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего. Дополнительные сведения см. в раздел "Добавление дополнительных столбцов во время копирования" | • Имя •Значение |
No | additionalColumns: •Имя •Значение |
Назначение
Имя | Описание | Значение | Обязательное поле | Свойство скрипта JSON |
---|---|---|---|---|
Тип хранилища данных | Тип хранилища данных. | Внешняя. | Да | / |
Соединение | Подключение к исходному SFTP. | < подключение > | Да | подключение |
Путь к файлу | Путь к файлу целевых данных. | Путь к файлу назначения | Да | folderPath fileName |
Формат файлов | Формат файла для исходных данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате для получения подробных сведений. | / | Да | / |
Поведение копирования | Определяет поведение копирования, когда источником являются файлы из файлового хранилища данных. | • Плоская иерархия • Слияние файлов • Сохранение иерархии |
No | copyBehavior: - FlattenHierarchy — MergeFiles - СохранитьHierarchy |
Максимальное число одновременных подключений | Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. | < максимальное число одновременных подключений > | No | maxConcurrentConnections |
Время ожидания операции (минуты) | Время ожидания записи каждого блока на сервер SFTP. | < время ожидания операции > Значение по умолчанию — 60 |
No | operationTimeout |
Отправка с помощью temp-файла | Указывает, следует ли отправлять временные файлы и переименовать их. Отключите этот параметр, если сервер SFTP не поддерживает операцию переименования. | выбрано (по умолчанию) или не выбрано | No | useTempFileRename: true (по умолчанию) или false |