Настройка Файлы Azure в действии копирования
В этой статье описывается, как использовать действие копирования в конвейере данных для копирования данных из Файлы Azure.
Поддерживаемые форматы
Файлы Azure поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.
- Формат Avro
- Двоичный формат
- Формат текста с разделителями
- Формат Excel
- Формат JSON
- Формат ORC
- Формат Parquet
- ФОРМАТ XML
Поддерживаемая конфигурация
Для настройки каждой вкладки в действии копирования перейдите к следующим разделам соответственно.
Общие
Ознакомьтесь с руководством по общим параметрам, чтобы настроить вкладку "Общие параметры".
Исходный код
Следующие свойства поддерживаются для Файлы Azure на вкладке "Источник" действия копирования.
Требуются следующие свойства:
Тип хранилища данных: выберите "Внешний".
Подключение ion: выберите подключение Файлы Azure из списка подключений. Если подключение не существует, создайте новое Файлы Azure подключение, нажав кнопку "Создать".
Тип пути к файлу: можно выбрать путь к файлу, префикс, Wild карта путь к файлу, список файлов в качестве типа пути к файлу. Конфигурация каждого параметра:
Путь к файлу: если выбрать этот тип, данные можно скопировать из указанного пути к папке или файлу.
Префикс: префикс имени файла в указанной общей папке для фильтрации исходных файлов. Будут выбраны файлы, имя которых начинается с
fileshare_in_connection/this_prefix
. Используется фильтр на стороне службы Файлов Azure, который эффективнее фильтра с подстановочными знаками.Путь к файлу в wild карта: укажите папку или путь к файлу с помощью диких карта символов для фильтрации исходных папок или файлов.
Допустимые подстановочные знаки:
*
(соответствует нулю или нескольким символам) и?
(соответствует нулю или одному символу). Используйте^
для экранирования знаков, если имя папки содержит подстановочный знак или этот escape-символ. Дополнительные примеры см. в примерах фильтров папок и файлов.Путь к папке wild карта: укажите путь к папке с помощью wild карта символов для фильтрации исходных папок.
Wild карта имя файла: укажите имя файла с дикими карта символами в настроенной папке/wild карта пути к папке для фильтрации исходных файлов.
Список файлов: указывает заданный набор файлов для копирования. В списке путей к файлу введите или перейдите к текстовому файлу, включающее список файлов, которые нужно скопировать, один файл на строку, который является относительным путем к каждому файлу.
При использовании этого параметра не указывайте имя файла. Дополнительные примеры см. в примерах списка файлов.
Путь к папке: укажите путь к папке. Оно должно указываться обязательно.
Путь к списку файлов: укажите путь к текстовому файлу, который содержит список файлов, которые нужно скопировать.
Рекурсивно: укажите, считываются ли данные рекурсивно из вложенных папок или только из указанной папки. Обратите внимание, что если выбран рекурсивно , а назначение — это файловое хранилище, пустая папка или вложенная папка не копируется или не создается в месте назначения. Это свойство выбрано по умолчанию и не применяется при настройке пути к списку файлов.
Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите Параметры, чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .
В разделе "Дополнительно" можно указать следующие поля:
Фильтр по последнему изменению: файлы фильтруются на основе последних измененных дат. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.
Время начала (UTC): файлы выбираются, если время последнего изменения больше или равно заданному времени.
Время окончания (UTC): файлы выбираются, если время последнего изменения меньше настроенного времени.
Если время начала (UTC) имеет значение datetime, но время окончания (UTC) равно NULL, это означает, что файлы, последние измененные атрибуты которых больше или равно значению даты и времени будут выбраны. Если время окончания (UTC) имеет значение datetime, но время начала (UTC) равно NULL, это означает, что файлы, последние измененные атрибуты которых меньше значения datetime будут выбраны. Свойства могут иметь значение NULL, что означает, что к данным не будет применен фильтр атрибутов файлов.
Включение обнаружения секций: укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. Он не выбирается по умолчанию и не поддерживается при использовании двоичного формата файла.
Корневой путь к секционированиям. Если обнаружение секций включено, укажите абсолютный корневой путь, чтобы читать секционированные папки в виде столбцов данных.
Если параметр не задан (по умолчанию), происходит следующее.
- При использовании пути к файлу или списка файлов в источнике корневой путь секции — это настроенный путь.
- При использовании фильтра папки wild карта корневой путь секции является вложенным путем до первого дикого карта.
Например, если вы настраиваете путь следующим
root/folder/year=2020/month=08/day=27
образом:- Если указать корневой путь секции в качестве
root/folder/year=2020
, действие копирования создаст еще два столбца месяца и день со значением "08" и "27" соответственно, в дополнение к столбцам внутри файлов. - Если корневой путь секции не указан, дополнительный столбец не будет создан.
Максимальное число одновременных подключений: это свойство указывает верхний предел параллельных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.
Дополнительные столбцы: добавление дополнительных столбцов данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего.
Назначение
Следующие свойства поддерживаются для Файлы Azure на вкладке "Назначение" действия копирования.
Требуются следующие свойства:
- Тип хранилища данных: выберите "Внешний".
- Подключение ion: Выберите Файлы Azure подключение из списка подключений. Если подключение не существует, создайте новое подключение Файлы Azure, нажав кнопку "Создать".
- Путь к файлу: нажмите кнопку "Обзор" , чтобы выбрать файл, который требуется скопировать или заполнить путь вручную.
- Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите Параметры, чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .
В разделе "Дополнительно" можно указать следующие поля:
Поведение копирования: определяет поведение копирования, если источник является файлами из файлового хранилища данных. Вы можете выбрать поведение из раскрывающегося списка.
- Неструктурированный иерархия: все файлы из исходной папки находятся на первом уровне целевой папки. У целевых файлов есть автоматически созданные имена.
- Файлы слияния: объединяет все файлы из исходной папки в один файл. Если указано имя файла, то оно присваивается объединенному файлу. В противном случае это автоматически созданное имя файла.
- Сохранение иерархии: сохраняет иерархию файлов в целевой папке. Относительный путь исходного файла в исходной папке идентичен относительному пути целевого файла в целевой папке.
Максимальное число одновременных подключений: верхний предел одновременных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.
Максимальное количество строк для каждого файла: при записи данных в папку можно выбрать запись в несколько файлов и указать максимальные строки для каждого файла. Укажите максимальные строки, которые требуется записать для каждого файла.
Сопоставление
Чтобы настроить конфигурацию вкладки "Сопоставление ", перейдите к разделу "Настройка сопоставлений" на вкладке сопоставления. Если в качестве формата файла выбран двоичный файл, сопоставление не будет поддерживаться.
Настройки
Сведения о конфигурации вкладки Параметры см. в разделе "Настройка других параметров" на вкладке "Параметры".
Сводка таблицы
В следующих таблицах содержатся дополнительные сведения о действии копирования в Файлы Azure.
Сведения об источнике
Имя | Описание | Значение | Обязательное поле | Свойство скрипта JSON |
---|---|---|---|---|
Тип хранилища данных | Тип хранилища данных. | Внешний | Да | / |
Соединение | Подключение к исходному хранилищу данных. | <подключение Файлы Azure> | Да | подключение |
Тип пути к файлу | Тип пути к файлу, используемый для получения исходных данных. | • Путь к файлу •Префикс • Путь к файлу в диком карта • Список файлов |
Да | / |
Путь к файлу | ||||
Каталог | Путь к папке. | <имя папки> | No | folderPath |
Имя файла | Имя файла под указанным путем к папке. | <имя файла> | No | fileName |
Для префикса | ||||
Prefix | Префикс имени файла в указанной общей папке для фильтрации исходных файлов. | <префикс> | No | prefix |
Путь к файлу в Wild карта | ||||
Путь к папке Wild карта | Путь к папке будет использовать подстановочные знаки для фильтрации исходных папок. | <Путь к папке с дикими символами карта> | No | wild карта FolderPath |
Имя файла Wild карта | Имя файла с дикими карта символами в указанной папке/wild карта путь к папке для фильтрации исходных файлов. | <имя файла с дикими карта символами> | Да | wild карта FileName |
Список файлов | ||||
Путь к папке | Путь к папке. | <имя папки> | No | folderpath |
Путь к списку файлов | Указывает, что нужно скопировать заданный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку. | < Путь к списку файлов > | No | fileListPath |
Рекурсивно | Обработайте все файлы во входной папке и ее вложенных папках рекурсивно или просто те, которые в выбранной папке. Этот параметр отключен при выборе одного файла. | Выбранный или отмена выбора | No | recursive |
Формат файлов | Формат файла для исходных данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате для получения подробных сведений. | / | Да | / |
Фильтрация по последней измененной | Файлы с последним измененным временем в диапазоне [время начала, время окончания) будут отфильтрованы для дальнейшей обработки. Время будет применено к часовой поясу UTC в формате yyyy-mm-ddThh:mm:ss.fffZ . Эти свойства можно пропустить, что означает, что фильтр атрибутов файла не будет применен. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Включение обнаружения секций | Указывает, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. | выбран или не выбран (по умолчанию) | No | enablePartitionDiscovery: true или false (по умолчанию) |
Максимальное число одновременных подключений | Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. | <максимальное число одновременных подключений> | No | maxConcurrentConnections |
Дополнительные столбцы | Добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего. | • Имя •Значение |
No | additionalColumns: •Имя •Значение |
Сведения о назначении
Имя | Описание | Значение | Обязательное поле | Свойство скрипта JSON |
---|---|---|---|---|
Тип хранилища данных | Тип хранилища данных. | Внешний | Да | / |
Соединение | Подключение к целевому хранилищу данных. | <подключение> | Да | подключение |
Путь к файлу | Путь к папке или файлу целевого файла. | < Путь к папке или файлу > | Да | / |
Каталог | Путь к папке в указанном контейнере. | <имя папки> | No | folderpath |
Имя файла | Имя файла в указанном контейнере и пути к папке. | <имя файла> | No | fileName |
Поведение копирования | Определяет поведение копирования, когда источником являются файлы из файлового хранилища данных. | • Плоская иерархия • Слияние файлов • Сохранение иерархии |
No | copyBehavior: • FlattenHierarchy • MergeFiles • СохранитьHierarchy |
Максимальное число одновременных подключений | Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. | <максимальное число одновременных подключений> | No | maxConcurrentConnections |
Максимальное количество строк на файл | При записи данных в папку можно выбрать запись в несколько файлов и указать максимальные строки для каждого файла. Укажите максимальные строки, которые требуется записать для каждого файла. | < максимальное количество строк на файл > | No | maxRowsPerFile |