Настройка Azure Data Lake Storage Gen2 в задаче копирования

В этой статье описывается, как использовать действие копирования в конвейере для копирования данных из Azure Data Lake Storage 2-го поколения.

Поддерживаемые форматы

Azure Data Lake Storage 2-го поколения поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.

Поддерживаемая конфигурация

Для настройки каждой вкладки в действии копирования перейдите к следующим разделам соответственно.

General

Ознакомьтесь с руководством по общим параметрам , чтобы настроить вкладку "Общие параметры".

Исходный материал

Следующие свойства поддерживаются для Azure Data Lake Storage 2-го поколения на вкладке "Источник " действия копирования.

Снимок экрана: вкладка источника.

Требуются следующие свойства:

  • Подключение. Выберите подключение Azure Data Lake Storage 2-го поколения из списка подключений. Если подключение отсутствует, создайте новое подключение Azure Data Lake Storage 2-го поколения, нажав кнопку "Создать".

  • Тип подключения: выберите Azure Data Lake Storage 2-го поколения.

  • Тип пути к файлу: вы можете выбрать путь к файлу, путь с подстановочными символами или список файлов в качестве типа пути к файлу. Конфигурация каждого из этих параметров:

    • Путь к файлу. Если выбрать этот тип, данные можно скопировать из указанной файловой системы или папки или пути к файлу, указанному ранее.

    • Путь к файлу с подстановочными знаками: если выбрать этот тип, укажите пути к файловой системе и подстановочным знакам.

      • Файловая система: имя файловой системы Azure Data Lake Storage 2-го поколения.

      • Пути с подстановочными знаками: укажите папку или путь к файлу с подстановочными знаками в заданной файловой системе для фильтрации исходных папок или файлов.

        Допустимые подстановочные знаки: * (соответствует нулю или нескольким символам) и ? (соответствует нулю или одному символу). Используется ^ для escape-обхода, если имя папки имеет подстановочный знак или этот escape-символ внутри. Дополнительные примеры см. в примерах фильтров папок и файлов.

        Снимок экрана: путь к файлу подстановочного знака.

        • Путь к папке подстановочных знаков: укажите путь к папке с подстановочными знаками в указанной файловой системе для фильтрации исходных папок.

        • Имя файла подстановочного знака: укажите имя файла с подстановочными знаками в указанной файловой системе + путь к папке (или путь к папке подстановочных знаков) для фильтрации исходных файлов.

    • Список файлов: указывает, что требуется скопировать заданный набор файлов. Укажите путь к папке и путь к списку файлов , чтобы указать текстовый файл, содержащий список файлов, которые нужно скопировать, один файл на строку, который является относительным путем к пути. Дополнительные примеры см. в примерах списка файлов.

      Снимок экрана: путь к списку файлов.

      • Путь к папке: укажите путь к папке в указанной файловой системе. Это обязательно.

      • Путь к списку файлов: укажите путь к текстовому файлу, который содержит список файлов, которые нужно скопировать.

  • Рекурсивно: укажите, считываются ли данные рекурсивно из вложенных папок или только из указанной папки. Обратите внимание, что если выбран Рекурсивно, а назначение — это файловое хранилище, то пустая папка или вложенная папка не копируются и не создаются в месте назначения. Это свойство выбрано по умолчанию и не применяется при настройке пути к списку файлов.

  • Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите "Параметры", чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .

В разделе "Дополнительно" можно указать следующие поля:

  • Фильтр по последнему изменению: файлы фильтруются на основе последних измененных дат. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.

    • Время начала (UTC): файлы выбираются, если время последнего изменения больше или равно заданному времени.

    • Время окончания (UTC): файлы выбираются, если время последнего изменения меньше настроенного времени.

    Если время начала (UTC) имеет значение datetime, но время окончания (UTC) равно NULL, это означает, что файлы, последние измененные атрибуты которых больше или равно значению даты и времени будут выбраны. Если время окончания (UTC) имеет значение datetime, но время начала (UTC) равно NULL, это означает, что файлы, последние измененные атрибуты которых меньше значения datetime будут выбраны. Свойства могут иметь значение NULL, что означает, что к данным не будет применен фильтр атрибутов файлов.

  • Включение обнаружения секций: укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. Он не выбирается по умолчанию и не поддерживается при использовании двоичного формата файла.

    • Корневой путь секционирования: Если обнаружение разделов включено, укажите абсолютный корневой путь, чтобы читать секционированные папки в виде столбцов данных.

      Если он не указан, по умолчанию

      • При использовании пути к файлу или списка файлов в источнике корневой путь секции — это настроенный путь.
      • При использовании фильтра папок с подстановочными знаками корневой путь раздела – это часть пути перед первым подстановочным знаком.

      Например, если вы настраиваете путь как root/folder/year=2020/month=08/day=27, следующим образом:

      • Если указать корневой путь секции в качестве root/folder/year=2020, действие копирования создаст еще два столбца месяца и день со значением "08" и "27" соответственно, в дополнение к столбцам внутри файлов.
      • Если корневой путь секции не указан, дополнительный столбец не будет создан.

    Снимок экрана: обнаружение разделов.

  • Максимальное число одновременных подключений: это свойство указывает верхний предел параллельных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.

  • Дополнительные столбцы: добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего варианта.

Место назначения

Следующие свойства поддерживаются для Azure Data Lake Storage 2-го поколения на вкладке "Назначение " действия копирования.

Требуются следующие свойства:

  • Подключение. Выберите подключение Azure Data Lake Storage 2-го поколения из списка подключений. Если подключение отсутствует, создайте новое подключение Azure Data Lake Storage 2-го поколения, нажав кнопку "Создать".
  • Тип подключения: выберите Azure Data Lake Storage 2-го поколения.
  • Путь к файлу: нажмите кнопку "Обзор" , чтобы выбрать файл, который требуется скопировать или заполнить путь вручную.
  • Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите "Параметры", чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .

В разделе "Дополнительно" можно указать следующие поля:

  • Поведение копирования: определяет поведение копирования, если источник является файлами из файлового хранилища данных. Вы можете выбрать поведение из раскрывающегося списка.

    Снимок экрана: поведение копирования.

    • Уплощение иерархии: все файлы из исходной папки находятся на первом уровне целевой папки. У целевых файлов есть автоматически созданные имена.
    • Слияние файлов: объединить все файлы из исходной папки в один файл. Если указано имя файла, то оно присваивается объединенному файлу. В противном случае это автоматически созданное имя файла.
    • Сохранение иерархии: сохраняет иерархию файлов в целевой папке. Относительный путь исходного файла к исходной папке идентичен относительному пути целевого файла к целевой папке.
  • Максимальное число одновременных подключений: верхний предел одновременных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.

  • Размер блока (МБ): укажите размер блока в МБ, используемый для записи данных в Azure Data Lake Storage 2-го поколения. Дополнительные сведения см. в разделе "Блочные BLOB-объекты". Допустимое значение составляет от 4 МБ до 100 МБ.

    По умолчанию размер блока определяется автоматически на основе типа и данных исходного хранилища. Для недвоичного копирования в Azure Data Lake Storage Gen2 размер блока по умолчанию составляет 100 МБ, чтобы вмещать максимум около 4,75 ТБ данных. Это может быть неоптимальным, если данные не большие. Вы можете явно указать размер блока, хотя убедитесь, что размер блока (МБ)*50000 достаточно велик для хранения данных, в противном случае выполнение действия копирования завершится ошибкой.

  • Метаданные: задайте пользовательские метаданные при копировании в место назначения. Каждый объект в массиве metadata представляет дополнительный столбец. name определяет имя ключа метаданных, а value указывает значение данных этого ключа. Если используется функция сохранения атрибутов , указанные метаданные будут объединять или перезаписывать с метаданными исходного файла.

    Допустимые значения:

    • $$LASTMODIFIED: зарезервированная переменная указывает на сохранение времени последнего изменения исходных файлов. Применяется только к источнику на основе файлов с двоичным форматом.
    • выражение
    • Статическое значение

    Снимок экрана: метаданные.

Картирование

Чтобы настроить конфигурацию вкладки "Сопоставление ", перейдите к разделу "Настройка сопоставлений" на вкладке сопоставления. Если в качестве формата файла выбран двоичный файл, сопоставление не поддерживается.

Settings

Для конфигурации вкладки "Параметры " перейдите к разделу "Настройка других параметров" на вкладке "Параметры".

Сводка таблицы

В следующих таблицах содержатся дополнительные сведения об операции копирования в Azure Data Lake Storage 2-го поколения.

Исходная информация

Имя Description Ценность Обязательно Свойство скрипта JSON
Подключение Ваше подключение к исходному хранилищу данных. <подключение к Azure Data Lake Storage 2-го поколения> Да connection
Тип подключения Тип подключения. Выберите Azure Data Lake Storage 2-го поколения. Azure Data Lake Storage 2-го поколения Да /
Тип пути к файлу Тип пути к файлу, который требуется использовать. • Путь к файлу
• Путь к папке подстановочных знаков, имя файла подстановочного знака
•Список файлов
Да • путь к папке, имя файла, файловая система
• путь с подстановочным знаком, имя файла с подстановочным знаком, fileSystem
• folderPath, fileName, fileListPath
Рекурсивно Указывает, следует ли читать данные рекурсивно из вложенных папок или только из указанной папки. Обратите внимание, что если выбран Рекурсивно, а назначение — это файловое хранилище, то пустая папка или вложенная папка не копируются и не создаются в месте назначения. Это свойство не применяется при настройке пути к списку файлов. выбранный (по умолчанию) или отмена выбора нет recursive
Фильтрация по дате изменения Файлы с последним измененным временем в диапазоне [время начала, время окончания) будут отфильтрованы для дальнейшей обработки. Время будет применено к часовой поясу UTC в формате yyyy-mm-ddThh:mm:ss.fffZ. Эти свойства можно пропустить, что означает, что фильтр атрибутов файла не будет применен. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов. datetime нет modifiedDatetimeStart
modifiedDatetimeEnd
Включение обнаружения разделов Указывает, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. выбран или не выбран (по умолчанию) нет enablePartitionDiscovery:
true или false (по умолчанию)
Корневой путь раздела Если обнаружение секций включено, укажите абсолютный корневой путь, чтобы считывать секционированные папки как столбцы данных. < корневой путь к разделу > нет partitionRootPath
Максимальное число одновременных подключений Верхний предел одновременных подключений, установленных к хранилищу данных во время выполнения активности. Указывайте значение только при необходимости ограничить количество одновременных подключений. <максимальное число одновременных подключений> нет maxConcurrentConnections
Дополнительные столбцы Добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего варианта. •Имя
•Ценность
нет дополнительныеКолонки
•имя
•ценность

Сведения о назначении

Имя Description Ценность Обязательно Свойство скрипта JSON
Подключение Подключение к целевому хранилищу данных. <подключение к Azure Data Lake Storage 2-го поколения> Да connection
Тип подключения Тип подключения. Выберите Azure Data Lake Storage 2-го поколения. Azure Data Lake Storage 2-го поколения Да /
Путь к файлу Путь к файлу данных назначения. < путь к файлу > Да folderPath, fileName, fileSystem
Поведение копирования Определяет поведение копирования, когда источником являются файлы из файлового хранилища данных. • Плоская иерархия
• Слияние файлов
• Сохранение иерархии
нет поведение копирования
• УпрощениеИерархии
• MergeFiles
• Сохранить Иерархию
Максимальное число одновременных подключений Верхний предел одновременных подключений, установленных к хранилищу данных во время выполнения активности. Указывайте значение только при необходимости ограничить количество одновременных подключений. <максимальное число одновременных подключений> нет maxConcurrentConnections
Размер блока (МБ) Укажите размер блока в МБ при записи данных в Azure Data Lake Storage 2-го поколения. Допустимое значение составляет от 4 МБ до 100 МБ. <Размер блока> нет blockSizeInMB
Метаданные Задайте пользовательские метаданные при копировании в место назначения. org.osgi.service.jdbc.DataSourceFactory
•Выражение
• Статическое значение
нет metadata