Настройка HDFS для потока в операции копирования

В этой статье рассматривается использование действия копирования в процессе для переноса данных из системы HDFS и в нее для проекта.

Поддерживаемые форматы

Hdfs for Pipeline поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.

Поддерживаемая конфигурация

Для настройки каждой вкладки в действии копирования перейдите к следующим разделам соответственно.

Общая информация

Ознакомьтесь с руководством по общим параметрам , чтобы настроить вкладку "Общие параметры".

Исходный материал

Следующие свойства поддерживаются для HDFS для Pipeline на вкладке "Источник" действия копирования.

снимок экрана: вкладка источника и список свойств.

Требуются следующие свойства:

  • Подключение. Выберите hdfs для подключения к конвейеру из списка подключений. Если подключение не существует, создайте новое соединение HDFS для конвейера.

  • Тип пути к файлу: можно выбрать путь к файлу, путь с подстановочными знаками или список файлов в качестве типа пути к файлу. Конфигурация каждого из этих параметров:

    • Путь к файлу: если выбрать этот тип, данные можно скопировать из указанного пути к папке или файлу.

    • Путь к файлу с подстановочными знаками: укажите путь к папке с подстановочными знаками для фильтрации исходных папок. Допустимые знаки подстановки: * (соответствует нулю или нескольким символам) и ? (соответствует нулю или одному символу). Используйте ^, чтобы экранировать, если в имени папки или файла есть подстановочный знак или этот символ экранирования. Дополнительные примеры см. в примерах фильтров папок и файлов.

      • Путь к папке подстановочных знаков: укажите путь к папке с подстановочными знаками для фильтрации исходных папок.

      • Имя файла с подстановочными знаками: укажите имя файла с подстановочными знаками в сконфигурированной папке или папке с подстановочными знаками для фильтрации исходных файлов.

        Снимок экрана: путь к файлу подстановочного знака.

    • Список файлов: указывает на копирование указанного набора файлов. Укажите текстовый файл со списком файлов, которые необходимо скопировать, по одному файлу в строке (каждая строка должна содержать относительный путь к заданному в наборе данных пути).
      При использовании этого параметра не указывайте имя файла в наборе данных. Больше примеров см. в разделе Примеры списка файлов.

      • Путь к папке: укажите путь к папке. Это обязательно.

      • Путь к списку файлов: укажите путь к текстовому файлу, который содержит список файлов, которые нужно скопировать.

        Снимок экрана: путь к списку файлов.

  • Рекурсивно: укажите, считываются ли данные рекурсивно из вложенных папок или только из указанной папки. Обратите внимание, что если выбран Рекурсивно, а назначение — это файловое хранилище, пустая папка или вложенная папка не копируется или не создается в пункте назначения. Это свойство выбрано по умолчанию и не применяется при настройке пути к списку файлов.

  • Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите "Параметры", чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .

В разделе "Дополнительно" можно указать следующие поля:

  • Фильтр по последнему изменению: файлы фильтруются на основе последних измененных дат. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.

    • Время начала (UTC): файлы выбираются, если время последнего изменения больше или равно заданному времени.

    • Время окончания (UTC): файлы выбираются, если время последнего изменения меньше настроенного времени.

  • Включение обнаружения секций: для файлов, секционированных, укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов.

    • Корневой путь к партициям: Если обнаружение партиций включено, укажите абсолютный корневой путь, чтобы читать партицированные папки как столбцы данных.
  • Максимальное число одновременных подключений: это свойство указывает верхний предел параллельных подключений, установленных в хранилище данных во время выполнения действия. Укажите значение только в том случае, если требуется ограничить одновременные подключения.

  • Используйте DistCp HDFS: укажите, следует ли включить группу свойств HDFS DistCp.

    • Конечная точка ResourceManager: конечная точка YARN (Yet Another Resource Negotiator).

    • Путь временного скрипта: Путь к папке, используемый для хранения временного скрипта команды DistCp. Файл сценария создается, а после завершения задания копирования он удаляется.

    • Параметры DistCp: дополнительные параметры, предоставляемые команде DistCp.

    Снимок экрана, показывающий настройки hdfs distcp.

  • Дополнительные столбцы: добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего варианта.

Картирование

Чтобы настроить конфигурацию вкладки "Сопоставление ", перейдите к разделу "Настройка сопоставлений" на вкладке сопоставления.

Настройки

Сведения о настройке вкладки "Параметры " см. в разделе "Настройка других параметров" на вкладке "Параметры".

Сводка таблицы

В следующих таблицах содержатся дополнительные сведения о действии копирования в HDFS для конвейера.

Исходная информация

Имя Описание Ценность Обязательно Свойство скрипта JSON
Подключение Ваше подключение к исходному хранилищу данных. <ваш Hdfs для подключения к Pipeline> Да подключение
Тип пути к файлу Тип используемого пути к файлу. Путь к файлу
Путь к файлу с подстановочными знаками
Список файлов
Да /
Путь к файлу Скопируйте путь к папке или файлу в исходном хранилище данных. <Путь к файлу> Да • путь к папке
•имя файла
Пути с подстановочными знаками Путь к папке с подстановочными знаками в исходном хранилище данных, настроенный для фильтрации исходных папок. <Пути с подстановочными знаками> Да • путь к папке с подстановочными знаками
• подстановочный знакFileName
Путь к папке Указывает на папку, содержащую файлы, которые нужно скопировать. <Путь к папке> нет folderPath
Путь к списку файлов Указывает, что нужно скопировать заданный набор файлов. Укажите путь к текстовому файлу, содержащему список файлов, которые вы хотите скопировать. Каждый файл должен быть указан на отдельной строке и представлять собой относительный путь к настроенному пути. <путь к списку файлов> нет Путь к списку файлов
Рекурсивно Указывает, считываются ли данные рекурсивно из вложенных папок или только из указанной папки. Обратите внимание, что если выбран Рекурсивно, а назначение — это файловое хранилище, пустая папка или вложенная папка не копируется или не создается в пункте назначения. Это свойство не применяется при настройке пути к списку файлов. выбранный (по умолчанию) или отмена выбора нет рекурсивный
Формат файлов Формат файла для исходных данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате для получения подробных сведений. / Да /
Фильтрация по последней дате изменения Файлы с последним измененным временем в диапазоне [время начала, время окончания) будут отфильтрованы для дальнейшей обработки.

Время применяется к часовой поясу UTC в формате yyyy-mm-ddThh:mm:ss.fffZ.

Это свойство можно пропустить, что означает, что фильтр атрибутов файла не применяется. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.
Время начала
Время окончания
нет измененнаяДатаВремяНачало
изменённаяДатаИВремяОкончания
Включение обнаружения разделов Следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. Выбрано или не выбрано (по умолчанию) нет ВключитьОбнаружениеРазделов:
true или false (по умолчанию)
Корневой путь раздела Абсолютный корневой путь секционирования для чтения секционированных папок в виде столбцов данных. <корневой путь вашего раздела> нет partitionRootPath
Максимальное число одновременных подключений Верхний предел одновременных подключений, установленных для хранилища данных в процессе выполнения задания. Укажите значение только в том случае, если требуется ограничить одновременные подключения. <максимальное число одновременных подключений> нет МаксимальноеКоличествоОдновременныхСоединений
Использование HDFS DistCp Укажите, следует ли включить использование группы свойств HDFS DistCp. выбран или не выбран (по умолчанию) нет /
Конечная точка менеджера ресурсов Конечная точка YARN (Yet Another Resource Negotiator). < ваш endpoint ResourceManager > Да, если используется DistCp точка подключения диспетчера ресурсов
Путь к временному скрипту Путь к папке для хранения временного командного скрипта DistCp. Файл сценария создается, а после завершения задания копирования он удаляется. < Путь к временному скрипту > Да, если используется DistCp tempScriptPath
Параметры DistCp Дополнительные параметры для команды DistCp. < параметры distCp > нет опции distcp
Дополнительные столбцы Добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего варианта. •Имя
•Ценность
нет дополнительныеКолонки
•имя
•ценность