Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье рассматривается использование действия копирования в процессе для переноса данных из системы HDFS и в нее для проекта.
Поддерживаемые форматы
Hdfs for Pipeline поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.
- Формат Avro
- Двоичный формат
- Формат разделённого текста
- Формат Excel
- Формат Айсберга
- Формат JSON
- Формат ORC
- Формат файла Parquet
- ФОРМАТ XML
Поддерживаемая конфигурация
Для настройки каждой вкладки в действии копирования перейдите к следующим разделам соответственно.
Общая информация
Ознакомьтесь с руководством по общим параметрам , чтобы настроить вкладку "Общие параметры".
Исходный материал
Следующие свойства поддерживаются для HDFS для Pipeline на вкладке "Источник" действия копирования.
Требуются следующие свойства:
Подключение. Выберите hdfs для подключения к конвейеру из списка подключений. Если подключение не существует, создайте новое соединение HDFS для конвейера.
Тип пути к файлу: можно выбрать путь к файлу, путь с подстановочными знаками или список файлов в качестве типа пути к файлу. Конфигурация каждого из этих параметров:
Путь к файлу: если выбрать этот тип, данные можно скопировать из указанного пути к папке или файлу.
Путь к файлу с подстановочными знаками: укажите путь к папке с подстановочными знаками для фильтрации исходных папок. Допустимые знаки подстановки:
*(соответствует нулю или нескольким символам) и?(соответствует нулю или одному символу). Используйте^, чтобы экранировать, если в имени папки или файла есть подстановочный знак или этот символ экранирования. Дополнительные примеры см. в примерах фильтров папок и файлов.Путь к папке подстановочных знаков: укажите путь к папке с подстановочными знаками для фильтрации исходных папок.
Имя файла с подстановочными знаками: укажите имя файла с подстановочными знаками в сконфигурированной папке или папке с подстановочными знаками для фильтрации исходных файлов.
Список файлов: указывает на копирование указанного набора файлов. Укажите текстовый файл со списком файлов, которые необходимо скопировать, по одному файлу в строке (каждая строка должна содержать относительный путь к заданному в наборе данных пути).
При использовании этого параметра не указывайте имя файла в наборе данных. Больше примеров см. в разделе Примеры списка файлов.Путь к папке: укажите путь к папке. Это обязательно.
Путь к списку файлов: укажите путь к текстовому файлу, который содержит список файлов, которые нужно скопировать.
Рекурсивно: укажите, считываются ли данные рекурсивно из вложенных папок или только из указанной папки. Обратите внимание, что если выбран Рекурсивно, а назначение — это файловое хранилище, пустая папка или вложенная папка не копируется или не создается в пункте назначения. Это свойство выбрано по умолчанию и не применяется при настройке пути к списку файлов.
Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите "Параметры", чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .
В разделе "Дополнительно" можно указать следующие поля:
Фильтр по последнему изменению: файлы фильтруются на основе последних измененных дат. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.
Время начала (UTC): файлы выбираются, если время последнего изменения больше или равно заданному времени.
Время окончания (UTC): файлы выбираются, если время последнего изменения меньше настроенного времени.
Включение обнаружения секций: для файлов, секционированных, укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов.
- Корневой путь к партициям: Если обнаружение партиций включено, укажите абсолютный корневой путь, чтобы читать партицированные папки как столбцы данных.
Максимальное число одновременных подключений: это свойство указывает верхний предел параллельных подключений, установленных в хранилище данных во время выполнения действия. Укажите значение только в том случае, если требуется ограничить одновременные подключения.
Используйте DistCp HDFS: укажите, следует ли включить группу свойств HDFS DistCp.
Конечная точка ResourceManager: конечная точка YARN (Yet Another Resource Negotiator).
Путь временного скрипта: Путь к папке, используемый для хранения временного скрипта команды DistCp. Файл сценария создается, а после завершения задания копирования он удаляется.
Параметры DistCp: дополнительные параметры, предоставляемые команде DistCp.
Дополнительные столбцы: добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего варианта.
Картирование
Чтобы настроить конфигурацию вкладки "Сопоставление ", перейдите к разделу "Настройка сопоставлений" на вкладке сопоставления.
Настройки
Сведения о настройке вкладки "Параметры " см. в разделе "Настройка других параметров" на вкладке "Параметры".
Сводка таблицы
В следующих таблицах содержатся дополнительные сведения о действии копирования в HDFS для конвейера.
Исходная информация
| Имя | Описание | Ценность | Обязательно | Свойство скрипта JSON |
|---|---|---|---|---|
| Подключение | Ваше подключение к исходному хранилищу данных. | <ваш Hdfs для подключения к Pipeline> | Да | подключение |
| Тип пути к файлу | Тип используемого пути к файлу. | • Путь к файлу • Путь к файлу с подстановочными знаками • Список файлов |
Да | / |
| Путь к файлу | Скопируйте путь к папке или файлу в исходном хранилище данных. | <Путь к файлу> | Да | • путь к папке •имя файла |
| Пути с подстановочными знаками | Путь к папке с подстановочными знаками в исходном хранилище данных, настроенный для фильтрации исходных папок. | <Пути с подстановочными знаками> | Да | • путь к папке с подстановочными знаками • подстановочный знакFileName |
| Путь к папке | Указывает на папку, содержащую файлы, которые нужно скопировать. | <Путь к папке> | нет | folderPath |
| Путь к списку файлов | Указывает, что нужно скопировать заданный набор файлов. Укажите путь к текстовому файлу, содержащему список файлов, которые вы хотите скопировать. Каждый файл должен быть указан на отдельной строке и представлять собой относительный путь к настроенному пути. | <путь к списку файлов> | нет | Путь к списку файлов |
| Рекурсивно | Указывает, считываются ли данные рекурсивно из вложенных папок или только из указанной папки. Обратите внимание, что если выбран Рекурсивно, а назначение — это файловое хранилище, пустая папка или вложенная папка не копируется или не создается в пункте назначения. Это свойство не применяется при настройке пути к списку файлов. | выбранный (по умолчанию) или отмена выбора | нет | рекурсивный |
| Формат файлов | Формат файла для исходных данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате для получения подробных сведений. | / | Да | / |
| Фильтрация по последней дате изменения | Файлы с последним измененным временем в диапазоне [время начала, время окончания) будут отфильтрованы для дальнейшей обработки. Время применяется к часовой поясу UTC в формате yyyy-mm-ddThh:mm:ss.fffZ.Это свойство можно пропустить, что означает, что фильтр атрибутов файла не применяется. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов. |
• Время начала • Время окончания |
нет | измененнаяДатаВремяНачало изменённаяДатаИВремяОкончания |
| Включение обнаружения разделов | Следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. | Выбрано или не выбрано (по умолчанию) | нет | ВключитьОбнаружениеРазделов: true или false (по умолчанию) |
| Корневой путь раздела | Абсолютный корневой путь секционирования для чтения секционированных папок в виде столбцов данных. | <корневой путь вашего раздела> | нет | partitionRootPath |
| Максимальное число одновременных подключений | Верхний предел одновременных подключений, установленных для хранилища данных в процессе выполнения задания. Укажите значение только в том случае, если требуется ограничить одновременные подключения. | <максимальное число одновременных подключений> | нет | МаксимальноеКоличествоОдновременныхСоединений |
| Использование HDFS DistCp | Укажите, следует ли включить использование группы свойств HDFS DistCp. | выбран или не выбран (по умолчанию) | нет | / |
| Конечная точка менеджера ресурсов | Конечная точка YARN (Yet Another Resource Negotiator). | < ваш endpoint ResourceManager > | Да, если используется DistCp | точка подключения диспетчера ресурсов |
| Путь к временному скрипту | Путь к папке для хранения временного командного скрипта DistCp. Файл сценария создается, а после завершения задания копирования он удаляется. | < Путь к временному скрипту > | Да, если используется DistCp | tempScriptPath |
| Параметры DistCp | Дополнительные параметры для команды DistCp. | < параметры distCp > | нет | опции distcp |
| Дополнительные столбцы | Добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего варианта. | •Имя •Ценность |
нет | дополнительныеКолонки •имя •ценность |