Настройка Oracle Cloud служба хранилища в действии копирования
В этой статье описывается, как использовать действие копирования в конвейере данных для копирования данных из Oracle Cloud служба хранилища.
Необходимые компоненты
Чтобы скопировать данные из Oracle Cloud служба хранилища, ознакомьтесь с API совместимости Объектов служба хранилища Amazon S3 для необходимых компонентов и необходимых разрешений.
Поддерживаемые форматы
Oracle Cloud служба хранилища поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.
- Формат Avro
- Двоичный формат
- Формат текста с разделителями
- Формат Excel
- Формат JSON
- Формат ORC
- Формат Parquet
- ФОРМАТ XML
Поддерживаемая конфигурация
Для настройки каждой вкладки действия копирования перейдите к следующим разделам:
Общие
Для настройки вкладки "Общие" перейдите к разделу "Общие".
Исходный код
Следующие свойства поддерживаются для Oracle Cloud служба хранилища на вкладке "Источник" действия копирования.
Требуются следующие свойства:
Тип хранилища данных: выберите "Внешний".
Подключение. Выберите подключение Oracle Cloud служба хранилища из списка подключений. Если подключение отсутствует, создайте новое подключение Oracle Cloud служба хранилища, нажав кнопку "Создать".
Тип пути к файлу: вы можете выбрать путь к файлу, префикс, Wild карта или список файлов в качестве типа пути к файлу. Конфигурация каждого из этих параметров:
Путь к файлу: данные можно скопировать из указанного контейнера или папки или пути к файлу, указанному в пути к файлу.
Префикс: укажите контейнер и префикс.
Контейнер. Укажите имя контейнера Oracle Cloud служба хранилища. Это необходимо.
Префикс: префикс для имени ключа Oracle Cloud служба хранилища в указанном контейнере для фильтрации исходных файлов Oracle Cloud служба хранилища. Выбраны ключи Oracle Cloud Storage, имена которых начинаются с
given_bucket/this_prefix
. Используется фильтр на стороне службы Oracle Cloud Storage, который более эффективен, чем фильтр с подстановочными знаками.
Путь к файлу wild карта: укажите пути к контейнеру и wild карта.
Контейнер. Укажите имя контейнера Oracle Cloud служба хранилища. Это необходимо.
Путь к wild карта: укажите папку или путь к файлу с помощью диких символов карта в указанном контейнере для фильтрации исходных папок или файлов.
Допустимые дикие карта:
*
(соответствует нулю или нескольким символам) и?
(соответствует нулю или одному символу). Используйте^
для экранирования знаков, если имя папки содержит подстановочный знак или этот escape-символ. Дополнительные примеры см. в примерах фильтров папок и файлов.- Путь к папке wild карта: укажите путь к папке с дикими карта символами в указанном контейнере для фильтрации исходных папок.
- Wild карта имя файла: укажите имя файла с дикими карта символами в указанном контейнере и пути к папке (или путь к папке дикого карта), чтобы отфильтровать исходные файлы.
Список файлов: укажите путь к папке и путь к списку файлов, чтобы указать, чтобы скопировать указанный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку, который является относительным путем к настроенного пути. Дополнительные примеры см. в примерах списка файлов.
- Путь к папке: укажите путь к папке в указанном контейнере. Это необходимо.
- Путь к списку файлов: укажите путь к текстовому файлу, который содержит список файлов, которые нужно скопировать.
Рекурсивно: указывает, считываются ли данные рекурсивно из вложенных папок или только из указанной папки. Если выбран этот проверка box, а назначение — это файловое хранилище, пустая папка или вложенная папка не копируется или не создается в месте назначения.
Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите Параметры, чтобы настроить формат файла. Параметры различных форматов файлов см. в статьях в поддерживаемом формате.
В разделе "Дополнительно" можно указать следующие поля:
Фильтруйте по последнему изменению: файлы фильтруются на основе указанных вами дат последнего изменения. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.
- Время начала (UTC): файлы выбираются, если время последнего изменения больше или равно заданному времени.
- Время окончания (UTC): файлы выбираются, если время последнего изменения меньше настроенного времени.
Если время начала (UTC) имеет значение datetime, но время окончания (UTC) равно NULL, это означает, что файлы, последние измененные атрибуты которых больше или равно значению datetime. Если время окончания (UTC) имеет значение даты и времени, но время начала (UTC) имеет значение NULL, это означает, что файлы, последние измененные атрибуты которых меньше значения datetime. Свойства могут иметь значение NULL, что означает, что к данным не применяется фильтр атрибутов файлов.
Включение обнаружения секций: укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве других исходных столбцов. Он не выбран по умолчанию и не поддерживается при использовании двоичного формата файла.
Корневой путь секционирования: если обнаружение секций включено, укажите абсолютный корневой путь для чтения секционированных папок в виде столбцов данных.
Если он не указан, по умолчанию:
- Если вы используете путь к файлу или список файлов в источнике, корневой путь секции — это настроенный путь.
- Если вы используете фильтр папки с диким карта, корневой путь секции — это подпатка перед первым диким карта.
- При использовании префикса корневой путь секции является подпатом до последнего "/".
Например, предположим, что путь настроен следующим образом
root/folder/year=2020/month=08/day=27
:- Если указать корневой путь секции как
root/folder/year=2020
, действие копирования создает еще два столбца, месяц и день. Эти столбцы имеют значения "08" и "27", соответственно, в дополнение к столбцам внутри файлов. - Если корневой путь секции не указан, дополнительный столбец не создается.
Максимальное число одновременных подключений: верхний предел одновременных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.
Дополнительные столбцы: добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего.
Сопоставление
Сведения о настройке вкладки "Сопоставление " см. в разделе "Настройка сопоставлений" на вкладке "Сопоставление". Если в качестве формата файла выбран двоичный файл, сопоставление не будет поддерживаться.
Настройки
Сведения о настройке вкладки Параметры см. в разделе "Настройка других параметров" на вкладке Параметры.
Сводка таблицы
В следующей таблице содержатся дополнительные сведения о действии копирования в Oracle Cloud служба хранилища.
Сведения об источнике
Имя | Описание | Value | Обязательный | Свойство скрипта JSON |
---|---|---|---|---|
Тип хранилища данных | Тип хранилища данных. | Внешний | Да | / |
Соединение | Подключение к исходному хранилищу данных. | <подключение Oracle Cloud служба хранилища> | Да | подключение |
Тип пути к файлу | Тип пути к файлу, используемый для получения исходных данных. | • Путь к файлу • Префикс • Путь к файлу в wild карта • Список файлов |
Да | / |
Путь к файлу | ||||
Ведро | Имя контейнера Oracle Cloud Storage. | <имя контейнера> | Да | bucketName |
Каталог | Путь к папке в указанном контейнере. | <имя папки> | No | folderpath |
Имя файла | Имя файла в указанном контейнере и пути к папке. | <имя файла> | No | fileName |
Для префикса | ||||
Ведро | Имя контейнера Oracle Cloud Storage. | <имя контейнера> | Да | bucketName |
Prefix | Префикс для имени ключа Oracle Cloud служба хранилища в указанном контейнере для фильтрации исходных файлов Oracle Cloud служба хранилища. | <префикс> | No | prefix |
Путь к файлу в Wild карта | ||||
Ведро | Имя контейнера Oracle Cloud Storage. | <имя контейнера> | Да | bucketName |
Путь к папке Wild карта | Путь к папке с дикими карта символами в указанном контейнере для фильтрации исходных папок. | <Путь к папке с дикими символами карта> | No | wild карта FolderPath |
Имя файла Wild карта | Имя файла с дикими карта символами в указанном контейнере и пути к папке (или путь к папке диких карта) для фильтрации исходных файлов. | <имя файла с дикими карта символами> | Да | wild карта FileName |
Список файлов | ||||
Ведро | Имя контейнера Oracle Cloud Storage. | <имя контейнера> | Да | bucketName |
Каталог | Путь к папке в указанном контейнере. | <имя папки> | No | folderpath |
Путь к списку файлов | Указывает, что нужно скопировать заданный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку. | < Путь к списку файлов > | No | fileListPath |
Формат файлов | Формат файла для исходных данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате. | / | Да | / |
Рекурсивно | Указывает, следует ли читать данные рекурсивно из вложенных папок или только из указанной папки. Если выбран этот проверка box, а назначение — это файловое хранилище, пустая папка или вложенная папка не копируется или не создается в месте назначения. | выбранный (по умолчанию) или отмена выбора | No | recursive |
Фильтрация по последней измененной | Файлы с последним измененным временем в диапазоне [время начала, время окончания) фильтруются для дальнейшей обработки. Время применяется к часовой поясу UTC в формате yyyy-mm-ddThh:mm:ss.fffZ . Эти свойства можно пропустить, что означает, что фильтр атрибутов файла не применяется. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Включение обнаружения секций | Указывает, следует ли анализировать секции из пути к файлу и добавлять их в качестве других исходных столбцов. | выбран или не выбран (по умолчанию) | No | enablePartitionDiscovery: true или false (по умолчанию) |
Корневой путь секционирования | Если обнаружение секций включено, укажите абсолютный корневой путь для чтения секционированных папок в виде столбцов данных. | < корневой путь к секции > | No | partitionRootPath |
Максимальное число одновременных подключений | Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. | <максимальное число одновременных подключений> | No | maxConcurrentConnections |
Дополнительные столбцы | Добавьте другие столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего. | • Имя •Значение |
No | additionalColumns: •Имя •Значение |