Настройка Oracle Cloud Storage в задании копирования

В этой статье описывается, как использовать действие копирования в конвейере для копирования данных из Oracle Cloud Storage.

Предпосылки

Сведения о копировании данных из Oracle Cloud Storage см. в разделе API совместимости Object Storage Amazon S3 для необходимых компонентов и необходимых разрешений.

Поддерживаемые форматы

Oracle Cloud Storage поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.

Поддерживаемая конфигурация

Для настройки каждой вкладки действия копирования перейдите к следующим разделам:

General

Для настройки вкладки "Общие " перейдите к разделу "Общие".

Исходный материал

Следующие свойства поддерживаются для Oracle Cloud Storage на вкладке "Источник " действия копирования.

Требуются следующие свойства:

  • Подключение. Выберите подключение Oracle Cloud Storage из списка подключений. Если подключение не существует, создайте новое подключение Oracle Cloud Storage, нажав кнопку "Создать".

  • Тип пути к файлу: Вы можете выбрать Путь к файлу, Префикс, Путь с подстановочными знаками или Список файлов в качестве типа пути к файлу. Конфигурация каждого из этих параметров:

    • Путь к файлу: данные можно скопировать из указанного контейнера или папки или пути к файлу, указанному в пути к файлу.

    • Префикс: укажите контейнер и префикс.

      • Контейнер. Укажите имя контейнера Oracle Cloud Storage. Это необходимо.

      • Префикс: префикс для имени ключа Oracle Cloud Storage в указанном контейнере для фильтрации исходных файлов Oracle Cloud Storage. Ключи Oracle Cloud Storage, имена которых начинаются с given_bucket/this_prefix, выбраны. Он использует серверный фильтр Oracle Cloud Storage, который обеспечивает лучшую производительность, чем фильтр подстановочных знаков.

        Снимок экрана, показывающий, как настроить тип пути к файлу префикса.

    • Путь к файлу с подстановочными знаками: укажите пути к контейнеру и подстановочным знакам.

      • Контейнер. Укажите имя контейнера Oracle Cloud Storage. Это необходимо.

      • Пути подстановочных знаков: укажите папку или путь к файлу с подстановочными знаками в указанном контейнере для фильтрации исходных папок или файлов.

        Допустимые подстановочные знаки: * (соответствует нулю или нескольким символам) и ? (соответствует нулю или одному символу). Используйте ^ для экранирования, если в имени папки присутствует подстановочный знак или символ экранирования. Дополнительные примеры см. в примерах фильтров папок и файлов.

        Снимок экрана, показывающий, как настроить путь файлу с подстановочными знаками.

        • Путь к папке подстановочных знаков: укажите путь к папке с подстановочными знаками в указанном контейнере для фильтрации исходных папок.
        • Имя файла подстановочного знака: укажите имя файла с подстановочными знаками в указанном контейнере и пути к папке (или путь к папке подстановочных знаков) для фильтрации исходных файлов.
    • Список файлов: укажите путь к папке и путь к списку файлов , чтобы указать, чтобы скопировать указанный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку, который является относительным путем к настроенного пути. Дополнительные примеры см. в примерах списка файлов.

      Снимок экрана: настройка списка файлов.

      • Путь к папке: укажите путь к папке в указанном контейнере. Это необходимо.
      • Путь к списку файлов: укажите путь к текстовому файлу, который содержит список файлов, которые нужно скопировать.
  • Рекурсивно: указывает, считываются ли данные рекурсивно из вложенных папок или только из указанной папки. Если этот флажок установлен, а назначение — это хранилище на основе файлов, пустая папка или вложенная папка не копируются или не создаются в месте назначения.

  • Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите "Параметры", чтобы настроить формат файла. Параметры различных форматов файлов см. в статьях в поддерживаемом формате.

В разделе "Дополнительно" можно указать следующие поля:

  • Фильтруйте по последнему изменению: файлы фильтруются на основе указанных вами дат последнего изменения. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.

    • Время начала (UTC): файлы выбираются, если время последнего изменения больше или равно заданному времени.
    • Время окончания (UTC): файлы выбираются, если время последнего изменения меньше настроенного времени.

    Когда время начала (UTC) имеет значение datetime, но время окончания (UTC) равно NULL, это означает, что файлы, последние изменённые атрибуты которых больше либо равны значению datetime, были выбраны. Если время окончания (UTC) имеет значение даты и времени, но время начала (UTC) имеет значение NULL, это означает, что выбираются файлы, последние измененные атрибуты которых меньше значения даты и времени. Свойства могут иметь значение NULL, что означает, что к данным не применяется фильтр атрибутов файлов.

  • Включение обнаружения секций: укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве других исходных столбцов. Он не выбран по умолчанию и не поддерживается при использовании двоичного формата файла.

    • Корневой путь секционирования: если обнаружение секций включено, укажите абсолютный корневой путь для чтения секционированных папок в виде столбцов данных.

      Если он не указан, по умолчанию:

      • Если вы используете путь к файлу или список файлов в источнике, корневой путь секции — это настроенный путь.
      • При использовании фильтра папок подстановочного знака, корневой путь раздела является подпутем перед первым символом подстановки.
      • При использовании префикса корневой путь раздела — это подпуть до последнего "/".

      Например, предположим, что путь настроен следующим образом root/folder/year=2020/month=08/day=27:

      • Если указать корневой путь секции как root/folder/year=2020, действие копирования создает еще два столбца, месяц и день. Эти столбцы имеют значения "08" и "27", соответственно, в дополнение к столбцам внутри файлов.
      • Если корневой путь секции не указан, дополнительный столбец не создается.

      Снимок экрана, который показывает включение обнаружения разделов.

  • Максимальное число одновременных подключений: верхний предел одновременных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.

  • Дополнительные столбцы: добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего варианта.

Картирование

Сведения о настройке вкладки "Сопоставление " см. в разделе "Настройка сопоставлений" на вкладке "Сопоставление". Если в качестве формата файла выбран двоичный файл, сопоставление не будет поддерживаться.

Settings

Сведения о настройке вкладки "Параметры " см. в разделе "Настройка других параметров" на вкладке "Параметры".

Сводка таблицы

В следующей таблице содержатся дополнительные сведения о копировании в хранилище Oracle Cloud.

Исходная информация

Имя Описание Ценность Required Свойство скрипта JSON
Подключение Ваше подключение к исходному хранилищу данных. <подключение к Облачному хранилищу Oracle> Да connection
Тип пути к файлу Тип пути к файлу, используемый для получения исходных данных. Путь к файлу
Префикс
Путь к файлу с подстановочными знаками
Список файлов
Да /
Путь к файлу
Ведро Имя контейнера Oracle Cloud Storage. <название корзины> Да bucketName
Каталог Путь к папке в указанном контейнере. <имя папки> нет путь к папке
Имя файла Имя файла в указанном контейнере и пути к папке. <имя файла> нет fileName
Для префикса
Ведро Имя контейнера Oracle Cloud Storage. <название корзины> Да bucketName
префикс Префикс для имени ключа Oracle Cloud Storage в указанном контейнере для фильтрации исходных файлов Oracle Cloud Storage. <ваш префикс> нет prefix
Путь к файлу с подстановочными знаками
Ведро Имя контейнера Oracle Cloud Storage. <название корзины> Да bucketName
Путь папки с подстановочными знаками Путь к папке с подстановочными знаками в указанном контейнере для фильтрации исходных папок. <Путь к папке с подстановочными знаками> нет wildcardFolderPath
Имя файла подстановочного знака Имя файла с подстановочными знаками в указанном контейнере и пути к папке (или путь к папке подстановочных знаков) для фильтрации исходных файлов. <имя файла с подстановочными знаками> Да wildcardFileName
Список файлов
Ведро Имя контейнера Oracle Cloud Storage. <название корзины> Да bucketName
Каталог Путь к папке в указанном контейнере. <имя папки> нет путь к папке
Путь к списку файлов Указывает, чтобы скопировать указанный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку. < Путь к списку файлов > нет fileListPath
Формат файлов Формат файла для исходных данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате. / Да /
Рекурсивно Указывает, следует ли читать данные рекурсивно из вложенных папок или только из указанной папки. Если этот флажок установлен, а назначение — это хранилище на основе файлов, пустая папка или вложенная папка не копируются или не создаются в месте назначения. выбранный (по умолчанию) или отмена выбора нет recursive
Фильтрация по дате изменения Файлы с последним измененным временем в диапазоне [время начала, время окончания) фильтруются для дальнейшей обработки. Время применяется к часовой поясу UTC в формате yyyy-mm-ddThh:mm:ss.fffZ. Эти свойства можно пропустить, что означает, что фильтр атрибутов файла не применяется. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов. datetime нет modifiedDatetimeStart
modifiedDatetimeEnd
Включение обнаружения секций Указывает, следует ли анализировать секции из пути к файлу и добавлять их в качестве других исходных столбцов. выбран или не выбран (по умолчанию) нет enablePartitionDiscovery:
true или false (по умолчанию)
Корневой путь секционирования Если обнаружение секций включено, укажите абсолютный корневой путь для чтения секционированных папок в виде столбцов данных. < корневой путь к разделу > нет partitionRootPath
Максимальное число одновременных подключений Верхний предел одновременных подключений, установленных к хранилищу данных во время выполнения активности. Указывайте значение только при необходимости ограничить количество одновременных подключений. <максимальное число одновременных подключений> нет maxConcurrentConnections
Дополнительные столбцы Добавьте другие столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего варианта. •Имя
•Ценность
нет дополнительныеКолонки
•имя
•ценность