Настройка совместимой с Amazon S3 конфигурации в процессе копирования

В этой статье описывается, как использовать действие копирования в конвейере для копирования данных из хранилищ, совместимых с Amazon S3.

Необходимые разрешения

Чтобы скопировать данные из Amazon S3 Compatible, убедитесь, что вы получили следующие разрешения для операций с совместимыми объектами Amazon S3: s3:GetObject и s3:GetObjectVersion.

Чтобы скопировать данные в хранилище, совместимое с Amazon S3, убедитесь, что у вас есть разрешение на операции с объектами, совместимыми с Amazon S3.

Кроме того, s3:ListAllMyBuckets, s3:ListBucket, / и s3:GetBucketLocation разрешения требуются для операций, таких как тестирование подключения и просмотр из корневого каталога.

Полный список разрешений, совместимых с Amazon S3, см. в разделе "Указание разрешений" в политике на сайте AWS.

Поддерживаемые форматы

Amazon S3 Compatible поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.

Поддерживаемая конфигурация

Для настройки каждой вкладки в действии копирования перейдите к следующим разделам соответственно.

General

Ознакомьтесь с руководством по общим параметрам , чтобы настроить вкладку "Общие параметры".

Исходный материал

Следующие свойства поддерживаются для Amazon S3 Compatible в разделе Источник действия копирования.

Требуются следующие свойства:

  • Подключение. Выберите совместимое подключение Amazon S3 из списка подключений. Если подключение не существует, создайте новое совместимое подключение Amazon S3, нажав кнопку "Создать".

  • Тип подключения: выберите Совместимый с Amazon S3 для вашего типа подключения.

  • Тип пути к файлу: Вы можете выбрать Путь к файлу, Префикс, Путь с подстановочными знаками или Список файлов в качестве типа пути к файлу. Конфигурация для каждого параметра:

    • Путь к файлу. Если выбрать этот тип, данные можно скопировать из заданного контейнера или указанного контейнера и пути к папке.

    • Префикс: если выбрать этот тип, укажите контейнер и префикс.

      • Контейнер. Укажите имя контейнера хранилища, совместимого с S3. Это обязательно.

      • Префикс: укажите префикс для имени ключа, совместимого с S3, в заданном контейнере для фильтрации исходных файлов совместимого хранилища S3. Ключи хранилища, совместимые с S3, имена которых начинаются с bucket/this_prefix, были выбраны. Он использует фильтр на стороне сервиса хранилища, совместимого с S3, который обеспечивает лучшую производительность, чем фильтр с подстановочными знаками.

        При использовании префикса и выборе копирования в файл с сохранением иерархии обратите внимание, что вложенный путь после последнего "/" в префиксе будет сохранен. Например, у вас есть источник bucket/folder/subfolder/file.txt, и настраиваете префикс как folder/sub, а затем сохраненный путь к файлу subfolder/file.txt.

      Снимок экрана, показывающий префикс.

    • Путь к файлу с подстановочными знаками: если выбрать этот тип, укажите пути к контейнеру и подстановочным знакам.

      • Контейнер. Укажите имя контейнера хранилища, совместимого с S3. Это обязательно.

      • Пути с подстановочными знаками: укажите папку или путь к файлу с подстановочными знаками в заданной корзине для фильтрации исходных папок или файлов.

        Допустимые подстановочные знаки: * (соответствует нулю или нескольким символам) и ? (соответствует нулю или одному символу). Используется ^ для escape-обхода, если имя папки имеет подстановочный знак или этот escape-символ внутри. Дополнительные примеры приведены в разделе Примеры фильтров папок и файлов. Снимок экрана: путь к файлу подстановочного знака. Путь к папке с подстановочными знаками: путь к папке с подстановочными знаками в заданном контейнере для фильтрации исходных папок.

        Подстановочное имя файла: имя файла с подстановочными знаками в заданной корзине и пути к папке (или подстановочном пути к папке) для фильтрации исходных файлов.

    • Список файлов: если выбрать этот тип, укажите путь к папке и путь к списку файлов , чтобы указать, чтобы скопировать заданный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку, который является относительным путем к настроенного пути. Дополнительные примеры см. в примерах списка файлов.

      Снимок экрана: список файлов.

      • Путь к папке: укажите путь к папке в заданном контейнере. Это обязательно.
      • Путь к списку файлов: укажите путь к текстовому файлу, который содержит список файлов, которые нужно скопировать.
  • Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите "Параметры", чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .

  • Рекурсивно: укажите, считываются ли данные рекурсивно из вложенных папок или только из указанной папки. Если выбрано рекурсивное копирование и назначение является файловым хранилищем, то пустая папка или подпапка не копируется и не создается в месте назначения. Это свойство выбрано по умолчанию и не применяется при настройке пути к списку файлов.

В разделе "Дополнительно" можно указать следующие поля:

  • Фильтруйте по последнему изменению: файлы фильтруются на основе указанных вами дат последнего изменения. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.

    • Время начала (UTC): файлы выбираются, если время последнего изменения больше или равно заданному времени.
    • Время окончания (UTC): файлы выбираются, если время последнего изменения меньше настроенного времени.

    Если время начала (UTC) имеет значение datetime, но время окончания (UTC) равно NULL, это означает, что файлы, последние измененные атрибуты которых больше или равно значению даты и времени будут выбраны. Если время окончания (UTC) имеет значение datetime, но время начала (UTC) равно NULL, это означает, что файлы, последние измененные атрибуты которых меньше значения datetime будут выбраны. Свойства могут иметь значение NULL, что означает, что к данным не будет применен фильтр атрибутов файлов.

  • Включение обнаружения секций: укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. Он не выбирается по умолчанию и не поддерживается при использовании двоичного формата файла.

    • Корневой путь секционирования: Если обнаружение разделов включено, укажите абсолютный корневой путь, чтобы читать секционированные папки в виде столбцов данных.

      Если он не указан, по умолчанию

      • При использовании пути к файлу или списка файлов в источнике корневой путь секции — это настроенный путь.
      • При использовании фильтра папок с подстановочными знаками корневой путь раздела – это часть пути перед первым подстановочным знаком.
      • При использовании префикса корневой путь раздела является подпутем до последнего "/".

      Например, если вы настраиваете путь как root/folder/year=2020/month=08/day=27, следующим образом:

      • Если указать корневой путь секции в качестве root/folder/year=2020, действие копирования создаст еще два столбца месяца и день со значением "08" и "27" соответственно, в дополнение к столбцам внутри файлов.
      • Если корневой путь секции не указан, дополнительный столбец не будет создан.

      Снимок экрана: включение обнаружения разделов.

  • Максимальное число одновременных подключений: верхний предел одновременных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.

  • Дополнительные столбцы: добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего варианта.

Место назначения

Следующие свойства поддерживаются для совместимого с Amazon S3 на вкладке "Назначение" операции копирования.

Требуются следующие свойства:

  • Подключение. Выберите совместимое подключение Amazon S3 из списка подключений. Если подключение не существует, создайте новое совместимое подключение Amazon S3, нажав кнопку "Создать".
  • Тип подключения: выберите Совместимый с Amazon S3 для вашего типа подключения.
  • Путь к файлу: данные можно скопировать в заданный контейнер или указанный путь к папке и контейнеру.
  • Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите "Параметры", чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .

В разделе "Дополнительно" можно указать следующие поля:

  • Поведение копирования: определяет поведение копирования, если источник является файлами из файлового хранилища данных. Вы можете выбрать поведение из раскрывающегося списка.

    • Уплощение иерархии: все файлы из исходной папки находятся на первом уровне целевой папки. У целевых файлов есть автоматически созданные имена.
    • Слияние файлов: объединить все файлы из исходной папки в один файл. Если указано имя файла, то оно присваивается объединенному файлу. В противном случае это автоматически созданное имя файла.
    • Сохранение иерархии: сохраняет иерархию файлов в целевой папке. Относительный путь исходного файла к исходной папке идентичен относительному пути целевого файла к целевой папке.
  • Максимальное число одновременных подключений: это свойство указывает верхний предел параллельных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.

Картирование

Чтобы настроить конфигурацию вкладки "Сопоставление ", перейдите к разделу "Настройка сопоставлений" на вкладке сопоставления. Если в качестве формата файла выбран двоичный файл, сопоставление не будет поддерживаться.

Settings

Для конфигурации вкладки "Параметры " перейдите к разделу "Настройка других параметров" на вкладке "Параметры".

Сводка таблицы

В следующих таблицах содержатся дополнительные сведения об операциях копирования в Amazon S3 Compatible.

Исходная информация

Имя Description Ценность Обязательно Свойство скрипта JSON
Подключение Ваше подключение к исходному хранилищу данных. <ваше совместимое подключение Amazon S3> Да connection
Тип подключения Выберите тип подключения. Совместимая с Amazon S3 Да /
Тип пути к файлу Тип пути к файлу, используемый для получения исходных данных. Путь к файлу
Префикс
Путь к файлу с подстановочными знаками
Список файлов
Да /
Путь к файлу
Ведро Имя контейнера хранилища, совместимого с S3. <имя контейнера> Да bucketName
Каталог Путь к папке в указанном контейнере. <имя папки> нет путь к папке
Имя файла Имя файла в указанном контейнере и пути к папке. <имя файла> нет fileName
Для префикса
Ведро Имя контейнера хранилища, совместимого с S3. <имя контейнера> Да bucketName
префикс Префикс для имени ключа хранилища, совместимого с S3, в заданном контейнере для фильтрации исходных файлов совместимого хранилища S3. <ваш префикс> нет prefix
Путь к файлу с подстановочными знаками
Ведро Имя контейнера хранилища, совместимого с S3. <имя контейнера> Да bucketName
Путь к папке подстановочного знака Путь к папке с подстановочными знаками в указанном контейнере для фильтрации исходных папок. <Путь к папке с подстановочными знаками> нет wildcardFolderPath
Имя файла подстановочного знака Имя файла с подстановочными знаками в указанном контейнере и пути к папке (или путь к папке подстановочных знаков) для фильтрации исходных файлов. <имя файла с подстановочными знаками> Да wildcardFileName
Список файлов
Ведро Имя контейнера хранилища, совместимого с S3. <имя контейнера> Да bucketName
Каталог Путь к папке в указанном контейнере. <имя папки> нет путь к папке
Путь к списку файлов Указывает, что нужно скопировать заданный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку. < Путь к списку файлов > нет fileListPath
Формат файлов Формат файла для исходных данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате для получения подробных сведений. / Да /
Рекурсивно Указывает, следует ли читать данные рекурсивно из вложенных папок или только из указанной папки. Обратите внимание, что если выбран Рекурсивно, а назначение — это файловое хранилище, то пустая папка или вложенная папка не копируются и не создаются в месте назначения. Это свойство не применяется при настройке пути к списку файлов. выбранный (по умолчанию) или отмена выбора нет recursive
Фильтрация по дате изменения Файлы с последним измененным временем в диапазоне [время начала, время окончания) будут отфильтрованы для дальнейшей обработки. Время будет применено к часовой поясу UTC в формате yyyy-mm-ddThh:mm:ss.fffZ. Эти свойства можно пропустить, что означает, что фильтр атрибутов файла не будет применен. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов. datetime нет modifiedDatetimeStart
modifiedDatetimeEnd
Включение обнаружения разделов Указывает, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. выбран или не выбран (по умолчанию) нет enablePartitionDiscovery:
true или false (по умолчанию)
Корневой путь раздела Если обнаружение секций включено, укажите абсолютный корневой путь, чтобы считывать секционированные папки как столбцы данных. < корневой путь к разделу > нет partitionRootPath
Максимальное число одновременных подключений Верхний предел одновременных подключений, установленных к хранилищу данных во время выполнения активности. Указывайте значение только при необходимости ограничить количество одновременных подключений. <максимальное число одновременных подключений> нет maxConcurrentConnections
Дополнительные столбцы Добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего варианта. •Имя
•Ценность
нет дополнительныеКолонки
•имя
•ценность

Сведения о назначении

Имя Description Ценность Обязательно Свойство скрипта JSON
Подключение Подключение к целевому хранилищу данных. <ваше совместимое подключение Amazon S3> Да connection
Тип подключения Выберите тип подключения. Совместимая с Amazon S3 Да /
Путь к файлу Путь к папке или файлу целевого файла. <Путь к папке или файлу> Да /
Ведро Имя контейнера хранилища, совместимого с S3. <имя контейнера> Да bucketName
Каталог Путь к папке в указанном контейнере. <имя папки> нет путь к папке
Имя файла Имя файла в указанном контейнере и пути к папке. <имя файла> нет fileName
Поведение копирования Определяет поведение копирования, когда источником являются файлы из файлового хранилища данных. • Плоская иерархия
• Слияние файлов
• Сохранение иерархии
нет поведение копирования
• УпрощениеИерархии
• MergeFiles
• Сохранить Иерархию
Максимальное число одновременных подключений Верхний предел одновременных подключений, установленных к хранилищу данных во время выполнения активности. Указывайте значение только при необходимости ограничить количество одновременных подключений. <максимальное число одновременных подключений> нет maxConcurrentConnections