Загрузка данных в Azure Data Lake Storage Gen2 с помощью Azure Data Factory

ПРИМЕНИМО К: Azure Data Factory Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

Azure Data Lake Storage Gen2 — это набор возможностей, предназначенных для аналитики больших данных, встроенных в хранилище BLOB-объектов Azure. Она позволяет работать с данными с использованием как файловой системы, так и парадигмы хранения объектов.

Azure Data Factory (ADF) — это полностью управляемая облачная служба интеграции данных. Эту службу можно использовать для заполнения озера данными из богатого набора локальных и облачных хранилищ данных и экономии времени при создании аналитических решений. Для получения подробного списка поддерживаемых коннекторов см. таблицу Поддерживаемые хранилища данных.

Azure Data Factory предлагает решение для горизонтального масштабирования, управляемого перемещения данных. Благодаря архитектуре горизонтального масштабирования ADF, он может обрабатывать данные с высокой пропускной способностью. Дополнительные сведения см. в разделе производительность операции копирования.

В этой статье показано, как использовать инструмент копирования данных Data Factory для загрузки данных из службы Amazon Web Services S3 в Azure Data Lake Storage Gen2. Чтобы копировать данные из других типов хранилищ, необходимо выполнить аналогичные шаги.

Совет

Сведения о копировании данных из Azure Data Lake Storage Gen1 в 2-го поколения см. в пошаговом руководстве.

Предварительные условия

  • Подписка на Azure: Если у вас нет подписки Azure, создайте бесплатную учетную запись free перед началом работы.
  • учетная запись Azure Storage с включенным Data Lake Storage Gen2. Если у вас нет учетной записи хранения, создайте учетную запись.
  • Учетная запись AWS с контейнером S3, в котором содержатся данные. В этой статье показано, как скопировать данные из Amazon S3. Вы можете использовать другие хранилища данных, выполнив аналогичные действия.

Создание фабрики данных

  1. Если вы еще не создали фабрику данных, следуйте шагам в разделе Быстрый старт: создание фабрики данных с помощью портала Azure и Azure Data Factory Studio. После создания перейдите к фабрике данных на портале Azure.

    Главная страница для Azure Data Factory с плиткой Open Azure Data Factory Studio.

  2. Выберите Open на плитке Open Azure Data Factory Studio, чтобы запустить приложение интеграции данных на отдельной вкладке.

Загрузка данных в Azure Data Lake Storage Gen2

  1. На домашней странице Azure Data Factory выберите плитку Ingest, чтобы запустить средство копирования данных.

  2. На странице Свойства в разделе Тип задачи выберите Встроенная задача копирования. Затем в разделе Периодичность или расписание задач выберите Запустить сейчас один раз, после чего щелкните Далее.

    Страница Свойств

  3. На странице Исходное хранилище данных сделайте следующее.

    1. Выберите + Новое подключение. В галереи соединителя выберите Amazon S3 и нажмите кнопку Продолжить.

      Страница

    2. На странице Новое подключение (Amazon S3) выполните указанные ниже действия.

      1. Укажите идентификатор ключа доступа.
      2. Укажите секретный ключ доступа.
      3. Выберите Проверить подключение, чтобы проверить настройки, а затем нажмите Создать.

      Указать учетную запись Amazon S3

    3. На странице Исходное хранилище данных убедитесь, что в блоке Подключение выбрано только что созданное подключение Amazon S3.

    4. В разделе Файл или папка найдите папку и файл, которые необходимо скопировать. Выберите папку или файл и нажмите кнопку ОК.

    5. Укажите поведение копирования, установив параметры Рекурсивное копирование и Двоичное копирование. Выберите Далее.

    Снимок экрана: страница

  4. На странице Целевое хранилище данных выполните указанные ниже действия.

    1. Выберите + Создать подключение и выберите Azure Data Lake Storage Gen2 и выберите Continue.

      Страница целевого хранилища данных

    2. На странице New connection (Azure Data Lake Storage Gen2) выберите учетную запись с поддержкой Data Lake Storage Gen2 из раскрывающегося списка "Имя учетной записи хранения" и нажмите Создать, чтобы создать подключение.

      Укажите учетную запись Azure Data Lake Storage Gen2

    3. На странице Целевое хранилище данных выберите только что созданное подключение в блоке Подключение. В разделе Путь к папке введите copyfroms3 в качестве имени папки с выходными данными, а затем выберите Далее. ADF создаст при копировании соответствующую файловую систему ADLS 2-го поколения и вложенные папки, если они не существуют.

      Снимок экрана: страница

  5. На странице Параметры укажите CopyFromAmazonS3ToADLS в поле Имя задачи, а затем выберите Далее, чтобы использовать настройки по умолчанию.

    Страница параметров

  6. На странице Сводка проверьте параметры и нажмите кнопку Далее.

    Страница сводки

  7. На странице Развертывание выберите Мониторинг, чтобы отслеживать созданный конвейер (задачу).

  8. После успешного выполнения запуска конвейера вы увидите новый запуск конвейера, инициированный ручным триггером. Ссылки в столбце Имя конвейера позволят просмотреть подробные сведения о действиях и перезапустить конвейер.

    Мониторинг выполнений конвейера

  9. Чтобы просмотреть выполнение действий, связанных с выполнением конвейера, выберите ссылку CopyFromAmazonS3ToADLS в столбце Имя конвейера. Чтобы увидеть сведения об операции копирования, щелкните ссылку Сведения (значок очков) в столбце Название действия. Вы можете отслеживать такие сведения, как объем данных, копируемых из источника в приемное хранилище, пропускная способность данных, шаги выполнения с соответствующей длительностью и используемая конфигурация.

    Мониторинг выполнений действий

    Мониторинг деталей выполнения активности

  10. Чтобы обновить список, нажмите кнопку Обновить. Выберите Все выполнения конвейеров вверху, чтобы вернуться к режиму «Выполнения конвейеров».

  11. Убедитесь, что данные копируются в учетную запись Data Lake Storage Gen2.