Поделиться через


Копирование данных с помощью действия копирования

В конвейере данных можно использовать действие копирования для копирования данных между хранилищами данных в облаке. После копирования данных можно использовать другие действия в конвейере для преобразования и анализа данных.

Действие копирования подключается к источникам и местам назначения данных, а затем эффективно переносит данные между ними. Вот как служба обрабатывает процесс копирования:

  1. Подключается к источнику: создает безопасное подключение для чтения данных из исходного хранилища данных.
  2. Обрабатывает данные: обрабатывает сериализацию/десериализацию, сжатие или декомпрессию, сопоставление столбцов и преобразования типов данных на основе конфигурации.
  3. Записывает данные в место назначения: передает обработанные данные в целевое хранилище данных.
  4. Предоставляет мониторинг: отслеживает операцию копирования и предоставляет подробные журналы и метрики для устранения неполадок и оптимизации.

Tip

Если вам нужно только скопировать данные и не требуется преобразования, задание копирования может быть лучшим вариантом. Задания копирования предоставляют упрощенный интерфейс для сценариев перемещения данных, которые не требуют создания полного конвейера данных. См. обзор заданий копирования или использование таблицы решений для сравнения действий копирования и задания копирования.

Prerequisites

Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:

  • Учетная запись клиента Microsoft Fabric с активной подпиской. Создайте учетную запись бесплатно .
  • Рабочая область с поддержкой Microsoft Fabric.

Добавление действия копирования с помощью помощника по копированию

Выполните следующие действия, чтобы настроить действие копирования с помощью помощника по копированию.

Начало работы с помощником по копированию

  1. Откройте существующий конвейер данных или создайте новый конвейер данных.

  2. Выберите " Копировать данные на холсте", чтобы открыть средство помощника по копированию, чтобы приступить к работе. Или выберите "Использовать помощник по копированию" в раскрывающемся списке "Копирование данных " на вкладке "Действия " на ленте.

    Снимок экрана: параметры открытия помощника по копированию.

Настройка источника

  1. Выберите тип источника данных из категории. Вы будете использовать Хранилище BLOB-объектов Azure в качестве примера. Выберите хранилище Blob-объектов Azure.

    Снимок экрана: выбор источника данных.

  2. Создайте подключение к источнику данных, выбрав "Создать новое подключение".

    Снимок экрана: место для выбора нового подключения.

    После нажатия кнопки "Создать новое подключение" введите необходимые сведения о подключении и нажмите кнопку "Далее". Сведения о создании подключения для каждого типа источника данных см. в каждой статье соединителя.

    Если у вас уже есть подключения, можно выбрать существующее подключение и выбрать подключение в раскрывающемся списке.

    Снимок экрана: существующее подключение.

  3. Выберите файл или папку, скопированные на этом шаге конфигурации источника, и нажмите кнопку "Далее".

    Снимок экрана: место для выбора копируемых данных.

Настройка назначения

  1. Выберите тип источника данных из категории. Вы будете использовать Хранилище BLOB-объектов Azure в качестве примера. Вы можете создать новое подключение, которое ссылается на новую учетную запись Хранилище BLOB-объектов Azure, выполнив действия, описанные в предыдущем разделе, или используйте существующее подключение из раскрывающегося списка подключений. Возможности тестового подключения и редактирования доступны для каждого выбранного подключения.

    Снимок экрана: выбор Хранилище BLOB-объектов Azure.

  2. Настройте и сопоставите исходные данные с назначением. Затем нажмите кнопку "Далее", чтобы завершить конфигурации назначения.

    Снимок экрана: карта с целевым экраном.

    Снимок экрана: подключение к назначению данных.

    Note

    В одном действие Copy можно использовать только один локальный шлюз данных. Если источник и приемник являются локальными источниками данных, они должны использовать один и тот же шлюз. Чтобы переместить данные между локальными источниками данных с разными шлюзами, необходимо скопировать данные с помощью первого шлюза в промежуточный источник облака в одном действии копирования. Затем можно использовать еще один действие Copy для копирования из промежуточного источника облака с помощью второго шлюза.

Просмотр и создание действия копирования

  1. Просмотрите параметры действия копирования на предыдущих шагах и нажмите кнопку "ОК ", чтобы завершить работу. Вы также можете вернуться к предыдущим шагам, чтобы изменить параметры при необходимости в средстве.

    Снимок экрана: экран проверки и создания.

После завершения действие копирования будет добавлено на холст конвейера данных. Все параметры, включая дополнительные параметры для этого действия копирования, доступны на вкладках при выборе.

Снимок экрана: действие копирования на холсте конвейера данных.

Теперь можно сохранить конвейер данных с помощью этого действия копирования или продолжить разработку конвейера данных.

Добавление действия копирования напрямую

Выполните следующие действия, чтобы напрямую добавить действие копирования.

Добавление действия копирования

  1. Откройте существующий конвейер данных или создайте новый конвейер данных.

  2. Добавьте действие копирования, выбрав "Добавить действие> конвейера действие Copy или выбрав "Копировать данные>" на холсте на вкладке "Действия".

    Снимок экрана: два способа добавления действия копирования.

Настройка общих параметров на вкладке "Общие"

Сведения о настройке общих параметров см. в разделе "Общие".

Настройка источника на вкладке "Источник"

  1. В разделе "Подключение" выберите существующее подключение или нажмите кнопку "Дополнительно ", чтобы создать новое подключение.

    Снимок экрана, на котором показано, где выбрать

    1. Выберите тип источника данных в всплывающем окне. Вы будете использовать База данных SQL Azure в качестве примера. Выберите База данных SQL Azure и нажмите кнопку Продолжить.

      Снимок экрана: выбор источника данных.

    2. Он переходит на страницу создания подключения. Введите необходимые сведения о подключении на панели и нажмите кнопку "Создать". Сведения о создании подключения для каждого типа источника данных см. в каждой статье соединителя.

      Снимок экрана: страница создания подключения.

    3. После создания подключения вы вернеесь на страницу конвейера данных. Затем выберите "Обновить" , чтобы получить подключение, созданное в раскрывающемся списке. Вы также можете выбрать существующее подключение к базе данных SQL Azure непосредственно в раскрывающемся списке, если вы уже создали его раньше. Возможности тестового подключения и редактирования доступны для каждого выбранного подключения. Затем выберите База данных SQL Azure в типе подключения.

  2. Укажите таблицу для копирования. Выберите предварительный просмотр данных , чтобы просмотреть исходную таблицу. Вы также можете использовать хранимую процедуру запроса и хранимой процедуры для чтения данных из источника.

  3. Разверните параметры Advanced для более подробных настроек, таких как время ожидания запроса или секционирование. (Дополнительные параметры зависят от соединителя.)

Настройка назначения на вкладке назначения

  1. В разделе "Подключение" выберите существующее подключение или нажмите кнопку "Дополнительно ", чтобы создать новое подключение. Это может быть ваше внутреннее высококлассное хранилище данных из рабочей среды, такое как Lakehouse, или внешние хранилища данных. В этом примере мы используем Lakehouse.

  2. После создания подключения вы вернеесь на страницу конвейера данных. Затем выберите "Обновить" , чтобы получить подключение, созданное в раскрывающемся списке. Вы также можете выбрать существующее подключение Lakehouse непосредственно в раскрывающемся списке, если вы уже создали его раньше.

  3. Укажите таблицу или настройте путь к файлу, чтобы определить файл или папку в качестве назначения. Здесь выберите таблицы и укажите таблицу для записи данных.

  4. Разверните Дополнительно для выбора расширенных параметров, таких как максимальное количество строк в файле или операции с таблицей. (Дополнительные параметры зависят от соединителя.)

Теперь можно сохранить конвейер данных с помощью этого действия копирования или продолжить разработку конвейера данных.

Настройка сопоставлений на вкладке сопоставления

Если используемый соединитель поддерживает сопоставление, перейдите на вкладку "Сопоставление ", чтобы настроить сопоставление.

  1. Выберите "Импорт схем" , чтобы импортировать схему данных.

    Снимок экрана: параметры сопоставления 1.

  2. Вы можете видеть, что отображается автоматическое сопоставление. Укажите исходный столбец и столбец назначения. Если вы создаете новую таблицу в назначении, вы можете настроить имя столбца назначения здесь. Если вы хотите записать данные в существующую целевую таблицу, нельзя изменить существующее имя столбца назначения . Вы также можете просмотреть тип исходных и целевых столбцов.

    Снимок экрана: параметры сопоставления 2.

Вы также можете выбрать +Создать сопоставление , чтобы добавить новое сопоставление, выбрать "Очистить ", чтобы очистить все параметры сопоставления, и выбрать "Сбросить ", чтобы сбросить все столбец источника сопоставления.

Настройка других параметров на вкладке "Параметры"

Вкладка "Параметры" содержит параметры производительности, промежуточного хранения и т. д.

Снимок экрана: вкладка

Описание каждого параметра см. в следующей таблице.

Setting Description Свойство скрипта JSON
Интеллектуальная оптимизация пропускной способности Укажите для оптимизации пропускной способности. Вы можете выбрать один из вариантов:
Авто
Стандартный
Сбалансированный
Максимальное

При выборе авто оптимальный параметр динамически применяется на основе пары назначения источника и шаблона данных. Вы также можете настроить пропускную способность, а настраиваемое значение может быть 2–256, а более высокое значение подразумевает больше прибыли.
dataIntegrationUnits
Степень параллелизма копирования Укажите степень параллелизма, которую будет использовать загрузка данных. parallelCopies
Отказоустойчивость При выборе этого параметра можно игнорировать некоторые ошибки, которые происходят в середине процесса копирования. Например, несовместимые строки между исходным и целевым хранилищем, удаление файла во время перемещения данных и т. д. • enableSkipIncompatibleRow
• skipErrorFile:
   fileMissing
   fileForbidden
   invalidFileName
Включить ведение журнала При выборе этого параметра можно вести журнал скопированных файлов, пропущенных файлов и строк. /
Включение промежуточного хранения Укажите, следует ли копировать данные через промежуточное хранилище промежуточного хранения. Включите стадирование только для полезных сценариев. enableStaging
Тип хранилища данных При включении промежуточного хранения можно выбрать рабочую область и внешнюю в качестве типа хранилища данных. /
Для рабочей области
Workspace Укажите для использования встроенного промежуточного хранилища. /
Для внешних
Подключение промежуточной учетной записи Укажите подключение Хранилище BLOB-объектов Azure или Azure Data Lake Storage 2-го поколения, которое относится к экземпляру хранилища, используемому в качестве промежуточного хранилища. Создайте промежуточное подключение, если у вас его нет. подключение (в )externalReferences
Путь к хранилищу Задайте путь, по которому должна располагаться область промежуточного хранения данных. Если не задавать путь, служба создаст контейнер для хранения временных данных. Укажите путь, только если используется хранилище с подписанным URL-адресом или требуется, чтобы временные данные хранились в определенном месте. path
Включение сжатия Указывает, следует ли сжимать данные перед их копированием в место назначения. Этот параметр позволяет уменьшить объем передаваемых данных. enableCompression
Preserve Укажите, следует ли сохранять метаданные и списки ACL во время копирования данных. preserve

Note

Если вы используете поэтапное копирование с включенным сжатием, проверка подлинности субъекта-службы для промежуточного подключения к BLOB-объектам не поддерживается.

Настройка параметров в действии копирования

Параметры можно использовать для управления поведением конвейера и его действиями. Вы можете использовать добавление динамического содержимого для указания параметров свойств действия копирования. Давайте рассмотрим, как указать Lakehouse или Хранилище данных в качестве примера, чтобы узнать, как его использовать.

  1. В исходном или целевом расположении выберите "Использовать динамическое содержимое " в раскрывающемся списке "Подключение".

  2. В всплывающей области "Добавить динамическое содержимое " на вкладке "Параметры " выберите +.

    Снимок экрана: страница

  3. Укажите имя параметра и присвойте ему значение по умолчанию, если требуется, или можно указать значение параметра при активации в конвейере.

    Снимок экрана: создание нового параметра.

    Значение параметра должно быть идентификатором подключения Lakehouse или хранилища данных. Чтобы получить его, откройте подключение "Управление подключениями и шлюзами", выберите подключение Lakehouse или Хранилище данных, которое вы хотите использовать, и откройте параметры , чтобы получить идентификатор подключения. Если вы хотите создать новое подключение, можно выбрать +Создать на этой странице или перейти к просмотру страницы данных в раскрывающемся списке "Подключение ".

  4. Нажмите кнопку "Сохранить", чтобы вернуться в область "Добавить динамическое содержимое". Затем выберите параметр, чтобы он появился в поле выражения. Затем выберите OK. Вы вернетесь на страницу конвейера и увидите, что выражение параметра указано после подключения.

    Снимок экрана: выбор параметра.

  5. Укажите идентификатор lakehouse или хранилища данных. Чтобы найти идентификатор, перейдите в Lakehouse или хранилище данных в рабочей области. Идентификатор отображается в URL-адресе после /lakehouses/ или /datawarehouses/.

    • Идентификатор Lakehouse:

      Снимок экрана: идентификатор объекта Lakehouse.

    • Идентификатор хранилища:

      Снимок экрана: идентификатор объекта хранилища данных.

  6. Укажите строку подключения SQL для хранилища данных.