Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В конвейере можно использовать действие копирования для копирования данных между хранилищами данных в облаке. После копирования данных можно использовать другие действия в конвейере для преобразования и анализа данных.
Действие копирования подключается к источникам и местам назначения данных, а затем эффективно переносит данные между ними. Вот как служба обрабатывает процесс копирования:
- Подключается к источнику: создает безопасное подключение для чтения данных из исходного хранилища данных.
- Обрабатывает данные: обрабатывает сериализацию/десериализацию, сжатие или декомпрессию, сопоставление столбцов и преобразования типов данных на основе конфигурации.
- Записывает данные в место назначения: передает обработанные данные в целевое хранилище данных.
- Предоставляет мониторинг: отслеживает операцию копирования и предоставляет подробные журналы и метрики для устранения неполадок и оптимизации.
Tip
Если вам нужно только скопировать данные и не требуется преобразования, задание копирования может быть лучшим вариантом. Задания копирования предоставляют упрощенный интерфейс для сценариев перемещения данных, которые не требуют создания полного конвейера. См. обзор заданий копирования или использование таблицы решений для сравнения действий копирования и задания копирования.
Prerequisites
Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:
- Учетная запись клиента Microsoft Fabric с активной подпиской. Создайте учетную запись бесплатно .
- Рабочая область с поддержкой Microsoft Fabric.
Добавление действия копирования с помощью помощника по копированию
Выполните следующие действия, чтобы настроить действие копирования с помощью помощника по копированию.
Начните с ассистента копирования
Откройте существующий конвейер или создайте новый конвейер.
Выберите " Копировать данные на холсте", чтобы открыть средство помощника по копированию, чтобы приступить к работе. Или выберите «Использовать помощника по копированию» из раскрывающегося меню «Копирование данных» на вкладке «Действия» на ленте.
Настройка источника
Выберите тип источника данных из категории. Вы будете использовать хранилище объектов BLOB в Azure как пример. Выберите хранилище Blob-объектов Azure.
Создайте подключение к источнику данных, выбрав "Создать новое подключение".
После нажатия кнопки "Создать новое подключение" введите необходимые сведения о подключении и нажмите кнопку "Далее". Сведения о создании подключения для каждого типа источника данных можно найти в каждой статье об этом соединителе.
Если у вас уже есть подключения, можно выбрать существующее подключение и выбрать подключение в раскрывающемся списке.
Выберите файл или папку, скопированные на этом шаге конфигурации источника, и нажмите кнопку "Далее".
Настройка назначения
Выберите тип источника данных из категории. Вы будете использовать хранилище объектов BLOB в Azure как пример. Вы можете создать новое подключение к новой учетной записи Azure Blob Storage, следуя шагам из предыдущего раздела, или используйте существующее подключение из раскрывающегося списка соединений. Возможности тестового подключения и редактирования доступны для каждого выбранного подключения.
Настройте и сопоставьте исходные данные с целевым хранилищем. Затем нажмите кнопку "Далее", чтобы завершить конфигурации назначения.
Note
В одном действие Copy можно использовать только один локальный шлюз данных. Если источник и приемник являются локальными источниками данных, они должны использовать один и тот же шлюз. Чтобы переместить данные между локальными источниками данных с разными шлюзами, необходимо скопировать данные с помощью первого шлюза в промежуточный источник облака в одном действии копирования. Затем можно использовать еще одну операцию копирования для копирования из промежуточного облачного источника с помощью второго шлюза.
Просмотрите и создайте задачу копирования
Просмотрите параметры действия копирования на предыдущих шагах и нажмите кнопку "ОК ", чтобы завершить работу. Вы также можете вернуться к предыдущим шагам, чтобы изменить параметры при необходимости в средстве.
После завершения задача копирования будет добавлена в рабочую область конвейера. Все параметры, включая дополнительные параметры для этого действия копирования, доступны на вкладках при выборе.
Теперь вы можете сохранить поток с помощью этой единственной операции копирования или продолжить проектирование вашего потока.
Добавьте действие копирования непосредственно
Выполните следующие действия, чтобы напрямую добавить действие копирования.
Добавление действия копирования
Откройте существующий конвейер или создайте новый конвейер.
Добавьте действие копирования, выбрав
"Добавить действие конвейера " или "Копировать данные " Добавить на холст на вкладке"Действия".
Настройка общих параметров на вкладке "Общие"
Сведения о настройке общих параметров см. в разделе "Общие".
Настройка источника на вкладке "Источник"
В разделе "Подключение" выберите существующее подключение или нажмите кнопку "Дополнительно ", чтобы создать новое подключение.
Выберите тип источника данных в всплывающем окне. Вы будете использовать База данных SQL Azure в качестве примера. Выберите База данных SQL Azure и нажмите кнопку Продолжить.
Он переходит на страницу создания подключения. Введите необходимые сведения о подключении на панели и нажмите кнопку "Создать". Сведения о создании подключения для каждого типа источника данных можно найти в каждой статье об этом соединителе.
После создания подключения вы вернеесь на страницу конвейера. Затем выберите "Обновить" , чтобы получить подключение, созданное в раскрывающемся списке. Вы также можете выбрать существующее подключение к базе данных SQL Azure непосредственно в раскрывающемся списке, если вы уже создали его раньше. Возможности тестового подключения и редактирования доступны для каждого выбранного подключения. Затем выберите База данных SQL Azure в типе подключения.
Укажите таблицу для копирования. Выберите предварительный просмотр данных , чтобы просмотреть исходную таблицу. Вы также можете использовать запрос и хранимую процедуру для чтения данных из источника.
Разверните параметры Advanced для более подробных настроек, таких как время ожидания запроса или секционирование. (Дополнительные параметры зависят от соединителя.)
Настройка назначения на вкладке назначения
В разделе "Подключение" выберите существующее подключение или нажмите кнопку "Дополнительно ", чтобы создать новое подключение. Это может быть ваше внутреннее высококлассное хранилище данных из рабочей среды, такое как Lakehouse, или внешние хранилища данных. В этом примере мы используем Lakehouse.
После создания подключения вы вернеесь на страницу конвейера. Затем выберите "Обновить" , чтобы получить подключение, созданное в раскрывающемся списке. Вы также можете выбрать существующее подключение Lakehouse непосредственно в раскрывающемся списке, если вы уже создали его раньше.
Укажите таблицу или настройте путь к файлу, чтобы определить файл или папку в качестве назначения. Здесь выберите таблицы и укажите таблицу для записи данных.
Разверните Дополнительно для выбора расширенных параметров, таких как максимальное количество строк в файле или операции с таблицей. (Дополнительные параметры зависят от соединителя.)
Теперь можно сохранить конвейер с помощью этого действия копирования или продолжить проектирование конвейера.
Настройте сопоставления во вкладке "Сопоставления"
Если используемый соединитель поддерживает сопоставление, перейдите на вкладку "Сопоставление ", чтобы настроить сопоставление.
Выберите "Импорт схем" , чтобы импортировать схему данных.
Вы можете видеть, что отображается автоматическое сопоставление. Укажите исходный столбец и столбец назначения. Если вы создаете новую таблицу в назначении, вы можете настроить имя столбца назначения здесь. Если вы хотите записать данные в существующую целевую таблицу, нельзя изменить существующее имя столбца назначения . Вы также можете просмотреть тип исходных и целевых столбцов.
Вы также можете выбрать +Создать сопоставление , чтобы добавить новое сопоставление, выбрать "Очистить ", чтобы очистить все параметры сопоставления, и выбрать "Сбросить ", чтобы сбросить все столбец источника сопоставления.
Сопоставление типов данных
Действия копирования в конвейерах и задания копирования выполняют сопоставление типов источников с типами назначения с использованием следующей последовательности:
- Преобразуйте исходные типы данных в промежуточные типы данных, используемые фабрикой данных Fabric.
- Автоматически преобразуйте промежуточный тип данных в соответствии с соответствующими типами назначения.
- Преобразуйте промежуточные типы данных в собственные типы данных назначения.
Действия копирования в конвейерах и задания копирования в настоящее время поддерживают следующие промежуточные типы данных: Boolean, Byte, Byte array, Datetime, DatetimeOffset, Decimal, Double, GUID, Int16, Int32, Int64, SByte, Single, String, Timespan, UInt16, UInt32 и UInt64.
Следующие преобразования типов данных поддерживаются между промежуточными типами от источника до назначенного места.
| Источник\Назначение | Boolean | массив байтов; | Дата и время | Десятичное число | Плавающая точка | ГУИД | Целое число | String | TimeSpan |
|---|---|---|---|---|---|---|---|---|---|
| Boolean | ✓ | ✓ | ✓ | ✓ | |||||
| массив байтов; | ✓ | ✓ | |||||||
| Дата и время | ✓ | ✓ | |||||||
| Десятичное число | ✓ | ✓ | ✓ | ✓ | |||||
| Плавающая точка | ✓ | ✓ | ✓ | ✓ | |||||
| ГУИД | ✓ | ✓ | |||||||
| Целое число | ✓ | ✓ | ✓ | ✓ | |||||
| String | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| TimeSpan | ✓ | ✓ |
Дата и время включает DateTime, DateTimeOffset, Date и Time.
(2) Float-Point включает Single и Double.
(3) Integer включает SByte, Byte, Int16, UInt16, Int32, UInt32, Int64 и UInt64.
Чтобы узнать подробные преобразования типов данных для определенного соединителя, перейдите в статью конфигурации действия копирования для этого соединителя, доступную здесь.
Note
В настоящее время такое преобразование типов данных поддерживается при копировании между табличными данными. Иерархические источники и назначения не поддерживаются, что означает отсутствие системного преобразования типов данных между исходными и целевыми промежуточными типами.
Настройка других параметров на вкладке "Параметры"
Вкладка "Параметры" содержит параметры производительности, промежуточного хранения и т. д.
Описание каждого параметра см. в следующей таблице.
| Setting | Description | Свойство скрипта JSON |
|---|---|---|
| Интеллектуальная оптимизация пропускной способности | Укажите параметры для оптимизации пропускной способности. Вы можете выбрать один из вариантов: • Авто • Стандартный • Сбалансированный • Максимальное При выборе авто оптимальный параметр динамически применяется на основе пары назначения источника и шаблона данных. Вы также можете настроить пропускную способность, а настраиваемое значение может быть 4–256, а более высокое значение подразумевает больше прибыли. |
dataIntegrationUnits |
| Степень параллелизма копирования | Укажите степень параллелизма, которую будет использовать загрузка данных. | parallelCopies |
| Адаптивная настройка производительности (предварительная версия) | Укажите, может ли служба применять оптимизации производительности и настраивать в соответствии с настраиваемой конфигурацией. | Адаптивная настройка производительности |
| Проверка согласованности данных | Если для этого свойства задано true , при копировании двоичных файлов действие копирования проверяет размер файла, lastModifiedDate и контрольную сумму для каждого двоичного файла, скопированного из источника в целевое хранилище, чтобы обеспечить согласованность данных между исходным и целевым хранилищем. При копировании табличных данных действие копирования проверяет общее число строк после завершения задания, что гарантирует, что общее количество строк, считываемых из источника, совпадает с количеством строк, скопированных в место назначения, а также число несовместимых строк, пропущенных. Помните, что производительность копирования зависит от включения этого параметра. |
validateDataConsistency |
| Отказоустойчивость | При выборе этого параметра можно игнорировать некоторые ошибки, которые происходят в середине процесса копирования. Например, несовместимые строки между исходным и целевым хранилищем, удаление файла во время перемещения данных и т. д. | • включитьПропускНесовместимойСтроки • skipErrorFile: fileMissing fileForbidden invalidFileName |
| Включить ведение журнала | При выборе этого параметра можно вести журнал скопированных файлов, пропущенных файлов и строк. | / |
| Включить стейджинг | Укажите, следует ли копировать данные через промежуточное хранилище промежуточного хранения. Включите стадирование только для полезных сценариев. | enableStaging |
| Для рабочей области | ||
| Workspace | Задайте использование встроенного промежуточного хранилища. Убедитесь, что последний измененный пользователь для конвейера имеет по крайней мере роль участника, назначенную в рабочей области. | / |
| Для внешних | ||
| Подключение промежуточной учетной записи | Укажите подключение Azure Blob Storage или Azure Data Lake Storage Gen2, которое относится к экземпляру хранилища, используемому временно как хранилище. Создайте промежуточное подключение, если у вас его нет. | подключение (в externalReferences) |
| Путь к хранилищу | Задайте путь, по которому должна располагаться область промежуточного хранения данных. Если не задавать путь, служба создаст контейнер для хранения временных данных. Укажите путь, только если используется хранилище с подписанным URL-адресом или требуется, чтобы временные данные хранились в определенном месте. | path |
| Включение сжатия | Указывает, следует ли сжимать данные перед их копированием в место назначения. Этот параметр позволяет уменьшить объем передаваемых данных. | enableCompression |
| Preserve | Укажите, следует ли сохранять метаданные и списки ACL во время копирования данных. | preserve |
Note
Если вы используете поэтапное копирование с включенным сжатием, аутентификация служебного принципала для подключения к промежуточному Blob-хранилищу не поддерживается.
Note
Время работы рабочей области истекает через 60 минут. Для длительных заданий рекомендуется использовать внешнее хранилище для подготовки.
Настройка параметров в операции копирования
Параметры можно использовать для управления поведением конвейера и его действиями. Вы можете использовать Добавить динамическое содержимое для указания параметров свойств операции копирования. Давайте рассмотрим указание Lakehouse/Data Warehouse в качестве примера, чтобы понять, как его использовать.
В исходном или целевом расположении выберите "Использовать динамическое содержимое " в раскрывающемся списке "Подключение".
В всплывающей области "Добавить динамическое содержимое " на вкладке "Параметры " выберите +.
Укажите имя параметра и присвойте ему значение по умолчанию, если требуется, или можно указать значение параметра при активации в конвейере.
Значение параметра должно быть идентификатором подключения Lakehouse/Data Warehouse. Чтобы получить его, откройте ваш Управление подключениями и шлюзами, выберите подключение Lakehouse или Хранилище данных, которое вы хотите использовать, и откройте настройки, чтобы получить идентификатор подключения. Если вы хотите создать новое подключение, можно выбрать +Создать на этой странице или перейти к просмотру страницы данных в раскрывающемся списке "Подключение ".
Нажмите кнопку "Сохранить", чтобы вернуться в область "Добавить динамическое содержимое". Затем выберите параметр, чтобы он появился в поле выражения. Затем выберите OK. Вы перейдете обратно на страницу пайплайна и увидите, что выражение параметра указано после Connection.
Укажите идентификатор Lakehouse или хранилища данных. Чтобы найти идентификатор, перейдите в Lakehouse или хранилище данных в рабочей области. Идентификатор отображается в URL-адресе после
/lakehouses/или/datawarehouses/.Идентификатор Lakehouse:
Идентификатор хранилища: