Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Задание копирования — это основное решение в Фабрике данных Microsoft Fabric для упрощения перемещения данных из многих источников во многие назначения — конвейеры не нужны. Благодаря встроенной поддержке нескольких стилей доставки, включая массовую копию, добавочную копию и репликацию отслеживания изменений (CDC), задание копирования обеспечивает гибкость для обработки широкого спектра сценариев перемещения данных — все благодаря интуитивно понятной и простой возможности использования. Независимо от того, новичок ли вы в интеграции данных или просто хотите быстрее доставить данные туда, куда им нужно попасть, задача копирования предлагает гибкое и удобное решение.
Advantages
Некоторые преимущества задания копирования по сравнению с другими методами перемещения данных включают:
- Простое использование. Настройка и мониторинг копирования данных с помощью простого интерактивного интерфейса — никаких технических знаний не требуется.
- Эффективно: Скопируйте только новые или измененные данные из последнего выполнения, чтобы сэкономить время и ресурсы, с минимальными шагами вручную.
- Гибкий: выберите, какие данные следует перемещать, сопоставлять столбцы, задавать способ записи данных и планировать выполнение заданий один раз или регулярно.
- Высокая производительность. Перемещение больших объемов данных быстро и надежно благодаря бессерверной масштабируемой системе.
Вы также можете посетить стратегию перемещения данных , чтобы узнать, как задание копирования сравнивается с зеркальным отображением и действием копирования в конвейерах.
Концепции
Режимы копирования (полная копия, добавочное копирование)
Вы можете выбрать способ копирования данных из источника в место назначения:
- Полная копия: каждый раз, когда задание выполняется, он копирует все данные из источника в место назначения.
- Добавочная копия: первый запуск копирует все, а последующие запуски перемещают только новые или измененные данные с момента последнего выполнения.
Инкрементное копирование (CDC, метка)
Инкрементальная копия выполняется каждый раз после первоначальной полной копии (так называемой "последующей загрузки") и передает только определенные изменения. Задание копирования автоматически отслеживает состояние последнего успешного выполнения и управляет им, поэтому он знает, какие данные следует копировать далее. Задание копирования поддерживает добавочное копирование на основе водяного знака (например, ROWVERSION, DATETIME, DATE, строка интерпретируется как DATETIME и целочисленные столбцы) и добавочное копирование на основе CDC при включении CDC в исходном источнике.
Если задание копирования завершается ошибкой, вам не нужно беспокоиться о потере данных. Задание копирования всегда возобновляется с точки, на которой закончилось последнее успешное выполнение. Сбой не изменяет состояние, управляемое заданием копирования. Добавочную копию можно также сбросить на полную копию в любое время — либо для всего задания, либо для каждой таблицы.
Когда следует использовать CDC или инкрементальное копирование на основе водяных знаков
- Используйте инкрементное копирование на основе CDC, когда CDC включен в вашем источнике и поддерживается соединителем задания копирования, и вам необходимо реплицировать вставки, обновления и удаления, чтобы постоянно поддерживать место назначения в синхронизации, поддерживать историю SCD типа 2 или минимизировать нагрузку сканирования на таблицы с высоким объемом изменений.
- Используйте инкрементальное копирование на основе водяного знака, если CDC недоступна в источнике, но в таблице есть надежный добавочный столбец (например,
ROWVERSIONdatetime, date, целое число или строка, интерпретируемые как datetime), и вам необходимо отслеживать вставки и обновления.
Дополнительные сведения см. в следующем разделе:
- Инкрементальное копирование в задании копирования.
- Изменение записи данных (CDC) в задании копирования.
Полная и добавочная копия подмножеств данных с запросами базы данных
Вы можете скопировать подмножества данных из таблиц с помощью запросов к базе данных, что разблокирует широкий спектр сценариев приема данных. Рассмотрим пример.
- Скопируйте только данные для определенного региона из таблицы с столбцом региона, чтобы соответствовать требованиям к приему данных.
- Скопируйте только первые N-строки для тестирования или выборки.
- Проецировать столбец в поддерживаемый тип (например, приведение числового
varcharстолбца к целочислению), чтобы его можно было использовать в качестве добавочного столбца. Дополнительные сведения см. в разделе "Инкрементное копирование" в задании копирования.
Эта возможность поддерживает полные и добавочные копии в подмножествах таблиц на основе пользовательских запросов, что позволяет гибко выбирать и фильтровать данные перед загрузкой. Прием данных становится более эффективным, точным и адаптированным к вашим потребностям.
Методы обновления (добавление, перезапись, слияние, SCD Type 2)
Вы также можете решить, как данные записываются в место назначения:
По умолчанию задание копирования добавляет новые данные, поэтому вы сохраняете полную историю. Если вы предпочитаете, вы можете объединить (обновить существующие строки с помощью ключевого столбца), перезаписать (заменить существующие данные) или SCD Type 2 (сохранить журнал изменений с эффективным датированием). Если вы выберете слияние или SCD Type 2, задание копирования по умолчанию использует первичный ключ, если он существует.
- При копировании в базу данных: новые строки добавляются в таблицы. Для поддерживаемых баз данных можно также выбрать слияние, перезапись или использовать SCD Type 2 для существующих данных.
- При копировании в хранилище: новые данные сохраняются в виде новых файлов. Если файл с тем же именем уже существует, он заменен.
При добавочном копировании из источника и слиянии с местом назначения строки из источника вставляются и обновляются в месте назначения. При выполнении репликации CDC из источника и объединения в место назначения строки из источника вставляются, обновляются или удаляются в целевом месте. При использовании SCD Type 2 с репликацией CDC изменения сохраняются в виде версий строк с эффективным датированием и удаления обрабатываются как обратимые удаления.
Дополнительные сведения о SCD Type 2 см. в задании копирования CDC.
Автоматическое создание и обрезка таблиц в пункте назначения
Задание копирования может автоматически создавать таблицы в пункте назначения, если они еще не существуют. Если целевые таблицы уже доступны, их можно просто выбрать в качестве целевого объекта. С помощью параметров сопоставления гибких столбцов можно легко определить, как сопоставить схемы из исходных таблиц с целевыми таблицами.
Вы также можете дополнительно усечь конечные данные перед полной загрузкой, гарантируя, что их источник и назначение полностью синхронизированы без дубликатов.
По умолчанию задание копирования не удаляет никакие данные в назначении. Если этот параметр включен, выполните следующие действия.
- Первый запуск добавочной копии будет усекать все данные в месте назначения и загрузит полный набор данных.
- Последующие добавочные копии будут продолжать добавлять или объединять данные, не затрагивая существующие записи.
- Если клиенты позже изменят инкрементную копию на полную копию, включение этого параметра снова очистит место назначения перед повторной загрузкой.
Этот подход гарантирует, что пункт назначения остается чистым, полностью синхронизированным и свободным от дубликатов, предоставляя надежную основу для их решения для интеграции данных.
| Соединитель | Автоматическое создание таблицы | Усечение назначения до полной загрузки |
|---|---|---|
| база данных Azure SQL |
|
|
| Управляемый экземпляр SQL Azure |
|
|
| SQL-пул Azure Synapse |
|
|
| Таблица Fabric Lakehouse |
|
|
| Склад тканей |
|
|
| Локальный SQL Server |
|
|
| Oracle |
|
|
| Снежинка |
|
|
| База данных SQL в Fabric (предварительная версия) |
|
|
Столбцы аудита
Столбцы аудита — это дополнительные столбцы метаданных, которые задание копирования может автоматически добавляться к каждой строке, записываемой в место назначения. При включении столбцов аудита каждая строка в целевой таблице может быть обогащена такими сведениями, как:
- Время извлечения данных
- Путь к исходному файлу
- Идентификатор рабочей области, идентификатор задания копирования, идентификатор выполнения задания копирования и имя задания копирования
- Добавочное окно нижней границы и верхняя граница
- Пользовательские заданные значения
При использовании столбцов аудита вы получаете происхождение данных на уровне строк без необходимости написания пользовательского кода, что обеспечивает возможность создания отчетов о соответствии, устранение проблем качества данных и отслеживание актуальности данных.
Дополнительные сведения см. в столбцах аудита в задании копирования.
Производительность
Задание копирования автоматически оптимизирует производительность копирования на основе тома данных, поэтому вы получаете быстрое перемещение данных без ручной настройки. Независимо от того, копируете ли вы небольшую таблицу подстановки или большой журнал транзакций, задача копирования автоматически применяет оптимальную стратегию для каждой таблицы.
При копировании данных из больших таблиц можно также включить автоматическое секционирование (предварительная версия). При автоматическом разбиении на секции, выполняемая задача копирования анализирует исходную схему и характеристики данных для определения оптимальной стратегии разбиения на секции. Он автоматически выбирает правильный столбец партиции, вычисляет сбалансированные границы и выполняет параллельные операции чтения — все без вмешательства пользователя. Это может значительно увеличить пропускную способность для больших наборов данных. Вы можете включить переключатель автоматического секционирования в вашем задании копирования в разделе "Дополнительные параметры".
Автоматическое разбиение на разделы поддерживается для инкрементного копирования на основе водяного знака, включая как начальное полное копирование, так и инкрементное копирование, для следующих соединителей: Amazon RDS for SQL Server, База данных SQL Azure, Azure Synapse Analytics (пул SQL), Fabric Data Warehouse, база данных SQL в Fabric, SQL Server, Управляемый экземпляр SQL Azure, Oracle, SAP HANA и таблицы Fabric Lakehouse.
Параметры выполнения (запуск, расписание, триггер событий)
У вас есть полная гибкость, чтобы решить, когда выполняется задание копирования— он может выполняться один раз или по расписанию. Даже если задание запланировано, вы по-прежнему можете выбрать запуск в любое время, чтобы активировать его вручную. В инкрементной копии вручную запускаемое задание будет передавать только изменения с момента последнего запуска.
Благодаря поддержке нескольких расписаний для задания копирования вы получаете еще большее управление. Одно задание копирования может иметь несколько расписаний, например один работает ежедневно в 6 утра и другой работает еженедельно в воскресенье. Все расписания можно управлять напрямую в рамках одного и того же задания копирования, что делает оркестрацию проще, чище и эффективнее.
Если вы используете операцию копирования в рамках конвейера, вы также можете воспользоваться возможностями оркестрации и триггеров конвейера. Например, триггеры событий можно использовать для запуска действия задания копирования при возникновении определенных событий, таких как новые файлы, поступающие в озеро данных или изменения в базе данных.
См. подробности о действии задания копирования.
Параметры размещения (виртуальная сеть, локальная среда, облако)
Задание копирования можно использовать для перемещения данных из любого источника в любое место назначения, локально, в облаке или в виртуальной сети. На странице подключения задания копирования можно выбрать несколько вариантов узла, включая локальный шлюз или шлюз виртуальной сети, для безопасного доступа к данным за брандмауэром или в виртуальной сети.
Для получения более подробной информации о защите перемещения данных с помощью задания копирования и шлюза данных виртуальная сеть, см. статью
Операционализация (GIT/CICD, библиотека переменных)
Вы можете использовать управление версиями, непрерывную интеграцию, непрерывное развертывание и коллаборативную среду для выполнения успешных проектов по аналитике данных с помощью Copy Job.
Кроме того, с поддержкой библиотеки переменных можно параметризировать подключения в задании копирования. Эта мощная возможность упрощает процессы CI/CD путем вынесения значений подключений наружу, что позволяет развертывать одно задание Copy Job в нескольких средах, при этом внедрение правильного подключения осуществляется с использованием библиотеки переменных для каждого этапа.
Дополнительные сведения см. в CI/CD для задачи копирования.
Поддерживаемые соединители
С помощью задания копирования можно перемещать данные между облачными хранилищами данных или из локальных источников, находящихся за брандмауэром или в виртуальной сети с помощью шлюза.
Ознакомьтесь со страницей поддерживаемых соединителей для полного списка поддерживаемых источников и назначений:
Отправьте отзыв о идеях Fabric и присоединитесь к беседе в сообществе Fabric.
Сопоставление типов данных
Действия копирования в конвейерах и задания копирования выполняют сопоставление типов источников с типами назначения с использованием следующей последовательности:
- Преобразуйте исходные типы данных в промежуточные типы данных, используемые фабрикой данных Fabric.
- Автоматически преобразуйте промежуточный тип данных в соответствии с соответствующими типами назначения.
- Преобразуйте промежуточные типы данных в собственные типы данных назначения.
Действия копирования в конвейерах и задания копирования в настоящее время поддерживают следующие промежуточные типы данных: Boolean, Byte, Byte array, Datetime, DatetimeOffset, Decimal, Double, GUID, Int16, Int32, Int64, SByte, Single, String, Timespan, UInt16, UInt32 и UInt64.
Следующие преобразования типов данных поддерживаются между промежуточными типами от источника до назначенного места.
| Источник\Назначение | Boolean | массив байтов; | Дата и время | Десятичное число | Плавающая точка | ГУИД | Целое число | String | TimeSpan |
|---|---|---|---|---|---|---|---|---|---|
| Boolean | ✓ | ✓ | ✓ | ✓ | |||||
| массив байтов; | ✓ | ✓ | |||||||
| Дата и время | ✓ | ✓ | |||||||
| Десятичное число | ✓ | ✓ | ✓ | ✓ | |||||
| Плавающая точка | ✓ | ✓ | ✓ | ✓ | |||||
| ГУИД | ✓ | ✓ | |||||||
| Целое число | ✓ | ✓ | ✓ | ✓ | |||||
| String | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| TimeSpan | ✓ | ✓ |
Дата и время включает DateTime, DateTimeOffset, Date и Time.
(2) Float-Point включает Single и Double.
(3) Integer включает SByte, Byte, Int16, UInt16, Int32, UInt32, Int64 и UInt64.
Чтобы узнать подробные преобразования типов данных для определенного соединителя, перейдите в статью конфигурации действия копирования для этого соединителя, доступную здесь.
Замечание
В настоящее время такое преобразование типов данных поддерживается при копировании между табличными данными. Иерархические источники и назначения не поддерживаются, что означает отсутствие системного преобразования типов данных между исходными и целевыми промежуточными типами.
Observability
Дополнительные сведения см. в статьях "Как следить за заданием копирования" и "Мониторинг рабочей области для задания копирования"
Доступность по регионам
Задание копирования имеет ту же региональную доступность, что и Fabric.
Цены
Вы можете получить сведения о задании копирования цен.