Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье описывается использование действия копирования в конвейере для копирования данных из и в Хранилище данных.
Поддерживаемая конфигурация
Для настройки каждой вкладки в действии копирования перейдите к следующим разделам соответственно.
Общие сведения
Для конфигурации вкладки "Общие " выберите действие копирования, а затем перейдите на вкладку "Общие ".
Источник
Следующие свойства поддерживаются для Хранилища данных как Source в действии копирования.
Требуются следующие свойства:
Connection: выберите Data Warehouse из списка хранилища данных.
Используйте запрос: выбор таблицы, запроса или хранимой процедуры.
Если выбрать таблицу, выберите существующую таблицу из списка таблиц или укажите имя таблицы вручную, выбрав поле "Изменить".
При выборе запроса используйте пользовательский редактор SQL-запросов для записи SQL-запроса, который извлекает исходные данные.
Если выбрать хранимую процедуру, выберите существующую хранимую процедуру из раскрывающегося списка или укажите имя хранимой процедуры в качестве источника, выбрав поле "Изменить ".
В разделе "Дополнительно" можно указать следующие поля:
Время ожидания запроса (минуты): время ожидания выполнения команды запроса с значением по умолчанию 120 минут. Если это свойство задано, допустимые значения находятся в формате интервала времени, например "02:00:00" (120 минут).
Уровень изоляции. Укажите поведение блокировки транзакций для источника SQL.
параметр Partition. Укажите параметры секционирования данных, используемые для загрузки данных из Data Warehouse. Вы можете выбрать "Нет " или "Динамический диапазон".
Если выбрать динамический диапазон, необходим параметр разбиения диапазона (
?AdfDynamicRangePartitionCondition), когда используется запрос с включенной параллельной обработкой. Пример запроса:SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.
-
Имя столбца секционирования: укажите имя исходного столбца типа integer или date/datetime (
int,smallint,bigint,date,smalldatetime,datetime,datetime2, илиdatetimeoffset), используемого секционированием диапазона для параллельной копии. Если значение не указано, то индекс или первичный ключ таблицы определяется автоматически и используется в качестве столбца секционирования. - Верхняя граница секционирования: максимальное значение столбца секционирования для разделения диапазона секционирования. Это значение используется для выбора шага секционирования, а не для фильтрации строк в таблице. Все строки в таблице или результатах запроса секционируются и копируются.
- Нижняя граница секционирования: минимальное значение столбца секционирования для разбиения диапазона секций. Это значение используется для выбора шага секционирования, а не для фильтрации строк в таблице. Все строки в таблице или результатах запроса секционируются и копируются.
-
Имя столбца секционирования: укажите имя исходного столбца типа integer или date/datetime (
Дополнительные столбцы: добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего.
Назначение
Следующие свойства поддерживаются для Data Warehouse как Destination в процессе копирования.
Требуются следующие свойства:
Connection: выберите Data Warehouse из списка хранилища данных.
Параметр таблицы. Укажите, следует ли автоматически создавать целевую таблицу, если она отсутствует на основе исходной схемы. Вы можете выбрать Использовать существующую или Автоматически создать таблицу.
Таблица: выберите существующую таблицу из списка таблиц или укажите имя таблицы в качестве назначения.
Поведение записи: укажите способ записи данных в место назначения.
- Вставка: добавление всех данных в целевую таблицу.
-
Upsert: обновлять значения целевой таблицы при совпадении ключевых столбцов и вставлять новую строку при отсутствии совпадений строк в целевой таблице.
Ключевые столбцы: выберите, какой столбец используется для определения того, соответствует ли строка из источника строке из назначения. Раскрывающийся список всех столбцов назначения. При записи в таблицу хранилища можно выбрать один или несколько столбцов, которые будут рассматриваться как ключевые столбцы. Ключевые столбцы должны иметь уникальные значения в исходных данных. Все ключевые столбцы должны существовать как в целевой таблице, так и в исходных данных (или предоставляться с помощью сопоставления столбцов).
В разделе "Дополнительно" можно указать следующие поля:
Копирование параметров команд. Укажите свойства команды копирования.
скрипт Pre-copy. Укажите SQL-запрос для выполнения перед записью данных в Data Warehouse в каждом запуске. Это свойство используется для очистки предварительно загруженных данных.
Тайм-аут пакетной вставки: время ожидания завершения операции пакетной вставки до истечения времени ожидания. Допустимые значения указаны в формате интервала времени. Значение по умолчанию — "00:30:00" (30 минут).
Отключить аналитику метрик производительности: служба собирает метрики для оптимизации производительности копирования и рекомендаций. Если вы обеспокоены этим поведением, отключите эту функцию.
прямое копирование
Инструкция COPY — это основной способ загрузки данных в таблицы хранилища. команда Data Warehouse COPY напрямую поддерживает Хранилище BLOB-объектов Azure и Azure Data Lake Storage 2-го поколения в качестве исходных хранилищ данных. Если исходные данные соответствуют критериям, описанным в этом разделе, используйте команду COPY для копирования непосредственно из исходного хранилища данных в Data Warehouse.
Исходные данные и формат содержат следующие типы и методы проверки подлинности:
Поддерживаемый тип хранилища исходных данных Поддерживаемый формат Поддерживаемый тип проверки подлинности источника Хранилище BLOB-объектов Azure Текст с разделителями
паркетанонимная аутентификация;
Проверка подлинности на основе ключа учетной записи
Учетная запись организации
Аутентификация путем общей подписи доступаAzure Data Lake Storage 2-го поколения Текст с разделителями
паркетПроверка подлинности на основе ключа учетной записи
Учетная запись организации
Аутентификация путем общей подписи доступаЗамечание
- При использовании проверки подлинности учетной записи организации для связанной службы хранилища изучите необходимые конфигурации для Хранилище BLOB-объектов Azure и Azure Data Lake Storage 2-го поколения соответственно.
- Если Хранилище BLOB-объектов Azure или Azure Data Lake Storage 2-го поколения находится за брандмауэром, следует использовать удостоверение рабочей области для обхода брандмауэра. Ознакомьтесь с необходимыми конфигурациями в этой статье.
Можно задать следующие параметры формата:
- Для Parquet: тип сжатия может быть None, snappy или gzip.
- Для делимитированного текста:
- Row разделитель: при копировании текста с разделителями в Data Warehouse с помощью прямой команды COPY укажите конец строки непосредственно (\r; \n; или \r\n). Только если разделитель строк исходного файла равен \r\n, значение по умолчанию (\r, \n или \r\n) работает. В противном случае включите промежуточное хранение для вашего сценария.
- Значение NULL остается в качестве значения по умолчанию или имеет значение пустой строки ("").
- Кодировка остается по умолчанию или имеет значение UTF-8 или UTF-16.
- Число пропускаемых строк оставлено по умолчанию или установлено на 0.
- Тип сжатия может быть None или gzip.
Если источник является папкой, установите флажок "Рекурсивно ".
Время начала (UTC) и время окончания (UTC) в фильтре по последнему изменению, префиксу, включению обнаружения секций и дополнительным столбцам не указаны.
Сведения о приеме данных в Data Warehouse с помощью команды COPY см. в этой статье article.
Если исходное хранилище данных и формат не поддерживаются командой COPY, используйте поэтапное копирование с помощью функции команды COPY. Он автоматически преобразует данные в формат, совместимый с командой COPY, а затем вызывает команду COPY для загрузки данных в Data Warehouse.
поэтапное копирование
Если исходные данные не совместимы с командой COPY, включите копирование данных через промежуточное хранилище. В этом случае служба автоматически преобразует данные в соответствии с требованиями к формату данных команды COPY. Затем он вызывает команду COPY для загрузки данных в Data Warehouse. Наконец, производится очистка временных данных из хранилища. Дополнительные сведения о поэтапном копировании см. в этой статье.
Чтобы использовать поэтапное копирование, перейдите на вкладку "Параметры " и выберите "Включить промежуточное копирование". Вы можете выбрать Рабочую область для использования автоматически создаваемого промежуточного хранилища в Fabric. Для External Хранилище BLOB-объектов Azure и Azure Data Lake Storage 2-го поколения поддерживаются как внешнее промежуточное хранилище. Сначала необходимо создать подключение Хранилище BLOB-объектов Azure или Azure Data Lake Storage 2-го поколения, а затем выбрать подключение из раскрывающегося списка, чтобы использовать промежуточное хранилище. Эти варианты хранения поддерживают несколько типов проверки подлинности. В следующей таблице перечислены поддерживаемые параметры:
| Внешнее стейджинг-хранилище | Поддерживаемые типы аутентификации |
|---|---|
| Хранилище BLOB-объектов Azure | Анонимный Ключ учетной записи Учетная запись организации Подписанный ключ доступа (SAS) |
| Azure Data Lake Storage 2-го поколения | Ключ учетной записи Учетная запись организации Подписанный ключ доступа (SAS) |
Замечание
- При использовании проверки подлинности учетной записи организации для промежуточной связанной службы изучите необходимые конфигурации для Хранилище BLOB-объектов Azure и Azure Data Lake Storage 2-го поколения соответственно.
- Если промежуточный Хранилище BLOB-объектов Azure или Azure Data Lake Storage 2-го поколения находится за брандмауэром, необходимо использовать удостоверение рабочей области для обхода брандмауэра. Ознакомьтесь с необходимыми конфигурациями в этой статье.
- Необходимо убедиться, что диапазон IP-адресов хранилища данных правильно разрешен из промежуточного хранилища.
Картирование
Для конфигурации вкладки Mapping если вы не применяете Data Warehouse с автоматическим созданием таблицы в качестве назначения, выберите действие копирования, а затем перейдите на вкладку Mapping.
Если вы применяете Data Warehouse с автоматическим созданием таблицы в качестве назначения, за исключением конфигурации в Mapping, можно изменить тип для столбцов назначения. После выбора схемы импорта можно указать тип столбца в назначении.
Например, тип столбца идентификатора в источнике является int, и его можно изменить на float type при сопоставлении с целевым столбцом.
Если выбрать тип varchar или varbinary для целевого столбца, можно указать длину для типа. Длина должна быть больше 0 и меньше 8000 или MAX (указывает максимальный размер хранилища 2³¹-1 байт). Значение по умолчанию — 8000. Дополнительные сведения см. в этой статье.
Параметры
Для конфигурации вкладки "Параметры " выберите действие копирования, а затем перейдите на вкладку "Параметры ".
Сводка таблицы
В следующих таблицах содержатся дополнительные сведения о действии копирования в хранилище данных.
Сведения об источнике
| Имя | Описание | Значение | Обязательное поле | Свойство скрипта JSON |
|---|---|---|---|---|
| Тип хранилища данных рабочей области | Раздел для выбора типа хранилища данных рабочей области. | Хранилище данных | Да | тип |
| Хранилище данных | Хранилище данных, которое вы хотите использовать. | <ваше хранилище данных> | Да | конечная точка идентификатор_элемента |
| Использовать запрос | Способ чтения данных из Data Warehouse. | •Таблицы •Запрос • Хранимая процедура |
нет |
(под typeProperties ->source)• типСвойства: схема таблица • sqlReaderQuery • sqlReaderStoredProcedureName (Имя хранимой процедуры для SQL-чтения) |
| время ожидания запроса (минуты) | Время ожидания выполнения команды запроса с значением по умолчанию — 120 минут. Если это свойство задано, допустимые значения находятся в формате интервала времени, например "02:00:00" (120 минут). | временной промежуток | нет | время ожидания запроса |
| Уровень изоляции | Поведение блокировки транзакций для источника. | • Нет •Снимок |
нет | Уровень изоляции |
| Опция разбиения | Параметры секционирования данных, используемые для загрузки данных из Data Warehouse. | • Нет •Динамический диапазон |
нет | опция_раздела |
| имя столбца раздела | Имя исходного столбца в целочисленном формате или формате даты/времени (int, smallint, bigint, date, smalldatetime, datetime, datetime2 или datetimeoffset) используется диапазонным секционированием для параллельной копии. Если значение не указано, то индекс или первичный ключ таблицы определяется автоматически и используется в качестве столбца секционирования. |
<Имя столбца раздела> | нет | имя столбца раздела |
| верхняя граница раздела | Максимальное значение столбца секционирования для разделения диапазона секций. Это значение используется для выбора шага секционирования, а не для фильтрации строк в таблице. Все строки в таблице или результатах запроса секционируются и копируются. | <верхняя граница раздела> | нет | верхняя граница раздела |
| нижняя граница раздела | Минимальное значение столбца секционирования для разбиения диапазона секционирования. Это значение используется для выбора шага секционирования, а не для фильтрации строк в таблице. Все строки в таблице или результатах запроса секционируются и копируются. | <нижняя граница раздела> | нет | partitionLowerBound |
| Дополнительные столбцы | Добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. | • Имя •Ценность |
нет | дополнительныеКолонки •имя •ценность |
Сведения о назначении
| Имя | Описание | Значение | Обязательное поле | Свойство скрипта JSON |
|---|---|---|---|---|
| Тип хранилища данных рабочей области | Раздел для выбора типа хранилища данных рабочей области. | Хранилище данных | Да | тип |
| Хранилище данных | Хранилище данных, которое вы хотите использовать. | <ваше хранилище данных> | Да | конечная точка идентификатор_элемента |
| Параметр таблицы | Следует ли автоматически создавать целевую таблицу, если ни одна из них не существует на основе исходной схемы. | Используйте существующие • Автоматическая создание таблицы |
нет | параметрТаблицы: • автоСоздание |
| таблица | Целевая таблица для записи данных. | <имя целевой таблицы> | Да | схема таблица |
| Поведение при записи | Укажите способ записи данных в место назначения. | • Вставка (по умолчанию) • обновление или добавление записи |
Да | writeBehavior: • Вставить • обновление или добавление записи |
| Ключевые столбцы | Выберите столбец, используемый для определения того, соответствует ли строка из источника строке из назначения. |
<ключевые столбцы> (по умолчанию используется схема назначения) |
нет | upsertSettings: •Ключи |
| Копирование параметров команды | Параметры свойства команды копирования. Содержит параметры значения по умолчанию. | Значение по умолчанию:. •Столбец •Ценность |
нет | настройкиКомандыКопирования defaultValues: • Имя столбца • значение по умолчанию |
| сценарий предварительного копирования | SQL-запрос для запуска перед записью данных в Data Warehouse при каждом запуске. Это свойство используется для очистки предварительно загруженных данных. | <скрипт предварительного копирования> | нет | preCopyScript |
| время ожидания выполнения пакета | Время ожидания выполнения операции пакетной вставки перед истечением таймаута. Допустимые значения указаны в формате временного интервала. Значение по умолчанию — "00:30:00" (30 минут). | временной промежуток | нет | writeBatchTimeout |
| Отключение аналитики метрик производительности | Служба собирает метрики для оптимизации производительности копирования и рекомендаций, которые вводят дополнительный доступ к главной базе данных. | Выбор или отмена выбора | нет | отключитьСборМетрик истина или ложь |
Использование Fabric Warehouse в качестве приемника с настроенным промежуточным хранилищем
Если в промежуточном хранилище включен брандмауэр, могут возникнуть проблемы с доступом.
Обходные пути
- Different Regions: Если емкость Fabric и промежуточное хранилище находятся в разных регионах, убедитесь, что IP-адреса региональных фабрик данных и Azure SQL разрешены в брандмауэре расположения хранилища для обеспечения подключения.
- Тот же регион: если емкость Fabric и промежуточное хранилище находятся в одном регионе и проблемы с доступом сохраняются, выберите альтернативное промежуточное место хранения в другом регионе, отличном от емкости Fabric.
Связанный контент
- Обзор соединителя для Data Warehouse