Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Быстрое копирование помогает быстрее перемещать большие объемы данных в потоке данных 2-го поколения. Думайте об этом, как переключение на более мощный механизм, когда необходимо обрабатывать терабайты данных.
При работе с потоками данных сначала необходимо принять данные, а затем преобразовать их. С помощью горизонтального масштабирования потока данных с помощью вычислений хранилища данных SQL можно преобразовать данные в большом масштабе. Быстрая копия заботится о части приема, предоставляя простой интерфейс потока данных с мощной серверной частью действия копирования конвейера.
Вот как это работает: после включения быстрого копирования потоки данных автоматически переключаются на более быструю серверную часть, когда размер данных проходит определенное пороговое значение. При создании потоков данных не нужно ничего изменять. После обновления потока данных можно проверить журнал обновления, чтобы узнать, используется ли быстрая копия, глядя на тип ядра , указанный там.
Если включить параметр "Требовать быструю копию ", обновление потока данных останавливается, если быстрая копия не может использоваться по какой-либо причине. Это помогает избежать ожидания времени ожидания и может оказаться полезным при отладке. Индикаторы быстрого копирования можно использовать в области шагов запроса, чтобы проверить, может ли запрос выполняться с быстрой копией.
Prerequisites
Прежде чем использовать быструю копию, вам потребуется:
- Емкость Fabric
- Для файловых данных: CSV-файлы или файлы Parquet, которые не менее 100 МБ и хранятся в хранилище Azure Data Lake Storage (ADLS) 2-го поколения или хранилища BLOB-объектов
- Для баз данных (включая базу данных SQL Azure и PostgreSQL): 5 миллионов строк или больше данных в источнике данных
Note
Пороговое значение можно обойти, чтобы принудительно скопировать, выбрав параметр "Требовать быструю копию ".
Connector support
Быстрая копия работает с этими соединителями потока данных 2-го поколения:
- ADLS Gen2
- Blob storage
- База данных SQL Azure
- Lakehouse
- PostgreSQL
- Локальный SQL Server
- Warehouse
- Oracle
- Snowflake
Transformation limitations
При подключении к источникам файлов действие копирования поддерживает только следующие преобразования:
- Combine files
- Select columns
- Изменение типов данных
- Переименование столбца
- Удаление столбца
Если вам нужны другие преобразования, вы можете разделить работу на отдельные запросы. Создайте один запрос, чтобы получить данные и другой запрос, ссылающийся на первый. Таким образом, вы можете использовать вычислительные ресурсы DW для преобразований.
Для источников SQL любая трансформация, которая является частью собственного запроса, работает хорошо.
Output destinations
Сейчас быстрая копия поддерживает только загрузку непосредственно в место назначения Lakehouse. Если вы хотите использовать другое назначение выходных данных, сначала можно выполнить запрос и ссылаться на него в последующем запросе с предпочитаемым назначением.
Как использовать быструю копию
Вот как настроить и использовать быструю копию:
В Fabric перейдите в рабочую область premium и создайте поток данных 2-го поколения.
На вкладке "Главная" нового потока данных выберите "Параметры":
В диалоговом окне "Параметры " выберите вкладку "Масштаб ", а затем включите включение быстрого использования соединителей копирования. Закройте диалоговое окно "Параметры " после завершения.
Выберите "Получить данные", выберите источник ADLS 2-го поколения и укажите сведения о контейнере.
Нажмите кнопку "Объединить ".
Чтобы убедиться, что быстрая копия работает, применяются только преобразования, перечисленные в разделе поддержки соединителя . Если вам нужны другие преобразования, сначала выполните этапный запрос и наведите ссылку на промежуточный запрос в последующем запросе. Примените другие преобразования к запросу, на который ссылается ссылка.
(Необязательно) Для запроса можно быстро копировать, щелкнув правой кнопкой мыши запрос и выбрав команду "Требовать быструю копию".
(Необязательно) Сейчас вы можете настроить только Lakehouse в качестве назначения вывода. Для любого другого назначения подготовьте запрос, чтобы позже использовать его в другом запросе, где можно вывести данные в любой источник.
Проверьте индикаторы быстрого копирования, чтобы убедиться, что запрос может выполняться с быстрой копией. Если это возможно, тип обработчика отображает CopyActivity.
Опубликуйте поток данных.
После завершения обновления проверьте, используется ли быстрая копия.
Как разделить запрос для использования быстрого копирования
При работе с большими объемами данных можно получить лучшую производительность с помощью быстрого копирования для приема данных в промежуточное время, а затем преобразовать его в масштаб с помощью вычислений хранилища данных SQL.
Индикаторы быстрого копирования помогают определить, как разделить запрос на две части: прием данных для промежуточного и крупномасштабного преобразования с помощью вычислений хранилища данных SQL. Попробуйте отправить максимальное количество вычислений запросов, чтобы быстро копировать данные для приема данных. Когда индикаторы быстрого копирования показывают, что оставшиеся шаги не могут выполняться с быстрой копией, можно разделить остальную часть запроса с включенным промежуточным режимом.
Индикаторы диагностики шагов
Indicator | Icon | Description |
---|---|---|
Этот шаг будет оцениваться с помощью быстрого копирования | ![]() |
Индикатор быстрого копирования показывает, что запрос до этого шага поддерживает быструю копию. |
Этот шаг не поддерживается быстрой копией | ![]() |
Индикатор быстрого копирования показывает, что этот шаг не поддерживает быструю копию. |
Один или несколько шагов в запросе не поддерживаются быстрой копией | ![]() |
Индикатор быстрого копирования показывает, что некоторые шаги в этом запросе поддерживают быструю копию, а другие — нет. Чтобы оптимизировать, разделите запрос на желтые шаги (потенциально поддерживаемые быстрой копией) и красные шаги (не поддерживаемые). |
Step-by-step guidance
После завершения логики преобразования данных в Dataflow 2-го поколения индикатор быстрого копирования оценивает каждый шаг, чтобы выяснить, сколько шагов может использовать быстрое копирование для повышения производительности.
В этом примере на последнем шаге показан красный значок, что означает, что группа по шагу не поддерживается быстрой копией. Однако все предыдущие шаги с желтыми значками могут поддерживаться быстрой копией.
Если вы публикуете и запускаете поток данных 2-го поколения на этом этапе, он не будет использовать модуль быстрого копирования для загрузки данных.
Чтобы использовать подсистему быстрого копирования и повысить производительность потока данных 2-го поколения, вы можете разделить запрос на две части: прием данных для промежуточного и крупномасштабного преобразования с помощью вычислений хранилища данных SQL. Here's how:
Удалите все преобразования, показывающие красные значки (это означает, что они не поддерживаются быстрой копией) вместе с назначением (если вы определили его).
Индикатор быстрого копирования теперь отображается зеленым цветом для оставшихся шагов, что означает, что первый запрос может использовать быструю копию для повышения производительности.
Щелкните правой кнопкой мыши первый запрос, выберите "Включить промежуточное", а затем щелкните правой кнопкой мыши первый запрос и выберите ссылку.
В новом запросе, на который ссылается ссылка, добавьте преобразование Group By и назначение (если применимо).
Публикация и обновление потока данных 2-го поколения. Теперь у вас есть два запроса в потоке данных 2-го поколения, а общая длительность короче.
Первый запрос загружает данные в промежуточное хранилище с использованием быстрого копирования.
Второй запрос выполняет крупномасштабные преобразования с помощью вычислений DW SQL.
Первые сведения о запросе:
Подробности второго запроса:
Known limitations
Ниже приведены текущие ограничения для быстрого копирования:
- Для поддержки быстрого копирования требуется локальный шлюз данных версии 3000.214.2 или более поздней версии.
- Жёсткая схема не поддерживается.