Поделиться через


Быстрая копия в Dataflow Gen2

Быстрое копирование помогает быстрее перемещать большие объемы данных в потоке данных 2-го поколения. Думайте об этом, как переключение на более мощный механизм, когда необходимо обрабатывать терабайты данных.

При работе с потоками данных сначала необходимо принять данные, а затем преобразовать их. С помощью горизонтального масштабирования потока данных с помощью вычислений хранилища данных SQL можно преобразовать данные в большом масштабе. Быстрая копия заботится о части приема, предоставляя простой интерфейс потока данных с мощной серверной частью действия копирования конвейера.

Вот как это работает: после включения быстрого копирования потоки данных автоматически переключаются на более быструю серверную часть, когда размер данных проходит определенное пороговое значение. При создании потоков данных не нужно ничего изменять. После обновления потока данных можно проверить журнал обновления, чтобы узнать, используется ли быстрая копия, глядя на тип ядра , указанный там.

Если включить параметр "Требовать быструю копию ", обновление потока данных останавливается, если быстрая копия не может использоваться по какой-либо причине. Это помогает избежать ожидания времени ожидания и может оказаться полезным при отладке. Индикаторы быстрого копирования можно использовать в области шагов запроса, чтобы проверить, может ли запрос выполняться с быстрой копией.

Снимок экрана: отображение индикатора быстрого копирования в области шагов запроса.

Prerequisites

Прежде чем использовать быструю копию, вам потребуется:

  • Емкость Fabric
  • Для файловых данных: CSV-файлы или файлы Parquet, которые не менее 100 МБ и хранятся в хранилище Azure Data Lake Storage (ADLS) 2-го поколения или хранилища BLOB-объектов
  • Для баз данных (включая базу данных SQL Azure и PostgreSQL): 5 миллионов строк или больше данных в источнике данных

Note

Пороговое значение можно обойти, чтобы принудительно скопировать, выбрав параметр "Требовать быструю копию ".

Connector support

Быстрая копия работает с этими соединителями потока данных 2-го поколения:

  • ADLS Gen2
  • Blob storage
  • База данных SQL Azure
  • Lakehouse
  • PostgreSQL
  • Локальный SQL Server
  • Warehouse
  • Oracle
  • Snowflake

Transformation limitations

При подключении к источникам файлов действие копирования поддерживает только следующие преобразования:

  • Combine files
  • Select columns
  • Изменение типов данных
  • Переименование столбца
  • Удаление столбца

Если вам нужны другие преобразования, вы можете разделить работу на отдельные запросы. Создайте один запрос, чтобы получить данные и другой запрос, ссылающийся на первый. Таким образом, вы можете использовать вычислительные ресурсы DW для преобразований.

Для источников SQL любая трансформация, которая является частью собственного запроса, работает хорошо.

Output destinations

Сейчас быстрая копия поддерживает только загрузку непосредственно в место назначения Lakehouse. Если вы хотите использовать другое назначение выходных данных, сначала можно выполнить запрос и ссылаться на него в последующем запросе с предпочитаемым назначением.

Как использовать быструю копию

Вот как настроить и использовать быструю копию:

  1. В Fabric перейдите в рабочую область premium и создайте поток данных 2-го поколения.

  2. На вкладке "Главная" нового потока данных выберите "Параметры":

    Снимок экрана: выбор параметров потока данных 2-го поколения на вкладке

  3. В диалоговом окне "Параметры " выберите вкладку "Масштаб ", а затем включите включение быстрого использования соединителей копирования. Закройте диалоговое окно "Параметры " после завершения.

    Снимок экрана: включение быстрого копирования на вкладке

  4. Выберите "Получить данные", выберите источник ADLS 2-го поколения и укажите сведения о контейнере.

  5. Нажмите кнопку "Объединить ".

    Снимок экрана: окно данных папки предварительного просмотра с выделенным параметром

  6. Чтобы убедиться, что быстрая копия работает, применяются только преобразования, перечисленные в разделе поддержки соединителя . Если вам нужны другие преобразования, сначала выполните этапный запрос и наведите ссылку на промежуточный запрос в последующем запросе. Примените другие преобразования к запросу, на который ссылается ссылка.

  7. (Необязательно) Для запроса можно быстро копировать, щелкнув правой кнопкой мыши запрос и выбрав команду "Требовать быструю копию".

    Снимок экрана: выбор параметра

  8. (Необязательно) Сейчас вы можете настроить только Lakehouse в качестве назначения вывода. Для любого другого назначения подготовьте запрос, чтобы позже использовать его в другом запросе, где можно вывести данные в любой источник.

  9. Проверьте индикаторы быстрого копирования, чтобы убедиться, что запрос может выполняться с быстрой копией. Если это возможно, тип обработчика отображает CopyActivity.

    Снимок экрана, показывающий подробности обновления, указывающие на использование движка CopyActivity в конвейере.

  10. Опубликуйте поток данных.

  11. После завершения обновления проверьте, используется ли быстрая копия.

Как разделить запрос для использования быстрого копирования

При работе с большими объемами данных можно получить лучшую производительность с помощью быстрого копирования для приема данных в промежуточное время, а затем преобразовать его в масштаб с помощью вычислений хранилища данных SQL.

Индикаторы быстрого копирования помогают определить, как разделить запрос на две части: прием данных для промежуточного и крупномасштабного преобразования с помощью вычислений хранилища данных SQL. Попробуйте отправить максимальное количество вычислений запросов, чтобы быстро копировать данные для приема данных. Когда индикаторы быстрого копирования показывают, что оставшиеся шаги не могут выполняться с быстрой копией, можно разделить остальную часть запроса с включенным промежуточным режимом.

Индикаторы диагностики шагов

Indicator Icon Description
Этот шаг будет оцениваться с помощью быстрого копирования Индикатор быстрого копирования показывает, что запрос до этого шага поддерживает быструю копию.
Этот шаг не поддерживается быстрой копией Индикатор быстрого копирования показывает, что этот шаг не поддерживает быструю копию.
Один или несколько шагов в запросе не поддерживаются быстрой копией Индикатор быстрого копирования показывает, что некоторые шаги в этом запросе поддерживают быструю копию, а другие — нет. Чтобы оптимизировать, разделите запрос на желтые шаги (потенциально поддерживаемые быстрой копией) и красные шаги (не поддерживаемые).

Step-by-step guidance

После завершения логики преобразования данных в Dataflow 2-го поколения индикатор быстрого копирования оценивает каждый шаг, чтобы выяснить, сколько шагов может использовать быстрое копирование для повышения производительности.

В этом примере на последнем шаге показан красный значок, что означает, что группа по шагу не поддерживается быстрой копией. Однако все предыдущие шаги с желтыми значками могут поддерживаться быстрой копией.

Снимок экрана: содержимое первого запроса с последним шагом красным цветом.

Если вы публикуете и запускаете поток данных 2-го поколения на этом этапе, он не будет использовать модуль быстрого копирования для загрузки данных.

Снимок экрана: результат запроса без включения быстрого копирования.

Чтобы использовать подсистему быстрого копирования и повысить производительность потока данных 2-го поколения, вы можете разделить запрос на две части: прием данных для промежуточного и крупномасштабного преобразования с помощью вычислений хранилища данных SQL. Here's how:

  1. Удалите все преобразования, показывающие красные значки (это означает, что они не поддерживаются быстрой копией) вместе с назначением (если вы определили его).

    Снимок экрана: первый запрос, в котором вы удалили все шаги, которые не поддерживают быструю копию.

  2. Индикатор быстрого копирования теперь отображается зеленым цветом для оставшихся шагов, что означает, что первый запрос может использовать быструю копию для повышения производительности.

    Щелкните правой кнопкой мыши первый запрос, выберите "Включить промежуточное", а затем щелкните правой кнопкой мыши первый запрос и выберите ссылку.

    Снимок экрана: выбранные фрагменты, необходимые для ссылки на запрос быстрого копирования с помощью второго запроса.

  3. В новом запросе, на который ссылается ссылка, добавьте преобразование Group By и назначение (если применимо).

  4. Публикация и обновление потока данных 2-го поколения. Теперь у вас есть два запроса в потоке данных 2-го поколения, а общая длительность короче.

    • Первый запрос загружает данные в промежуточное хранилище с использованием быстрого копирования.

    • Второй запрос выполняет крупномасштабные преобразования с помощью вычислений DW SQL.

      Снимок экрана: сведения о состоянии выполнения с результатами запроса.

    Первые сведения о запросе:

    Снимок экрана: результаты приема данных.

    Подробности второго запроса:

    Снимок экрана: результаты шагов преобразования.

Known limitations

Ниже приведены текущие ограничения для быстрого копирования:

  • Для поддержки быстрого копирования требуется локальный шлюз данных версии 3000.214.2 или более поздней версии.
  • Жёсткая схема не поддерживается.