Загрузка данных в Lakehouse с помощью секции в конвейере

Функция секционирования в таблице Lakehouse в качестве назначения предоставляет возможность загрузки данных в таблицу Lakehouse с секциями. Секции создаются в Lakehouse и затем служат для поддержки последующих задач или процессов потребления.

В этом руководстве вы узнаете, как загружать данные в Lakehouse, используя разделы в конвейере. Например, вы загружаете пример набора данных в Lakehouse с помощью одного или нескольких столбцов секционирования, выполнив следующие действия. Пример набора данных Public Holidays используется как образец данных.

Предварительные требования

  • Убедитесь, что у вас есть рабочая область с поддержкой Project Microsoft Fabric: Create a workspace.

Создание конвейера

  1. Перейдите к Power BI.

  2. Щелкните значок Power BI в левом нижнем углу экрана, а затем выберите Fabric, чтобы открыть домашнюю страницу фабрики данных.

  3. Перейдите в рабочую область Microsoft Fabric. Если вы создали новую рабочую область в предыдущем разделе предварительных требований, используйте эту рабочую область.

  1. Выберите +Создать элемент.

  2. Найдите и выберите "Конвейер" , а затем введите имя конвейера для создания нового конвейера. для создания нового конвейера.

    Снимок экрана, показывающий новую кнопку конвейера в недавно созданной рабочей области.

    Скриншот, показывающий название нового конвейера.

Загрузка данных в Lakehouse с помощью столбцов партиций

  1. Откройте конвейер и добавьте действие копирования, выбрав действие конвейера ->Копировать данные. В разделе "Источник" выберите "Дополнительно " в нижней части списка подключений, а затем выберите "Общедоступные праздники " на вкладке "Пример данных ".

    Скриншот использования образцового набора данных.

    Снимок экрана: выбор примера набора данных.

  2. На вкладке Назначение выберите Дополнительно внизу списка подключений, затем выберите существующий Lakehouse на вкладке OneLake и укажите ваш Lakehouse или создайте новый Lakehouse на вкладке Главная. Выберите Таблицу в корневой папке и укажите имя вашей таблицы.

    Снимок экрана: конфигурация назначения.

  3. Разверните Дополнительно, в действии «Таблица» выберите Перезаписать, а затем выберите Включить раздел, в разделе Секционирование выберите Добавить столбец и выберите столбец, который вы хотите использовать в качестве столбца секционирования. Вы можете использовать один столбец или несколько столбцов в качестве разделяющего столбца.

    Если вы используете один столбец, countryOrRegion (тип строка) выбрана в качестве примера в этом руководстве. Данные будут секционированы по разным значениям столбцов.

    Снимок экрана с конфигурацией столбцов разделов в разделе назначения.

    Примечание.

    Выбранный столбец секции может быть строковым, целым числом, логическим или типа "дата и время". Столбцы других типов данных не отображаются в раскрывающемся списке.

    При использовании нескольких столбцов секционирования добавьте еще один столбец и выберите isPaidTimeOff , который является логическим типом в качестве примера. Затем запустите конвейер. Логика заключается в том, что таблица секционируется по первым добавленным значениям столбца, а затем секционированные данные продолжают секционироваться по вторым добавленным значениям столбца.

    Снимок экрана: настройка нескольких столбцов секций.

    Совет

    Можно перетащить столбцы, чтобы изменить их порядок, и порядок разделов также изменится.

  4. Выберите Выполнить и Сохранить и запустить, чтобы запустить конвейер.

    Снимок экрана: сохранение и запуск.

  5. После успешного выполнения конвейера перейдите в Lakehouse. Найдите скопированную таблицу. Щелкните правой кнопкой мыши имя таблицы и выберите "Просмотреть файлы".

    Для одного столбца секционирования (countryOrRegion) таблица секционируется по разным папкам по именам стран или регионов. Специальный символ в имени столбца закодирован, и вы можете увидеть, что имя файла отличается от значений столбцов при просмотре файлов в Lakehouse.

    Скриншот, показывающий отображение файла в Lakehouse.

    Снимок экрана, показывающий представление файла скопированных данных о государственных праздниках.

    Для нескольких столбцов секционирования таблица секционируется по разным папкам по странам или регионам.

    Снимок экрана, показывающий папку раздела по странам или регионам.

    Выберите одну папку, например contryOrRegion=США. Таблица, секционированная по имени страны или региона, снова секционируется значением добавленного второго столбца isPaidTimeOff: True или (False__HIVE_DEFAULT_PARTITION__представляет пустое значение в примере набора данных).

    Снимок экрана: раздел страны или региона по ispaidtimeoff.

    Аналогичным образом, если добавить три столбца для секционирования таблицы, вы получите папку второго уровня, секционированную третьим столбцом.

Затем перейдите к дополнительным сведениям о копировании из Хранилище BLOB-объектов Azure в Lakehouse.