Поделиться через


Загрузка данных в Lakehouse с помощью секции в конвейере данных

Функция секционирования в таблице Lakehouse в качестве назначения предоставляет возможность загрузки данных в таблицу Lakehouse с секциями. Секции создаются в месте назначения Lakehouse, а затем получают выгоду от подчиненных заданий или потребления.

В этом руководстве показано, как загрузить данные в Lakehouse с помощью секции в конвейере данных. Например, вы загружаете пример набора данных в Lakehouse с помощью одного или нескольких столбцов секционирования, выполнив следующие действия. Пример общедоступного набора данных используется в качестве примеров данных.

Предварительные требования

Создание конвейера данных

  1. Перейдите в Power BI.

  2. Щелкните значок Power BI в нижней левой части экрана, а затем выберите фабрику данных, чтобы открыть домашнюю страницу фабрики данных.

  3. Перейдите в рабочую область Microsoft Fabric. Если вы создали новую рабочую область в предыдущем разделе предварительных требований, используйте эту рабочую область.

    Снимок экрана: окно рабочих областей, в котором вы перейдете к рабочей области.

  4. Выберите конвейер данных и введите имя конвейера для создания нового конвейера.

    Снимок экрана: новая кнопка конвейера данных в созданной рабочей области.

    Снимок экрана: имя создания нового конвейера.

Загрузка данных в Lakehouse с помощью столбцов секций

  1. Откройте конвейер данных и добавьте действие копирования, нажав кнопку "Добавить действие конвейера ->Копировать данные". В разделе "Источник" выберите пример набора данных и выберите "Обзор", а затем выберите "Общедоступные праздники".

    Снимок экрана: использование примера набора данных.

    Снимок экрана: выбор примера набора данных.

  2. На вкладке "Назначение" выберите рабочую область в типе хранилища данных, а затем выберите Lakehouse в типе хранилища данных рабочей области, укажите Lakehouse или нажмите кнопку +Создать, чтобы создать новый Lakehouse. Выберите таблицу в корневой папке и укажите имя таблицы.

    Снимок экрана: конфигурация назначения.

  3. Разверните " Дополнительно", в действии "Таблица" выберите "Перезаписать", а затем выберите "Включить секцию", в разделе "Секционирование", " Добавить столбец" и выберите столбец, который вы хотите использовать в качестве столбца секции. Вы можете использовать один столбец или несколько столбцов в качестве столбца секции.

    Если вы используете один столбец, странаOrRegion (строковый тип) выбрана в качестве примера в этом руководстве. Данные будут секционированы по разным значениям столбцов.

    Снимок экрана: конфигурация столбцов секций в целевом расположении.

    Примечание.

    Выбранный столбец секции должен быть строковым, целым числом, логическим и типом datetime. Столбцы других типов данных не отображаются в раскрывающемся списке.

    При использовании нескольких столбцов секционирования добавьте еще один столбец и выберите isPaidTimeOff , который является логическим типом в качестве примера. Затем запустите конвейер. Логика заключается в том, что таблица секционируется по первым добавленным значениям столбца, а затем секционированные данные продолжают секционироваться по вторым добавленным значениям столбца.

    Снимок экрана: настройка нескольких столбцов секций.

    Совет

    Можно перетащить столбцы, чтобы изменить последовательность столбцов, а последовательность секций также изменится.

  4. Выберите команду "Выполнить" и нажмите кнопку "Сохранить" и "Запустить", чтобы запустить конвейер.

    Снимок экрана: сохранение и запуск.

  5. После успешного выполнения конвейера перейдите в Lakehouse. Найдите скопированную таблицу. Щелкните правой кнопкой мыши имя таблицы и выберите "Просмотреть файлы".

    Для одного столбца секционирования (countryOrRegion) таблица секционируется по разным папкам по именам стран или регионов. Специальный символ в имени столбца закодирован, и вы можете увидеть, что имя файла отличается от значений столбцов при просмотре файлов в Lakehouse.

    Снимок экрана: представление файла в Lakehouse.

    Снимок экрана: представление файла скопированных данных о празднике.

    Для нескольких столбцов секционирования таблица секционируется по разным папкам по странам или регионам.

    Снимок экрана: папка секционирования или региона.

    Выберите одну папку, например contryOrRegion=США. Таблица, секционированная по имени страны или региона, снова секционируется значением добавленного второго столбца isPaidTimeOff: True или (False__HIVE_DEFAULT_PARTITION__представляет пустое значение в примере набора данных).

    Снимок экрана: раздел страны или региона по ispaidtimeoff.

    Аналогичным образом, если добавить три столбца для секционирования таблицы, вы получите папку второго уровня, секционированную третьим столбцом.

Затем перейдите к дополнительным сведениям о копировании из Хранилище BLOB-объектов Azure в Lakehouse.