Краткое руководство: Создание решения для перемещения и преобразования данных

В этом кратком руководстве вы узнаете, как работают потоки данных и конвейеры для создания мощного решения фабрики данных. Вы очистите данные с помощью потоков данных и переместите их с помощью конвейеров.

Необходимые условия

Перед началом работы вам потребуется:

Сравнение потоков данных и конвейеров

Dataflow Gen2 предоставляет интерфейс без программирования с более чем 300 преобразованиями на основе данных и ИИ. Вы можете легко очищать, подготавливать и преобразовывать данные с гибкостью. Конвейеры предлагают широкие возможности оркестрации данных для создания гибких рабочих процессов данных, которые соответствуют вашим корпоративным потребностям.

В конвейере можно создать логические группировки действий, выполняющих задачу. Это может включать вызов потока данных для очистки и подготовки данных. Хотя между этими двумя функциями перекрываются некоторые функции, выбор зависит от того, нужны ли вам полные возможности конвейеров или можно использовать более простые возможности потоков данных. Дополнительные сведения см. в руководстве по принятию решений Fabric.

Преобразование данных с помощью потоков данных

Выполните следующие действия, чтобы настроить поток данных.

Создание потока данных

  1. Выберите рабочую область с поддержкой Fabric, а затем нажмите кнопку "Создать" и выберите Dataflow 2-го поколения.

    Снимок экрана: запуск потока данных 2-го поколения.

  2. В редакторе потока данных выберите "Импорт из SQL Server".

    Снимок экрана редактора потока данных.

Получение данных

  1. В диалоговом окне "Подключение к источнику данных" введите сведения о базе данных SQL Azure и нажмите кнопку "Далее". Используйте пример базы данных AdventureWorksLT из предварительных требований.

    Снимок экрана: подключение к базе данных SQL Azure.

  2. Выберите данные для преобразования, например SalesLT.Customer, и выберите связанные таблицы, чтобы включить связанные таблицы . Затем выберите Создать.

    Снимок экрана: выбор данных для преобразования.

Преобразование данных

  1. Выберите представление диаграммы в строке состояния или меню "Вид " в редакторе Power Query.

    Снимок экрана: выбор представления схемы.

  2. Щелкните правой кнопкой мыши запрос SalesLT Client или выберите вертикальное многоточие справа от запроса, а затем выберите Объединить запросы.

    Снимок экрана: параметр

  3. Настройте слияние с SalesLTOrderHeader в качестве правой таблицы, CustomerID в качестве столбца соединения и левое внешнее соединение в качестве типа соединения. Нажмите ОК.

    снимок экрана конфигурации слияния.

  4. Добавьте назначение данных, выбрав символ базы данных со стрелкой. Выберите базу данных SQL Azure в качестве типа назначения.

    Снимок экрана: кнопка

  5. Укажите сведения о подключении к базе данных SQL Azure, где будет опубликован запрос слияния. В этом примере мы используем базу данных AdventureWorksLT и как источник данных, и как место назначения.

    Снимок экрана: диалоговое окно

  6. Выберите базу данных для хранения данных и укажите имя таблицы, а затем нажмите кнопку Далее.

    Снимок экрана: окно

  7. Примите параметры по умолчанию в диалоговом окне "Выбор параметров назначения " и нажмите кнопку "Сохранить параметры".

    Снимок экрана: диалоговое окно

  8. Выберите "Опубликовать " в редакторе потоков данных, чтобы опубликовать поток данных.

    снимок экрана: кнопка

Перемещение данных с помощью конвейеров

Теперь, когда вы создали поток данных Gen2, вы можете работать с ним в конвейере обработки данных. В этом примере данные, созданные потоком данных, копируются в текстовый формат в учетную запись хранилища BLOB-объектов Azure.

Создание нового конвейера

  1. В рабочей области выберите "Новый", а затем "Пайплайн".

    Снимок экрана: создание нового конвейера.

  2. Присвойте конвейеру имя и нажмите кнопку "Создать".

    снимок экрана: запрос на создание нового конвейера с примером имени конвейера.

Настройка потока данных

  1. Добавьте действие потока данных в конвейер, выбрав поток данных на вкладке "Действия ".

    Снимок экрана: добавление действия потока данных.

  2. Выберите поток данных на холсте конвейера, перейдите на вкладку "Параметры " и выберите созданный ранее поток данных.

    Снимок экрана: выбор потока данных.

  3. Нажмите кнопку "Сохранить", а затем выполните команду "Выполнить ", чтобы заполнить объединенную таблицу запросов.

    снимок экрана, на котором показано, где выбрать команду

Добавление действия копирования

  1. Выберите " Копировать данные на холсте" или используйте помощник по копированию на вкладке "Действия ".

    снимок экрана с двумя способами доступа к помощнику по копированию.

  2. Выберите базу данных SQL Azure в качестве источника данных и нажмите кнопку "Далее".

    снимок экрана, показывающий, где выбрать источник данных.

  3. Создайте подключение к источнику данных, выбрав Создать новое подключение. Введите необходимые сведения о подключении на панели и введите AdventureWorksLT для базы данных, где мы создали запрос слияния в потоке данных. Затем выберите Далее.

    снимок экрана: место создания нового подключения.

  4. Выберите таблицу, созданную на шаге потока данных ранее, и нажмите кнопку Далее.

    снимок экрана: выбор из доступных таблиц.

  5. Для места назначения выберите хранилище BLOB-объектов Azure и выберите Далее.

    снимок экрана с местом назначения данных Azure Blob Storage.

  6. Создайте подключение к месту назначения, выбрав Создать новое подключение. Укажите сведения о подключении, а затем нажмите кнопку Далее.

    снимок экрана, показывающий, как создать подключение.

  7. Выберите путь к папке и укажите имя файла, а затем нажмите кнопку Далее.

    снимок экрана, показывающий, как выбрать путь к папке и имя файла.

  8. Нажмите кнопку "Далее" , чтобы принять формат файла по умолчанию, разделитель столбцов, разделитель строк и тип сжатия, при необходимости включая заголовок.

    снимок экрана с параметрами конфигурации файла в хранилище BLOB-объектов Azure.

  9. Завершите настройку параметров. Затем просмотрите и выберите Сохранить и запустить, чтобы завершить процесс.

    снимок экрана: просмотр параметров копирования данных.

Разработайте ваш поток обработки данных и сохраните его для последующего запуска и загрузки данных

  1. Чтобы запустить активность копирования после активности потока данных, перетащите из Успешно на активности потока данных в активность копирования. Действие копирования выполняется только после успешного выполнения действия потока данных.

    Снимок экрана, показывающий, как запустить поток данных после выполнения операции копирования.

  2. Нажмите кнопку "Сохранить", чтобы сохранить конвейер. Затем выберите "Выполнить" , чтобы запустить конвейер и загрузить данные.

    снимок экрана, на котором показано, где выбрать команду

Планирование выполнения конвейера

После завершения разработки и тестирования конвейера его можно запланировать для автоматического запуска.

  1. На вкладке Главная окна редактора конвейера выберите Расписание.

    Снимок экрана: кнопка

  2. Настройте расписание по мере необходимости. Пример здесь настраивает запуск конвейера по расписанию ежедневно в 20:00 до конца года.

    Скриншот, демонстрирующий конфигурацию расписания для пайплайна, который будет запускаться ежедневно в 20:00 до конца года.

В этом примере показано, как создать и настроить поток данных 2-го поколения, чтобы создать запрос слияния и сохранить его в базе данных SQL Azure, а затем скопировать данные из базы данных в текстовый файл в хранилище BLOB-объектов Azure. Вы узнали, как:

  • Создайте поток данных.
  • Преобразование данных с помощью потока данных.
  • Создайте конвейер с помощью потока данных.
  • Упорядочить выполнение шагов в конвейере.
  • Скопируйте данные с помощью помощника по копированию.
  • Запустите и запланируйте конвейер.

Затем узнайте больше о мониторинге запусков конвейера.