Архитектуры решений CI/CD и ALM для потока данных 2-го поколения

Замечание

Содержимое этой статьи относится к потоку данных 2-го поколения с поддержкой CI/CD.

Microsoft Fabric предоставляет средства для непрерывного интеграции и непрерывного развертывания (CI/CD) и управления жизненным циклом приложений (ALM). Эти средства помогают командам создавать, тестировать и развертывать решения данных с согласованностью и управлением.

Поддержка потока данных 2-го поколения с поддержкой CI/CD интегрирует потоки данных в конвейеры развертывания Fabric. Эта интеграция автоматизирует этапы сборки, тестирования и развертывания. Она обеспечивает согласованную, управляемую версией доставку потоков данных и повышает надежность путем внедрения потока данных 2-го поколения в оркестрацию конвейера Fabric.

В этой статье приводятся рекомендации по архитектуре решений для компонентов Dataflow и связанных компонентов Fabric в контексте CI/CD и ALM. Это руководство можно использовать для создания решения, которое соответствует вашим потребностям. В этой статье рассматриваются две конкретные цели:

  • Согласованность: Сохраняйте скрипт объединения Dataflow без изменений в течение всего жизненного цикла приложения (или этапов развертывания в конвейере развертывания).
  • Конфигурация для конкретных этапов: используйте динамические ссылки для источников данных и назначений, которые адаптируются к каждому этапу (Dev, Test, Prod).

Архитектуры решений

Хорошая архитектура решения работает для потока данных 2-го поколения и расширяется через общее решение Fabric.

В следующей таблице рассматриваются доступные архитектуры решений при использовании потока данных 2-го поколения:

Тип Description Diagram Tutorial
Параметризованный поток данных 2-го поколения С помощью режима общедоступных параметров можно параметризировать компоненты потока данных ( например, логику, источники или назначения) и передавать значения среды выполнения для динамической адаптации потока данных на основе этапа конвейера. Схема режима общедоступных параметров в архитектуре решения высокого уровня Dataflow 2-го поколения. Ссылка на учебник
Ссылки на переменные в потоке данных 2-го поколения Интеграция библиотек переменных с Dataflow 2-го поколения позволяет ссылаться на переменные в потоке данных. Эти переменные оцениваются во время выполнения на основе значений, хранящихся в библиотеке, что обеспечивает динамическое поведение, согласованное с этапом конвейера. Схема библиотек переменных в архитектуре решения dataflow 2-го поколения. Ссылка на учебник
Относительные ссылки в потоке данных 2-го поколения Использование относительных ссылок через соединители Fabric гарантирует, что все ссылки на элементы Fabric относительны, используя имя и типы элементов вместо использования идентификаторов GUID. Иллюстрация относительных ссылок Fabric в потоке данных. Ссылка на учебник

Основное различие между этими двумя подходами заключается в том, как они передают значения во время выполнения. Параметризованный поток данных требует выполнения процесса через REST API или действие Dataflow в конвейере Fabric для передачи значений. Для интеграции библиотек переменных с Dataflow Gen2 требуется библиотека переменных на уровне рабочей области и корректные переменные, на которые ссылается поток данных.

Оба варианта допустимы, и каждый из них имеет свои собственные рекомендации и ограничения. Мы рекомендуем оценить, как работает рабочий процесс и как он вписывается в общее решение Fabric.

Общие рекомендации

Ниже приведены рекомендации по выбору архитектуры решения с учетом CI/CD и ALM:

  • Ссылки по умолчанию: Dataflow 2-го поколения создает абсолютные ссылки на элементы Fabric (например, Lakehouses, Warehouses) по умолчанию. Просмотрите поток данных, чтобы определить, какие ссылки должны оставаться фиксированными и которые следует динамически адаптировать в разных средах.
  • Поведение подключения. Поток данных 2-го поколения не поддерживает динамическую перенастройку подключений к источнику данных. Если поток данных подключается к источникам, таким как базы данных SQL, используя параметры (например, имя сервера, имя базы данных), эти подключения статически привязаны и не могут быть изменены с помощью переменных рабочей области или параметризации.
  • Область интеграции Git. Рекомендуется включить интеграцию Git только на первом этапе (обычно для разработки). После создания и фиксации скрипта mashup последующие этапы могут использовать конвейеры развертывания без Git.
  • Используйте конвейеры Fabric для оркестрации: Действие потока данных в конвейерах позволяет оркестровать выполнение потока данных и передавать параметры с помощью интуитивно понятного пользовательского интерфейса. Вы также можете использовать интеграцию библиотеки переменных с конвейерами для получения значений из переменных и передачи этих значений параметрам потока данных во время выполнения.
  • Совместимость правил развертывания. В настоящее время правила развертывания могут изменять определенные свойства элементов, но не поддерживают изменение подключений потока данных или логику mashup. Запланируйте архитектуру соответствующим образом.
  • Тестирование на разных этапах. Всегда проверяйте поведение потока данных на каждом этапе после развертывания. Различия в источниках данных, разрешениях или значениях переменных могут привести к непредвиденным результатам.