Поделиться через


Руководство по настройке dbt для хранилища данных Fabric

Область применения:✅ хранилище в Microsoft Fabric

В этом руководстве описано, как настроить dbt и развернуть первый проект в хранилище Fabric.

Введение

Платформа с открытым кодом dbt (средство сборки данных) упрощает преобразование данных и инженерию аналитики. Он фокусируется на преобразованиях на основе SQL в уровне аналитики, рассматривая SQL как код. dbt поддерживает управление версиями, модульизацию, тестирование и документацию.

Адаптер dbt для Microsoft Fabric можно использовать для создания проектов dbt, которые затем можно развернуть в хранилище данных Fabric Synapse.

Вы также можете изменить целевую платформу для проекта dbt, просто изменив адаптер, например; Проект, созданный для выделенного пула SQL Azure Synapse, можно обновить через несколько секунд до хранилища данных Fabric Synapse.

Предварительные требования для адаптера dbt для Microsoft Fabric

Следуйте этому списку, чтобы установить и настроить необходимые компоненты dbt:

  1. Python версии 3.7 (или более поздней).

  2. Драйвер Microsoft ODBC для SQL Server.

  3. Последняя версия адаптера dbt-fabric из репозитория PyPI (индекс пакета Python) с помощью pip install dbt-fabric.

    pip install dbt-fabric
    

    Примечание.

    Изменив pip install dbt-synapse pip install dbt-fabric и используя приведенные ниже инструкции, можно установить адаптер dbt для выделенного пула SQL Synapse.

  4. Убедитесь, что dbt-fabric и его зависимости устанавливаются с помощью pip list команды:

    pip list
    

    Длинный список пакетов и текущих версий должен быть возвращен из этой команды.

  5. Если у вас еще нет, создайте хранилище. Вы можете использовать пробную емкость для этого упражнения: зарегистрируйте бесплатную пробную версию Microsoft Fabric, создайте рабочую область и создайте хранилище.

Начало работы с адаптером dbt-fabric

В этом руководстве используется Visual Studio Code, но вы можете использовать предпочитаемое средство.

  1. Клонируйте демонстрационный проект dbt jaffle_shop на компьютер.

    git clone https://github.com/dbt-labs/jaffle_shop.git
    
  2. Откройте папку jaffle_shop проекта в Visual Studio Code.

    Снимок экрана: Visual Studio Code с открытым проектом.

  3. Вы можете пропустить регистрацию, если вы уже создали хранилище.

  4. Создайте файл profiles.yml . Добавьте следующую конфигурацию profiles.ymlв . Этот файл настраивает подключение к хранилищу в Microsoft Fabric с помощью адаптера dbt-fabric.

    config:
      partial_parse: true
    jaffle_shop:
      target: fabric-dev
      outputs:    
        fabric-dev:
          authentication: CLI
          database: <put the database name here>
          driver: ODBC Driver 18 for SQL Server
          host: <enter your SQL analytics endpoint here>
          schema: dbo
          threads: 4
          type: fabric
    

    Примечание.

    При желании перейдите type fabric synapse к адаптеру базы данных в Azure Synapse Analytics. Любую существующую платформу данных проекта dbt можно обновить, изменив адаптер базы данных. Дополнительные сведения см . в списке баз данных поддерживаемых платформ данных.

  5. Проверка подлинности в Azure в терминале Visual Studio Code.

  6. Теперь вы готовы проверить подключение. Чтобы проверить подключение к хранилищу, запустите dbt debug в терминале Visual Studio Code.

    dbt debug
    

    Снимок экрана: Visual Studio Code с командой отладки dbt.

    Все проверки передаются, что означает, что вы можете подключить хранилище с помощью адаптера dbt-fabric из jaffle_shop проекта dbt.

  7. Теперь пришло время проверить, работает ли адаптер. Сначала выполните вставку dbt seed примеров данных в хранилище.

    Снимок экрана: Visual Studio Code с командой начального значения dbt.

  8. Выполните проверку dbt run данных для некоторых тестов.

    dbt run
    

    Снимок экрана: Visual Studio Code с командой выполнения dbt.

  9. Запустите dbt test , чтобы запустить модели, определенные в демонстрационном проекте dbt.

    dbt test
    

    Снимок экрана: Visual Studio Code с командой dbt test.

Теперь вы развернули проект dbt в Хранилище данных Synapse в Fabric.

Перемещение между различными складами

Это простое перемещение проекта dbt между различными хранилищами. Проект dbt в любом поддерживаемом хранилище можно быстро перенести с помощью этого трехэтапного процесса:

  1. Установите новый адаптер. Дополнительные сведения и полные инструкции по установке см. в разделе "Адаптеры dbt".

  2. type Обновите свойство в profiles.yml файле.

  3. Выполните сборку проекта.

dbt в Фабрике данных Fabric

При интеграции с Apache Airflow популярная система управления рабочими процессами dbt становится мощным инструментом для оркестрации преобразований данных. Возможности планирования и управления задачами Airflow позволяют командам данных автоматизировать запуски субд. Он обеспечивает регулярное обновление данных и поддерживает согласованный поток высококачественных данных для анализа и отчетности. Этот объединенный подход, используя опыт преобразования dbt с управлением рабочими процессами Airflow, обеспечивает эффективные и надежные конвейеры данных, что в конечном итоге приводит к более быстрым и подробным решениям, управляемым данными.

Apache Airflow — это платформа с открытым исходным кодом , используемая для программного создания, планирования и мониторинга сложных рабочих процессов данных. Он позволяет определить набор задач, которые называются операторами, которые можно объединить в ациклические графы (DAG) для представления конвейеров данных.

Дополнительные сведения об эксплуатации dbt с помощью хранилища см. в статье "Преобразование данных с помощью dbt" с фабрикой данных в Microsoft Fabric.

Рекомендации

Важно учитывать при использовании адаптера dbt-fabric:

  • Просмотрите текущие ограничения в хранилище данных Microsoft Fabric.

  • Fabric поддерживает проверку подлинности Microsoft Entra ID (ранее Azure Active Directory) для субъектов-пользователей, удостоверений пользователей и субъектов-служб. Рекомендуемый режим проверки подлинности для интерактивной работы с хранилищем — CLI (интерфейсы командной строки) и использование субъектов-служб для автоматизации.

  • Просмотрите команды T-SQL (Transact-SQL), которые не поддерживаются в хранилище данных Synapse в Microsoft Fabric.

  • Некоторые команды T-SQL поддерживаются адаптером dbt-fabric с помощью (Create Table as SelectCTAS) DROPи CREATE команд, таких как ALTER TABLE ADD/ALTER/DROP COLUMN, MERGE, TRUNCATE. sp_rename

  • Просмотрите неподдерживаемые типы данных, чтобы узнать о поддерживаемых и неподдерживаемых типах данных.

  • Вы можете регистрить проблемы с адаптером dbt-fabric на сайте GitHub, перейдя на страницу "Проблемы" · microsoft/dbt-fabric · GitHub.

Следующий шаг