Конвейеры интеграции и развертывания Lakehouse Git

Lakehouse интегрируется с управлением жизненным циклом в Microsoft Fabric. Вы можете подключить lakehouse к репозиторию Git для управления версиями и развернуть его в рабочих областях разработки, тестирования и эксплуатации с помощью конвейеров развертывания. Отслеживаются только метаданные— операции git и развертывания никогда не перезаписывают данные в таблицах или файлах.

Что отслеживается?

В следующей таблице приведены сведения о том, какие элементы и подэлементы lakehouse отслеживаются в рабочих областях, подключенных к Git, и конвейерах развертывания.

Элемент / подэлемент Git Цепочки развертывания Состояние выпуска Примечания.
Метаданные Лейкхаус (отображаемое имя, описание, логический GUID) ✅ Отслеживать ✅ Отслеживать GA Идентификатор межпространственного контроля версий
Метаданные сочетаний клавиш OneLake ✅ Отслеживать ✅ Отслеживать GA Хранится в shortcuts.metadata.json
Внешние сочетания клавиш: ADLS 2-го поколения, S3, Dataverse, Google Cloud Storage, SharePoint, Хранилище BLOB-объектов Azure, OneDrive ✅ Отслеживать ✅ Синхронизировано на всех этапах GA Только определение. Одни и те же целевые объекты на всех этапах, если не переназначенные с помощью библиотеки переменных
Внутренние сочетания клавиш OneLake ✅ Отслеживать ✅ Автоматическое перемечение между этапами GA Только определение. Требует наличия допустимых целей в рабочей области
Метаданные роли безопасности доступа к данным OneLake (DAR) ✅ Отслеживать ✅ Отслеживать Preview Хранится в data-access-roles.json
Таблицы (Дельта и не-Дельта) ❌ Не отслеживается ❌ Не перезаписывается Не поддерживается Данные всегда сохраняются во время операций
Представления Spark ❌ Не отслеживается ❌ Не перезаписывается Не поддерживается Данные всегда сохраняются во время операций
Папки в разделе "Файлы" ❌ Не отслеживается ❌ Не перезаписывается Не поддерживается Данные всегда сохраняются во время операций

Выбор типов объектов для отслеживания

Вы можете выбрать, какие типы объектов отслеживаются в конвейерах Git и развертывания. Это дает вашей команде два преимущества:

  • Гибкость — выбор типов объектов для отслеживания на основе рабочих процессов. Некоторые команды оркеструют определенные типы объектов с помощью внешних инструментов или скриптов. Некоторые типы объектов могут не быть релевантными для каждого этапа развертывания.
  • Постепенное внедрение — новые типы объектов можно поэтапно внедрять для отслеживания, чтобы можно было адаптировать существующие рабочие процессы и автоматизацию перед принятием решения о внедрении.

Откройте параметры Lakehouse и включите или отключите типы объектов, которые требуется отслеживать.

Снимок экрана опыта настройки параметров подписки в Lakehouse.

Установите или снимите флажок для каждого типа объекта, чтобы определить, отслеживается ли он:

  • Выберите — при выборе типа объекта и синхронизации с Git его текущие метаданные сериализуются и хранятся в git. Будущие изменения отслеживаются и синхронизируются на этапах конвейера развертывания.
  • Очистить . При очистке типа объекта его метаданные удаляются из git. Будущие изменения больше не отслеживаются или синхронизируются.

Значения по умолчанию для новых и существующих озерных домов:

  • Новые лейкхаусы по умолчанию имеют все типы объектов с общей доступностью (GA). По умолчанию типы объектов предварительного просмотра не выбираются.
  • Существующие lakehouse-системы сохраняют своё текущее состояние отслеживания, если вы его не измените.

Конфигурация отслеживания хранится в alm.settings.json папке Lakehouse в Git. Этот файл можно изменить непосредственно в репозитории Git и применить изменения к рабочей области.

Интеграция с Git

При подключении рабочей области к Git метаданные Lakehouse сериализуются в представление JSON. Отслеживаются следующие метаданные:

  • отображаемое имя
  • Описание
  • Логический GUID (автоматически созданный идентификатор межрабочее пространство для системы контроля версий)
  • Метаданные конечной точки аналитики SQL
  • Метаданные сочетаний клавиш OneLake (см. сочетания клавиш OneLake)

Несколько объектов рабочей области могут ссылаться на lakehouse, включая потоки данных, конвейеры, определения заданий Spark, блокноты и семантические модели. Эти ссылки сохраняются в операциях Git. Переименование Lakehouse в Git также переименовывает соответствующую конечную точку SQL аналитики.

Внимание

Таблицы (Delta и non-Delta) и папки в разделе «Файлы» не отслеживаются или не версионируются в Git. Данные в этих элементах всегда сохраняются во время операций Git.

Цепочки развертывания

Lakehouse поддерживается в конвейерах развертывания Microsoft Fabric, которые обеспечивают сегментацию среды в рабочих областях разработки, тестирования и производственной среды.

Возможности конвейера развертывания:

  • Поведение по умолчанию — если сопоставление зависимостей не настроено, в целевой рабочей области создается новое пустое озеро с тем же именем. Записные книжки и определения заданий Spark переназначаются для ссылки на новый lakehouse.
  • Настраиваемое сопоставление — если зависимость lakehouse сопоставляется с другим лейкхаусом (например, вышестоящим лейкхаусом), создается новый пустой лейкхаус с тем же именем, но записная книжка и ссылки на определение заданий Spark указывают на сопоставленный lakehouse.
  • Конечные точки аналитики SQL и семантические модели подготавливаются в рамках развертывания Lakehouse.
  • Изменения названий Lakehouse синхронизируются между рабочими пространствами.

Сочетания клавиш OneLake

Определения сочетаний клавиш OneLake в разделах "Таблицы и файлы" хранятся в shortcuts.metadata.json папке Lakehouse в Git. Добавление, удаление и обновление ярлыков отслеживаются автоматически. Вы можете внести изменения на портале Fabric или напрямую изменить файл shortcuts.metadata.json.

Сочетания клавиш в интеграции с Git

Ярлыки с внутренними целями (ярлыки OneLake) автоматически обновляются во время синхронизации Git. Чтобы ярлык считался действительным, целевая цель должна существовать в рабочей области. Если целевой объект недопустим для ярлыка в разделе таблиц Lakehouse, ярлык перемещается в неопознанный раздел, пока ссылка не будет разрешена.

Внимание

Используйте осторожность при редактировании свойств ярлыка непосредственно в shortcuts.metadata.json. Неверные изменения свойств, особенно идентификаторов GUID, могут сделать ярлык недействительным при обратном применении обновлений к рабочей области. Обновление git переопределяет состояние ярлыков в рабочей области — все сочетания клавиш создаются, обновляются или удаляются на основе входящего состояния из git.

Упрощенные методы в конвейерах развертывания

Определения ярлыков синхронизируются между этапами конвейера развертывания:

  • Сочетания клавиш с внешними целевыми объектами (ADLS 2-го поколения, S3 и других) сохраняют одинаковые целевые объекты на всех этапах после развертывания.
  • Сочетания клавиш с внутренними целевыми объектами (сочетания клавиш OneLake) в одной рабочей области автоматически переопределяются между этапами. Целевые таблицы, папки и файлы не создаются автоматически— их необходимо создать в целевой рабочей области после развертывания.
  • Если ярлык должен указывать на разные расположения на разных этапах (например, папку Amazon S3 в разработке и папку ADLS 2-го поколения в рабочей среде), используйте переменные в определении ярлыка. Дополнительные сведения см. в разделе "Что такое библиотека переменных"? (предварительная версия). Кроме того, обновите определение ярлыка вручную после развертывания на портале Fabric или с помощью API OneLake.

Внимание

Развертывание переопределяет состояние ярлыков в целевой рабочей области. Все ярлыки в целевом лейкхаусе обновляются или удаляются на основе исходного лейкхауса, а также создаются новые шорткаты. Всегда нажимайте кнопку "Проверить изменения ", чтобы понять изменения перед развертыванием.

Роли доступа OneLake к данным безопасности

Определения роли доступа к данным (DAR) хранятся в data-access-roles.json папке Lakehouse в Git. Кроме того, удаление и обновления ролей доступа к данным отслеживаются автоматически. Этот файл также можно изменить непосредственно в репозитории и применить изменения обратно к рабочей среде.

Внимание

Только пользователи с ролью рабочей области "Администратор" или "Участник" могут синхронизировать определения ролей доступа к данным с Git или конвейерами развертывания.

Если в исходной рабочей области настроено отслеживание DAR и включена функция добровольного участия, то поведение синхронизации зависит от целевой рабочей области.

Целевая рабочая область Интеграция с Git Конвейер развертывания
Новое (без озёрного хранилища) ✅ Автоматическое включение отслеживания DAR ✅ Автоматическое включение отслеживания DAR
Отслеживание DAR отключено ✅ Включено отслеживание DAR и возможность участия ✅ Включено отслеживание DAR и возможность участия
Функция DAR включена, отключено согласие ⚠️ Запрашивает включение согласия (переопределение или отмена) ❌ Ошибка 1
DAR + опция включена ✅ Обычная синхронизация ✅ Обычная синхронизация

1 Если конвейер развертывания отображает ошибку, вручную включите отслеживание DAR и настройте целевую рабочую область, согласуйте роли перед повторной попыткой развертывания.

Внимание

Идентификаторы участников Microsoft Entra не отслеживаются в Git по соображениям безопасности. Во время операций Git и конвейера развертывания участники сохраняются между рабочими областями только в том случае, если имена ролей совпадают в точности. Будьте осторожны при переименовании ролей, к которым назначены участники.