Dataflow второго поколения с интеграцией CI/CD и Git

Поток данных 2-го поколения поддерживает непрерывную интеграцию и непрерывное развертывание (CI/CD) и интеграцию Git. Вы можете создавать, изменять и управлять потоками данных в репозитории Git, подключенном к рабочей области Fabric. Используйте конвейеры развертывания для автоматизации перемещения потоков данных между рабочими областями. В этой статье объясняется, как использовать эти функции в фабрике данных Fabric.

Функции

Интеграция потока данных 2-го поколения с CI/CD и Git предоставляет широкий спектр возможностей для упрощения рабочего процесса. Вот что можно сделать с этими функциями:

  • Интеграция Git с Dataflow 2-го поколения.
  • Автоматизируйте развертывание потоков данных между рабочими областями с использованием конвейеров развертывания.
  • Обновление и изменение параметров потока данных 2-го поколения с помощью средств Fabric.
  • Создайте поток данных 2-го поколения непосредственно в папке рабочей области.
  • Используйте общедоступные API (предварительная версия) для управления потоком данных 2-го поколения с интеграцией CI/CD и Git.

Предварительные условия

Прежде чем начать, убедитесь, что вы:

Создание потока данных 2-го поколения с интеграцией CI/CD и Git

Все новые элементы потока данных 2-го поколения создаются с поддержкой интеграции CI/CD и Git по умолчанию. Выполните следующие действия, чтобы приступить к работе:

  1. В рабочей области Fabric выберите Создать новый элемент, затем выберите Dataflow Gen2.

    Снимок экрана окна «Новый элемент» с выделенным элементом Dataflow Gen2.

  2. Присвойте потоку данных имя и нажмите кнопку "Создать". Интеграция Git включена по умолчанию для всех новых элементов потока данных 2-го поколения.

    Снимок экрана: диалоговое окно New Dataflow 2-го поколения (CI/CD) с полем

    Поток данных открывается на холсте разработки, где вы можете начать создание потока данных.

  3. По завершении нажмите кнопку "Сохранить и запустить".

  4. После публикации поток данных отображает состояние "uncommitted".

    Снимок экрана сохранённого Dataflow Gen2 с состоянием, указанным как незавершённое.

  5. Чтобы зафиксировать поток данных в Git, щелкните значок системы управления версиями в правом верхнем углу.

    Снимок экрана: кнопка

  6. Выберите изменения для фиксации, а затем нажмите кнопку "Фиксация".

    Скриншот окна управления исходным кодом с выбранным потоком данных и кнопка

Ваш Dataflow Gen2 с интеграцией CI/CD и Git готов. Рекомендации см. в руководстве "Сценарий 2 - Разработка с использованием другого рабочего пространства".

Обновление потока данных 2-го поколения

Обновление Dataflow Gen2 гарантирует, что ваши данные актуальны. Можно обновить вручную или настроить расписание для автоматизации процесса.

Обновить сейчас

  1. В рабочей области Fabric выберите многоточие рядом с потоком данных.

  2. Теперь нажмите кнопку "Обновить".

    Снимок экрана с раскрывающимся меню дополнительных параметров и выделенными опцией

Запланировать обновление

  1. В рабочей области Fabric выберите многоточие рядом с потоком данных.

  2. Выберите Расписание.

    Снимок экрана: раскрывающееся меню дополнительных параметров с выделенным параметром

  3. На странице расписания задайте частоту обновления, время начала и время окончания. Примените изменения.

    Снимок экрана: экран параметров потока данных с выбранной вкладкой

  4. Чтобы немедленно обновить, нажмите кнопку "Обновить".

Просмотр истории обновлений и настроек

Общие сведения об журнале обновления и управлении параметрами помогают отслеживать поток данных 2-го поколения и управлять ими. Вот как можно получить доступ к этим параметрам.

Чтобы просмотреть журнал обновлений, выберите вкладку "Последние запуски" в раскрывающемся меню или перейдите в центр мониторинга и выберите поток данных.

Доступ к параметрам потока данных, выбрав многоточие рядом с потоком данных и выбрав параметры.

Сохранение заменяет публикацию

Операция сохранения в Dataflow Gen2 с интеграцией CI/CD и Git автоматически публикует изменения, способствуя упрощению рабочего процесса.

Сохранение потока данных 2-го поколения автоматически публикует изменения. Если вы хотите отменить изменения, нажмите кнопку "Отменить изменения " при закрытии редактора.

Ратификация

При сохранении система проверяет действительность потока данных. Если нет, в представлении рабочей области появится ошибка. Проверка выполняет оценку "нулевой строки", которая проверяет схемы запросов без возврата строк. Если схема запроса не может быть определена в течение 10 минут, оценка завершается ошибкой. Если проверка завершается ошибкой, система использует последнюю сохраненную версию для обновлений.

публикация точно в срок

Публикация в режиме реального времени гарантирует доступность изменений при необходимости. В этом разделе объясняется, как система обрабатывает публикацию во время обновлений и других операций.

Dataflow Gen2 использует автоматическую модель публикации "точно в срок". При сохранении потока данных изменения сразу же доступны для следующего обновления или выполнения. Синхронизация изменений из Git или с помощью конвейеров развертывания сохраняет обновленный поток данных в рабочей области. Следующее обновление пытается опубликовать последнюю сохраненную версию. Если размещение завершается ошибкой, в истории обновлений появится ошибка.

При обновлении потока данных существует параметр (Run On Demand Execute в REST API фоновых заданий), который управляет попыткой публикации. Значение по умолчанию для этого параметра ApplyChangesIfNeeded имеет значение true, которое активирует публикацию, только если источник изменился с момента последней публикации. В этих сценариях пользователи должны вручную активировать публикацию при внесении изменений через CI/CD или API.

В некоторых случаях серверная часть автоматически повторно публикует потоки данных во время обновлений, чтобы обеспечить совместимость с обновлениями.

Ранее при сбое публикации обновление выполняется с использованием последней успешно опубликованной версии потока данных. При JIT-публикации процесс обновления может завершиться неудачно, если:

  • Поток данных был сохранен после 1 февраля 2026 г. и
  • Публикация не удается (даже если ранее была успешная публикация).

Это предотвращает сценарии, в которых клиенты неназнательно выполняют устаревшие версии потока данных. Это гарантирует, что то, что отображается в редакторе, соответствует тому, что выполняется.

API также доступны для обновления потока данных без публикации или запуска публикации вручную.

Известные проблемы и ограничения

Хотя поток данных 2-го поколения с интеграцией CI/CD и Git мощный, существуют некоторые ограничения и известные проблемы, о которых следует знать. Вот что вам нужно знать.

  • При удалении последнего потока данных 2-го поколения с поддержкой CI/CD и Git промежуточные элементы становятся видимыми в рабочей области и безопасно удаляются пользователем.
  • При переходе в другую рабочую область обновление Dataflow Gen2 может завершиться неудачей с сообщением о том, что не удалось найти промежуточный lakehouse. В этом случае создайте новый Dataflow Gen2 с поддержкой CI/CD и Git в рабочей области, чтобы активировать создание промежуточного озерного дома. После этого все остальные потоки данных в рабочей области должны начать функционировать снова.
  • При синхронизации изменений из GIT в рабочую область или использования конвейеров развертывания необходимо открыть новый или обновленный поток данных и сохранить изменения вручную с помощью редактора. Это активирует действие публикации в фоновом режиме, чтобы изменения использовались во время обновления потока данных. Можно также использовать вызов API задания публикации Dataflow по запросу для автоматизации процесса публикации.
  • соединитель Power Automate для потоков данных не работает с новым потоком данных 2-го поколения с поддержкой CI/CD и Git.