Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Dataflow Gen2 теперь поддерживает непрерывную интеграцию и развертывание (CI/CD) и интеграцию с Git. Эта функция позволяет создавать, изменять и управлять потоками данных в репозитории Git, связанном с вашей рабочей областью Fabric. Кроме того, можно использовать функцию конвейеров развертывания для автоматизации развертывания потоков данных из рабочей области в другие рабочие области. В этой статье подробно описано, как использовать поток данных 2-го поколения с интеграцией CI/CD и Git в Фабрике данных Fabric.
Новые возможности
С помощью потока данных 2-го поколения (CI/CD) теперь можно:
- Используйте поддержку интеграции Git для Dataflow 2-го поколения.
- Используйте функцию конвейеров развертывания для автоматизации развертывания потоков данных из рабочей области в другие рабочие области.
- Используйте параметры Fabric и планировщик для обновления и изменения параметров потока данных 2-го поколения.
- Создайте поток данных 2-го поколения непосредственно в папку рабочей области.
- Используйте общедоступные API (предварительная версия) для создания потока данных 2-го поколения с интеграцией CI/CD и Git.
Предварительные условия
Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:
- У вас есть учетная запись клиента Microsoft Fabric с активной подпиской. Создать аккаунт бесплатно.
- Убедитесь, что у вас есть рабочая область с поддержкой Microsoft Fabric.
- Чтобы наслаждаться интеграцией Git, убедитесь, что она включена для рабочей области. Чтобы узнать больше о включении интеграции Git, перейдите к разделу "Начало работы с интеграцией Git".
Создание потока данных 2-го поколения с поддержкой CI/CD и Git
Чтобы создать поток данных 2-го поколения с поддержкой CI/CD и Git, выполните следующие действия.
В рабочей области Fabric выберите "Создать элемент " и выберите "Поток данных 2-го поколения".
Присвойте потоку данных имя и включите интеграцию Git. Затем выберите Создать.
Поток данных создан, и вас перенаправляют на холст для редактирования потоков данных. Теперь можно приступить к созданию потока данных.
Когда вы закончите разработку потока данных, нажмите кнопку "Сохранить и запустить".
После публикации поток данных имеет состояние незафиксированного.
Чтобы зафиксировать поток данных в репозиторий Git, щелкните значок системы контроля версий в правом верхнем углу рабочей области.
Выберите все изменения, которые вы хотите зафиксировать, и нажмите кнопку "Зафиксировать".
Теперь вы поддерживаете поток данных 2-го поколения с поддержкой CI/CD и Git. Мы предлагаем вам следовать лучшим практикам работы с CI/CD и интеграцией Git в Fabric, описанным в руководстве Сценарий 2 - Разработка в другом рабочем пространстве.
Обновление Dataflow Gen2 или планирование обновления
Вы можете обновить поток данных 2-го поколения с поддержкой CI/CD и Git двумя способами— вручную или путем планирования обновления. В следующих разделах описывается обновление потока данных 2-го поколения с поддержкой CI/CD и Git.
Обновить сейчас
В рабочей области Fabric выберите значок с тремя точками рядом с потоком данных, который необходимо обновить.
Выберите "Обновить сейчас".
Запланировать обновление
Если поток данных необходимо обновить через регулярный интервал, можно запланировать обновление с помощью планировщика Fabric.
В рабочей области Fabric выберите значок дополнительных параметров с многоточием рядом с потоком данных, который требуется обновить.
Выберите Расписание.
На странице расписания можно задать частоту обновления и время начала и окончания, после чего можно применить изменения.
Чтобы запустить обновление, нажмите кнопку "Обновить ".
Обновить историю и параметры
Чтобы просмотреть журнал обновления потока данных, можно выбрать вкладку "Последние запуски" в раскрывающемся меню или перейти в центр мониторинга и выбрать поток данных, который нужно просмотреть.
Параметры потока данных 2-го поколения с CI/CD
Доступ к параметрам нового потока данных 2-го поколения с поддержкой CI/CD и Git аналогичен любому другому элементу Fabric. Вы можете получить доступ к настройкам, выбрав значок многоточия дополнительных параметров рядом с потоком данных и открыв настройки.
Сохранение заменяет операцию публикации
С поддержкой CI/CD и Git в Dataflow Gen2 операция сохранения заменяет операцию публикации. Это изменение означает, что при сохранении потока данных он автоматически публикует изменения в потоке данных.
Операция сохранения напрямую перезаписывает поток данных в рабочей области. Если вы хотите отменить изменения, это можно сделать, нажав кнопку "Отменить изменения " при закрытии редактора.
Ратификация
Во время операции сохранения мы также проверяем, находится ли поток данных в допустимом состоянии. Если поток данных не находится в допустимом состоянии, в раскрывающемся меню в представлении рабочей области отображается сообщение об ошибке. Мы определяем допустимость потока данных, выполнив оценку "нулевой строки" для всех запросов в потоке данных.
Эта оценка означает, что мы запускаем все запросы в потоке данных таким образом, чтобы только запрашивать схему результата запроса без возврата строк. Если оценка запроса завершается ошибкой или схема запроса не может быть определена в течение 10 минут, мы завершаем проверку и используем ранее сохраненную версию потока данных для обновления.
Публикация точно в срок
Dataflow Gen2 с CI/CD вводит автоматизированную модель публикации "точно в срок", чтобы упростить ваш рабочий процесс. При сохранении потока данных в редакторе изменения немедленно сохраняются и публикуются, что делает их доступными для следующего обновления или выполнения. Команда Сохранить и запустить одновременно публикует и обновляет поток данных в один шаг.
При синхронизации изменений из Git или использования конвейеров развертывания обновленный поток данных сохраняется в рабочей области, но не сразу опубликован. Вместо этого при следующем запуске обновления (вручную или по расписанию) система автоматически пытается опубликовать последнюю сохраненную версию перед запуском обновления. Если публикация завершается ошибкой (например, из-за ошибок проверки), система сообщает об ошибке в истории обновлений.
Этот подход гарантирует, что последние изменения из конвейеров Git или развертывания всегда учитываются во время обновления, не требуя ручного шага публикации. Однако изменения, внесенные в редактор, не сохраняются автоматически при закрытии браузера или переходе от него— необходимо явно сохранить поток данных, чтобы включить изменения в следующую публикацию или обновление.
В некоторых сценариях серверная часть решает опубликовать поток данных автоматически во время операции обновления. Это происходит, когда серверная часть потока данных обновляется и требует повторной публикации потока данных для обеспечения совместимости с последними внутренними изменениями. Эта автоматическая публикация возникает без вмешательства пользователя и является периодическим в зависимости от внутренних обновлений.
Кроме того, API-интерфейсы доступны для обновления потока данных без публикации или запуска операции публикации вручную для сохраненных изменений, что обеспечивает гибкость в управлении рабочими процессами развертывания.
Известные проблемы и ограничения
Хотя Dataflow Gen2 с поддержкой CI/CD и Git предоставляет мощный набор функций для совместной работы в корпоративной среде, это потребовало от нас перестроение серверной части в фабричную архитектуру. Это означает, что некоторые функции пока недоступны или имеют ограничения. Мы активно работаем над улучшением возможностей и обновим эту статью по мере добавления новых функций.
- При удалении последнего потока данных 2-го поколения с поддержкой CI/CD и Git промежуточные артефакты становятся видимыми в рабочем пространстве и могут безопасно удаляться пользователем.
- Представление рабочей области не отображает следующее: указание на текущее обновление, время последнего обновления, время следующего обновления и индикацию сбоя обновления.
- Если поток данных не удается обновить, мы не поддерживаем автоматическую отправку уведомления об ошибке. В качестве обходного решения можно использовать функции оркестрации конвейеров данных.
- При переходе в другую рабочую область обновление Dataflow Gen2 может завершиться неудачей с сообщением о том, что не удалось найти промежуточный lakehouse. В этом случае создайте новый Dataflow Gen2 с поддержкой CI/CD и Git в рабочей области, чтобы активировать создание промежуточного озерного дома. После этого все остальные потоки данных в рабочей области должны начать функционировать снова.
- При синхронизации изменений из GIT в рабочую область или использования конвейеров развертывания необходимо открыть новый или обновленный поток данных и сохранить изменения вручную с помощью редактора. Это активирует действие публикации в фоновом режиме, чтобы изменения использовались во время обновления потока данных. Можно также использовать вызов API задания публикации Dataflow по запросу для автоматизации процесса публикации.
- Соединитель Power Automate для потоков данных не работает с новым потоком данных 2-го поколения с поддержкой CI/CD и Git.