Настройка декларативных конвейеров Lakeflow

2025-06-11

В этой статье описывается базовая конфигурация декларативных конвейеров Lakeflow с помощью пользовательского интерфейса рабочей области.

Databricks рекомендует разрабатывать новые конвейеры с использованием бессерверной инфраструктуры. Инструкции по настройке бессерверных конвейеров см. в разделе "Настройка бессерверного конвейера".

Инструкции по настройке в этой статье используют каталог Unity. Инструкции по настройке конвейеров с устаревшим хранилищем метаданных Hive см. в разделе "Использование декларативных конвейеров Lakeflow с устаревшим хранилищем метаданных Hive".

В этой статье рассматриваются функции текущего режима публикации по умолчанию для конвейеров. Пайплайны, созданные до 5 февраля 2025 г., могут использовать устаревший режим публикации и виртуальную схему LIVE. См. LIVE схему (устаревшую версию).

Примечание.

Пользовательский интерфейс имеет возможность отображения и изменения параметров в ФОРМАТЕ JSON. Большинство параметров можно настроить с помощью пользовательского интерфейса или спецификации JSON. Некоторые дополнительные параметры доступны только с помощью конфигурации JSON.

Файлы конфигурации JSON также полезны при развертывании конвейеров в новых средах или с помощью ИНТЕРФЕЙСА командной строки или REST API.

Полный справочник по параметрам конфигурации JSON декларативного конвейера Lakeflow см. в конфигурациях Декларативных конвейеров Lakeflow.

Настройка нового конвейера

Чтобы настроить новый конвейер, выполните следующие действия.

Щелкните "Конвейеры" на боковой панели.
Нажмите кнопку "Создать конвейер".
Укажите уникальное имя конвейера.
(Необязательно) Используйте средство выбора файлов для настройки записных книжек и файлов рабочей области в качестве исходного кода.
- Если вы не добавляете исходный код, для конвейера создается новая записная книжка. Записная книжка создается в новом каталоге пользователя, а ссылка на доступ к этой записной книжке отображается в поле "Исходный код " в области сведений о конвейере после создания конвейера.
  - Вы можете получить доступ к этой записной книжке с URL-адресом, представленным в поле исходного кода на панели сведений о конвейере после создания конвейера.
- Нажмите кнопку "Добавить исходный код", чтобы добавить дополнительные ресурсы исходного кода .
Выберите каталог Unity в разделе параметры хранилища.
Выберите каталог. Этот параметр управляет каталогом по умолчанию и расположением хранилища для метаданных конвейера.
Выберите схему в каталоге. По умолчанию потоковые таблицы и материализованные представления, определенные в потоке обработок, создаются в этой схеме.
В разделе "Вычисления" установите флажок "Использовать ускорение фотона". Дополнительные рекомендации по настройке вычислительных ресурсов см. в разделе "Параметры конфигурации вычислений".
Нажмите кнопку Создать.

Эти рекомендуемые конфигурации создают новый конвейер, настроенный для запуска в режиме активации и использования текущего канала. Эта конфигурация рекомендуется для многих вариантов использования, включая разработку и тестирование, и хорошо подходит для рабочих нагрузок, которые должны выполняться по расписанию. Дополнительные сведения о планировании конвейеров см. в разделе "Задача конвейера" для заданий.

Параметры конфигурации вычислений

Databricks рекомендует всегда использовать расширенное автомасштабирование. Значения по умолчанию для других конфигураций вычислений хорошо работают для многих конвейеров.

Бессерверные конвейеры удаляют параметры конфигурации вычислений. Инструкции по настройке бессерверных конвейеров см. в разделе "Настройка бессерверного конвейера".

Используйте следующие параметры для настройки конфигураций вычислений:

Администраторы рабочей области могут настроить политику кластера. Политики вычислений позволяют администраторам контролировать доступные для пользователей параметры вычислений. См. раздел "Выбор политики кластера".
При необходимости можно настроить режим кластера для работы с фиксированным размером или автомасштабированием старого типа. См. статью "Оптимизация использования кластеров декларативных конвейеров Lakeflow с помощью автомасштабирования".
Для рабочих нагрузок с включенным автомасштабированием установите Min workers и Max workers, чтобы задать ограничения для поведения масштабирования. См. Настройка вычислений для декларативных конвейеров Lakeflow.
При необходимости можно отключить ускорение Фотона. См. статью " Что такое Фотон?".

Используйте теги кластера для мониторинга затрат, связанных с декларативными конвейерами Lakeflow. См. раздел "Настройка тегов кластера".
Настройте типы виртуальных экземпляров, чтобы указать тип виртуальных машин, используемых для запуска вашего обработочного конвейера. См. раздел Выбор типов экземпляров для запуска конвейера.
- Выберите тип рабочей роли, оптимизированный для рабочих нагрузок, настроенных в конвейере.
- При необходимости можно выбрать тип драйвера , который отличается от типа рабочей роли. Это может быть полезно для снижения затрат в конвейерах с большими рабочими типами и низким использованием вычислительных ресурсов драйвера или для выбора более крупного типа драйвера, чтобы избежать проблем с нехваткой памяти в рабочих нагрузках с большим количеством небольших рабочих нагрузок.

Другие рекомендации по настройке

Для конвейеров также доступны следующие параметры конфигурации:

Версия продукта Advanced предоставляет доступ ко всем функциям декларативных конвейеров Lakeflow. При необходимости можно запускать конвейеры с помощью выпусков продуктов Pro или Core . См. раздел "Выбор выпуска продукта".
При выполнении конвейеров в рабочей среде можно использовать режим непрерывного конвейера. См. раздел "Триггерный и непрерывный режимы конвейера".
Если ваша рабочая область не настроена для каталога Unity или если вашим рабочим нагрузкам нужно использовать устаревшее хранилище метаданных Hive, см. статью Использование декларативных конвейеров Lakeflow с устаревшим хранилищем метаданных Hive.
Добавьте уведомления для обновлений электронной почты на основе условий успешного выполнения или сбоя. См. добавьте уведомления по электронной почте для событий конвейера.
Используйте поле конфигурации, чтобы задать пары "ключ-значение" для конвейера. Эти конфигурации служат двумя целями:
- Задайте произвольные параметры, на которые можно ссылаться в исходном коде. См. раздел "Использование параметров с декларативными конвейерами Lakeflow".
- Настройте параметры конвейера и конфигурации Spark. См. справочник по свойствам декларативных конвейеров Lakeflow.
- Настройка тегов. Теги — это пары "ключ-значение" для конвейера, который отображается в списке рабочих процессов. Теги конвейера не связаны с выставлением счетов.
Используйте канал Preview для тестирования вашего конвейера в соответствии с ожидаемыми изменениями в среде выполнения декларативных конвейеров Lakeflow и испытания новых функций.

Выбор выпуска продукта

Выберите выпуск продукта Lakeflow Declarative Pipelines с лучшими функциями для требований к конвейеру. Доступны следующие выпуски продуктов:

Core для выполнения рабочих нагрузок потокового приема данных. Выберите издание Core, если ваш конвейер не требует расширенных функций, таких как запись измененных данных (CDC) или декларативные Pipeline-конвейеры Lakeflow.
Pro для выполнения потоковой обработки и рабочих нагрузок CDC. Выпуск Pro продукта поддерживает все функции Core, а также поддержку рабочих нагрузок, требующих обновления таблиц на основе изменений в исходных данных.
Advanced для выполнения рабочих нагрузок приема потоковой передачи, рабочих нагрузок CDC и рабочих нагрузок, требующих ожиданий. Выпуск продукта Advanced поддерживает функции выпусков Core и Pro, а также включает ограничения качества данных в соответствии с ожиданиями декларативных конвейеров Lakeflow.

Вы можете выбрать выпуск продукта при создании или изменении конвейера. Для каждого конвейера можно выбрать другой выпуск. См. страницу продукта Lakeflow Декларативных конвейеров.

Примечание. Если в конвейере есть функции, не поддерживаемые выбранным выпуском продукта, такие как ожидаемые результаты, вы получите сообщение об ошибке, объясняющее причину ошибки. Затем можно изменить конвейер, чтобы выбрать соответствующий выпуск.

Настройка исходного кода

Вы можете использовать селектор файлов в пользовательском интерфейсе Декларативных конвейеров Lakeflow для настройки исходного кода, определяющего конвейер. Исходный код конвейера определяется в записных книжках Databricks или скриптах SQL или Python, хранящихся в файлах рабочей области. При создании или изменении конвейера можно добавить одну или несколько записных книжек или файлов рабочей области или сочетание записных книжек и файлов рабочей области.

Поскольку декларативные потоки Lakeflow автоматически анализируют зависимости набора данных для создания графа обработки вашего потока, вы можете добавлять объекты исходного кода в любом порядке.

Можно изменить JSON-файл, чтобы включить исходный код Декларативного конвейера Lakeflow, определенный в скриптах SQL и Python, хранящихся в файлах рабочей области. В следующем примере содержатся записные книжки и файлы рабочей области:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Управление внешними зависимостями для конвейеров, использующих Python

Декларативные конвейеры Lakeflow поддерживают использование внешних зависимостей в конвейерах, таких как пакеты и библиотеки Python. Дополнительные сведения о параметрах и рекомендациях по использованию зависимостей см. в статье "Управление зависимостями Python для декларативных конвейеров Lakeflow".

Использование модулей Python, хранящихся в рабочей области Azure Databricks

Помимо реализации кода Python в записных книжках Databricks, вы можете использовать папки Databricks Git или файлы рабочей области для хранения кода в виде модулей Python. Хранение кода в виде модулей Python особенно полезно, если у вас есть общие функциональные возможности, которые вы хотите использовать в нескольких конвейерах или записных книжках в одном конвейере. Сведения о том, как использовать модули Python с конвейерами, см. в разделе «Импорт модулей Python из папок Git или файлов рабочей области».