Поделиться через


Managed connectors in Lakeflow Connect

Внимание

Managed SaaS and database connectors provided by Lakeflow Connect are in various release states.

This article provides an overview of managed connectors in Databricks Lakeflow Connect for ingesting data from SaaS applications and databases. Результирующий конвейер обработки управляется каталогом Unity, использует бессерверные вычисления и технологию DLT. Managed connectors leverage efficient incremental reads and writes to make data ingestion faster, scalable, and more cost-efficient, while your data remains fresh for downstream consumption.

Компоненты соединителя SaaS

Соединитель SaaS моделировается следующими компонентами:

  • Подключение: защищаемый объект Unity Catalog, который хранит данные аутентификации для базы данных.
  • Конвейер загрузки данных: загружает подготовленные данные в таблицы Delta. Этот компонент моделировается как бессерверный конвейер DLT.

Схема компонентов соединителя SaaS

Компоненты соединителя базы данных

Соединитель базы данных моделиируется следующими компонентами:

  • Подключение: защищаемый объект Unity Catalog, который хранит данные аутентификации для базы данных.
  • Шлюз. Извлекает данные из исходной базы данных и поддерживает целостность транзакций во время передачи. Для облачных баз данных шлюз настраивается как конвейер DLT с классическими вычислениями.
  • Staging storage: A Unity Catalog volume where data from the gateway is staged before being applied to a Delta table. Промежуточная учетная запись хранения создается при развертывании шлюза и существует в каталоге и в схеме, которую вы указываете.
  • Конвейер загрузки данных: загружает подготовленные данные в таблицы Delta. Этот компонент моделировается как бессерверный конвейер DLT.

Схема компонентов соединителя базы данных

Lakeflow Connect vs. Lakehouse Federation vs. Delta Sharing

Федерация Lakehouse позволяет выполнять запросы к внешним источникам данных без необходимости переноса данных. Delta Sharing позволяет безопасно делиться актуальными данными между платформами, облаками и регионами. Databricks рекомендует интеграцию с помощью Lakeflow Connect, так как он масштабируется для обработки больших объемов данных, низкой задержки запросов и ограничений API от сторонних поставщиков. Однако может потребоваться запросить данные, не перемещая их.

Если у вас есть выбор между Lakeflow Connect, Lakehouse Federation и Delta Sharing, выберите Delta Sharing для следующих сценариев:

  • Ограничение дублирования данных.
  • Запрашивая самые свежие возможные данные.

Выберите Lakehouse Federation для следующих сценариев:

  • Ad hoc reporting or proof-of-concept work on your ETL pipelines.

Managed connectors vs. Auto Loader

Managed connectors allow you to incrementally ingest data from enterprise applications and databases. Автозагрузчик — это коннектор для облачного хранилища объектов, который позволяет поэтапно загружать файлы по мере их поступления в S3, ADLS, GCS. It is compatible with Structured Streaming and DLT but is not fully-managed.

Can managed connectors write back to third-party apps and databases?

No. If you’re interested in this functionality, reach out to your account team.

What is the cost for managed connectors?

Managed connectors use a compute-based pricing model.

SaaS sources like Salesforce and Workday, which run exclusively on serverless infrastructure, incur serverless DLT DBU charges.

For database sources like SQL Server, ingestion gateways can run in classic mode or serverless mode depending on the source, and ingestion pipelines run on serverless. As a result, you can receive both classic and serverless DLT DBU charges.

For rate details, see the DLT pricing page.

Dependence on external services

Databricks SaaS, database, and other managed connectors depend on the accessibility, compatibility, and stability of the application, database, or external service they connect to. Databricks does not control these external services and, therefore, has limited (if any) influence over their changes, updates, and maintenance. If changes, disruptions, or circumstances related to an external service impede or render impractical the operation of a connector, Databricks may discontinue or cease maintaining that connector. Databricks will make reasonable efforts to notify customers of discontinuation or cessation of maintenance, including updates to the applicable documentation.