Что такое Lakeflow Connect?

Lakeflow Connect предлагает простые и эффективные коннекторы для интеграции данных из локальных файлов, популярных корпоративных приложений, баз данных, облачного хранилища, шины сообщений и т. д. На этой странице описаны некоторые способы повышения производительности ETL в Lakeflow Connect. В нем также рассматриваются распространенные варианты использования и диапазон поддерживаемых инструментов подачи данных, от полностью управляемых соединителей до полностью настраиваемых фреймворков.

Гибкие модели служб

Lakeflow Connect предлагает широкий спектр коннекторов для корпоративных приложений, облачного хранилища, баз данных, шины сообщений и многого другого. Кроме того, вы можете выбрать один из следующих вариантов:

Вариант Описание
Полностью управляемая служба Готовые соединители, которые демократизируют доступ к данным с помощью простых интерфейсов пользователя и мощных API. Это позволяет быстро создавать надежные конвейеры приема, минимизируя долгосрочные затраты на обслуживание.
Настраиваемый конвейер Если требуется дополнительная настройка, можно использовать декларативные конвейеры Или структурированную потоковую передачу Lakeflow Spark. В конечном счете, это универсальность позволяет Lakeflow Connect соответствовать конкретным потребностям вашей организации.

Интеграция с основными инструментами Databricks

Lakeflow Connect использует основные функции Databricks для обеспечения комплексного управления данными. Например, он предлагает управление с помощью каталога Unity, оркестрации с помощью заданий Lakeflow и комплексного мониторинга по конвейерам. Это помогает вашей организации управлять безопасностью данных, качеством и затратами при объединении процессов приема с другими средствами проектирования данных. Lakeflow Connect основан на открытой платформе аналитики данных с полной гибкостью для включения предпочитаемых сторонних средств. Это обеспечивает специальное решение, которое соответствует существующей инфраструктуре и будущим стратегиям обработки данных.

Быстрое и масштабируемое поглощение данных

Lakeflow Connect использует добавочные операции чтения и записи, чтобы обеспечить эффективное прием данных. При сочетании с добавочными преобразованиями ниже это может значительно повысить производительность ETL.

Распространенные варианты использования

Клиенты получают данные для решения наиболее сложных проблем своих организаций. Примеры вариантов использования:

Сценарий использования Описание
Заказчик 360 Измерение эффективности кампании и оценка рейтинга потенциальных клиентов
Управление портфелем Максимизация roI с помощью исторических и прогнозирующих моделей
Аналитика потребителей Персонализация покупательского опыта ваших клиентов
Централизованные кадровые ресурсы Поддержка рабочей силы вашей организации
Цифровые двойники Повышение эффективности производства
Чат-боты RAG Создание чат-ботов, чтобы помочь пользователям понять политики, продукты и многое другое

Слои стека ETL

Некоторые соединители работают на одном уровне стека ETL. Например, Databricks предлагает полностью управляемые соединители для корпоративных приложений, таких как Salesforce и базы данных, такие как SQL Server. Другие соединители работают на другом уровне стека ETL. Например, можно использовать стандартные соединители в Декларативных конвейерах Spark Lakeflow для дополнительных параметров настройки. Аналогичным образом можно выбрать уровень настройки потоковой передачи данных из Apache Kafka, Amazon Kinesis, Google Pub/Sub и Apache Pulsar.

Databricks рекомендует начать с самого управляемого слоя. Если он не соответствует вашим требованиям (например, если он не поддерживает источник данных), перейдите на следующий уровень.

В следующей таблице описаны слои продуктов приема:

Уровень Описание
Lakeflow Spark Декларативные конвейеры Декларативные конвейеры Spark Lakeflow предлагают декларативную платформу для создания конвейеров данных. Определите ваши преобразования, и Декларативные конвейеры Spark Lakeflow будут управлять оркестрацией, мониторингом, качеством данных, обработкой ошибок и многим другим. Он основывается на Structured Streaming и поддерживает большинство его функций. Для любой функции структурированной потоковой передачи, пока недоступной в декларативных конвейерах Lakeflow Spark, можно напрямую использовать API структурированной потоковой передачи.
Полностью управляемые соединители Полностью управляемые соединители создаются на основе декларативных конвейеров Spark Lakeflow, предлагая еще больше автоматизации для самых популярных источников данных. Они расширяют функциональные возможности Декларативных конвейеров Lakeflow Spark, чтобы также включать проверку подлинности для конкретного источника, CDC, обработку крайних случаев, долгосрочное обслуживание API, автоматизированные повторные попытки, автоматическую эволюцию схемы и т. д. Поэтому они предлагают еще больше автоматизации для любых поддерживаемых источников данных.

Управляемые соединители

Можно использовать полностью управляемые соединители для приема данных из корпоративных приложений и баз данных. Полный список поддерживаемых соединителей см. в управляемых соединителях в Lakeflow Connect .

Поддерживаемые интерфейсы включают:

  • Пользовательский интерфейс Databricks
  • Декларативные пакеты автоматизации
  • API системы Databricks
  • Пакеты SDK Databricks
  • Databricks CLI (интерфейс командной строки)

Соединители сообщества

Соединители сообщества расширяют возможности Lakeflow Connect для подключения к источникам, к которым нет поддержки управляющих соединителей. Они созданы и поддерживаются сообществом и не поддерживаются соглашениями об уровне обслуживания Databricks. Вы можете использовать существующий соединитель или создать собственный. См. соединители сообщества в Lakeflow Connect.

Стандартные соединители

Помимо управляемых коннекторов Databricks предлагает настраиваемые коннекторы для облачного объектного хранилища и шины сообщений. См. статью "Стандартные соединители" в Lakeflow Connect.

Создание или изменение таблицы из загрузки файлов (интерфейс добавления данных)

Вы можете получать файлы, находящиеся в вашей локальной сети, файлы, загруженные в том, или файлы, скачанные из расположения в Интернете. См. как создать или изменить таблицу с помощью загрузки файлов.

партнеры по интеграции данных

Многие сторонние средства поддерживают пакетную или потоковую загрузку в Databricks. Databricks проверяет различные сторонние интеграции, хотя шаги по настройке доступа к исходным системам и приему данных зависят от средства. В партнеров по сбору данных см. список проверенных средств. Некоторые технологические партнеры также представлены в Databricks Partner Connect, который имеет пользовательский интерфейс, упрощающий подключение сторонних средств к данным Lakehouse.

внедрение DIY

Databricks предоставляет общую платформу вычислений. В конечном итоге вы можете создать свои коннекторы для обработки данных с помощью любого языка программирования, поддерживаемого Databricks, например Python или Java. Вы также можете импортировать и использовать популярные библиотеки соединителей с открытым исходным кодом, такие как средство загрузки данных, Airbyte и Debezium.

альтернативные варианты приема

Databricks рекомендует использовать импорт данных для большинства сценариев использования, так как это решение масштабируется для обработки больших объемов данных, обеспечения низкой задержки при обработке запросов и соблюдения ограничений сторонних API. Импорт данных копирует данные из ваших исходных систем в Azure Databricks, что приводит к дублированию данных, которые могут со временем стать устаревшими. Если вы не хотите копировать данные, можно использовать следующие средства:

Инструмент Описание
Федерация Lakehouse Позволяет запрашивать внешние источники данных без перемещения данных.
Delta Sharing (Дельта шаринг) Позволяет безопасно обмениваться данными между платформами, облаками и регионами.