Поделиться через


Инженерия данных с использованием Databricks

Databricks предоставляет комплексное решение для разработки данных, которое позволяет инженерам данных, разработчикам программного обеспечения, разработчикам SQL, аналитикам и специалистам по данным предоставлять высококачественные данные для последующей аналитики, искусственного интеллекта и операционных приложений.

На следующем рисунке показана архитектура систем инженерии данных Azure Databricks, включая задания, Lakeflow Connect, DLT и среду выполнения Databricks.

Обзор инженерии данных Databricks

Дополнительные сведения см. в следующих разделах.

Функция Описание
Lakeflow Connect Упрощает интеграцию данных с помощью коннекторов для популярных корпоративных приложений, баз данных, облачных хранилищ, систем передачи сообщений и локальных файлов. Подмножество этих соединителей доступно как управляемые соединители. Управляемые соединители предоставляют простой пользовательский интерфейс и службу приема на основе конфигурации с минимальными эксплуатационными затратами, не требуя использования базовых API DLT и инфраструктуры.
Дополнительные сведения можно найти здесь
DLT Декларативная платформа, которая снижает сложность создания и управления эффективными конвейерами данных пакетной и потоковой передачи. DLT работает в среде выполнения Databricks, оптимизированной для высокой производительности, а API потоков DLT использует тот же API DataFrame, что и Apache Spark и Structured Streaming. Поток может записывать данные в потоковые таблицы и приемники, такие как топик Kafka, с помощью семантики потоковой передачи или записывать в материализованное представление с помощью пакетной семантики. Кроме того, DLT автоматически управляет процессом выполнения потоков, приемников, потоковых таблиц и материализованных представлений, инкапсулируя их в виде конвейера.
Дополнительные сведения можно найти здесь
Работа Обеспечивает надежную оркестрацию и производственный мониторинг для любой нагрузки данных и ИИ. Задание может состоять из одной или нескольких задач, которые выполняют блокноты, конвейеры, управляемые соединители, запросы SQL, обучение, а также развертывание и вывод модели. Задания также поддерживают пользовательскую логику потока управления, например ветвление с операторами if /else, и циклирование с каждым оператором.
Дополнительные сведения можно найти здесь
Databricks Runtime для Apache Spark Надежная и оптимизированная для производительности среда вычислений для выполнения рабочих нагрузок Spark, включая пакетную и потоковую передачу. Databricks Runtime предоставляет Photon, высокопроизводительный нативный движок векторных запросов для Databricks, и различные оптимизации инфраструктуры, такие как автомасштабирование. Рабочие нагрузки Spark и структурированной потоковой передачи можно запускать в Databricks Runtime среде, создавая программы Spark в виде записных книжек, JAR или Python-колес.
Дополнительные сведения можно найти здесь

Дополнительные ресурсы