Инженерия данных с использованием Databricks

Статья
2025-04-03

Databricks предоставляет комплексное решение для разработки данных, которое позволяет инженерам данных, разработчикам программного обеспечения, разработчикам SQL, аналитикам и специалистам по данным предоставлять высококачественные данные для последующей аналитики, искусственного интеллекта и операционных приложений.

На следующем рисунке показана архитектура систем инженерии данных Azure Databricks, включая задания, Lakeflow Connect, DLT и среду выполнения Databricks.

Обзор инженерии данных Databricks

Дополнительные сведения см. в следующих разделах.

Функция	Описание
Lakeflow Connect	Упрощает интеграцию данных с помощью коннекторов для популярных корпоративных приложений, баз данных, облачных хранилищ, систем передачи сообщений и локальных файлов. Подмножество этих соединителей доступно как управляемые соединители. Управляемые соединители предоставляют простой пользовательский интерфейс и службу приема на основе конфигурации с минимальными эксплуатационными затратами, не требуя использования базовых API DLT и инфраструктуры. Дополнительные сведения можно найти здесь Управляемые соединители Стандартные соединители
DLT	Декларативная платформа, которая снижает сложность создания и управления эффективными конвейерами данных пакетной и потоковой передачи. DLT работает в среде выполнения Databricks, оптимизированной для высокой производительности, а API потоков DLT использует тот же API DataFrame, что и Apache Spark и Structured Streaming. Поток может записывать данные в потоковые таблицы и приемники, такие как топик Kafka, с помощью семантики потоковой передачи или записывать в материализованное представление с помощью пакетной семантики. Кроме того, DLT автоматически управляет процессом выполнения потоков, приемников, потоковых таблиц и материализованных представлений, инкапсулируя их в виде конвейера. Дополнительные сведения можно найти здесь Потоки Потоковые таблицы материализованные представления приемники
Работа	Обеспечивает надежную оркестрацию и производственный мониторинг для любой нагрузки данных и ИИ. Задание может состоять из одной или нескольких задач, которые выполняют блокноты, конвейеры, управляемые соединители, запросы SQL, обучение, а также развертывание и вывод модели. Задания также поддерживают пользовательскую логику потока управления, например ветвление с операторами if /else, и циклирование с каждым оператором. Дополнительные сведения можно найти здесь задачи Поток управления в заданиях
Databricks Runtime для Apache Spark	Надежная и оптимизированная для производительности среда вычислений для выполнения рабочих нагрузок Spark, включая пакетную и потоковую передачу. Databricks Runtime предоставляет Photon, высокопроизводительный нативный движок векторных запросов для Databricks, и различные оптимизации инфраструктуры, такие как автомасштабирование. Рабочие нагрузки Spark и структурированной потоковой передачи можно запускать в Databricks Runtime среде, создавая программы Spark в виде записных книжек, JAR или Python-колес. Дополнительные сведения можно найти здесь Структурированная потоковая передача PySpark на Databricks

Дополнительные ресурсы

Концепции проектирования данных описывают концепции проектирования данных в Azure Databricks.
Delta Lake — это оптимизированный уровень хранения, который предоставляет основу для таблиц в озерном доме в Azure Databricks.
Лучшие практики по инженерии данных обучают вас лучшим практикам работы с данными в Azure Databricks.
Записные книжки Databricks — это популярное средство для совместной работы и разработки.
Databricks SQL описывает использование запросов SQL и средств бизнес-аналитики в Azure Databricks.
Databricks Mosaic AI описывает архитектуру решений машинного обучения.

Поделиться через

Инженерия данных с использованием Databricks

Дополнительные ресурсы

Обратная связь

Дополнительные ресурсы