Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Databricks предоставляет комплексное решение для разработки данных, которое позволяет инженерам данных, разработчикам программного обеспечения, разработчикам SQL, аналитикам и специалистам по данным предоставлять высококачественные данные для последующей аналитики, искусственного интеллекта и операционных приложений.
На следующем рисунке показана архитектура систем инженерии данных Azure Databricks, включая задания, Lakeflow Connect, DLT и среду выполнения Databricks.
Дополнительные сведения см. в следующих разделах.
Функция | Описание |
---|---|
Lakeflow Connect | Упрощает интеграцию данных с помощью коннекторов для популярных корпоративных приложений, баз данных, облачных хранилищ, систем передачи сообщений и локальных файлов. Подмножество этих соединителей доступно как управляемые соединители. Управляемые соединители предоставляют простой пользовательский интерфейс и службу приема на основе конфигурации с минимальными эксплуатационными затратами, не требуя использования базовых API DLT и инфраструктуры. Дополнительные сведения можно найти здесь |
DLT | Декларативная платформа, которая снижает сложность создания и управления эффективными конвейерами данных пакетной и потоковой передачи. DLT работает в среде выполнения Databricks, оптимизированной для высокой производительности, а API потоков DLT использует тот же API DataFrame, что и Apache Spark и Structured Streaming. Поток может записывать данные в потоковые таблицы и приемники, такие как топик Kafka, с помощью семантики потоковой передачи или записывать в материализованное представление с помощью пакетной семантики. Кроме того, DLT автоматически управляет процессом выполнения потоков, приемников, потоковых таблиц и материализованных представлений, инкапсулируя их в виде конвейера. Дополнительные сведения можно найти здесь |
Работа | Обеспечивает надежную оркестрацию и производственный мониторинг для любой нагрузки данных и ИИ. Задание может состоять из одной или нескольких задач, которые выполняют блокноты, конвейеры, управляемые соединители, запросы SQL, обучение, а также развертывание и вывод модели. Задания также поддерживают пользовательскую логику потока управления, например ветвление с операторами if /else, и циклирование с каждым оператором. Дополнительные сведения можно найти здесь |
Databricks Runtime для Apache Spark | Надежная и оптимизированная для производительности среда вычислений для выполнения рабочих нагрузок Spark, включая пакетную и потоковую передачу. Databricks Runtime предоставляет Photon, высокопроизводительный нативный движок векторных запросов для Databricks, и различные оптимизации инфраструктуры, такие как автомасштабирование. Рабочие нагрузки Spark и структурированной потоковой передачи можно запускать в Databricks Runtime среде, создавая программы Spark в виде записных книжек, JAR или Python-колес. Дополнительные сведения можно найти здесь |
Дополнительные ресурсы
- Концепции проектирования данных описывают концепции проектирования данных в Azure Databricks.
- Delta Lake — это оптимизированный уровень хранения, который предоставляет основу для таблиц в озерном доме в Azure Databricks.
- Лучшие практики по инженерии данных обучают вас лучшим практикам работы с данными в Azure Databricks.
- Записные книжки Databricks — это популярное средство для совместной работы и разработки.
- Databricks SQL описывает использование запросов SQL и средств бизнес-аналитики в Azure Databricks.
- Databricks Mosaic AI описывает архитектуру решений машинного обучения.