Что такое Azure Databricks?

2025-05-06

Azure Databricks — это единая, открытая платформа аналитики для создания, развертывания, совместного использования и обслуживания корпоративных данных, аналитики и решений искусственного интеллекта в масштабе. Платформа аналитики данных Databricks интегрируется с облачным хранилищем и безопасностью в облачной учетной записи, а также управляет и развертывает для вас облачную инфраструктуру.

Платформа аналитики данных Databricks

Azure Databricks использует генеративный ИИ вместе с лейкхаусом данных для понимания уникальной семантики ваших данных. Затем она автоматически оптимизирует производительность и управляет инфраструктурой в соответствии с потребностями бизнеса.

Обработка естественного языка учит язык вашего бизнеса, поэтому вы можете искать и обнаруживать данные, задавая вопрос в собственных словах. Помощь по естественному языку помогает писать код, устранять ошибки и находить ответы в документации.

Интеграция с управляемым открытым кодом

Databricks привержен сообществу с открытым исходным кодом и управляет обновлениями интеграций с проектами с открытым исходным кодом с релизами Databricks Runtime. Следующие технологии — проекты с открытым исходным кодом, изначально созданные сотрудниками Databricks.

Распространенные варианты использования

В следующих случаях использования рассматриваются некоторые способы использования Azure Databricks для выполнения задач, необходимых для обработки, хранения и анализа данных, которые приводят к критически важным бизнес-функциям и решениям.

Создание корпоративного озера данных

Data lakehouse объединяет корпоративные хранилища данных и озера данных для ускорения, упрощения и объединения корпоративных решений данных. Инженеры данных, специалисты по обработке и анализу данных, аналитики и производственные системы могут использовать озера данных в качестве одного источника истины, обеспечивая доступ к согласованным данным и уменьшая сложности построения, обслуживания и синхронизации многих распределенных систем данных. См. Что такое озеро данных?.

ETL и инжиниринг данных

Независимо от того, создаете ли вы панели мониторинга или питаете приложения искусственного интеллекта, проектирование данных предоставляет основу для компаний, ориентированных на данные, убедившись, что данные доступны, чисты и хранятся в моделях данных для эффективного обнаружения и использования. Azure Databricks объединяет возможности Apache Spark с Delta и собственными инструментами, чтобы обеспечить непревзойденный опыт ETL. Используйте SQL, Python и Scala для создания логики ETL и оркестрации запланированного развертывания задания с несколькими щелчками мыши.

Декларативные конвейеры Lakeflow еще больше упрощают ETL путем интеллектуального управления зависимостями между наборами данных и автоматического развертывания и масштабирования рабочей инфраструктуры для обеспечения своевременной и точной доставки данных в спецификации.

Azure Databricks предоставляет средства приема данных, включая автозагрузчик, эффективный и масштабируемый инструмент для добавочной и идемпотентной загрузки данных из облачного хранилища объектов и озер данных в data lakehouse.

Машинное обучение, ИИ и обработка и анализ данных

Машинное обучение Azure Databricks расширяет основные функциональные возможности платформы с помощью набора инструментов, адаптированных к потребностям специалистов по обработке и анализу данных и инженеров машинного обучения, включая MLflow и Databricks Runtime для Машинное обучение.

Крупные языковые модели и генерируемый ИИ

Среда выполнения Databricks для машинного обучения включает библиотеки, такие как Преобразователи распознавания лиц , которые позволяют интегрировать существующие предварительно обученные модели или другие библиотеки с открытым кодом в рабочий процесс. Интеграция Databricks MLflow упрощает работу с службой отслеживания MLflow вместе с конвейерами трансформера, моделями и компонентами обработки. Интегрируйте модели OpenAI или решения от партнеров, таких как John Snow Labs, в ваши рабочие процессы Databricks.

С помощью Azure Databricks настройте LLM на ваших данных для выполнения конкретной задачи. Благодаря поддержке инструментов с открытым исходным кодом, таких как Hugging Face и DeepSpeed, вы можете эффективно взять базовую модель LLM и начать обучение с использованием собственных данных для повышения точности модели в соответствии с вашим доменом и рабочими нагрузками.

Кроме того, Azure Databricks предоставляет функции искусственного интеллекта, которые аналитики данных SQL могут использовать для доступа к моделям LLM, в том числе из OpenAI, непосредственно в своих конвейерах данных и рабочих процессах. См. применение ИИ к данным с помощью функций ИИ Azure Databricks.

Хранение данных, аналитика и бизнес-аналитика

Azure Databricks объединяет пользовательские интерфейсы с экономичными вычислительными ресурсами и бесконечно масштабируемым, доступным хранилищем, чтобы обеспечить мощную платформу для выполнения аналитических запросов. Администраторы настраивают масштабируемые вычислительные кластеры в качестве хранилищ SQL, позволяя конечным пользователям выполнять запросы, не беспокоясь о каких-либо сложностях работы в облаке. Пользователи SQL могут выполнять запросы к данным в lakehouse с помощью редактора SQL-запросов или в тетрадях. Записные книжки поддерживают Python, R и Scala в дополнение к SQL и позволяют пользователям внедрять те же визуализации , доступные на устаревших панелях мониторинга вместе со ссылками, изображениями и комментариями, написанными в markdown.

Каталог Unity предоставляет единую модель управления данными для озера данных. Администраторы облака настраивают и интегрируют разрешения на управление доступом для каталога Unity, а затем администраторы Azure Databricks могут управлять разрешениями для команд и отдельных лиц. Привилегии управляются списками управления доступом (ACL) с помощью пользовательских интерфейсов или синтаксиса SQL, что упрощает доступ администраторов баз данных к данным без необходимости масштабировать управление доступом к данным в облаке (IAM) и сети.

Каталог Unity упрощает выполнение безопасной аналитики в облаке и разделяет ответственность для ограничения необходимости в переобучении или повышении квалификации для администраторов и конечных пользователей платформы. См. статью Что такое каталог Unity?.

Платформа Lakehouse упрощает совместное использование данных в вашей организации, делая его таким же простым, как предоставление доступа к таблице или представлению для выполнения запросов. Для совместного использования за пределами защищенной среды каталог Unity предоставляет управляемую версию Delta Sharing.

DevOps, CI/CD и оркестрация задач

Жизненные циклы разработки для конвейеров ETL, моделей машинного обучения и панелей мониторинга аналитики представляют свои уникальные проблемы. Azure Databricks позволяет всем пользователям использовать один источник данных, что снижает дублирование усилий и не синхронизированные отчеты. Кроме того, предоставляя набор общих средств для управления версиями, автоматизации, планирования, развертывания кода и рабочих ресурсов, вы можете упростить затраты на мониторинг, оркестрацию и операции.

Задания выполняются по расписанию: ноутбуки Azure Databricks, запросы SQL и другой произвольный код. Пакеты ресурсов Databricks позволяют определять, развертывать и запускать ресурсы Databricks, такие как задания и конвейеры программным способом. папки Git позволяют синхронизировать проекты Azure Databricks с несколькими популярными провайдерами Git.

Для получения рекомендаций и лучших практик CI/CD см. Рекомендации и рекомендуемые рабочие процессы CI/CD в Databricks. Полный обзор средств для разработчиков см. в статье "Разработка на Databricks".

Аналитика в режиме реального времени и потоковой передачи

Azure Databricks использует структурированную потоковую передачу Apache Spark для работы с потоковыми данными и добавочными изменениями данных. Структурированная потоковая передача тесно интегрируется с Delta Lake, и эти технологии предоставляют основы для декларативных конвейеров Lakeflow и автозагрузчика. См . основные понятия структурированной потоковой передачи.