Что такое озера данных?

Статья
2025-03-31

Озеро данных — это система управления данными, которая объединяет преимущества озер данных и хранилищ данных. В этой статье описывается шаблон архитектуры Lakehouse и то, что можно сделать с ним в Azure Databricks.

Схема архитектуры лейкхаус с использованием каталога Unity и дельта-таблиц.

Для чего используется data lakehouse?

Озера данных предоставляют масштабируемые возможности хранения и обработки для современных организаций, которые хотят избежать изолированных систем для обработки различных рабочих нагрузок, таких как машинное обучение (ML) и бизнес-аналитика (BI). Озеро данных может помочь установить один источник истины, исключить избыточные затраты и обеспечить свежесть данных.

Озера данных часто используют шаблон проектирования данных, который постепенно улучшает, обогащает и обновляет данные по мере их прохождения через этапы промежуточного хранения и преобразования. Каждый уровень Lakehouse может включать один или несколько уровней. Этот шаблон часто называется архитектурой медальона. Дополнительные сведения см. в разделе Что такое архитектура medallion lakehouse?

Как работает система Databricks Lakehouse?

Databricks основан на Apache Spark. Apache Spark включает масштабируемый модуль, работающий на вычислительных ресурсах, отложенных от хранилища. Дополнительные сведения см. в Apache Spark в Azure Databricks

Databricks lakehouse использует две дополнительные ключевые технологии:

Delta Lake: оптимизированный уровень хранения, поддерживающий транзакции ACID и принудительное применение схемы.
Каталог Unity: унифицированное, точное решение для управления данными и искусственным интеллектом.

Прием данных

На уровне приема пакетная или потоковая передача данных поступает из различных источников и в различных форматах. Этот первый логический слой предоставляет пространство для размещения данных в их необработанном формате. При преобразовании этих файлов в таблицы Delta можно использовать возможности принудительного применения схемы Delta Lake для проверки на наличие отсутствующих или неожиданных данных. Каталог Unity можно использовать для регистрации таблиц в соответствии с моделью управления данными и необходимыми границами изоляции данных. Каталог Unity позволяет отслеживать происхождение данных по мере преобразования и усовершенствования, а также применять единую модель управления для обеспечения конфиденциальности конфиденциальных данных и безопасности.

Обработка данных, организация и интеграция

После проверки можно начать упорядочивание и улучшение данных. Специалисты по обработке и анализу данных и специалисты по машинному обучению часто работают с данными на этом этапе, чтобы начать объединение или создание новых функций и завершить очистку данных. После тщательного очистки данных его можно интегрировать и реорганизовать в таблицы, предназначенные для удовлетворения конкретных бизнес-потребностей.

Подход schema-on-write, в сочетании с возможностями эволюции схемы Delta, означает, что вы можете вносить изменения в этот слой без необходимости переписывать логику на нижнем уровне, представляющую данные конечным пользователям.

Обслуживание данных

Последний слой служит чистым, обогащенным данным для конечных пользователей. Окончательные таблицы должны быть разработаны для предоставления данных для всех ваших случаев использования. Единая модель управления означает, что вы можете отслеживать происхождение данных до вашего единого источника истины. Макеты данных, оптимизированные для различных задач, позволяют конечным пользователям получать доступ к данным для приложений машинного обучения, инженерии данных и бизнес-аналитики и отчетности.

Дополнительные сведения о Delta Lake см. в статье Что такое Delta Lake? Дополнительные сведения о каталоге Unity см. в статье Что такое каталог Unity?

Возможности Озера Databricks

Лейкхаус, разработанный на платформе Databricks, устраняет существующую зависимость от озер данных и хранилищ данных для современных компаний, работающих с данными. Некоторые ключевые задачи, которые можно выполнить, включают:

обработка данных в режиме реального времени: обрабатывать потоковые данные в режиме реального времени для немедленного анализа и принятия решений.
интеграция данных: Объединить данные в одной системе, чтобы обеспечить совместную работу и установить единый источник истины для вашей организации.
эволюция схемы: изменять схему данных со временем, чтобы адаптироваться к изменению бизнес-потребностей без нарушения существующих конвейеров данных.
преобразования данных: Использование Apache Spark и Delta Lake обеспечивает скорость, масштабируемость и надежность данных.
анализ данных и отчеты: выполнять сложные аналитические запросы с движком, оптимизированным для нагрузок, связанных с хранением данных.
Машинное обучение и ИИ: применять расширенные методы аналитики ко всем данным. Используйте машинное обучение для обогащения данных и поддержки других рабочих нагрузок.
Версионность и происхождение данных: Поддерживать историю версий для наборов данных и отслеживать происхождение данных, чтобы обеспечить их достоверность и трассируемость.
управление данными: Использовать единую систему для управления доступом к данным и выполнения аудита.
совместное использование данных: упростить совместную работу, позволяя совместно использовать проверенные наборы данных, отчеты и аналитические сведения между командами.
операционная аналитика: отслеживать метрики качества данных, метрики качества модели и дрейф путем применения машинного обучения к данным мониторинга хранилища Lakehouse.

Lakehouse и Data Lake и хранилище данных

Хранилища данных поддерживают принятие решений в области бизнес-аналитики (BI) на протяжении примерно 30 лет, развиваясь как совокупность руководящих принципов проектирования систем, управляющих потоком данных. Корпоративные хранилища данных оптимизируют запросы для отчетов бизнес-аналитики, но могут занять несколько минут или даже часов, чтобы создать результаты. Предназначенные для данных, которые с большой вероятностью не будут изменяться часто, хранилища данных стремятся предотвратить конфликты при одновременном выполнении запросов. Многие хранилища данных используют собственные форматы, которые часто ограничивают поддержку машинного обучения. Хранилище данных в Azure Databricks использует возможности Databricks lakehouse и Databricks SQL. Дополнительные сведения см. в статье Что такое хранение данных в Azure Databricks?.

Благодаря технологическим достижениям в хранилище данных и благодаря экспоненциальному увеличению типов и объема данных озера данных стали широко использоваться в течение последнего десятилетия. Озера данных хранят и обрабатывают данные дешево и эффективно. Озера данных часто определяются в оппозиции к хранилищам данных: хранилище данных предоставляет чистые структурированные данные для аналитики бизнес-аналитики, а озеро данных постоянно и дешево хранит данные любого характера в любом формате. Многие организации используют озера данных для аналитики данных и машинного обучения, но не для отчетов бизнес-аналитики из-за их непроверенной природы.

Озеро-хранилище данных объединяет преимущества озер данных и хранилищ данных.

Открытый, прямой доступ к данным, хранящимся в стандартных форматах данных.
Протоколы индексирования, оптимизированные для машинного обучения и обработки и анализа данных.
Низкая задержка запросов и высокая надежность для бизнес-аналитики и расширенной аналитики.

Объединение оптимизированного слоя метаданных с проверенными данными, хранящимися в стандартных форматах в облачном хранилище объектов, data lakehouse позволяет специалистам по обработке и анализу данных создавать модели из одних и того же отчета бизнес-аналитики, управляемого данными.

Следующий шаг

Чтобы узнать больше о принципах и лучших практиках для реализации и эксплуатации озера данных с помощью Databricks, см. статью Общие сведения о хорошо спроектированном озере данных