Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Хранение данных относится к сбору и хранению данных из нескольких источников, что позволяет быстро получать доступ к бизнес-аналитике и отчетности. В этой статье содержатся основные понятия для создания хранилища данных в озере данных.
Хранение данных в озерном доме
Архитектура lakehouse и Databricks SQL предоставляют вашему озеру данных возможности облачных хранилищ данных. Используя знакомые структуры данных, отношения и средства управления, вы можете моделировать высокопроизводительное, экономичное хранилище данных, которое работает непосредственно в озере данных. Дополнительные сведения см. в разделе "Что такое озера данных"?
Как и в случае с традиционным хранилищем данных, вы моделиируете данные в соответствии с бизнес-требованиями, а затем обслуживаете их конечным пользователям для аналитики и отчетов. В отличие от традиционного хранилища данных, можно избежать разведения данных бизнес-аналитики или создания избыточных копий, которые быстро становятся устаревшими.
Создание хранилища данных в lakehouse позволяет перенести все данные в одну систему и воспользоваться преимуществами таких функций, как каталог Unity и Delta Lake.
Каталог Unity добавляет единую модель управления, чтобы обеспечить безопасность и аудит доступа к данным, а также предоставить сведения о происхождении данных в переходящих таблицах. Delta Lake добавляет транзакции ACID и эволюцию схемы, наряду с другими мощными средствами для обеспечения надежности, масштабируемости и высокого качества данных.
Что такое Databricks SQL?
Примечание.
Databricks SQL Serverless недоступен в Azure в Китае. Databricks SQL недоступен в регионах Azure Government.
Databricks SQL — это набор сервисов, обеспечивающих возможности хранилища данных и улучшающих производительность для ваших существующих озер данных. Databricks SQL поддерживает открытые форматы и стандартный SQL ANSI. Редактор SQL на платформе и средства мониторинга позволяют участникам команды сотрудничать с другими пользователями Databricks непосредственно в рабочей области. Databricks SQL также интегрируется с различными инструментами, чтобы аналитики могли создавать запросы и панели мониторинга в своих любимых средах без настройки новой платформы.
Databricks SQL предоставляет общие вычислительные ресурсы, выполняемые по отношению к таблицам в Лейкхаусе. Databricks SQL поддерживается хранилищами SQL, ранее называемыми конечными точками SQL, предлагая масштабируемые вычислительные ресурсы SQL, отложенные от хранилища.
Для получения дополнительной информации о настройках и параметрах склада SQL см. "Подключение к складу SQL".
Databricks SQL интегрируется с каталогом Unity, чтобы можно было обнаруживать, проверять и управлять ресурсами данных из одного места. Дополнительные сведения см. в статье Что такое каталог Unity?
Моделирование данных в Azure Databricks
Lakehouse поддерживает различные стили моделирования. На следующем рисунке показано, как данные организуются и моделируются по мере их движения через различные слои лейкхауса.
Архитектура медальона
Архитектура медальона — это шаблон проектирования данных, который описывает ряд поэтапно дорабатываемых слоев данных, обеспечивающих базовую структуру в «lakehouse». Бронзовые, серебряные и золотые слои свидетельствуют о повышении качества данных на каждом уровне с золотом, представляющим наивысшее качество. Дополнительные сведения см. в разделе "Что такое архитектура medallion lakehouse?".
В озерном доме каждый слой может содержать одну или несколько таблиц. Хранилище данных моделируется на серебряном уровне и питает специализированные витрины данных на золотом уровне.
Бронзовый слой
Данные могут входить в озеро в любом формате и с помощью любого сочетания пакетных или паровых транзакций. Бронзовый слой предоставляет место приземления для всех необработанных данных в их исходном формате. Эти данные преобразуются в таблицы Delta.
Серебряный слой
Серебряный слой объединяет данные из разных источников. В части бизнеса, которая сосредоточена на науке о данных и приложениях машинного обучения, вы начинаете формировать значимые ресурсы данных. Этот процесс часто отмечается акцентом на скорости и гибкости.
Серебряный слой также позволяет тщательно интегрировать данные из разных источников для создания хранилища данных в соответствии с существующими бизнес-процессами. Часто эти данные соответствуют модели третьего нормального типа (3NF) или Data Vault. Указание ограничений первичного и внешнего ключа позволяет конечным пользователям понимать связи таблиц при использовании каталога Unity. Хранилище данных должно служить единственным источником истины для ваших киосков данных.
Хранилище данных само по себе использует схему записи и является атомарным. Он оптимизирован для изменения, поэтому вы можете быстро изменить хранилище данных в соответствии с текущими потребностями при изменении или развитии бизнес-процессов.
Золотой слой
Золотой слой — это слой презентации, который может содержать одну или несколько витрин данных. Часто витрины данных представляют собой многомерные модели в виде набора связанных таблиц, которые отражают определенную бизнес-перспективу.
Золотой слой также содержит песочницы отдела и науки о данных, чтобы обеспечить самостоятельную аналитику и науку о данных на предприятии. Предоставление этих песочниц и собственных отдельных вычислительных кластеров запрещает группам бизнеса создавать копии данных за пределами lakehouse.
Следующий шаг
Чтобы узнать больше о принципах и лучших практиках по внедрению и эксплуатации lakehouse с помощью Databricks, см. «Введение в хорошо спроектированное озеро данных».