Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье показано, как создать хранилище метаданных каталога Unity и связать его с рабочими областями.
Внимание
Для рабочих областей, которые были автоматически подключены к каталогу Unity, инструкции из этой статьи не нужны. Databricks начал автоматически включать новые рабочие области для Unity Catalog 9 ноября 2023 года, с постепенным развертыванием по учетным записям. Инструкции, описанные в этой статье, необходимо выполнить только в том случае, если у вас есть рабочая область и у вас еще нет хранилища метаданных в вашем регионе рабочей области. Сведения о том, существует ли хранилище метаданных в вашем регионе, см. в статье автоматическое включение каталога Unity.
Хранилище метаданных — это контейнер верхнего уровня для данных в каталоге Unity. Хранилища метаданных каталога Unity регистрируют метаданные о защищаемых объектах (например, таблицах, томах, внешних расположениях и общих ресурсах) и разрешениях, которые управляют доступом к ним. Каждое хранилище метаданных предоставляет 3-уровневое пространство имен (catalog
.schema
.table
), с помощью которого можно упорядочить данные. Необходимо иметь одно хранилище метаданных для каждого региона, в котором работает ваша организация. Чтобы работать с каталогом Unity, пользователи должны находиться в рабочей области, подключенной к хранилищу метаданных в своем регионе.
Чтобы создать хранилище метаданных, сделайте следующее:
В учетной записи Azure опционально создайте расположение для хранилища на уровне метастора управляемых таблиц и томов.
Сведения, которые помогут вам решить, требуется ли хранилище на уровне метаданных, см. в разделе (Необязательно) Создание хранилища метаданных, а данные физически разделены в хранилище.
В своей учетной записи Azure создайте управляемое удостоверение Azure или служебный принципал, предоставляющие доступ к этому хранилищу.
В Azure Databricks создайте метахранилище, подключите расположение хранилища и назначьте рабочие области метахранилищу.
Примечание.
Помимо использования подходов, описанных в этой статье, вы также можете создать хранилище метаданных с помощью поставщика Databricks Terraform и в частности с помощью ресурса databricks_metastore. Чтобы разрешить Unity Catalog доступ к хранилищу метаданных, используйте databricks_metastore_data_access. Чтобы связать рабочие области с хранилищем метаданных, используйте databricks_metastore_assignment.
Перед тем, как начать
Прежде чем начать, ознакомьтесь с основными понятиями каталога Unity, включая хранилища метаданных и управляемое хранилище. См. статью Что такое Unity Catalog?
Кроме того, необходимо убедиться, что выполнены следующие требования для всех шагов установки:
Вы должны быть администратором учетных записей в Azure Databricks.
Первый администратор учетной записи Azure Databricks должен быть глобальным администратором Microsoft Entra ID в момент первого входа в консоль учетной записи Azure Databricks. После первого входа этот пользователь становится администратором учетной записи Azure Databricks и больше не нуждается в роли глобального администратора Microsoft Entra ID, чтобы получить доступ к учетной записи Azure Databricks. Первый администратор учетной записи может назначать пользователей в клиенте Microsoft Entra ID в качестве дополнительных администраторов учетных записей (которые могут назначать других администраторов учетных записей). Дополнительные администраторы учетных записей не требуют определенных ролей в идентификаторе Microsoft Entra.
Рабочие области, которые вы присоединяете к хранилищу метаданных, должны находиться в плане Azure Databricks Premium.
Если вы хотите настроить корневое хранилище на уровне хранилища метаданных, необходимо иметь разрешение на создание следующего файла в клиенте Azure:
- Учетная запись хранения для использования с Azure Data Lake Storage. См. статью "Создание учетной записи хранения для использования с Azure Data Lake Storage".
- Новый ресурс для хранения управляемого удостоверения, назначаемого системой. Для этого необходимо быть участником или владельцем группы ресурсов в любой подписке в арендаторе.
Шаг 1 (необязательно). Создание контейнера хранилища для управляемого хранилища на уровне метаданных
На этом шаге, который является необязательным, вы создаете учетную запись хранения и контейнер для хранения данных управляемой таблицы и тома на уровне метахранилища. Чтобы определить, требуется ли хранилище на уровне метаданных, см. раздел (Необязательно) Создание хранилища метаданных на уровне хранилища.
Создайте учетную запись хранения для Azure Data Lake Storage.
Эта учетная запись хранения будет содержать управляемые таблицы и тома каталога Unity. Это должна быть учетная запись Azure Data Lake Storage, находящаяся в том же регионе, что и рабочие области Azure Databricks. См. статью "Создание учетной записи хранения для использования с Azure Data Lake Storage".
Создайте контейнер для хранения, который будет содержать управляемые таблицы и данные томов на уровне метахранилища.
Вы можете создать только одно хранилище метаданных в каждом регионе. Необходимо использовать тот же регион для хранилища метаданных и контейнера хранилища.
Это расположение хранилища метаданных можно переопределить на уровнях каталога и схемы. См. раздел "Указание расположения управляемого хранилища" в каталоге Unity.
Запишите URI для ADLSv2-контейнера в формате:
abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<metastore-name>
В приведенных ниже шагах замените
<storage-container>
этим URI.
Шаг 2 (необязательно). Создайте управляемое удостоверение для доступа к расположению управляемого хранилища
На этом этапе, который требуется только в том случае, если вы завершили шаг 1, создайте соединитель доступа Azure Databricks, содержащий управляемое удостоверение, и предоставьте ему доступ к контейнеру хранилища.
Следуйте инструкциям из руководства по использованию управляемых удостоверений Azure в каталоге Unity для доступа к хранилищу.
Примечание.
Вы можете использовать управляемое удостоверение Azure или служебный принципал в качестве удостоверения, предоставляющего доступ к контейнеру хранилища метастора. Databricks настоятельно рекомендует управляемые удостоверения, так как они не требуют хранения учетных данных или смены секретов, и они позволяют подключаться к учетной записи Azure Data Lake Storage, защищенной брандмауэром хранилища. Если вы хотите использовать учетную запись службы, см. статью «Создание управляемого хранилища Unity Catalog с помощью учетной записи службы (устаревшая версия)».
Шаг 3. Создание хранилища метаданных и присоединение рабочей области
Для каждого региона Azure Databricks требуется собственный метареестр каталога Unity.
Создайте хранилище метаданных для каждого региона, в котором работает ваша организация. Каждое из этих региональных хранилищ метаданных можно связать с любым количеством рабочих областей в этом регионе. Каждая связанная рабочая область имеет одинаковое представление данных в хранилище метаданных, а управление доступом к данным можно осуществлять в разных рабочих областях. Доступ к данным можно получить в других хранилищах метаданных с помощью delta Sharing.
Если вы решили создать хранилище на уровне метаданных, хранилище метаданных будет использовать контейнер хранилища и управляемое удостоверение Azure, созданное на предыдущих шагах.
Чтобы создать хранилище метаданных, выполните приведенные далее действия.
Если вы решили создать хранилище на уровне метаданных, убедитесь, что у вас есть путь к контейнеру хранилища и идентификатору ресурса соединителя доступа Azure Databricks, созданному в предыдущей задаче.
Войдите в рабочую область в качестве администратора учетной записи.
Щелкните имя пользователя в верхней строке рабочей области Azure Databricks и выберите "Управление учетной записью".
Войдите в консоль учетной записи Azure Databricks.
Щелкните
Каталог.
Нажмите кнопку "Создать хранилище метаданных".
Введите следующее:
Name для хранилища метаданных.
Region (Регион) — регион развертывания хранилища метаданных.
Он должен находиться в том же регионе, что и рабочие области, которые вы хотите использовать для доступа к данным. Если вы решили создать контейнер для хранилища метаданных, этот регион должен быть тем же.
(Необязательно) Путь к ADLS Gen 2: введите путь к контейнеру хранилища, который будет использоваться в качестве корневого хранилища для метахранилища.
Префикс
abfss://
добавляется автоматически.(Необязательно) Идентификатор соединителя доступа: введите идентификатор ресурса соединителя доступа Azure Databricks в формате:
/subscriptions/12f34567-8ace-9c10-111c-aea8eba12345c/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
Нажмите кнопку Создать.
При появлении запроса выберите рабочие области для привязки к хранилищу метаданных.
Дополнительные сведения см. в разделе "Включение рабочей области для каталога Unity".
Перенесите роль администратора хранилища метаданных в группу.
Пользователь, создающий хранилище метаданных, также называется администратором хранилища метаданных. Администратор хранилища метаданных может создавать объекты верхнего уровня в хранилище метаданных, например каталоги, и управлять доступом к таблицам и другим объектам. Databricks рекомендует переназначить роль администратора хранилища метаданных группе. См. статью Назначение администратора хранилища метаданных.
Включите управление отправкой данных в управляемые тома Azure Databricks.
Azure Databricks использует обмен ресурсами между источниками (CORS) для загрузки данных в управляемые тома в Unity Catalog. Сведения о настройке учетной записи хранения каталога Unity для CORS.