Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
На этой странице описывается, как настроить разностный общий доступ в Azure Databricks для поставщиков данных (организации, которые хотят использовать разностный общий доступ для безопасного доступа к данным).
Если вы являетесь получателем данных (организация, которая получает данные, которыми делятся через Delta Sharing), ознакомьтесь с разделом "Чтение данных, которыми делятся при помощи Databricks-to-Databricks Delta Sharing (для получателей).
Внимание
Для Delta Sharing требуется рабочая область с поддержкой Unity Catalog. Вы можете создать одну рабочую область с поддержкой каталога Unity для управления общими ресурсами. В некоторых учетных записях новые рабочие области для каталога Unity включаются автоматически. См. статью "Автоматическое включение каталога Unity".
Если создание рабочей области с поддержкой каталога Unity невозможно, вы можете использовать проект с открытым исходным кодом Delta Sharing для развертывания собственного сервера Delta Sharing для совместного использования таблиц Delta с любой платформой.
Начальная настройка поставщика включает следующие действия.
- Включите общий доступ Delta в метахранилище Unity Catalog.
- (Необязательно) Установите CLI Unity Catalog.
- Предоставьте привилегии для создания общих папок и получателей.
- Настройте аудиты деятельности Delta Sharing.
- Настройте срок жизни (TTL) материализации данных.
- Настройка доступа к сети хранилища.
Требования
Как поставщик данных, который настраивает учетную запись Azure Databricks, чтобы иметь возможность совместного использования данных, необходимо:
По крайней мере одна рабочая область Azure Databricks, включенная в Unity Catalog.
Вам не нужно перенести все рабочие области в каталог Unity, чтобы воспользоваться преимуществами поддержки Databricks для поставщиков Delta Sharing. Смотрите "Нужен ли каталог Unity для использования Delta Sharing?".
Получателям нет необходимости иметь рабочую область с поддержкой каталога Unity.
Роль администратора учетной записи для включения функции Delta Sharing для вашего хранилища метаданных Unity Catalog и включения ведения журнала аудита.
Роль администратора хранилища метаданных или права
CREATE SHARE
и привилегииCREATE RECIPIENT
. См. роли администратора.Примечание.
Если рабочая область включена для каталога Unity автоматически, возможно, у вас нет администратора хранилища метаданных. Однако администраторы рабочих областей в таких рабочих областях имеют
CREATE SHARE
права иCREATE RECIPIENT
привилегии в хранилище метаданных по умолчанию.Дополнительные сведения см. в разделе "Автоматическое включение прав администратора каталога Unity " и прав администратора рабочей области при автоматическом включении рабочих областей для каталога Unity.
Конфигурация облачного хранилища, которая разрешает доступ к сети от получателя.
Включение Delta Sharing на хранилище метаданных
Если вы планируете использовать Delta Sharing только для обмена данными с пользователями в других метахранилищах Unity Catalog в вашей учетной записи, вам не нужно включать Delta Sharing в вашем метахранилище. Общий доступ между хранилищами метаданных в рамках одной учетной записи Azure Databricks включен по умолчанию.
В противном случае выполните следующие действия для каждого хранилища метаданных каталога Unity, которое управляет данными, которые вы планируете предоставить общий доступ с помощью Delta Share.
Как администратор учетной записи Azure Databricks войдите в консоль учетной записи.
На боковой панели щелкните
Каталог.
Щелкните имя хранилища метаданных, чтобы открыть его сведения.
Установите флажок рядом с Включить Delta Sharing, чтобы разрешить пользователю Databricks предоставлять данные за пределы своей организации.
Настройте срок действия жетона получателя.
Эта конфигурация задает период времени, после которого у всех маркеров получателя истекает срок действия, и их необходимо повторно создать. Маркеры получателей используются только в открытом протоколе общего доступа . Databricks рекомендует настроить время существования маркера по умолчанию, а не разрешить маркерам жить бесконечно.
Примечание.
Время существования маркера получателя для существующих получателей не обновляется автоматически при изменении времени существования маркера получателя по умолчанию для хранилища метаданных. Чтобы применить новое время существования маркера к указанному получателю, необходимо повернуть его маркер. См. раздел "Управление маркерами получателей".
Чтобы задать время существования токена получателя по умолчанию, выполните указанные ниже действия.
Убедитесь, что установлен срок действия (это включено по умолчанию).
Если этот флажок снят, срок действия маркеров никогда не истекает. Databricks рекомендует устанавливать конечный срок действия токенов.
Введите число секунд, минут, часов или дней и выберите единицу измерения.
Нажмите кнопку "Включить".
Дополнительные сведения см. в разделе "Вопросы безопасности" для токенов.
При необходимости введите имя вашей организации, с помощью которого получатель может определить, кто предоставляет им общий доступ.
Нажмите кнопку "Включить".
(Необязательно) Установка интерфейса командной строки для каталога Unity
Для управления общими ресурсами и получателями можно использовать обозреватель каталогов, команды SQL или интерфейс командной строки каталога Unity. Интерфейс командной строки запускается в локальной среде и не требует вычислительных ресурсов Azure Databricks.
Чтобы установить интерфейс командной строки, ознакомьтесь с разделом "Что такое интерфейс командной строки Databricks?".
Предоставление разрешения на создание общих папок и получателей и управление ими
Администраторы Metastore могут создавать и управлять долями и получателями, включая предоставление долей получателям. Многие задачи поставщика можно делегировать администратором хранилища метаданных с помощью следующих привилегий:
-
CREATE SHARE
в хранилище метаданных предоставляет возможность создавать общие папки. -
CREATE RECIPIENT
в хранилище метаданных предоставляет возможность создавать получателей. -
USE RECIPIENT
позволяет перечислить и просмотреть сведения обо всех получателях в мета-хранилище. -
USE SHARE
в метахранилище предоставляет возможность перечислять и просматривать детали всех распределений в хранилище метаданных. -
USE RECIPIENT
иUSE SHARE,
SET SHARE PERMISSION
в сочетании дают пользователю возможность предоставлять общий доступ получателям. -
USE SHARE
иSET SHARE PERMISSION
в сочетании дают пользователю возможность передавать право собственности на любую долю. - Владельцы долей и получателей могут обновлять эти объекты и предоставлять доступ к долям получателям. Создатели объектов по умолчанию предоставляются права владения, но их можно передать.
- Владельцы общих ресурсов могут добавлять таблицы и тома в общие ресурсы, если у них есть
SELECT
доступ к таблицам иREAD VOLUME
доступ к томам.
Дополнительные сведения см. в разделе "Привилегии каталога Unity" и защищаемые объекты, а также разрешения, перечисленные для задач Delta Sharing, описанных выше.
Включение ведения журнала аудита
Как администратор учетной записи Azure Databricks необходимо включить ведение журнала аудита для записи событий Delta Sharing, таких как:
- Когда кто-то создает, изменяет, обновляет или удаляет общую папку или получателя
- Когда получатель обращается к ссылке активации и скачивает учетные данные (только открытый общий доступ)
- Когда получатель обращается к данным
- Когда учетные данные получателя обновляются или истекают (только для открытого доступа)
Внимание
Активность Delta Sharing логируется на уровне аккаунта. При настройке доставки журналов не введите значение для workspace_ids_filter
.
Чтобы включить ведение журнала аудита, следуйте инструкциям в справочнике по журналу диагностики.
Подробные сведения о том, как регистрируются события Delta Sharing, см. в статье "Аудит и мониторинг общего доступа к данным".
Настройка TTL материализации данных
В качестве учетной записи Azure Databricks или администратора хранилища метаданных можно настроить TTL материализации данных, которая определяет время кэширования материализованного результата. Материализация возникает, когда получатель запрашивает общие динамические представления, материализованные представления и потоковые таблицы. По умолчанию время жизни пакета (TTL) составляет восемь часов. Сам кэш будет удален после материализации через дополнительные три часа, предоставляя дополнительное время, чтобы существующие запросы могли завершиться.
Чтобы изменить это значение, сделайте следующее:
В рабочей области Azure Databricks щелкните
Каталог , чтобы открыть обозреватель каталогов.
В верхней части области каталога щелкните на значок шестеренки и выберите
Delta Sharing.
Кроме того, на странице Быстрый доступ нажмите кнопку Delta Sharing >.
На вкладке "Общий доступ со мной" щелкните имя организации в правом верхнем углу.
Щелкните Просмотреть параметры Delta Sharing.
В поле Materialization TTL введите желаемое значение TTL.
Разрешить сетевой доступ к хранилищу
Если базовое облачное хранилище настроено с помощью элементов управления доступом, добавьте сеть получателя в список разрешений, чтобы они могли читать общие таблицы.
Дополнительные сведения см. в статье "Настройка брандмауэров службы хранилища Azure" и виртуальных сетей и настройка брандмауэра для бессерверного доступа к вычислительным ресурсам.