Поделиться через


Что такое Delta Sharing?

На этой странице представлен разностный общий доступ в Azure Databricks, платформа безопасного доступа к данным и ИИ в Azure Databricks с пользователями за пределами вашей организации независимо от того, используют ли они Azure Databricks. Delta Sharing также является основой Databricks Marketplace, открытого форума для обмена продуктами данных, и чистые комнаты, безопасной и конфиденциальной среды, где несколько сторон могут совместно работать с конфиденциальными корпоративными данными.

Delta Sharing также доступен в качестве проекта с открытым исходным кодом, который можно использовать для совместного использования таблиц Delta с других платформ.

Как работает Delta Sharing?

Delta Sharing — это открытый протокол , разработанный Databricks для безопасного обмена данными с другими организациями независимо от используемых вычислительных платформ.

Существует три способа обмена данными, используя Delta Sharing:

  1. Протокол общего доступа Databricks to Databricks, который позволяет совместно использовать данные и ресурсы ИИ из рабочей области с поддержкой каталога Unity пользователям, которые также имеют доступ к рабочей области Databricks с поддержкой каталога Unity.

    Этот подход использует сервер delta Sharing, встроенный в Azure Databricks. Она поддерживает некоторые функции Delta Sharing, которые не поддерживаются в других протоколах, включая общий доступ к записным книжкам, общий доступ к хранилищам Unity Catalog, общий доступ к моделям искусственного интеллекта Unity Catalog, управление данными в Unity Catalog, аудит и отслеживание использования как для поставщиков, так и для получателей. Интеграция с каталогом Unity упрощает настройку и управление для поставщиков и получателей и повышает производительность.

    См. раздел «Обмен данными с использованием протокола Delta Sharing Databricks-to-Databricks (для поставщиков)».

  2. Протокол общего доступа Databricks, который позволяет совместно использовать табличные данные, управляемые в рабочей области Databricks с поддержкой каталога Unity, с пользователями на любой вычислительной платформе.

    Этот подход использует сервер Delta Share, встроенный в Azure Databricks, и полезен при управлении данными с помощью каталога Unity и хотите поделиться им с пользователями, которые не используют Databricks или не имеют доступа к рабочей области Databricks с поддержкой каталога Unity. Интеграция с каталогом Unity на стороне поставщика упрощает настройку и управление поставщиками.

    См. Как предоставить доступ к данным с помощью протокола открытого доступа Delta Sharing (для поставщиков).

  3. Реализация управляемого клиентом сервера Delta Sharing с открытым кодом, которая позволяет предоставлять общий доступ от любой платформы к любой платформе, независимо от того, используется ли Databricks или нет.

    Документация по Azure Databricks не содержит инструкции по настройке собственного сервера Delta Sharing. См. github.com/delta-io/delta-sharing.

Архитектура доступа к данным delta Sharing.

Акции, поставщики и получатели

Основными понятиями, лежащими в основе delta Sharing в Azure Databricks, являются общие ресурсы, поставщики и получатели.

Что такое акция?

В Delta Share общая папка — это коллекция таблиц и секций таблиц только для чтения, к которым поставщик хочет предоставить общий доступ одному или нескольким получателям. Если получатель использует рабочую область Databricks с поддержкой каталога Unity, вы также можете включить файлы записных книжек, представления (включая динамические представления, ограничивающие доступ на уровне строк и столбцов), томы каталога Unity и модели каталога Unity в общей папке.

Можно в любое время добавлять или удалять из общего доступа таблицы, потоковые таблицы, представления, материализованные представления, тома, модели и файлы записных книжек, а также назначать или отзывать доступ получателя данных к общей папке.

В рабочей области Azure Databricks с поддержкой каталога Unity общий ресурс — это защищаемый объект, зарегистрированный в каталоге Unity. Если удалить разделяемый ресурс из хранилища метаданных каталога Unity, все получатели потеряют доступ к нему.

См. Создание и управление долями для Delta Sharing.

Что такое поставщик?

Поставщик — это сущность, которая предоставляет доступ к данным получателю. Если вы являетесь поставщиком и хотите воспользоваться встроенным сервером Databricks Delta Sharing и управлять долями и получателями с помощью каталога Unity, вам потребуется по крайней мере одна рабочая область Azure Databricks, которая включена для каталога Unity. Вам не нужно перенести все существующие рабочие области в каталог Unity. Вы можете легко создать новую рабочую область с поддержкой Unity Catalog для ваших нужд в Delta Sharing.

Если получатель находится в рабочей области Databricks с поддержкой Unity Catalog, то поставщик также является защищаемым объектом Unity Catalog, который представляет организацию поставщика и связывает эту организацию с набором разделов.

Что такое получатель?

Получатель — это сторона, которая получает акции от поставщика. В Unity Catalog шар является защищаемым объектом, который представляет организацию и связывает его с учетными данными или идентификатором безопасного общего доступа, позволяющим организации получать доступ к одному или нескольким шарам.

В качестве поставщика данных (sharer) можно определить нескольких получателей для любого хранилища метаданных каталога Unity, однако если требуется предоставить общий доступ к данным из нескольких хранилищ метаданных с определенным пользователем или группой пользователей, необходимо задать получателя отдельно для каждого хранилища метаданных. У получателя может быть доступ к нескольким общим ресурсам.

Если поставщик удаляет получателя из хранилища метаданных каталога Unity, этот получатель теряет доступ ко всем общим папкам, к которым он ранее мог получить доступ.

См. Создайте и управляйте получателями данных для Delta Sharing (обмен данными между Databricks).

Открытый доступ против обмена Databricks с Databricks

В этом разделе описаны два протокола для совместного использования из рабочей области Databricks с включённым Unity Catalog.

Примечание.

В этом разделе предполагается, что поставщик находится в рабочей области Azure Databricks с поддержкой каталога Unity. Дополнительные сведения о настройке сервера с открытым исходным кодом Delta Sharing для совместного использования из платформы, отличной от Databricks, или рабочей области каталога, отличной от Unity, см. в github.com/delta-io/delta-sharing.

Способ использования Delta Sharing в Azure Databricks зависит от того, с кем они обмениваются данными:

  • Открыть общий доступ позволяет совместно использовать данные с любым пользователем, независимо от того, имеют ли они доступ к Azure Databricks.
  • Совместное использование Databricks-to-Databricks позволяет совместно использовать данные с пользователями Azure Databricks, чьи рабочие области присоединены к метахранилищу Unity Catalog, отличающемуся от вашего. Databricks-to-Databricks также поддерживает совместный доступ к записным книжкам, томам и моделям, который недоступен в открытом совместном доступе.

Что такое Open Delta Sharing?

Если вы хотите поделиться данными с пользователями за пределами рабочей области Azure Databricks, независимо от использования Databricks, вы можете использовать открытый доступ Delta Sharing для безопасного обмена данными. В качестве поставщика данных вы управляете проверкой подлинности с получателем общего доступа с помощью любого из следующих методов:

  • Вы создаете долгосрочный токен доступа и безопасно передаете его получателю. Они используют токен для аутентификации и получения доступа на чтение к таблицам, которые вы включили в разделяемые ресурсы, доступ к которым вы им предоставили.
  • Вы используете федерацию Open ID Connect (OIDC), предоставляя краткосрочные токены Databricks OAuth получателю в обмен на предоставленные токены JWT, которые поставщик удостоверений получателя передает Databricks.

Получатели могут получить доступ к общим данным с помощью множества вычислительных средств и платформ, включая:

  • Azure Databricks
  • Apache Spark
  • Pandas.
  • Power BI

Полный список соединителей Delta Share и сведения об их использовании см. в документации по Delta Share .

См. также обмен данными с использованием протокола Delta Sharing для обеспечения открытого доступа (для поставщиков).

Что такое Databricks to Databricks Delta Sharing?

Если вы хотите поделиться данными с пользователями, у которых есть рабочая область Databricks, в которой включен Unity Catalog, можно использовать функцию Databricks-to-Databricks Delta Sharing. Совместное использование Databricks to Databricks позволяет обмениваться данными с пользователями в других учетных записях Databricks, будь то aws, Azure или GCP. Это также отличный способ безопасно предоставлять общий доступ к данным в разных хранилищах метаданных каталога Unity в собственной учетной записи Databricks. Обратите внимание, что для обмена данными между рабочими областями, подключенными к одному хранилищу метаданных Unity Catalog, не требуется использовать Delta Sharing, поскольку в этом сценарии можно использовать сам Unity Catalog для управления доступом к данным в разных рабочих областях.

Одним из преимуществ общего доступа Databricks to Databricks является то, что получатель общего ресурса не нуждается в маркере для доступа к общей папке, и поставщику не нужно управлять маркерами получателей. Безопасность подключения общего доступа, включая проверку удостоверения личности, аутентификацию и аудит, полностью осуществляется через Delta Sharing и платформу Databricks. Еще одним преимуществом является возможность обмена файлами записных книжек Databricks, представлениями, томами и моделями каталога Unity.

См. также совместное использование данных с помощью протокола Delta Sharing Databricks-to-Databricks (для поставщиков).

Как администраторы поставщиков настраивают Delta Sharing?

В этом разделе представлен обзор того, как поставщики могут включить Delta Sharing и начать процесс обмена из рабочей области Azure Databricks с поддержкой Unity Catalog. Для Delta Sharing с открытым исходным кодом см. github.com/delta-io/delta-sharing.

Обмен данными между хранилищами метаданных в Unity Catalog в пределах одной учетной записи в Databricks всегда активирован. Если вы являетесь поставщиком, который хочет включить Delta Sharing для совместного использования данных с рабочими областями Databricks в других учетных записях или клиентами, не являющимися Databricks, администратор учетной записи Azure Databricks или администратор хранилища метаданных выполняет следующие действия по настройке на высоком уровне:

  1. Включите Delta Sharing для хранилища метаданных каталога Unity, которое управляет данными, которые вы хотите сделать доступными для общего доступа.

    Примечание.

    Если вы планируете использовать Delta Sharing для совместного использования данных только с пользователями в других хранилищах метаданных Unity Catalog в вашей учетной записи, вам не нужно включать Delta Sharing в вашем хранилище метаданных. В одной учетной записи Azure Databricks общий доступ к хранилищам метаданных включен по умолчанию.

    См. Включение Delta Sharing в метахранилище.

  2. Создайте общий доступ, содержащий ресурсы данных, зарегистрированные в метахранилище Unity Catalog.

    Если вы публикуете информацию для получателя вне Databricks (известно как открытая публикация), вы можете включить таблицы в формате Delta или Parquet. Если вы планируете использовать совместное использование Databricks to Databricks, вы также можете добавить представления, тома каталога Unity, модели каталога Unity и файлы записной книжки в общую папку.

    См. Создание и управление долями для Delta Sharing.

  3. Создайте получателя.

    См. Создайте и управляйте получателями данных для Delta Sharing (обмен данными между Databricks).

    Если получатель не является пользователем Databricks или не имеет доступа к рабочей области Databricks, включенной для каталога Unity, необходимо использовать открытый общий доступ. Вы можете создавать учетные данные на основе маркеров доступа для этого получателя или использовать федерацию аутентификации OIDC.

    Если у получателя есть доступ к рабочей области Databricks, которая включена для каталога Unity, можно использовать общий доступ Databricks to Databricks, а учетные данные на основе маркеров не требуются. Вы запрашиваете идентификатор общего доступа от получателя и используете его для установления безопасного подключения.

    Совет

    Используйте себя в качестве тестового получателя, чтобы попробовать процесс установки.

  4. Предоставьте получателю доступ к одной или нескольким акциям.

    См. раздел "Управление доступом к общим папкам данных Delta Sharing" (для поставщиков).

    Примечание.

    Этот шаг также может выполняться пользователем без администратора с USE SHAREUSE RECIPIENT правами и SET SHARE PERMISSION привилегиями. Ознакомьтесь с привилегиями каталога Unity и защищаемыми объектами.

  5. Отправьте получателю сведения, необходимые для подключения к общему ресурсу (только для открытого доступа).

    Чтобы обеспечить общий доступ с помощью токенов на предъявителя, используйте защищенный канал для отправки получателю ссылки активации, которая позволяет ему загрузить свои учетные данные, основанные на токенах. См. статью "Отправить получателю сведения о подключении".

    Чтобы открыть общий доступ с помощью федерации маркеров OIDC, отправьте созданный URL-адрес портала. См. раздел "Использование федерации Open ID Connect (OIDC) для проверки подлинности общих ресурсов Delta Sharing (открытый общий доступ)".

    Для общего доступа Databricks to Databricks данные, включенные в общую папку, становятся доступными в рабочей области Databricks получателя, как только вы предоставите им доступ к общей папке.

Теперь получатель может получить доступ к общим данным.

Как получатели получают доступ к общим данным?

Получатели получают доступ к общим ресурсам данных в формате только для чтения. Общие файлы записных книжек доступны только для чтения, но их можно клонировать, а затем изменить и запустить в рабочей области получателя так же, как и любую другую записную книжку.

Безопасный доступ зависит от модели общего доступа:

Всякий раз, когда поставщик данных обновляет таблицы данных или тома в собственной учетной записи Databricks, обновления отображаются практически в режиме реального времени в системе получателя. Чтобы узнать, как получить доступ к данным, которыми с вами поделились с помощью Delta Sharing, см. раздел Доступ к данным, которыми с вами поделились с помощью Delta Sharing (для получателей).

Как отслеживать, кто предоставляет общий доступ к общим данным и обращается к ним?

Поставщики данных в рабочих областях Azure Databricks с поддержкой каталога Unity могут использовать ведение журнала аудита Azure Databricks и системные таблицы для мониторинга создания и изменения разделяемых ресурсов и получателей, а также могут отслеживать действия получателей в разделяемых ресурсах. См. статью "Аудит и мониторинг общего доступа к данным".

Получатели данных, использующие общие данные в рабочей области Databricks, могут использовать ведение журнала аудита Databricks и системные таблицы для понимания доступа к данным. См. статью "Аудит и мониторинг общего доступа к данным".

Распространение томов

Вы можете делиться томами с помощью механизма общего доступа «Databricks-to-Databricks». См. раздел Добавление томов в общую папку (для поставщиков) и Чтение общих данных с помощью Databricks-to-Databricks Delta Sharing (для получателей).

Обмен моделями

Вы можете обмениваться моделями, используя процесс обмена Databricks-to-Databricks. Дополнительные сведения см. в разделах "Добавление моделей в общую папку" (для поставщиков) и "Чтение данных, общих с помощью Databricks-to-Databricks Delta Sharing" (для получателей).

Общий доступ к записным книжкам

Вы можете использовать Delta Sharing, чтобы делиться файлами записных книжек с помощью схемы общего доступа между Databricks. См. статью "Добавление файлов записной книжки в общую папку ( для поставщиков) и чтение общих записных книжек (для получателей).

Ограничение доступа на уровне строки и столбца

Вы можете делиться динамическими представлениями, которые ограничивают доступ к определенным данным таблицы на основе свойств получателя. Для общего доступа к динамическому представлению требуется поток обмена между Databricks. См. раздел "Добавление динамических представлений в общую папку" для фильтрации строк и столбцов.

Delta обмен данными и потоковая передача

Delta Sharing поддерживает структурированную потоковую передачу Apache Spark. Поставщик может совместно использовать таблицу с историей или, например, потоковую таблицу, чтобы получатель смог использовать ее в качестве источника структурированной потоковой передачи, постепенно обрабатывая общие данные с малой задержкой. Получатели также могут выполнять запросы с использованием функции перемотки времени Delta Lake на таблицах, общих с историей.

Чтобы узнать, как делиться таблицами с историей, см. Добавление таблиц в общую таблицу. Сведения об использовании общих таблиц в качестве источников потоковой передачи можно найти в разделе Запрос таблицы с помощью структурированной потоковой передачи Apache Spark (для получателей обмена данными Databricks на Databricks) или Доступ к общей таблице с помощью структурированной потоковой передачи Spark (для получателей открытого обмена данными).

Чтобы узнать о том, как делиться потоковыми таблицами, см. раздел Добавление потоковых таблиц в общую папку.

См. также основные понятия структурированной потоковой передачи.

Матрица поддержки функций Delta Lake

Delta Sharing поддерживает большинство функций Delta Lake при совместном использовании таблицы. В этой матрице поддержки перечислены:

  • Возможности Delta, требующие определенных версий Databricks Runtime, или соединителей с открытым исходным кодом для Spark или Python.
  • Частично поддерживаемые функции.
Функция Поставщик Адресат Databricks Получатель открытого исходного кода
Векторы удаления
  • Общедоступные таблицы с этой функцией доступны в предварительной версии.
  • Таблицы должны быть общими с историей.
  • Databricks Runtime 14.1+ для пакетных запросов
  • Databricks Runtime 14.2+ для запросов CDF и потоковой передачи
  • Соединитель Delta Sharing Spark 3.1+
  • Разъём Delta Sharing для Python 1.1.0+
  • Power BI версии 2.132.908.0+
Сопоставление столбцов
  • Общедоступные таблицы с этой функцией доступны в предварительной версии.
  • Таблицы должны быть общими с историей.
  • Databricks Runtime 14.1+ для пакетных запросов
  • Databricks Runtime 14.2+ для запросов CDF и потоковой передачи
  • Соединитель Delta Sharing Spark 3.1+
  • Разъём Delta Sharing для Python 1.1.0+
  • Power BI версии 2.132.908.0+
Универсальный формат
  • Общедоступные таблицы с этой функцией доступны в предварительной версии.
  • Таблицы должны быть общими с историей.
  • Databricks Runtime 14.1+ для пакетных запросов
  • Databricks Runtime 14.2+ для запросов CDF и потоковой передачи
  • Соединитель Delta Sharing Spark 3.1+
  • Разъём Delta Sharing для Python 1.1.0+
  • Power BI версии 2.132.908.0+
Контрольная точка V2 Поддерживается с ограничениями Поддерживается с ограничениями Поддерживается с ограничениями
Метка времени (без учета часового пояса) Поддерживается Среда выполнения Databricks 14.1+ Соединитель Delta Sharing Spark 3.3+
Кластеризация жидкости Поддерживается с ограничениями Поддерживается с ограничениями Поддерживается с ограничениями

Часто задаваемые вопросы о Delta Sharing

Ниже приведены часто задаваемые вопросы о Delta Sharing.

Нужен ли каталог Unity для использования Delta Sharing?

Нет, вам не нужен каталог Unity для отправки (в качестве поставщика) или потребления общих данных (в качестве получателя). Однако каталог Unity предоставляет такие преимущества, как поддержка общего доступа к нетабличным ресурсам и ресурсам ИИ, а также стандартная система управления, простота эксплуатации и производительность запросов.

Поставщики могут предоставлять общий доступ к данным двумя способами:

  • Разместите ресурсы для совместного использования под управление Unity Catalog и делитесь ими с помощью встроенного сервера Delta Sharing Azure Databricks.

    Вам не нужно переносить все ресурсы в каталог Unity. Для управления ресурсами, которые вы хотите предоставить в общий доступ, вам требуется только одна рабочая область Azure Databricks, поддерживающая каталог Unity. В некоторых учетных записях новые рабочие области для каталога Unity включаются автоматически. См. статью "Автоматическое включение каталога Unity".

  • Реализуйте сервер Delta Sharing с открытым доступом для обмена данными, без необходимости использования вашей учетной записи Azure Databricks.

Получатели могут потреблять данные двумя способами:

См. раздел "Чтение данных, предоставленных" с помощью открытого общего доступа Delta Sharing с токенами доступа (для получателей) и Чтение данных, предоставленных с помощью Databricks-to-Databricks Delta Sharing (для получателей).

Нужно ли быть клиентом Databricks для использования Delta Sharing?

Нет, Delta Sharing — это открытый протокол. Вы можете предоставлять общий доступ к данным, не относящимся к Databricks, для получателей на любой платформе данных. Поставщики могут настроить сервер Delta Sharing с открытым доступом, делясь данными с любой вычислительной платформой. Получатели могут использовать общие данные с помощью соединителей Delta Sharing с открытым кодом для многих продуктов данных, включая Power BI, pandas и Spark.

Однако использование Delta Sharing в Azure Databricks, особенно совместное использование из рабочей области с поддержкой Unity Catalog, имеет множество преимуществ.

Дополнительные сведения см. в первом вопросе этого FAQ.

Как нести и проверять затраты на Delta Sharing?

Стоимость Delta Sharing возникает при совместном использовании и доступе к представлениям, материализованным представлениям и потоковым таблицам. Существует два потенциальных источника затрат на общий доступ:

  • Затраты на вычисления, оплачиваемые Azure Databricks.
  • Плата за хранение и сетевую передачу (исходящий трафик) взимается поставщиком хранилища.

Метод, с помощью которого выполняется вычисление и кто платит за него, зависит от нескольких факторов:

  • Тип получателя вычислений
  • Происходит ли совместное использование в одной учетной записи Azure Databricks или между учетными записями

В следующей таблице описывается метод выставления счетов за общий доступ к представлениям и их использование с помощью Delta Sharing.

Вычисление для получателя Связь с учетной записью Кто платит Номер SKU, используемый для выставления счетов Метод доступа
Бессерверная архитектура Databricks Любое Получатель Получатель использует бессерверную архитектуру Получатель получает прямой доступ к базовым данным
Классическая модель Databricks Та же учетная запись Получатель Классика получателя Получатель получает прямой доступ к базовым данным
Классическая модель Databricks Другая учетная запись Получатель Интерактивные функции бессерверной платформы поставщика Поставщик выполняет фильтрацию
Откройте Delta Sharing коннекторы Любое Поставщик Интерактивная бессерверная архитектура от поставщика Поставщик выполняет фильтрацию

Атрибуция выставления счетов также может быть запрошена с использованием ссылки на системную таблицу выставляемого использования и ссылки на системную таблицу истории разностной материализации Delta Sharing. Если получатель платит за присвоение, то только получатель может увидеть связанную запись в системной таблице. Примеры запросов см. в разделе "Примеры запросов".

Есть ли затраты на выход при использовании Delta Sharing?

Дельта-обмен внутри региона не требует затрат на исходящий трафик. В отличие от других платформ для обмена данными, Delta Sharing не требует репликации данных. Эта модель имеет множество преимуществ, но это означает, что поставщик облачных служб может взимать плату за исходящий трафик при отправке данных между облаками или регионами. Azure Databricks поддерживает общий доступ из Cloudflare R2, который не несет платы за исходящий трафик, а также предоставляет другие средства и рекомендации для отслеживания и предотвращения сборов исходящего трафика. Ознакомьтесь с разделом "Мониторинг и управление затратами на исходящий трафик Delta Sharing" (для поставщиков).

Имеют ли получатели прямой доступ к базовым данным в общих представлениях, материализованных представлениях и потоковых таблицах?

Получатель данных имеет только прямой доступ к общим представлениям, материализованным представлениям и таблицам потоковой передачи, если они находятся в той же учетной записи Azure Databricks или используют бессерверные вычисления из другой учетной записи. В противном случае данные будут материализованы и отфильтрованы на стороне поставщика. Материализация данных хранится в родительском расположении общего хранилища данных.

При совместном использовании материализованных ресурсов вычислительные ресурсы обрабатывают запрос, применяя необходимые фильтры и создавая временную материализацию, кэшированную в хранилище поставщика. Эти отфильтрованные данные доставляются получателям с помощью предварительно подписанных кратковременных URL-адресов, обеспечивая безопасный доступ при сохранении контроля доступа "поставщик — получатель".

Архитектура доступа к материализованным данным.

Могут ли поставщики отозвать доступ получателя?

Да, доступ получателя можно отменить по требованию и для указанной степени детализации. Вы можете запретить получателю доступ к определенным общим папкам и определенным IP-адресам, фильтровать табличные данные для получателя, отменять маркеры получателя и полностью удалять получателей. См. Отзыв доступа получателей к ресурсу и Создание и управление получателями данных для Delta Sharing (обмен данными между Databricks и Databricks).

Является ли использование предварительно подписанных URL-адресов небезопасным?

Delta Sharing использует предварительно подписанные URL-адреса для предоставления временного доступа к файлу в объектном хранилище. Они предоставляются только получателям, у которых уже есть доступ к общим данным. Они защищены, так как они являются короткими и не расширяют уровень доступа за пределами того, что получатели уже получили.

Надежны ли токены, используемые в протоколе открытого доступа Delta Sharing?

Так как Дельта-шаринг обеспечивает кроссплатформенный обмен данными, в отличие от других доступных платформ обмена, протокол требует использования открытого токена доступа. Поставщики могут обеспечить безопасность токенов, настроив время существования токена и сетевые элементы управления и отменив доступ по запросу. Кроме того, токен не расширяет уровень доступа за рамки разрешений, которые получатели уже получили. См. раздел "Вопросы безопасности токенов".

Если вы предпочитаете не использовать токены для управления доступом к общим папкам получателей, следует использовать совместное использование между Databricks или связаться с командой Databricks для альтернативных вариантов.

Что такое разница между Lakeflow Connect и delta Sharing?

Delta Sharing позволяет безопасно делиться актуальными данными между платформами, облаками и регионами. Databricks рекомендует использовать управляемые соединители для поглощения данных, поскольку они масштабируются для обработки больших объемов данных, низколатентных запросов и ограничений сторонних API. Однако может потребоваться запросить данные, не перемещая их.

Если у вас есть выбор между управляемыми соединителями и Delta Sharing, выберите Delta Sharing для следующих сценариев:

  • Ограничение дублирования данных.
  • Запрашивая самые свежие возможные данные.

Ограничения

См. также матрицу поддержки функций Delta Lake.

Квоты ресурсов

Azure Databricks применяет квоты ресурсов ко всем защищаемым объектам Delta Sharing. Эти квоты перечислены в ограничениях ресурсов. Если вы ожидаете превышение этих ограничений ресурсов, обратитесь к группе учетных записей Azure Databricks.

Вы можете отслеживать использование квоты с помощью API квот ресурсов Unity Catalog. См. статью "Мониторинг использования квот ресурсов каталога Unity".

Следующие шаги