Поделиться через


Подключение к источникам данных

В этой статье даются субъективные рекомендации о том, как администраторы и другие опытные пользователи могут настраивать подключения между Azure Databricks и источниками данных. Если вы пытаетесь определить, есть ли у вас доступ к чтению данных из внешней системы, сначала просмотрите данные, к которым у вас есть доступ в вашей рабочей области. См. статью " Обнаружение данных".

Примечание.

Сведения о подключении к внешним службам, которые не обязательно являются источниками данных, см. в статье "Управление доступом к внешним облачным службам с помощью учетных данных службы".

Вы можете подключить учетную запись Azure Databricks к таким источникам данных, как облачное хранилище объектов, системы управления реляционными базами данных, службы потоковых данных и корпоративные платформы, такие как CRM. Определенные привилегии, необходимые для настройки подключений, зависят от источника данных, способа настройки разрешений в рабочей области Azure Databricks, необходимых разрешений для взаимодействия с данными в источнике, модели управления данными и предпочитаемого метода подключения.

Большинство методов требуют повышенных привилегий как в источнике данных, так и в рабочей области Azure Databricks, чтобы настроить необходимые разрешения для интеграции систем. Пользователи без этих разрешений должны запрашивать справку. См. статью "Запрос доступа к источникам данных".

Настройка подключений к хранилищу объектов

Облачное хранилище объектов предоставляет основу для хранения большинства данных в Azure Databricks. Дополнительные сведения о облачном хранилище объектов и о том, где Azure Databricks хранит данные, см. в статье "Где azure Databricks записывает данные?".

Databricks рекомендует использовать каталог Unity для настройки доступа к облачному хранилищу объектов. Каталог Unity предоставляет управление данными для структурированных и неструктурированных данных в облачном хранилище объектов. См. статью "Подключение к облачному хранилищу объектов и службам с помощью каталога Unity".

Клиенты, не использующие каталог Unity, должны настраивать подключения с помощью устаревших методов. См. Настройка доступа к облачному хранилищу объектов для Azure Databricks.

Сведения о настройке сети в облачном хранилище объектов см. в разделе "Сеть".

Настройка подключений к внешним системам

Databricks рекомендует несколько вариантов настройки подключений к внешним системам данных в зависимости от ваших потребностей. В следующей таблице представлен общий обзор этих параметров:

Вариант Описание
Коннекторы федерации запросов Федерация Lakehouse предоставляет доступ только для чтения к данным в корпоративных системах данных. Подключения настраиваются с помощью каталога Unity на уровне каталога или схемы, синхронизируя несколько таблиц с одной конфигурацией. См. статью "Что такое Федерация Lakehouse?".
Коннекторы управляемого ввода данных Lakeflow Connect позволяет администраторам создавать подключение и конвейер управляемого приема данных одновременно в пользовательском интерфейсе приема данных. См. Managed connectors in Lakeflow Connect.
Если пользователи, которые будут создавать конвейеры, являются неадминистраторными пользователями или планируют использовать API Databricks, пакеты SDK Databricks, интерфейс командной строки Databricks или Наборы ресурсов Databricks, администратор должен сначала создать подключение в обозревателе каталогов. Эти интерфейсы требуют, чтобы пользователи указали существующее подключение при создании конвейера. См. Подключение к управляемым источникам приёма.
Соединители потоковой передачи Azure Databricks предоставляет оптимизированные соединители для многих систем потоковой передачи данных.
Для всех источников данных потоковой передачи необходимо создать учетные данные, которые предоставляют доступ и загружают эти учетные данные в Azure Databricks. Databricks рекомендует хранить учетные данные с помощью секретов, так как вы можете использовать секреты для всех параметров конфигурации и во всех режимах доступа.
Все соединители данных для источников потоковой передачи поддерживают передачу учетных данных с помощью параметров при определении потоковых запросов. См. Загрузка данных в Azure Databricks Lakehouse.
Интеграция сторонних продуктов Используйте сторонние инструменты для подключения к внешним источникам данных и автоматизации загрузки данных в Lakehouse. Некоторые решения также включают обратный ETL и прямой доступ к данным Lakehouse из внешних систем. См. статью Что такое Databricks Partner Connect?.
Драйверы Azure Databricks включает драйверы для внешних систем данных в каждой среде выполнения Databricks. При необходимости можно установить сторонние драйверы для доступа к данным в других системах. Необходимо настроить подключения для каждой таблицы. Некоторые драйверы включают доступ на запись. См. статью "Подключение к внешним системам".
JDBC Несколько включенных драйверов для внешних систем, основанных на поддержке JDBC. Возможность JDBC предоставляет расширяемые параметры настройки подключений к другим системам. Необходимо настроить подключения для каждой таблицы. См. статью "Запросы баз данных с помощью JDBC".

Запрос доступа к источникам данных

Во многих организациях большинство пользователей не имеют достаточных привилегий в Azure Databricks или внешних источниках данных для настройки подключений к данным.

Возможно, ваша организация уже настроили доступ к источнику данных с помощью одного из шаблонов, описанных в статьях, связанных с этой страницей. Если у вашей организации есть четко определенный процесс запроса доступа к данным, Databricks рекомендует выполнить этот процесс.

Если вы не уверены, как получить доступ к источнику данных, эта процедура может помочь вам:

  1. Используйте обозреватель каталогов для просмотра таблиц и томов, к которым можно получить доступ. См. раздел "Что такое обозреватель каталогов?".
  2. Попросите своих товарищей по команде или менеджеров о источниках данных, к которым они могут получить доступ.
    • Большинство организаций используют группы, синхронизированные с поставщиком удостоверений (например, Okta или Microsoft Entra ID) для управления разрешениями для пользователей рабочей области. Если другие члены вашей команды могут получить доступ к источникам данных, к которым требуется доступ, администратор рабочей области добавит вас в правильную группу, чтобы предоставить вам доступ.
    • Если определенная таблица, том или источник данных была настроена коллегой, то у этого человека должны быть разрешения на предоставление доступа к данным.
  3. Некоторые организации настраивают разрешения доступа к данным с помощью параметров вычислительных кластеров и хранилищ SQL.
    • Доступ к источникам данных может различаться в зависимости от вычислительных систем.
    • Вы можете просмотреть создателя вычислений на вкладке "Вычисления ". Обратитесь к создателю, чтобы узнать о источниках данных, которые должны быть доступны.