Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Эта страница содержит рекомендации для администраторов и пользователей, которые настраивают подключения между Azure Databricks и внешними источниками данных и службами.
Вы можете подключить учетную запись Azure Databricks к источникам данных, таким как облачное хранилище объектов, системы управления реляционными базами данных, службы потоковых данных и корпоративные платформы, такие как CRM. Вы также можете подключить учетную запись Azure Databricks к внешним службам, отличным от хранилища.
Настройка подключений к хранилищу объектов
Большинство данных, используемых Azure Databricks рабочими нагрузками, хранятся в облачном хранилище объектов, таких как Azure Data Lake Storage или AWS S3. Доступ к облачному хранилищу объектов можно управлять с помощью одного из следующих способов:
Каталог Unity (рекомендуется), предоставляющий управление данными для структурированных и неструктурированных данных в облачном хранилище объектов. См. статью "Подключение к облачному хранилищу объектов" с помощью каталога Unity.
Устаревшие соединители и шаблоны подключений. Смотрите Настройте доступ к облачному хранилищу объектов для Azure Databricks с использованием устаревших шаблонов.
Подключения каталога Unity
Подключение каталога Unity — это защищаемый объект, который хранит конечную точку и учетные данные, необходимые для доступа к внешней системе. Подключения предоставляют управляемый способ управления проверкой подлинности и конфигурацией для внешних систем данных, включая в себя федерацию, управляемое получение, JDBC и HTTP. Общие сведения обо всех типах подключений и их выборе см. в разделе "Подключения каталога Unity".
Настройка подключений к внешним системам данных
Databricks предлагает несколько вариантов настройки подключений к внешним системам данных. В следующей таблице представлен общий обзор этих параметров:
| Option | Description |
|---|---|
| Коннекторы федерации запросов | Федерация Lakehouse предоставляет доступ только для чтения к данным в корпоративных системах данных. Федерация запросов использует безопасные подключения JDBC для объединения с внешними системами данных, такими как PostgreSQL и MySQL. Федерация каталогов подключает внешние каталоги, такие как хранилище метаданных Hive или Каталог Snowflake Horizon, для запроса данных непосредственно в хранилище файлов. |
| Коннекторы управляемого ввода данных | Lakeflow Connect позволяет администраторам создавать подключение и конвейер управляемого приема данных одновременно в пользовательском интерфейсе приема данных. См. Managed connectors in Lakeflow Connect. Если пользователи, которые будут создавать конвейеры, являются неадминистративными пользователями или планируют использовать API Databricks, пакеты SDK Databricks, интерфейс командной строки Databricks или декларативные пакеты автоматизации, администратор должен сначала создать подключение в обозревателе каталогов. Эти интерфейсы требуют, чтобы пользователи указали существующее подключение при создании конвейера. См. Подключение к управляемым источникам приёма. |
| Соединители потоковой передачи | Azure Databricks предоставляет оптимизированные соединители для многих систем потоковой передачи данных. Для всех источников потоковых данных необходимо создать учетные данные, которые предоставляют доступ и загружают эти учетные данные в Azure Databricks. Databricks рекомендует хранить учетные данные с помощью секретов, так как вы можете использовать секреты для всех параметров конфигурации и во всех режимах доступа. Все соединители данных для источников потоковой передачи поддерживают передачу учетных данных с помощью параметров при определении потоковых запросов. См. статью "Стандартные соединители" в Lakeflow Connect. |
| Сторонние интеграции | Используйте сторонние инструменты для подключения к внешним источникам данных и автоматизации загрузки данных в Lakehouse. Некоторые решения также включают обратный ETL и прямой доступ к данным Lakehouse из внешних систем. См. статью Что такое Databricks Partner Connect?. |
| Drivers | Azure Databricks включает драйверы для внешних систем данных в каждой среде выполнения Databricks. При необходимости можно установить сторонние драйверы для доступа к данным в других системах. Необходимо настроить подключения для каждой таблицы. Некоторые драйверы включают доступ на запись. См. статью "Подключение к внешним системам". Для федерации запросов только для чтения предпочтение всегда отдается Lakehouse Federation, а не этим драйверам. |
| JDBC | Подключитесь к внешним базам данных с помощью JDBC и подключения к каталогу Unity для контролируемого доступа, изоляции учетных данных и поддержки перекрестных вычислений. См. сведения о подключении JDBC. Для устаревших конфигураций JDBC без управления каталогом Unity см. Запрос баз данных с помощью JDBC. Для федерации запросов только для чтения федерация Lakehouse всегда предпочтительна. |
Настройка подключений к внешним службам
Каталог Unity управляет доступом к службам, не связанным с хранением, с помощью защищаемого объекта, называемого учетными данными службы
Управление и запрос доступа к источникам данных и внешним службам
Большинство методов подключения требуют повышенных привилегий как во внешнем источнике данных, так и в рабочей области Azure Databricks. В типичных организациях мало пользователей имеют достаточные привилегии в Azure Databricks или во внешних поставщиках данных и хранилища для настройки подключений к данным.
Возможно, ваша организация уже настроили доступ к источнику данных или службе с помощью одного из шаблонов, описанных в статьях, связанных с этой страницей. Если у вашей организации есть четко определенный процесс запроса доступа к данным и сторонним службам, Databricks рекомендует выполнить этот процесс. Если вы не уверены, как получить доступ к источнику данных, эта процедура может помочь:
- Используйте обозреватель каталогов для просмотра таблиц и томов, к которым можно получить доступ. См. раздел "Что такое обозреватель каталогов?".
- Попросите своих товарищей по команде или менеджеров о источниках данных, к которым они могут получить доступ.
- Большинство организаций используют группы, синхронизированные с поставщиком удостоверений (например, Okta или Microsoft Entra ID) для управления разрешениями для пользователей рабочей области. Если другие члены команды могут получить доступ к источникам данных, к которым требуется доступ, администратор рабочей области добавит вас в правильную группу для предоставления доступа.
- Если определенная таблица, том или источник данных была настроена коллегой, этот человек должен предоставить вам доступ к данным.
Некоторые организации присоединяют разрешения доступа к данным определенным вычислительным кластерам и хранилищам SQL. Это устаревшая модель управления, но если ваша организация использует ее, и вы хотите узнать, какие источники данных доступны в определенном вычислительном ресурсе, обратитесь к создателю вычислений, указанному на вкладке "Вычисления ".