Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Эта страница содержит рекомендации для администраторов и пользователей, которые настраивают подключения между Azure Databricks и внешними источниками данных и службами.
Вы можете подключить учетную запись Azure Databricks к таким источникам данных, как облачное хранилище объектов, системы управления реляционными базами данных, службы потоковых данных и корпоративные платформы, такие как CRM. Вы также можете подключить учетную запись Azure Databricks к внешним службам, отличным от хранилища.
Настройка подключений к хранилищу объектов
Большинство данных, используемых рабочими нагрузками Azure Databricks, хранятся в облачном хранилище объектов, таких как Azure Data Lake Storage или AWS S3. Доступ к облачному хранилищу объектов можно управлять с помощью одного из следующих способов:
Каталог Unity (рекомендуется), предоставляющий управление данными для структурированных и неструктурированных данных в облачном хранилище объектов. См. статью "Подключение к облачному хранилищу объектов" с помощью каталога Unity.
Устаревшие соединители и шаблоны подключений. См. настройку доступа к облачному хранилищу объектов для Azure Databricks с помощью устаревших шаблонов.
Настройка подключений к внешним системам данных
Databricks предлагает несколько вариантов настройки подключений к внешним системам данных. В следующей таблице представлен общий обзор этих параметров:
Option | Description |
---|---|
Коннекторы федерации запросов | Федерация Lakehouse предоставляет доступ только для чтения к данным в корпоративных системах данных. Федерация запросов использует безопасные подключения JDBC для объединения с внешними системами данных, такими как PostgreSQL и MySQL. Федерация каталогов подключает внешние каталоги, такие как хранилище метаданных Hive, AWS Glue или Каталог Snowflake Horizon, чтобы запрашивать данные непосредственно в хранилище файлов. |
Коннекторы управляемого ввода данных | Lakeflow Connect позволяет администраторам создавать подключение и конвейер управляемого приема данных одновременно в пользовательском интерфейсе приема данных. См. Managed connectors in Lakeflow Connect. Если пользователи, которые будут создавать конвейеры, являются неадминистраторными пользователями или планируют использовать API Databricks, пакеты SDK Databricks, интерфейс командной строки Databricks или Наборы ресурсов Databricks, администратор должен сначала создать подключение в обозревателе каталогов. Эти интерфейсы требуют, чтобы пользователи указали существующее подключение при создании конвейера. См. Подключение к управляемым источникам приёма. |
Streaming connectors | Azure Databricks предоставляет оптимизированные соединители для многих систем потоковой передачи данных. Для всех источников данных потоковой передачи необходимо создать учетные данные, которые предоставляют доступ и загружают эти учетные данные в Azure Databricks. Databricks рекомендует хранить учетные данные с помощью секретов, так как вы можете использовать секреты для всех параметров конфигурации и во всех режимах доступа. Все соединители данных для источников потоковой передачи поддерживают передачу учетных данных с помощью параметров при определении потоковых запросов. См. статью "Стандартные соединители" в Lakeflow Connect. |
Third-party integrations | Используйте сторонние инструменты для подключения к внешним источникам данных и автоматизации загрузки данных в Lakehouse. Некоторые решения также включают обратный ETL и прямой доступ к данным Lakehouse из внешних систем. См. статью Что такое Databricks Partner Connect?. |
Drivers | Azure Databricks включает драйверы для внешних систем данных в каждой среде выполнения Databricks. При необходимости можно установить сторонние драйверы для доступа к данным в других системах. Необходимо настроить подключения для каждой таблицы. Некоторые драйверы включают доступ на запись. См. статью "Подключение к внешним системам". Для федерации запросов только для чтения предпочтение всегда отдается Lakehouse Federation, а не этим драйверам. |
JDBC | Несколько включенных драйверов для внешних систем, основанных на поддержке JDBC. Возможность JDBC предоставляет расширяемые параметры настройки подключений к другим системам. Необходимо настроить подключения для каждой таблицы. См. статью "Запросы баз данных с помощью JDBC". Для федерации запросов только для чтения предпочтение всегда отдается Lakehouse Federation, а не этим драйверам. |
Настройка подключений к внешним службам
Каталог Unity управляет доступом к службам, не связанным с хранением, с помощью защищаемого объекта, называемого учетными данными службы
Управление и запрос доступа к источникам данных и внешним службам
Большинство методов подключения требуют повышенных привилегий как во внешнем источнике данных, так и в рабочей области Azure Databricks. В типичных организациях мало пользователей имеют достаточные привилегии в Azure Databricks или во внешних поставщиках данных и хранилища для настройки подключений к данным.
Возможно, ваша организация уже настроили доступ к источнику данных или службе с помощью одного из шаблонов, описанных в статьях, связанных с этой страницей. Если у вашей организации есть четко определенный процесс запроса доступа к данным и сторонним службам, Databricks рекомендует выполнить этот процесс. Если вы не уверены, как получить доступ к источнику данных, эта процедура может помочь:
- Используйте обозреватель каталогов для просмотра таблиц и томов, к которым можно получить доступ. См. раздел "Что такое обозреватель каталогов?".
- Попросите своих товарищей по команде или менеджеров о источниках данных, к которым они могут получить доступ.
- Большинство организаций используют группы, синхронизированные с поставщиком удостоверений (например, Okta или Microsoft Entra ID) для управления разрешениями для пользователей рабочей области. Если другие члены команды могут получить доступ к источникам данных, к которым требуется доступ, администратор рабочей области добавит вас в правильную группу для предоставления доступа.
- Если определенная таблица, том или источник данных была настроена коллегой, этот человек должен предоставить вам доступ к данным.
Некоторые организации присоединяют разрешения доступа к данным определенным вычислительным кластерам и хранилищам SQL. Это устаревшая модель управления, но если ваша организация использует ее, и вы хотите узнать, какие источники данных доступны в определенном вычислительном ресурсе, обратитесь к создателю вычислений, указанному на вкладке "Вычисления ".