Condividi tramite


Connettersi a origini dati e servizi esterni

Questa pagina fornisce raccomandazioni per amministratori e utenti esperti che configurano le connessioni tra Azure Databricks e origini dati esterne e servizi.

Puoi collegare il tuo account Azure Databricks a fonti di dati come l'archiviazione di oggetti cloud, i sistemi di gestione di database relazionali, i servizi di dati in streaming e le piattaforme aziendali come i CRM. È anche possibile connettere l'account Azure Databricks a servizi esterni non di archiviazione.

Configurare le connessioni all'archiviazione di oggetti

La maggior parte dei dati usati dai carichi di lavoro di Azure Databricks viene archiviata nell'archiviazione di oggetti cloud, ad esempio Azure Data Lake Storage o AWS S3. È possibile gestire l'accesso all'archiviazione di oggetti cloud usando una delle opzioni seguenti:

Configurare le connessioni a sistemi dati esterni

Databricks offre diverse opzioni per la configurazione delle connessioni a sistemi dati esterni. La seguente tabella fornisce una panoramica generale di queste opzioni:

Opzione Descrizione
Connettori di federazione per interrogazioni Lakehouse Federation offre accesso in sola lettura ai dati nei sistemi di dati aziendali. Le connessioni sono configurate attraverso Unity Catalog a livello di catalogo o schema, sincronizzando più tabelle con una singola configurazione. Vedi Cos'è la Federazione Lakehouse?.
Connettori di ingestione gestiti Lakeflow Connect consente agli utenti amministratori di creare una connessione e un flusso di ingestion gestito allo stesso tempo nell'interfaccia utente di ingestion dei dati. Vedi Connettori gestiti in Lakeflow Connect.
Se gli utenti che creeranno pipeline non sono utenti non amministratori o prevedono di usare le API databricks, gli SDK di Databricks, l'interfaccia della riga di comando di Databricks o i bundle di asset di Databricks, un amministratore deve prima creare la connessione in Esplora cataloghi. Queste interfacce richiedono che gli utenti specifichino una connessione esistente quando creano una pipeline. Vedere Connettersi alle origini di inserimento gestite.
Connettori di streaming Azure Databricks offre connettori ottimizzati per molti sistemi di dati di streaming.
Per tutte le sorgenti di dati in streaming, è necessario generare credenziali che forniscano accesso e caricare queste credenziali in Azure Databricks. Databricks consiglia di memorizzare le credenziali utilizzando i segreti, perché puoi utilizzare i segreti per tutte le opzioni di configurazione e in tutte le modalità di accesso.
Tutti i connettori di dati per le fonti di streaming supportano il passaggio delle credenziali utilizzando opzioni quando si definiscono query di streaming. Consulta Connettori Standard in Lakeflow Connect.
Integrazioni di terze parti Usare strumenti di terze parti per connettersi a origini dati esterne e automatizzare l'inserimento di dati nel lakehouse. Alcune soluzioni includono anche L'ETL inverso e l'accesso diretto ai dati lakehouse da sistemi esterni. Vedere Che cos'è Databricks Partner Connect?.
Guidatori Azure Databricks include driver per sistemi di dati esterni in ogni Runtime di Databricks. Puoi installare facoltativamente driver di terze parti per accedere ai dati in altri sistemi. Devi configurare le connessioni per ogni tabella. Alcuni driver includono l'accesso per la scrittura. Vedere Connettersi a sistemi esterni.
Per la federazione di query di sola lettura, Lakehouse Federation è sempre preferibile a confronto con questi driver.
JDBC Diversi driver inclusi per i sistemi esterni si basano sul supporto JDBC nativo e l'opzione JDBC offre opzioni estendibili per la configurazione delle connessioni ad altri sistemi. Devi configurare le connessioni per ogni tabella. Vedi Interrogare database utilizzando JDBC.
Per le interrogazioni federate di sola lettura, si preferisce sempre la Lakehouse Federation rispetto ad altre soluzioni di driver.

Configurare le connessioni a servizi esterni

Il catalogo unity regola l'accesso ai servizi non di archiviazione usando un oggetto a protezione diretta denominato credenziale del servizio. Una credenziale del servizio incapsula una credenziale cloud a lungo termine che fornisce l'accesso a un servizio esterno a cui gli utenti devono connettersi da Azure Databricks. Consultare Connettersi ai servizi cloud esterni utilizzando Unity Catalog

Gestire e richiedere l'accesso alle origini dati e ai servizi esterni

La maggior parte dei metodi di connessione richiede privilegi elevati sia per l'origine dati esterna che per l'area di lavoro di Azure Databricks. Nelle organizzazioni tipiche, pochissimi utenti hanno privilegi sufficienti o in Azure Databricks o nei provider di dati e archiviazione esterni per configurare autonomamente le connessioni di dati.

L'organizzazione potrebbe aver già configurato l'accesso a un'origine dati o a un servizio usando uno dei modelli descritti negli articoli collegati da questa pagina. Se l'organizzazione ha un processo ben definito per richiedere l'accesso ai dati e ai servizi di terze parti, Databricks consiglia di seguire questo processo. Se non si è certi di come ottenere l'accesso a un'origine dati, questa procedura può essere utile:

  1. Usare Esplora cataloghi per visualizzare le tabelle e i volumi a cui è possibile accedere. Vedi What is Catalog Explorer?.
  2. Chiedi ai tuoi compagni di squadra o ai manager delle fonti di dati a cui possono accedere.
    • La maggior parte delle organizzazioni utilizza gruppi sincronizzati dal loro provider di identità (ad esempio: Okta o Microsoft Entra ID) per gestire le autorizzazioni degli utenti dell'area di lavoro. Se altri membri del team possono accedere alle origini dati a cui è necessario accedere, chiedere a un amministratore dell'area di lavoro di aggiungere l'utente al gruppo corretto per concedere l'accesso.
    • Se una tabella, un volume o un'origine dati specifica è stata configurata da un collega, tale utente deve essere in grado di concedere l'accesso ai dati.

Alcune organizzazioni collegano le autorizzazioni di accesso ai dati a cluster di calcolo e a sql warehouse specifici. Si tratta di un modello di governance legacy, ma se l'organizzazione lo usa e si vuole scoprire quali origini dati sono disponibili in una risorsa di calcolo specifica, contattare l'autore di calcolo elencato nella scheda Calcolo .