Migliori pratiche per l'architettura di Azure Databricks e la sicurezza

2025-09-03

Azure Databricks è una piattaforma di analisi dei dati ottimizzata per i servizi cloud di Azure. Offre tre ambienti per lo sviluppo di applicazioni a elevato utilizzo di dati:

Per altre informazioni su come Azure Databricks migliora la sicurezza dell'analisi dei Big Data, fare riferimento ai concetti di Azure Databricks.

Miglioramenti recenti

Azure Databricks continua a evolversi con nuove funzionalità di integrazione che migliorano l'eccellenza operativa mantenendo al contempo la sicurezza:

Miglioramenti dell'eccellenza operativa

Mirroring del catalogo Unity in Microsoft OneLake: Azure Databricks supporta ora il mirroring dei dati in tempo reale tra Il catalogo unity e Microsoft Fabric tramite OneLake, eliminando i silo di dati mantenendo al tempo tempo reale la governance e la sicurezza unificata. Questa integrazione consente ai team di data science di condividere set di dati con analisti aziendali che usano Power BI senza richiedere la duplicazione dei dati o processi ETL complessi, riducendo la complessità operativa tramite la gestione centralizzata di Unity Catalog.

Le sezioni seguenti includono considerazioni sulla progettazione, un elenco di controllo della configurazione e opzioni di configurazione consigliate specifiche per Azure Databricks.

Considerazioni sulla progettazione

Per impostazione predefinita, tutti i notebook degli utenti e i relativi risultati vengono crittografati a riposo. Se sono presenti altri requisiti, è consigliabile usare chiavi gestite dal cliente per i notebook.

Lista di controllo

Azure Databricks è stato configurato tenendo conto della sicurezza?

Usare il pass-through delle credenziali dell'ID Microsoft Entra per evitare la necessità di oggetti servizio durante la comunicazione con Azure Data Lake Storage.
Isolare le aree di lavoro, il calcolo e i dati dall'accesso pubblico. Assicurarsi che solo le persone giuste abbiano accesso e solo tramite canali sicuri.
Assicurarsi che le aree di lavoro cloud per l'analisi siano accessibili solo dagli utenti gestiti correttamente.
Implementare Collegamento privato di Azure.
Limitare e monitorare le macchine virtuali.
Usare elenchi di accesso IP dinamici per consentire agli amministratori di accedere alle aree di lavoro solo dalle reti aziendali.
Usare la funzionalità di inserimento della rete virtuale per abilitare scenari più sicuri.
Usare i log di diagnostica per controllare l'accesso e le autorizzazioni dell'area di lavoro.
Prendere in considerazione l'uso della funzionalità di connettività del cluster sicura e dell'architettura hub/spoke per impedire l'apertura delle porte e l'assegnazione di indirizzi IP pubblici nei nodi del cluster.

Consigli sulla configurazione

Esplorare la tabella di raccomandazioni seguente per ottimizzare la configurazione di Azure Databricks per la sicurezza:

Raccomandazione	Descrizione
Assicurarsi che le aree di lavoro cloud per l'analisi siano accessibili solo dagli utenti gestiti correttamente.	Microsoft Entra ID può gestire l'accesso Single Sign-On per l'accesso remoto. Per una maggiore sicurezza, fare riferimento all'accesso condizionale.
Implementare Collegamento privato di Azure.	Assicurarsi che tutto il traffico tra gli utenti della piattaforma, i notebook e i cluster di calcolo che elaborano le query vengano crittografati e trasmessi tramite il backbone di rete del provider di servizi cloud, inaccessibile al mondo esterno.
Limitare e monitorare le macchine virtuali.	I cluster, che eseguono query, devono avere accesso SSH e di rete limitato per impedire l'installazione di pacchetti arbitrari. I cluster devono usare solo immagini analizzate periodicamente per individuare le vulnerabilità.
Usare la funzionalità di inserimento della rete virtuale per abilitare scenari più sicuri.	Come: - Connessione ad altri servizi di Azure tramite endpoint di servizio. - Connessione a origini dati locali, sfruttando le rotte definite dall'utente. - Connessione a un'appliance virtuale di rete per controllare tutto il traffico in uscita e intraprendere azioni in base alle regole di autorizzazione e negazione. - Uso di DNS personalizzato. - Distribuzione di cluster di Azure Databricks in reti virtuali esistenti.
Usare i log di diagnostica per controllare l'accesso e le autorizzazioni dell'area di lavoro.	Usare i log di controllo per visualizzare l'attività con privilegi in un'area di lavoro, il ridimensionamento del cluster, i file e le cartelle condivisi nel cluster.
Abilitare il mirroring del catalogo Unity in Microsoft OneLake per l'analisi unificata dei dati mantenendo al contempo la governance della sicurezza. Il mirroring dei dati in tempo reale tra Azure Databricks e Microsoft Fabric elimina i silo di dati senza richiedere la duplicazione dei dati o processi ETL complessi.	Il mirroring del catalogo unity consente la condivisione dei dati senza problemi tra i team di data science e gli analisti aziendali, mantenendo al contempo la governance centralizzata e la sicurezza tramite la gestione di Unity Catalog, riducendo la complessità operativa.

Artefatti di origine

Gli artefatti di origine di Azure Databricks includono il blog di Databricks: Procedure consigliate per proteggere una piattaforma dati su scala aziendale.

Passaggio successivo

Database di Azure per MySQL e ottimizzazione dei costi