Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Le soluzioni Big Data spesso sono costituite da attività di elaborazione batch discrete che contribuiscono alla soluzione di elaborazione dei dati complessiva. È possibile usare l'elaborazione batch per i carichi di lavoro che non richiedono l'accesso immediato alle informazioni dettagliate. L'elaborazione batch può integrare i requisiti di elaborazione in tempo reale. È anche possibile usare l'elaborazione batch per bilanciare la complessità e ridurre i costi per l'implementazione complessiva.
Il requisito fondamentale dei motori di elaborazione batch consiste nell'aumentare le istanze dei calcoli per gestire un volume elevato di dati. A differenza dell'elaborazione in tempo reale, l'elaborazione batch ha latenze o il tempo tra l'inserimento dei dati e il calcolo di un risultato, di minuti o ore.
Scegliere una tecnologia per l'elaborazione batch
Microsoft offre diversi servizi che è possibile usare per eseguire l'elaborazione batch.
Microsoft Fabric
Microsoft Fabric è una piattaforma dati e analisi all-in-one per le organizzazioni. Si tratta di un'offerta software come servizio che semplifica il provisioning, la gestione e la governance di una soluzione di analisi end-to-end. Fabric gestisce lo spostamento, l'elaborazione, l'inserimento, la trasformazione e la reportistica dei dati. Le funzionalità di infrastruttura usate per l'elaborazione batch includono progettazione dei dati, data warehouse, lakehouse ed elaborazione di Apache Spark. Azure Data Factory in Fabric supporta anche lakehouse. Per semplificare e accelerare lo sviluppo, è possibile abilitare copilot guidato dall'intelligenza artificiale.
Linguaggi: R, Python, Java, Scala e SQL
Sicurezza: rete virtuale gestita e controllo degli accessi in base al ruolo (RBAC) di OneLake
Archiviazione primaria: OneLake, con scelte rapide e opzioni di mirroring
Spark: un pool di avvio preidratato e un pool di Spark personalizzato con dimensioni predefinite dei nodi
Azure Synapse Analytics
Azure Synapse Analytics è un servizio di analisi aziendale che riunisce tecnologie SQL e Spark in un unico costrutto di un'area di lavoro. Azure Synapse Analytics semplifica la sicurezza, la governance e la gestione. Ogni area di lavoro include pipeline di dati integrate che è possibile usare per creare flussi di lavoro end-to-end. È anche possibile effettuare il provisioning di un pool SQL dedicato per l'analisi su larga scala, un endpoint SQL serverless che è possibile usare per eseguire direttamente query sul lake e un runtime Spark per l'elaborazione dei dati distribuita.
Linguaggi: Python, Java, Scala e SQL
Sicurezza: rete virtuale gestita, RBAC (controllo degli accessi in base al ruolo), e elenchi di controllo degli accessi per lo storage in Azure Data Lake Storage
Archiviazione primaria: Data Lake Storage e si integra anche con altre origini
Spark: configurazione di Spark personalizzata con dimensioni predefinite dei nodi
Azure Databricks
Azure Databricks è una piattaforma di analisi basata su Spark. Offre funzionalità Spark avanzate e premium basate su Spark open source. Azure Databricks è un servizio Microsoft che si integra con il resto dei servizi di Azure. Offre configurazioni aggiuntive per le distribuzioni di cluster Spark. Unity Catalog semplifica la governance degli oggetti Spark di Azure Databricks.
Linguaggi: R, Python, Java, Scala e Spark SQL.
Sicurezza: autenticazione utente con MICROSOFT Entra ID.
Archiviazione primaria: integrazione predefinita con Archiviazione BLOB di Azure, Data Lake Storage, Azure Synapse Analytics e altri servizi. Per altre informazioni, vedere Origini dati.
Altri vantaggi includono:
Notebook basati sul Web per la collaborazione e l'esplorazione dei dati.
Tempi di avvio rapidi del cluster, terminazione automatica e scalabilità automatica.
Supporto per i cluster abilitati per GPU.
Criteri di scelta principali
Per scegliere la tecnologia per l'elaborazione batch, considerare le domande seguenti:
Si vuole un servizio gestito o si vogliono gestire i propri server?
Si desidera creare la logica di elaborazione batch in modo dichiarativo o imperativo?
Eseguite l'elaborazione batch a scatti? In caso affermativo, prendere in considerazione le opzioni che consentono di terminare automaticamente un cluster o che dispongono di modelli di prezzi per ogni processo batch.
È necessario eseguire query sugli archivi dati relazionali durante l'elaborazione batch, ad esempio per cercare dati di riferimento? In caso affermativo, prendere in considerazione le opzioni che consentono di eseguire query su archivi relazionali esterni.
Matrice delle funzionalità
Le tabelle seguenti riepilogano le differenze principali nelle funzionalità tra i servizi.
Funzionalità generali
Capacità | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Software come un servizio | Sì1 | No | No |
Servizio gestito | No | Sì | Sì |
Archivio dati relazionale | Sì | Sì | Sì |
Modello di determinazione prezzi | Unità di capacità | Ora del pool SQL o del cluster | Unità di Azure Databricks 2 e ora del cluster |
[1] Capacità dell'infrastruttura assegnata.
[2] Un'unità di Azure Databricks è la funzionalità di elaborazione all'ora.
Altre funzionalità
Funzionalità | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Scalabilità automatica | No | No | Sì |
Granularità della scalabilità orizzontale | SKU per infrastruttura | Per cluster o per pool SQL | Per cluster |
Cache in memoria dei dati | No | Sì | Sì |
Query da archivi relazionali esterni | Sì | No | Sì |
Autenticazione | Microsoft Entra ID | SQL o Microsoft Entra ID | Microsoft Entra ID |
Controllo | Sì | Sì | Sì |
Sicurezza a livello di riga | Sì | Sì 1 | Sì |
Supporto dei firewall | Sì | Sì | Sì |
Mascheramento dinamico dei dati | Sì | Sì | Sì |
[1] Solo predicati filtro. Per altre informazioni, vedere Sicurezza a livello di riga.
Collaboratori
Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.
Autori principali:
- Zoiner Tejada | CEO e architetto
- Pratima Valavala | Principal Solutions Architect
Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.
Passaggi successivi
- Che cos'è Fabric?
- Guida alle decisioni relative alla struttura
- Training: Introduzione ad Azure Synapse Analytics
- Che cos'è Azure HDInsight?
- Informazioni su Azure Databricks