Scegliere un archivio dati analitici in Azure

2025-05-23

In un'architettura di Big Data , spesso è necessario un archivio dati analitico che gestisce i dati elaborati in un formato strutturato su cui è possibile eseguire query usando gli strumenti analitici. Gli archivi dati analitici che supportano l'esecuzione di query su dati sia del percorso a accesso rapido sia del percorso a accesso lento vengono collettivamente definiti come livello di servizio o archiviazione dei dati.

Il livello di presentazione gestisce i dati elaborati sia dal percorso caldo che dal percorso freddo. Nell'architettura Lambda il livello di servizio è suddiviso in due livelli. Il livello di gestione della velocità contiene i dati elaborati in modo incrementale. Il livello di gestione batch contiene l'output elaborato in batch. Il livello di gestione richiede un supporto sicuro per le letture casuali con bassa latenza. L'archiviazione dei dati per il livello di velocità deve supportare anche scritture casuali perché il caricamento in batch dei dati in questo archivio comporta ritardi indesiderati. In alternativa, l'archiviazione dei dati per il livello batch deve supportare le scritture batch, non le scritture casuali.

Non esiste una singola scelta migliore per la gestione dei dati per tutte le attività di archiviazione dei dati. Le soluzioni più adatte variano in base alle attività da eseguire. La maggior parte delle app cloud reali e dei processi Big Data ha diversi requisiti di archiviazione dei dati e spesso usa una combinazione di soluzioni di archiviazione dei dati.

Soluzioni analitiche moderne, ad esempio Microsoft Fabric, offrono una piattaforma completa che integra vari servizi dati e strumenti per soddisfare esigenze analitiche diverse. Fabric include OneLake, che è un unico data lake unificato e logico per l'intera organizzazione. OneLake è progettato per archiviare, gestire e proteggere tutti i dati aziendali in un'unica posizione. Questa flessibilità consente all'organizzazione di soddisfare un'ampia gamma di requisiti di archiviazione ed elaborazione dei dati.

Scegliere un archivio dati analitici

Sono disponibili diverse opzioni per l'archiviazione di gestione dati in Azure, in base alle esigenze specifiche:

I modelli di database seguenti sono ottimizzati per diversi tipi di attività:

I database chiave-valore archiviano un singolo oggetto serializzato per ogni valore di chiave. Sono particolarmente adatti per la gestione di grandi volumi di dati quando il recupero si basa su una chiave specifica, senza la necessità di eseguire query su altre proprietà degli elementi.
I database di documenti sono database chiave-valore in cui i valori sono documenti. In questo contesto, un documento è una raccolta di campi e valori denominati. Il database archivia in genere i dati in un formato, ad esempio XML, YAML, JSON o JSON binario, ma potrebbe usare testo normale. I database di documenti possono eseguire query su campi non chiave e definire indici secondari per migliorare l'efficienza delle query. Questa funzionalità rende un database di documenti più adatto alle applicazioni che devono recuperare i dati in base a criteri più complessi rispetto al valore della chiave del documento. Sono ad esempio utili per eseguire query sui campi relativi a ID prodotto, ID cliente o nome del cliente.
I database dell'archivio colonne sono archivi dati chiave-valore che archiviano ogni colonna separatamente su disco. Un database di archivio di colonne ampia è un tipo di database che memorizza le famiglie di colonne, non solo singole colonne. Ad esempio, un database di censimento potrebbe avere una famiglia di colonne separata per ognuno degli elementi seguenti:
- Nome, secondo nome e cognome di una persona
- Indirizzo della persona
- Informazioni sul profilo della persona, ad esempio la data di nascita o il sesso
Il database può archiviare ogni famiglia di colonne in una partizione separata, mantenendo tutti i dati per una persona correlata alla stessa chiave. Un'applicazione può leggere una singola famiglia di colonne senza analizzare tutti i dati per un'entità.
I database a grafo archiviano le informazioni come raccolta di oggetti e relazioni. Un database a grafo può eseguire in modo efficiente query in grado di attraversare la rete degli oggetti e le relazioni tra di essi. Ad esempio, gli oggetti potrebbero essere dipendenti in un database delle risorse umane, e potresti voler facilitare query come "trova tutti i dipendenti che lavorano direttamente o indirettamente per Scott."
I database di telemetria e serie temporali sono una collezione di oggetti di sola aggiunta. I database di telemetria indicizzano in modo efficiente i dati in vari archivi di colonne e strutture in memoria. Questa funzionalità li rende la scelta ottimale per l'archiviazione e l'analisi di grandi quantità di dati di telemetria e serie temporali.

Fabric supporta vari modelli di database, tra cui database chiave-valore, documento, archivio colonne, grafo e dati di telemetria. Questa flessibilità garantisce la scalabilità per un'ampia gamma di attività analitiche.

Criteri di scelta principali

Per perfezionare il processo di selezione, considerare i criteri seguenti:

È necessaria una soluzione di archiviazione di gestione che possa essere usata come percorso ad accesso frequente per i dati? In caso affermativo, limitare la scelta alle opzioni ottimizzate per un livello di servizio rapido.
È necessario un supporto per l'elaborazione parallela elevata, in cui le query vengono distribuite automaticamente tra più processi o nodi? In caso affermativo, selezionare un'opzione che supporta la scalabilità orizzontale delle query.
Si preferisce usare un archivio dati relazionale? In questo caso, limitare le opzioni a quelle con un modello di database relazionale. Tuttavia, alcuni archivi non relazionali supportano la sintassi SQL per l'esecuzione di query e strumenti come PolyBase possono essere usati per eseguire query su archivi dati non relazionali.
Si raccolgono i dati delle serie temporali? Usi dati in modalità di sola aggiunta?

Fabric OneLake supporta più motori analitici, tra cui Analysis Services, T-SQL e Apache Spark. Questo supporto lo rende adatto per diverse esigenze di elaborazione dei dati e query.

Matrice delle funzionalità

Le tabelle seguenti contengono un riepilogo delle differenze principali in termini di funzionalità.

Funzionalità generali

Capacità	Database SQL	Pool SQL di Azure Synapse Analytics	Pool di Spark di Azure Synapse Analytics	Esplora dati di Azure	Apache HBase o Apache Phoenix in HDInsight	Hive LLAP su HDInsight	Servizi di analisi	Azure Cosmos DB, un servizio di database distribuito globale di Microsoft	Tessuto
È un servizio gestito?	Sì	Sì	Sì	Sì	Sì ¹	Sì ¹	Sì	Sì	Sì
Modello di database primario	Relazionale (formato archivio colonne quando si usano indici columnstore)	Tabelle relazionali con archiviazione di colonne	Archivio a colonne ampie	Relazionale (storage a colonne), telemetria e storage serie temporali	Archivio a colonne ampie	Hive o in memoria	Modelli semantici tabulari	Archivio di documenti, archivio a grafo, archivio chiave-valore, archivio a colonne larghe	Data Lake unificato, relazionale, telemetria, serie temporale, archivio documenti, grafico, archivio chiave-valore
Supporto per il linguaggio SQL	Sì	Sì	Sì	Sì	Sì (con il driver di connettività del database Java apache Phoenix )	Sì	NO	Sì	Sì
Ottimizzato per uno strato di servizio rapido	Sì ²	Sì ³	Sì	Sì	Sì	Sì	NO	Sì	Sì

[1] Con configurazione e scalabilità manuali.

[2] Utilizzando tabelle ottimizzate per la memoria e indici hash o noncluster.

[3] Supportato come output di Analisi di flusso di Azure.

Funzionalità di scalabilità

Capacità	Database SQL	Pool SQL di Azure Synapse Analytics	Pool di Spark di Azure Synapse Analytics	Esplora dati di Azure	Apache HBase o Apache Phoenix in HDInsight	Hive LLAP su HDInsight	Servizi di analisi	Azure Cosmos DB, un servizio di database distribuito globale di Microsoft	Tessuto
Server regionali ridondanti per disponibilità elevata	Sì	NO	NO	Sì	Sì	NO	Sì	Sì	Sì
Supporta la scalabilità orizzontale delle query	NO	Sì	Sì	Sì	Sì	Sì	Sì	Sì	Sì
Scalabilità dinamica (aumento delle prestazioni)	Sì	Sì	Sì	Sì	NO	NO	Sì	Sì	Sì
Supporto per la memorizzazione nella cache dei dati in memoria	Sì	Sì	Sì	Sì	NO	Sì	Sì	NO	Sì

Funzionalità di sicurezza

Capacità	Database SQL	Azure Synapse Analytics	Esplora dati di Azure	Apache HBase o Apache Phoenix in HDInsight	Hive LLAP su HDInsight	Servizi di analisi	Azure Cosmos DB, un servizio di database distribuito globale di Microsoft	Tessuto
Autenticazione	SQL o Microsoft Entra ID	SQL o Microsoft Entra ID	Microsoft Entra ID	Local o Microsoft Entra ID ¹	Local o Microsoft Entra ID ¹	Microsoft Entra ID	Utenti del database o Microsoft Entra ID tramite controllo di accesso (gestione delle identità e degli accessi)	Microsoft Entra ID
Crittografia dei dati a riposo	Sì ²	Sì ²	Sì	Sì ¹	Sì ¹	Sì	Sì	Sì
Sicurezza a livello di riga	Sì	Sì ³	Sì	Sì ¹	Sì ¹	Sì	NO	Sì
Supporto dei firewall	Sì	Sì	Sì	Sì ⁴	Sì ⁴	Sì	Sì	Sì
Offuscamento dinamico dei dati	Sì	Sì	Sì	Sì ¹	Sì	NO	NO	Sì

Richiede di utilizzare un cluster HDInsight collegato a un dominio.

[2] Richiede l'uso di Transparent Data Encryption per crittografare e decrittografare i dati a riposo.

[3] Filtro esclusivamente sui predicati. Per altre informazioni, vedere Sicurezza a livello di riga.

[4] Se usato all'interno di una rete virtuale di Azure. Per altre informazioni, vedere Estendere HDInsight usando una rete virtuale di Azure.

Condividi tramite

Scegliere un archivio dati analitici in Azure

Scegliere un archivio dati analitici

Criteri di scelta principali

Matrice delle funzionalità

Funzionalità generali

Funzionalità di scalabilità

Funzionalità di sicurezza

Passaggi successivi

Risorse correlate

Commenti e suggerimenti

Risorse aggiuntive