Condividi tramite


Scegliere un archivio dati analitici in Azure

In un'architettura di Big Data , spesso è necessario un archivio dati analitico che gestisce i dati elaborati in un formato strutturato su cui è possibile eseguire query usando gli strumenti analitici. Gli archivi dati analitici che supportano l'esecuzione di query su dati sia del percorso a accesso rapido sia del percorso a accesso lento vengono collettivamente definiti come livello di servizio o archiviazione dei dati.

Il livello di presentazione gestisce i dati elaborati sia dal percorso caldo che dal percorso freddo. Nell'architettura Lambda il livello di servizio è suddiviso in due livelli. Il livello di gestione della velocità contiene i dati elaborati in modo incrementale. Il livello di gestione batch contiene l'output elaborato in batch. Il livello di gestione richiede un supporto sicuro per le letture casuali con bassa latenza. L'archiviazione dei dati per il livello di velocità deve supportare anche scritture casuali perché il caricamento in batch dei dati in questo archivio comporta ritardi indesiderati. In alternativa, l'archiviazione dei dati per il livello batch deve supportare le scritture batch, non le scritture casuali.

Non esiste una singola scelta migliore per la gestione dei dati per tutte le attività di archiviazione dei dati. Le soluzioni più adatte variano in base alle attività da eseguire. La maggior parte delle app cloud reali e dei processi Big Data ha diversi requisiti di archiviazione dei dati e spesso usa una combinazione di soluzioni di archiviazione dei dati.

Soluzioni analitiche moderne, ad esempio Microsoft Fabric, offrono una piattaforma completa che integra vari servizi dati e strumenti per soddisfare esigenze analitiche diverse. Fabric include OneLake, che è un unico data lake unificato e logico per l'intera organizzazione. OneLake è progettato per archiviare, gestire e proteggere tutti i dati aziendali in un'unica posizione. Questa flessibilità consente all'organizzazione di soddisfare un'ampia gamma di requisiti di archiviazione ed elaborazione dei dati.

Scegliere un archivio dati analitici

Sono disponibili diverse opzioni per l'archiviazione di gestione dati in Azure, in base alle esigenze specifiche:

I modelli di database seguenti sono ottimizzati per diversi tipi di attività:

  • I database chiave-valore archiviano un singolo oggetto serializzato per ogni valore di chiave. Sono particolarmente adatti per la gestione di grandi volumi di dati quando il recupero si basa su una chiave specifica, senza la necessità di eseguire query su altre proprietà degli elementi.

  • I database di documenti sono database chiave-valore in cui i valori sono documenti. In questo contesto, un documento è una raccolta di campi e valori denominati. Il database archivia in genere i dati in un formato, ad esempio XML, YAML, JSON o JSON binario, ma potrebbe usare testo normale. I database di documenti possono eseguire query su campi non chiave e definire indici secondari per migliorare l'efficienza delle query. Questa funzionalità rende un database di documenti più adatto alle applicazioni che devono recuperare i dati in base a criteri più complessi rispetto al valore della chiave del documento. Sono ad esempio utili per eseguire query sui campi relativi a ID prodotto, ID cliente o nome del cliente.

  • I database dell'archivio colonne sono archivi dati chiave-valore che archiviano ogni colonna separatamente su disco. Un database di archivio di colonne ampia è un tipo di database che memorizza le famiglie di colonne, non solo singole colonne. Ad esempio, un database di censimento potrebbe avere una famiglia di colonne separata per ognuno degli elementi seguenti:

    • Nome, secondo nome e cognome di una persona

    • Indirizzo della persona

    • Informazioni sul profilo della persona, ad esempio la data di nascita o il sesso

    Il database può archiviare ogni famiglia di colonne in una partizione separata, mantenendo tutti i dati per una persona correlata alla stessa chiave. Un'applicazione può leggere una singola famiglia di colonne senza analizzare tutti i dati per un'entità.

  • I database a grafo archiviano le informazioni come raccolta di oggetti e relazioni. Un database a grafo può eseguire in modo efficiente query in grado di attraversare la rete degli oggetti e le relazioni tra di essi. Ad esempio, gli oggetti potrebbero essere dipendenti in un database delle risorse umane, e potresti voler facilitare query come "trova tutti i dipendenti che lavorano direttamente o indirettamente per Scott."

  • I database di telemetria e serie temporali sono una collezione di oggetti di sola aggiunta. I database di telemetria indicizzano in modo efficiente i dati in vari archivi di colonne e strutture in memoria. Questa funzionalità li rende la scelta ottimale per l'archiviazione e l'analisi di grandi quantità di dati di telemetria e serie temporali.

Fabric supporta vari modelli di database, tra cui database chiave-valore, documento, archivio colonne, grafo e dati di telemetria. Questa flessibilità garantisce la scalabilità per un'ampia gamma di attività analitiche.

Criteri di scelta principali

Per perfezionare il processo di selezione, considerare i criteri seguenti:

  • È necessaria una soluzione di archiviazione di gestione che possa essere usata come percorso ad accesso frequente per i dati? In caso affermativo, limitare la scelta alle opzioni ottimizzate per un livello di servizio rapido.

  • È necessario un supporto per l'elaborazione parallela elevata, in cui le query vengono distribuite automaticamente tra più processi o nodi? In caso affermativo, selezionare un'opzione che supporta la scalabilità orizzontale delle query.

  • Si preferisce usare un archivio dati relazionale? In questo caso, limitare le opzioni a quelle con un modello di database relazionale. Tuttavia, alcuni archivi non relazionali supportano la sintassi SQL per l'esecuzione di query e strumenti come PolyBase possono essere usati per eseguire query su archivi dati non relazionali.

  • Si raccolgono i dati delle serie temporali? Usi dati in modalità di sola aggiunta?

Fabric OneLake supporta più motori analitici, tra cui Analysis Services, T-SQL e Apache Spark. Questo supporto lo rende adatto per diverse esigenze di elaborazione dei dati e query.

Matrice delle funzionalità

Le tabelle seguenti contengono un riepilogo delle differenze principali in termini di funzionalità.

Funzionalità generali

Capacità Database SQL Pool SQL di Azure Synapse Analytics Pool di Spark di Azure Synapse Analytics Esplora dati di Azure Apache HBase o Apache Phoenix in HDInsight Hive LLAP su HDInsight Servizi di analisi Azure Cosmos DB, un servizio di database distribuito globale di Microsoft Tessuto
È un servizio gestito? 1 1
Modello di database primario Relazionale (formato archivio colonne quando si usano indici columnstore) Tabelle relazionali con archiviazione di colonne Archivio a colonne ampie Relazionale (storage a colonne), telemetria e storage serie temporali Archivio a colonne ampie Hive o in memoria Modelli semantici tabulari Archivio di documenti, archivio a grafo, archivio chiave-valore, archivio a colonne larghe Data Lake unificato, relazionale, telemetria, serie temporale, archivio documenti, grafico, archivio chiave-valore
Supporto per il linguaggio SQL Sì (con il driver di connettività del database Java apache Phoenix ) NO
Ottimizzato per uno strato di servizio rapido 2 3 NO

[1] Con configurazione e scalabilità manuali.

[2] Utilizzando tabelle ottimizzate per la memoria e indici hash o noncluster.

[3] Supportato come output di Analisi di flusso di Azure.

Funzionalità di scalabilità

Capacità Database SQL Pool SQL di Azure Synapse Analytics Pool di Spark di Azure Synapse Analytics Esplora dati di Azure Apache HBase o Apache Phoenix in HDInsight Hive LLAP su HDInsight Servizi di analisi Azure Cosmos DB, un servizio di database distribuito globale di Microsoft Tessuto
Server regionali ridondanti per disponibilità elevata NO NO NO
Supporta la scalabilità orizzontale delle query NO
Scalabilità dinamica (aumento delle prestazioni) NO NO
Supporto per la memorizzazione nella cache dei dati in memoria NO NO

Funzionalità di sicurezza

Capacità Database SQL Azure Synapse Analytics Esplora dati di Azure Apache HBase o Apache Phoenix in HDInsight Hive LLAP su HDInsight Servizi di analisi Azure Cosmos DB, un servizio di database distribuito globale di Microsoft Tessuto
Autenticazione SQL o Microsoft Entra ID SQL o Microsoft Entra ID Microsoft Entra ID Local o Microsoft Entra ID 1 Local o Microsoft Entra ID 1 Microsoft Entra ID Utenti del database o Microsoft Entra ID tramite controllo di accesso (gestione delle identità e degli accessi) Microsoft Entra ID
Crittografia dei dati a riposo 2 2 1 1
Sicurezza a livello di riga 3 1 1 NO
Supporto dei firewall 4 4
Offuscamento dinamico dei dati 1 NO NO

Richiede di utilizzare un cluster HDInsight collegato a un dominio.

[2] Richiede l'uso di Transparent Data Encryption per crittografare e decrittografare i dati a riposo.

[3] Filtro esclusivamente sui predicati. Per altre informazioni, vedere Sicurezza a livello di riga.

[4] Se usato all'interno di una rete virtuale di Azure. Per altre informazioni, vedere Estendere HDInsight usando una rete virtuale di Azure.

Passaggi successivi