Condividi tramite


Scegliere una tecnologia per l'archiviazione di Big Data in Azure

L'articolo mette a confronto le opzioni di archiviazione dati per le soluzioni di Big Data—specificamente, l'archiviazione per l'inserimento di dati in blocco e l'elaborazione batch, a differenza degli archivi dati analitici o dell'inserimento streaming in tempo reale.

Opzioni disponibili per la scelta di una tecnologia per l'archiviazione di dati in Azure

Sono disponibili diverse opzioni per l'inserimento di dati in Azure, in base alle esigenze specifiche.

Lago di dati logico unificato:

Archiviazione file:

Database NoSQL:

Database analitici:

OneLake in Fabric

OneLake in Fabric è un data lake unificato e logico personalizzato per l'intera organizzazione. Funge da hub centrale per tutti i dati di analisi ed è incluso in ogni tenant di Microsoft Fabric. OneLake in Fabric si basa sulla base di Data Lake Storage Gen2.

OneLake in Fabric:

  • Supporta tipi di file strutturati e non strutturati.
  • Archivia tutti i dati tabulari in formato Delta Parquet.
  • Fornisce un singolo data lake entro i limiti del tenant che sono regolati per impostazione predefinita.
  • Supporta la creazione di aree di lavoro all'interno di un tenant in modo che un'organizzazione possa distribuire i criteri di proprietà e accesso.
  • Supporta la creazione di vari elementi di dati, ad esempio lakehouse e warehouse, da cui è possibile accedere ai dati.

OneLake in Fabric funge da posizione di archiviazione comune per l'acquisizione, la trasformazione, le informazioni dettagliate in tempo reale e le visualizzazioni di business intelligence. Centralizza vari servizi di Fabric e archivia gli elementi di dati usati da tutti i carichi di lavoro in Fabric. Per scegliere l'archivio corretto per i carichi di lavoro di Fabric, vedere Guida alle decisioni di Fabric: scegliere un archivio dati.

blob di archiviazione di Azure

L'archiviazione di Azure è un servizio di archiviazione gestito altamente disponibile, sicuro, affidabile, scalabile e ridondante. Microsoft si occupa della manutenzione e gestisce i problemi critici per conto dell'utente. Azure Storage è la soluzione di archiviazione cloud più diffusa offerta da Azure, grazie alla sua capacità di integrarsi con un numero elevato di servizi e strumenti.

Esistono diversi servizi di Archiviazione di Azure che è possibile utilizzare per archiviare i dati. L'opzione più flessibile per l'archiviazione di BLOB provenienti da molteplici origini dati è Archiviazione BLOB. I BLOB sono essenzialmente file in cui vengono archiviati dati di qualsiasi tipo, ad esempio immagini, documenti, file HTML, dischi rigidi virtuali, Big Data come log, backup di database. I BLOB vengono archiviati nei contenitori, che sono simili alle cartelle. Un contenitore consente di raggruppare un set di BLOB. Un account di archiviazione può contenere un numero illimitato di contenitori, ciascuno dei quali può archiviare un numero illimitato di BLOB.

Archiviazione di Azure è una scelta ottimale per le soluzioni per l'analisi e i Big Data, grazie alla flessibilità, alla disponibilità elevata e ai costi contenuti. Offre livelli di archiviazione a caldo, a freddo e di archivio per diversi casi d'uso. Per ulteriori informazioni, vedere Azure Blob Storage: livelli di archiviazione ad accesso frequente, ad accesso sporadico e archivio.

Archiviazione BLOB di Azure è accessibile da Hadoop (disponibile tramite HDInsight). HDInsight può usare un contenitore blob in Azure Storage come file system predefinito per il cluster. Grazie a un'interfaccia HDFS (Hadoop Distributed File System) fornita da un driver WASB, tutti i componenti disponibili in HDInsight possono agire direttamente sui dati strutturati o non strutturati archiviati come BLOB. L'archiviazione Blob di Azure è accessibile anche utilizzando Azure Synapse Analytics con la funzionalità PolyBase.

Altri motivi per cui Archiviazione di Azure è una buona scelta includono:

Data Lake Storage Gen2

Data Lake Storage Gen2 è un singolo repository centralizzato in cui è possibile archiviare tutti i dati, sia strutturati che non strutturati. Un data lake consente all'organizzazione di archiviare, accedere e analizzare in modo semplice e rapido un'ampia gamma di dati in un'unica posizione. Con un data lake, non è necessario adattare i dati a una struttura esistente. È invece possibile archiviare i dati nel formato non elaborato o nativo, in genere come file o come oggetti binari di grandi dimensioni (BLOB).

Data Lake Storage Gen2 converge le funzionalità di Azure Data Lake Storage Gen1 con Archiviazione BLOB di Azure. Ad esempio, Data Lake Storage Gen2 offre semantica dei file system, sicurezza a livello di file e scalabilità. Poiché queste funzionalità sono basate sull'archiviazione BLOB, è anche possibile ottenere un archivio a basso costo, a livelli, con funzionalità di disponibilità elevata/ripristino di emergenza.

Data Lake Storage Gen2 rende Archiviazione di Azure la base per la costruzione di data lake aziendali su Azure. Progettato dall'inizio per servire più petabyte di informazioni supportando al contempo centinaia di Gigabit di velocità effettiva, Data Lake Storage Gen2 consente di gestire facilmente grandi quantità di dati.

Azure Cosmos DB, un servizio di database distribuito globale di Microsoft

Azure Cosmos DB è il database multimodello distribuito a livello globale di Microsoft. Azure Cosmos DB garantisce latenze di pochi millisecondi al 99° percentile ovunque nel mondo, offre più modelli di coerenza ben definiti per ottimizzare le prestazioni e garantisce la disponibilità elevata con funzionalità di multihosting.

Azure Cosmos DB è completamente indipendente dallo schema. Indicizza automaticamente tutti i dati senza che sia necessario gestire manualmente indici e schemi. È anche un database multimodello e supporta in modalità nativa modelli di dati basati su documenti, coppie chiave-valore, grafi e famiglie di colonne.

Funzionalità di Azure Cosmos DB:

HBase su HDInsight

Apache HBase è un database NoSQL open source basato su Hadoop e modellato su Google BigTable. HBase fornisce accesso casuale e coerenza assoluta per quantità elevate di dati non strutturati e semistrutturati in un database privo di schema organizzato in base a famiglie di colonne.

I dati sono archiviati nelle righe di una tabella e i dati di ogni riga sono raggruppati in base al tipo di colonna. HBase è un database privo di schema poiché non è necessario definire le colonne o il tipo di dati archiviati nelle colonne prima dell'uso. Il codice open source offre scalabilità lineare, in modo da gestire petabyte di dati in migliaia di nodi. Può contare su ridondanza dei dati, elaborazione batch e altre funzionalità offerte dalle applicazioni distribuite nell'ecosistema di Hadoop.

L'implementazione di HDInsight usa l'architettura con scalabilità orizzontale di HBase per automatizzare il partizionamento orizzontale delle tabelle, la coerenza assoluta delle operazioni di lettura e scrittura e il failover automatico. Le prestazioni sono ottimizzate dalla cache in memoria per le operazioni di lettura e da flussi a velocità effettiva elevata per quelle di scrittura. Nella maggior parte dei casi è opportuno creare il cluster HBase all'interno di una rete virtuale per consentire ad altri cluster e applicazioni HDInsight di accedere direttamente alle tabelle.

Esplora dati di Azure

Esplora dati di Azure è un servizio di esplorazione dati rapido e a scalabilità elevata per dati di log e di telemetria. Consente di gestire i numerosi flussi di dati generati dal software moderno, in modo da poter raccogliere, archiviare e analizzare i dati. Esplora dati di Azure è ideale per l'analisi di grandi volumi di dati eterogenei da qualsiasi origine dati, ad esempio siti Web, applicazioni, dispositivi IoT e altro ancora. Questi dati vengono usati per la diagnostica, il monitoraggio, la creazione di report, l'apprendimento automatico e altre funzionalità di analisi. Esplora dati di Azure semplifica l'inserimento dei dati e consente di eseguire complesse query ad hoc sui dati in pochi secondi.

Azure Data Explorer può essere scalato linearmente per aumentare la velocità effettiva di ingestione dei dati e di elaborazione delle query. Per abilitare le reti private, è possibile distribuire in una rete virtuale un cluster di Esplora dati di Azure.

Criteri di scelta principali

Per limitare le possibilità di scelta, rispondere prima di tutto a queste domande:

  • È necessario un data lake unificato con supporto multicloud, governance affidabile e integrazione senza problemi con gli strumenti analitici? In caso affermativo, scegliere OneLake in Fabric per semplificare la gestione dei dati e la collaborazione avanzata.

  • È necessaria una soluzione di archiviazione gestita, ad alta velocità, basata sul cloud per qualsiasi tipo di dati di testo o binari? In caso affermativo, scegliere una delle opzioni di analisi o archiviazione di file.

  • È necessaria una soluzione di archiviazione di file ottimizzata per carichi di lavoro di analisi paralleli, alta velocità effettiva e numero elevato di operazioni di I/O al secondo? In caso affermativo, scegliere un'opzione ottimizzata per le prestazioni richieste dai carichi di lavoro di analisi.

  • È necessario archiviare dati non strutturati o semistrutturati in un database privo di schema? In caso affermativo, scegliere una delle opzioni di analisi o non relazionali. Mettere a confronto le opzioni per i modelli di indicizzazione e database. A seconda del tipo di dati da archiviare, i modelli di database primario possono offrire la massima capacità.

  • È possibile usare il servizio nella propria area? Controllare la disponibilità di ogni servizio di Azure a livello di area. Per altre informazioni, vedere Prodotti disponibili in base all'area.

Matrice delle funzionalità

Le tabelle seguenti contengono un riepilogo delle differenze principali in termini di funzionalità.

Funzionalità di OneLake in Fabric

Capacità OneLake in Fabric
Lago di Dati Unificato Fornisce un data lake unico e unificato per l'intera organizzazione, che elimina i silos di dati.
Supporto per più cloud: Supporta l'integrazione e la compatibilità con varie piattaforme cloud.
Governance dei dati Include funzionalità come la derivazione dei dati, la protezione dei dati, la certificazione e l'integrazione del catalogo.
Hub dati centralizzato Funge da hub centralizzato per l'individuazione e la gestione dei dati.
Supporto per motore analitico Compatibile con più motori analitici. Questa compatibilità consente a diversi strumenti e tecnologie di operare sugli stessi dati.
Sicurezza e conformità Garantisce che i dati sensibili rimangano sicuri e l'accesso sia limitato solo agli utenti autorizzati.
Semplicità d'uso Fornisce una progettazione intuitiva che è automaticamente disponibile con ogni tenant di Fabric e non richiede alcuna configurazione.
Scalabilità In grado di gestire grandi volumi di dati da varie origini.

Funzionalità per l'archiviazione di file

Capacità Data Lake Storage Gen2 Contenitori di Archiviazione BLOB di Azure
Scopo Archiviazione ottimizzata per carichi di lavoro di analisi dei Big Data Archivio di oggetti generico per un'ampia gamma di scenari di archiviazione
Casi d'uso Dati batch, analisi di flusso e di apprendimento automatico come file di log, dati IoT, dati clickstream e set di dati di grandi dimensioni Qualsiasi tipo di dati di testo o binari, come back-end di applicazioni, dati di backup, archiviazione di supporti per streaming e dati di utilizzo generico
Struttura File system gerarchico Archivio di oggetti con spazio dei nomi piatto
Autenticazione In base alle identità di Microsoft Entra Basata su segreti condivisi, chiavi di accesso dell'account e chiavi di firma di accesso condiviso, e Controllo degli accessi in base al ruolo (Azure RBAC)
Protocollo di autenticazione Autorizzazione Open (OAuth) 2.0. Le chiamate devono contenere un token JWT valido (token Web JSON) rilasciato dall'ID Microsoft Entra Codice di Autenticazione dei Messaggi basato su Hash (HMAC). Le chiamate devono contenere un hash SHA-256 con codifica Base64 su una parte della richiesta HTTP.
Autorizzazione Elenchi di controllo degli accessi (ACL) del Portable Operating System Interface (POSIX). Gli ACL basati sulle identità di Microsoft Entra possono essere impostati a livello di file e cartelle. Per l'autorizzazione a livello di account, usare chiavi di accesso dell'account Per l'autorizzazione relativa ad account, contenitori o blob, usare le chiavi di firma di accesso condiviso.
Audit Disponibile. Disponibile
Crittografia di dati inattivi Trasparente, lato server Crittografia trasparente lato server; crittografia lato client
SDK per sviluppatori .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Prestazioni per carichi di lavoro di analisi Prestazioni ottimizzate per carichi di lavoro di analisi paralleli, alta velocità effettiva e numero elevato di operazioni di I/O al secondo Non è ottimizzato per carichi di lavoro di analisi.
Limiti di dimensione Nessun limite di dimensioni per l'account, i file o il numero di file Limiti specifici documentati qui
Ridondanza geografica Ridondanza locale (archiviazione ridondante localmente, LRS), ridondanza globale (archiviazione geo-ridondante, GRS), accesso di lettura ridondanza globale (archiviazione geo-ridondante con accesso di lettura, RA-GRS), ridondanza di zona (archiviazione ridondante per zona, ZRS). Ridondanza locale (LRS), ridondanza globale (GRS), ridondanza globale con accesso in lettura (RA-GRS), ridondanza a zona (ZRS). Per altre informazioni, vedere Ridondanza di Archiviazione di Azure.

Funzionalità di database NoSQL

Capacità Azure Cosmos DB, un servizio di database distribuito globale di Microsoft HBase su HDInsight
Modello di database primario Archivio a documenti, a grafo, a chiave-valore, a colonne esteso Database a colonne ampie
Indici secondari NO
Supporto per il linguaggio SQL Sì (con il driver JDBC Phoenix)
Coerenza Assoluta, decadimento ristretto, sessione, coerenza del prefisso, finale Forte
Integrazione nativa di Funzioni di Azure NO
Distribuzione globale automatica Non è possibile configurare una replica di cluster HBase in aree geografiche con coerenza finale
Modello di determinazione prezzi Unità di richiesta (RU) scalate elasticamente e addebitate al secondo secondo necessità, archiviazione scalabile in modo elastico Prezzi al minuto per il cluster HDInsight (scalabilità orizzontale dei nodi), archiviazione

Funzionalità di database analitici

Capacità Esplora dati di Azure
Modello di database primario Archivio relazionale (archivio colonne), dati di telemetria e serie temporali
Supporto per il linguaggio SQL
Modello di determinazione prezzi Istanze del cluster con scalabilità elastica
Autenticazione In base alle identità di Microsoft Entra
Crittografia di dati inattivi Chiavi supportate gestite dal cliente
Prestazioni per carichi di lavoro di analisi Prestazioni ottimizzate per carichi di lavoro di analisi parallela
Limiti di dimensione Scalabilità lineare

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Passaggi successivi