Comprendere Azure Data Lake Storage Gen2

Completato

Un data lake è un repository di dati archiviato nel suo formato naturale, in genere come blob o file. Azure Data Lake Storage è una soluzione Data Lake completa, altamente scalabile, sicura e conveniente per l'analisi con prestazioni elevate integrata in Azure.

Diagramma che rappresenta i file in Azure Data Lake Storage Gen2 a cui accedono le tecnologie Big Data.

Azure Data Lake Storage combina un file system e una piattaforma di archiviazione, per consentire una rapida identificazione delle informazioni dettagliate all'interno dei dati. Data Lake Storage Gen2 è basato sulle funzionalità di Archiviazione BLOB di Azure, ottimizzando quest'ultima soluzione specificamente per i carichi di lavoro di analisi. Questa integrazione consente prestazioni elevate di analisi, funzionalità di suddivisione in livelli e gestione del ciclo di vita dei dati di Archiviazione BLOB e caratteristiche di disponibilità elevata, sicurezza e durabilità proprie di Archiviazione di Azure.

Vantaggi

Data Lake Storage è progettato per gestire tale varietà di dati, con volumi a livello di exabyte, e, nello stesso tempo, gestire in sicurezza centinaia di gigabyte di velocità effettiva. È possibile quindi usare Data Lake Storage Gen2 come base per soluzioni sia in tempo reale che batch.

Aprire l'accesso alla piattaforma di analisi

Un vantaggio di Data Lake Storage è che espone un file system gerarchico tramite API aperte, consentendo di archiviare i dati in un'unica posizione e accedervi tramite tecnologie di calcolo moderne, tra cui Azure Databricks e Microsoft Fabric senza spostare i dati tra ambienti. I data engineer possono anche usare formati di file aperti, ad esempio Parquet e Delta Lake, altamente compressi, supportano l'applicazione dello schema e funzionano bene in più piattaforme di analisi.

Sicurezza

Azure Data Lake Storage usa un modello di controllo di accesso a più livelli. Il controllo degli accessi in base al ruolo di Azure consente di concedere l'accesso con granularità grossolana, ad esempio l'accesso in lettura o scrittura a tutti i dati in un contenitore, agli utenti, ai gruppi e alle entità servizio. Il controllo degli accessi in base all'attributo di Azure affina tali assegnazioni di ruolo aggiungendo condizioni, ad esempio limitando l'accesso ai dati con un tag specifico. Per un controllo preciso a livello di file, elenchi di controllo di accesso (ACL) con autorizzazioni POSIX (Portable Operating System Interface) consentono di impostare le autorizzazioni a livello di directory o file.

Le autorizzazioni non vengono ereditate automaticamente dalle directory padre dopo la creazione di un elemento figlio. Tuttavia, è possibile configurare autorizzazioni predefinite per una directory padre, che verranno poi applicate ai nuovi elementi figlio al momento della loro creazione. È possibile gestire queste impostazioni usando utilità come Azure Storage Explorer, che viene eseguita in Windows, macOS e Linux. Tutti i dati archiviati vengono crittografati inattivi usando chiavi gestite da Microsoft o gestite dal cliente.

Prestazioni

Azure Data Lake Storage organizza i dati archiviati in una gerarchia di directory e sottodirectory, molto simile a un file system, per una maggiore facilità di individuazione. Di conseguenza, l'elaborazione dati richiede meno risorse di calcolo, il che a sua volta riduce sia tempi che costi.

Ridondanza dei dati

Data Lake Storage eredita tutti i modelli di replica di archiviazione BLOB di Azure. L'archiviazione con ridondanza locale mantiene più copie all'interno di un singolo data center, mentre l'archiviazione con ridondanza della zona replica i dati tra zone di disponibilità nella stessa area. Per una protezione geografica più ampia, l'archiviazione con ridondanza geografica o l'archiviazione con ridondanza geografica e accesso in lettura (RA-GRS) replica i dati in un'area secondaria. Per ottenere il massimo livello di resilienza, lo storage con ridondanza geografica (GZRS o RA-GZRS) combina la ridondanza di zona e quella geografica. Questa gamma di opzioni garantisce che i dati siano sempre disponibili e protetti indipendentemente dalla scalabilità dell'interruzione.

Suggerimento

Ogni volta che si pianifica un data lake, un ingegnere dei dati deve considerare attentamente la struttura, la governance dei dati e la sicurezza. Questo dovrebbe includere la considerazione di fattori che possono influenzare la struttura e l'organizzazione del lago, ad esempio:

  • Tipi di dati da archiviare
  • Modalità di trasformazione dei dati
  • Utenti autorizzati ad accedere ai dati
  • Modelli di accesso tipici

Questo approccio consente di determinare come pianificare la governance del controllo di accesso nel data lake. Gli ingegneri dei dati devono essere proattivi per garantire che il data lake non diventi una proverbiale palude che diventa inaccessibile e non utile agli utenti a causa della mancanza di misure di governance dei dati e di qualità dei dati. La definizione di una baseline e le procedure consigliate seguenti per Azure Data Lake consentiranno di garantire un'implementazione appropriata e affidabile che permetterà all'organizzazione di crescere e ottenere informazioni dettagliate per raggiungere ulteriori obiettivi.