Introduzione al pool di archiviazione nei cluster Big Data di SQL Server

Si applica a:SQL Server 2019 (15.x)

Questo articolo descrive il ruolo del pool di archiviazione di SQL Server in un cluster Big Data di SQL Server. Le sezioni seguenti descrivono l'architettura e le funzionalità di un pool di archiviazione.

Important

I cluster Big Data di Microsoft SQL Server 2019 sono stati ritirati. Il supporto per i cluster Big Data di SQL Server 2019 è terminato a partire dal 28 febbraio 2025. Per altre informazioni, vedere il post di blog sull'annuncio e le opzioni per Big Data nella piattaforma Microsoft SQL Server.

Architettura del pool di archiviazione

Il pool di archiviazione è il cluster HDFS (Hadoop) locale in un cluster Big Data di SQL Server. Fornisce un archivio permanente per dati non strutturati e semistrutturati. I file di dati, ad esempio Parquet o testo delimitato, possono essere archiviati nel pool di archiviazione. Per rendere persistente l'archiviazione, a ogni pod nel pool è associato un volume persistente. I file del pool di archiviazione sono accessibili tramite PolyBase tramite SQL Server o direttamente tramite un gateway Apache Knox.

Una configurazione HDFS classica è costituita da un set di computer hardware di base con archiviazione collegata. I dati sono distribuiti in blocchi tra i nodi per la tolleranza di errore e sfruttando l'elaborazione parallela. Uno dei nodi del cluster funziona come nodo del nome e contiene le informazioni sui metadati sui file presenti nei nodi dati.

Configurazione classica di HDFS

Il pool di archiviazione è costituito da nodi di archiviazione membri di un cluster HDFS. Esegue uno o più pod Kubernetes con ogni pod che ospita i contenitori seguenti:

Un contenitore Hadoop collegato a un volume permanente (archiviazione). Tutti i contenitori di questo tipo formano il cluster Hadoop. All'interno del contenitore Hadoop è un processo di gestione dei nodi YARN in grado di creare processi di lavoro Apache Spark su richiesta. Il nodo head di Spark ospita il metastore di Hive, la cronologia di Spark e i contenitori della cronologia dei processi YARN.
Istanza di SQL Server per leggere i dati da HDFS usando la tecnologia OpenRowSet.
collectd per la raccolta di dati delle metriche.
fluentbit per la raccolta dei dati di log.

Architettura del pool di archiviazione

Responsibilities

I nodi di archiviazione sono responsabili di:

Inserimento dati tramite Apache Spark.
Archiviazione dei dati in HDFS (formato Parquet e testo delimitato). HDFS fornisce anche la persistenza dei dati, poiché i dati HDFS vengono distribuiti in tutti i nodi di archiviazione nel cluster BDC DI SQL.
Accesso ai dati tramite gli endpoint HDFS e SQL Server.

Accessing data

I metodi principali per accedere ai dati nel pool di archiviazione sono:

Spark jobs.
Utilizzo di tabelle esterne di SQL Server per consentire l'esecuzione di query sui dati usando nodi di calcolo PolyBase e le istanze di SQL Server in esecuzione nei nodi HDFS.

È anche possibile interagire con HDFS usando:

Azure Data Studio.
Interfaccia della riga di comando dati di Azure (azdata).
kubectl per eseguire comandi al contenitore Hadoop.
Gateway HDFS HTTP.

Next steps

Per altre informazioni sui cluster Big Data di SQL Server, vedere le risorse seguenti:

Last updated on 2020-10-01

Condividi tramite

Introduzione al pool di archiviazione nei cluster Big Data di SQL Server

Architettura del pool di archiviazione

Responsibilities

Accessing data

Next steps

Risorse aggiuntive