Introduzione al pool di dati nei cluster Big Data di SQL Server

Si applica a:SQL Server 2019 (15.x)

Important

I cluster Big Data di Microsoft SQL Server 2019 sono stati ritirati. Il supporto per i cluster Big Data di SQL Server 2019 è terminato a partire dal 28 febbraio 2025. Per altre informazioni, vedere il post di blog sull'annuncio e le opzioni per Big Data nella piattaforma Microsoft SQL Server.

Questo articolo descrive il ruolo dei pool di dati di SQL Server in un cluster Big Data di SQL Server. Le sezioni seguenti descrivono gli scenari di architettura, funzionalità e utilizzo di un pool di dati.

Questo video di 5 minuti presenta i pool di dati e illustra come eseguire query sui dati dai pool di dati:

Architettura del pool di dati

Un pool di dati è costituito da una o più istanze del pool di dati di SQL Server che forniscono l'archiviazione permanente di SQL Server per il cluster. Consente di eseguire query sulle prestazioni dei dati memorizzati nella cache rispetto a origini dati esterne e di scaricare il lavoro. I dati vengono inseriti nel pool di dati usando query T-SQL o da processi Spark. Per migliorare le prestazioni in set di dati di grandi dimensioni, i dati inseriti vengono distribuiti in partizioni e archiviati in tutte le istanze di SQL Server nel pool. I metodi di distribuzione supportati sono a turno (round robin) e replicati. Per l'ottimizzazione dell'accesso in lettura, viene creato un indice columnstore clusterizzato su ciascuna tabella in ogni istanza del pool di dati. Un pool di dati funge da data mart con scalabilità orizzontale per i cluster Big Data di SQL Server.

Data mart con scalabilità orizzontale

L'accesso alle istanze di SQL Server nel pool di dati viene gestito dall'istanza master di SQL Server. Viene creata un'origine dati esterna per il pool di dati, insieme alle tabelle esterne PolyBase per archiviare la cache dei dati. In background, il controller crea un database nel pool di dati con tabelle che corrispondono alle tabelle esterne. Dall'istanza master di SQL Server il flusso di lavoro è trasparente; Il controller reindirizza le richieste specifiche di tabella esterna alle istanze di SQL Server nel pool di dati, che possono trovarsi nel pool di calcolo, esegue query e restituisce il set di risultati. I dati nel pool di dati possono essere inseriti o sottoposti a query e non possono essere modificati. Eventuali aggiornamenti dei dati richiedono quindi un'eliminazione della tabella, seguita dalla ricreazione della tabella e dalla ripopolazione dei dati successiva.

Scenari del pool di dati

Gli scopi della creazione di report sono uno scenario comune del pool di dati. Ad esempio, una query complessa che unisce più origini dati PolyBase, utilizzata per un report settimanale, può essere trasferita al pool di dati. I dati memorizzati nella cache forniscono un calcolo rapido locale ed eliminano la necessità di tornare ai set di dati originali. Analogamente, i dati del dashboard che richiedono l'aggiornamento periodico potrebbero essere memorizzati nella cache nel pool di dati per la creazione di report ottimizzati. L'esplorazione ripetuta di Machine Learning può anche trarre vantaggio dalla memorizzazione nella cache dei set di dati nel pool di dati.

Next steps

Per altre informazioni sui cluster Big Data di SQL Server, vedere le risorse seguenti:

Last updated on 2021-07-16

Condividi tramite

Introduzione al pool di dati nei cluster Big Data di SQL Server

Architettura del pool di dati

Scenari del pool di dati

Next steps

Risorse aggiuntive