Che cosa sono le viste materializzate del lago in Microsoft Fabric?

Una vista lake materializzata in Fabric è una vista persistente e aggiornata automaticamente definita in Spark SQL o PySpark. Semplifica le trasformazioni di Lakehouse a più fasi, in genere l'architettura da bronzo a medaglia d'oro, esprimendole come istruzioni dichiarative anziché processi Spark personalizzati. Una volta materializzata, un MLV si comporta come una tabella Lakehouse standard in termini di archiviazione, modelli di accesso e sicurezza, può essere sottoposta a query tramite qualsiasi motore di Fabric con le stesse autorizzazioni e lo stesso modello di governance. Fabric tiene traccia delle dipendenze tra MLV, orchestra gli aggiornamenti nell'ordine corretto e applica vincoli di qualità dei dati in ogni fase. Ciò consente ai data engineer di creare pipeline affidabili e gestibili con meno codice e sovraccarico operativo.

Quando usare viste lake materializzate

Le viste del lago materializzate sono adatte quando si dispone di:

  • Aggregazioni a cui si accede di frequente (totali delle vendite giornaliere, metriche mensili) in cui i risultati pre-calcolati migliorano le prestazioni rispetto all'esecuzione ripetuta di query costose
  • Join complessi su più tabelle di grandi dimensioni che vengono frequentemente sottoposte a query e che necessitano di risultati coerenti per tutti i consumatori
  • Trasformazioni della qualità dei dati che devono essere applicate in modo uniforme, con regole definite in modo dichiarativo anziché in codice personalizzato
  • Set di dati di report che combinano dati da più origini e traggono vantaggio dall'aggiornamento automatico quando cambiano i dati di origine
  • Architettura Medallion in cui le trasformazioni Bronzo → Argento → Oro devono essere definite in SQL.

Le viste lake materializzate non sono la scelta giusta per ogni scenario. Prendere in considerazione le alternative quando si dispone di:

  • Query ad accesso singolo o raramente utilizzate che non traggono vantaggio dai risultati precalcolati
  • Logica Non-SQL come inferenza di ML, chiamate API o elaborazione Python complessa — si consiglia di usare i notebook Spark invece
  • Dati di streaming ad alta frequenza che richiedono aggiornamenti in meno di un secondo — prendere in considerazione Real-Time Intelligence

Annotazioni

Questa funzionalità non è attualmente disponibile nell'area Stati Uniti centro-meridionali.

Introduzione alle viste materializzate del lago

Per creare una vista lago materializzata in Microsoft Fabric, vedere Introduzione alle viste lake materializzate. Per una procedura dettagliata completa che costruisce un'architettura medallion, vedere Esercitazione: Creare un'architettura medallion con viste lake materializzate.

Come funzionano le viste del lago materializzate?

Le viste lake materializzate usano un approccio dichiarativo: scrivere una query SQL per definire la trasformazione e consentire Fabric gestire l'esecuzione, l'archiviazione e l'aggiornamento. Il risultato viene reso persistente come tabella Delta nel tuo lakehouse, in modo che i consumer a valle possano interrogarla direttamente senza eseguire di nuovo la trasformazione.

Il ciclo di vita di una vista lago materializzata segue quattro fasi:

  • Creazione: scrivere una query SQL che definisce la trasformazione. Fabric archivia la definizione e materializza i risultati come tabella Delta.
  • Refresh: quando cambiano i dati di origine, Fabric determina la strategia di aggiornamento ottimale, incrementale (elabora solo dati nuovi o modificati), completa (ricompilazione completa) o ignora (nessuna modifica rilevata).
  • Query: le applicazioni e i report eseguono query sulla vista materializzata del lago allo stesso modo di una normale tabella Delta, senza conoscere la logica di trasformazione sottostante.
  • Monitor: tenere traccia della cronologia degli aggiornamenti, dello stato di esecuzione, delle metriche della qualità dei dati e della derivazione delle dipendenze tramite strumenti di Fabric predefiniti.

Opzioni di creazione di contenuti

Le viste materializzate del lago supportano due approcci per l'autoria.

  • Creazione di SQL: definire le viste usando istruzioni SQL CREATE MATERIALIZED LAKE VIEW standard direttamente nell'editor fabric lakehouse.

  • Creazione di PySpark (anteprima): creare, aggiornare e sostituire le visualizzazioni dai notebook di Fabric usando DataFrameWriter. Supporto delle viste create da PySpark:

    • Vincoli relativi alla qualità dei dati
    • Proprietà della tabella
    • Aggiornamenti pianificati

    Annotazioni

    Le viste create da PySpark attualmente eseguono solo l'aggiornamento completo.

Funzionalità chiave

Le viste materializzate del lago includono funzionalità predefinite che gestiscono la complessità operativa che altrimenti gestiresti da solo in notebook e pipeline.

Ottimizzazione automatica dell'aggiornamento

Fabric determina automaticamente quando e come aggiornare le viste lake materializzate. Un motore decisionale seleziona la strategia di aggiornamento più efficiente e le modifiche ai dati di origine vengono rilevate per impostazione predefinita tramite il feed di dati delle modifiche:

  • Aggiornamento incrementale: elabora solo i dati nuovi o modificati
  • Aggiornamento completo: ricostruisce l'intera vista materializzata del lago quando necessario
  • Ignora aggiornamento: nessun aggiornamento necessario quando i dati di origine non sono stati modificati

L'aggiornamento ottimale supporta una gamma di modelli di query comuni, tra cui:

  • Aggregazioni con GROUP BY
  • Join esterni sinistri e semi join
  • Espressioni di tabella comuni (CTE)

Qualità dei dati predefinita

Le viste materializzate dei laghi supportano regole dichiarative di qualità dei dati. Definire i vincoli direttamente in SQL e specificare come gestire le violazioni:

CONSTRAINT valid_sales CHECK (sales_amount > 0) ON MISMATCH DROP

Gestione delle dipendenze

Quando le viste del lago materializzate fanno riferimento ad altre viste del lago materializzate o tabelle, Fabric rileva automaticamente tali relazioni e gestisce l'ordine di esecuzione per te.

  • Visualizzare il modo in cui le viste del lago materializzate dipendono l'una dall'altra, attraverso le case del lago
  • Ordinamento automatico degli aggiornamenti in base alle dipendenze
  • L'elaborazione segue la catena di dipendenze per garantire la coerenza dei dati

Monitoraggio e informazioni dettagliate

Fabric offre strumenti predefiniti per tenere traccia dell'integrità e delle prestazioni delle viste lake materializzate:

  • Tenere traccia delle prestazioni di aggiornamento e dello stato di esecuzione per ogni vista lake materializzata
  • Visualizzare le metriche di qualità dei dati e i conteggi delle violazioni nella derivazione
  • Monitorare le istanze del processo e la cronologia di aggiornamento nella visualizzazione esecuzioni recenti

sicurezza

Le viste materializzate del lake in Fabric seguono tutte le misure di sicurezza e governance delle tabelle Lakehouse. È anche possibile usare gli MLV nei lakehouse con collegamento privato abilitato. Per altre informazioni sul collegamento privato, vedere Fabric Security.