Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Usare questa guida di riferimento e gli scenari di esempio per decidere se è necessaria un'attività di copia, un processo di copia, un flusso di dati, un flusso di eventi o Spark per i carichi di lavoro di Microsoft Fabric.
Attività di copia, processo di copia, flusso di dati, proprietà Eventstream e Spark
Attività di copia della pipeline | Processo di copia | Flusso di dati Gen 2 | Eventstream | Spark | |
---|---|---|---|---|---|
caso d'uso | Migrazione del data lake e del data warehouse, inserimento dati, trasformazione leggera |
Inserimento dati, Procedura di copia incrementale Replicazione Migrazione di Data Lake e Data Warehouse, trasformazione leggera |
Inserimento dati, trasformazione dei dati, preparazione dati profilatura dei dati |
inserimento dati evento, trasformazione dei dati dell'evento |
Inserimento dati, trasformazione dei dati, elaborazione dati profilatura dei dati |
Persona principale sviluppatore | Ingegnere dei dati integratore di dati |
Analista aziendale Integratore Dati Ingegnere dei Dati |
Ingegnere dei dati integratore di dati, analista aziendale |
Ingegnere dei dati scienziato dei dati sviluppatore di dati |
Integratore di dati, ingegnere dei dati |
Competenze primarie degli sviluppatori | ETL, SQL JSON (JavaScript Object Notation) |
ETL, SQL JSON (JavaScript Object Notation) |
ETL, M, SQL |
SQL, JSON, messaggistica | Spark (Scala, Python, Spark SQL, R) |
codice scritto | Nessun codice, basso codice |
Nessun codice, basso codice |
Nessun codice, basso codice |
Nessun codice, basso codice |
Codice |
Volume dei dati | Da bassa a alta | Da bassa a alta | Da bassa a alta | Da medio ad alto | Da bassa a alta |
interfaccia di sviluppo | Mago tela |
Mago tela |
Power Query | Tela | Taccuino Definizione del lavoro Spark |
origini | Oltre 50 connettori | Oltre 50 connettori | Oltre 150 connettori | Database che supporta CDC (Change Data Capture), Kafka, sistemi di messaggistica che supportano modelli di pubblicazione e sottoscrizione, flussi di eventi | Centinaia di librerie Spark |
destinazioni | Oltre 40 connettori | Oltre 40 connettori | Lakehouse, Database SQL di Azure, Esplora dati di Azure, Analisi di Azure Synapse |
Eventhouse, Lakehouse, Activator Alert, Derived Stream, Endpoint personalizzato | Centinaia di librerie Spark |
complessità della trasformazione | Basso: leggero - conversione di tipi, mappatura delle colonne, unione/suddivisione di file, appiattimento della gerarchia |
Basso: leggero - conversione di tipi, mappatura delle colonne, unione/suddivisione di file, appiattimento della gerarchia |
Da bassa a alta: 300+ funzioni di trasformazione |
Basso: leggero |
Da bassa a alta: supporto per librerie Spark native e open source |
Scenari
Esaminare gli scenari seguenti per informazioni sulla scelta di come usare i dati in Fabric.
Scenario 1
Leo, un data engineer, deve inserire un volume elevato di dati da sistemi esterni, sia in locale che nel cloud. Questi sistemi esterni includono database, file system e API. Leo non vuole scrivere e gestire il codice per ogni operazione di spostamento dati o connettore. Vuole seguire le procedure consigliate dei livelli dei medaglioni, con bronzo, argento e oro. Leo non ha alcuna esperienza con Spark, quindi preferisce il più possibile l'interfaccia utente trascina e rilascia, con codice minimo. E vuole anche elaborare i dati in base a una pianificazione.
Il primo passaggio consiste nel trasferire i dati grezzi nel livello bronze del lakehouse dalle risorse dati di Azure e da varie fonti di dati esterne (ad esempio Snowflake, Web REST, AWS S3, GCS e così via). Vuole un lakehouse consolidato, in modo che tutti i dati provenienti da varie origini LOB, locali e cloud si trovino in un'unica posizione. Leo esamina le opzioni e seleziona attività di copia della pipeline come scelta appropriata per le copie binarie grezze. Questo modello si applica sia all'aggiornamento dati cronologico che incrementale. Con l'attività di copia, Leo può caricare dati Gold in un data warehouse senza codice se è necessario e le pipeline forniscono un inserimento di dati su larga scala in grado di spostare dati su scala petabyte. L'attività di copia è la scelta migliore a basso codice e senza necessità di codice per spostare petabyte di dati verso data lakehouse e data warehouse da varie origini, sia in modo occasionale che tramite pianificazione.
Scenario 2
Mary è un data engineer con una conoscenza approfondita dei diversi requisiti di report analitici LOB. Un team upstream ha implementato correttamente una soluzione per eseguire la migrazione di più dati cronologici e incrementali del LOB in un comune lakehouse. Mary è stata incaricata di pulire i dati, applicare le logiche di business e caricarli in più destinazioni (ad esempio database SQL di Azure, ADX e una lakehouse) in preparazione per i rispettivi team di report.
Mary è un utente esperto di Power Query e il volume di dati è compreso nell'intervallo da basso a medio per ottenere le prestazioni desiderate. I flussi di dati forniscono interfacce senza codice o con poco codice per l'inserimento di dati da centinaia di origini dati. Con i flussi di dati, è possibile trasformare i dati usando 300+ opzioni di trasformazione dei dati e scrivere i risultati in più destinazioni con un'interfaccia utente estremamente visiva e facile da usare. Mary esamina le opzioni e decide che è opportuno usare Dataflow Gen 2 come opzione di trasformazione preferita.
Scenario 3
Prashant, un integratore di dati con una profonda esperienza nei processi e nei sistemi aziendali. Un team upstream ha esposto correttamente i dati degli eventi dalle applicazioni aziendali come messaggi che possono essere utilizzati tramite sistemi downstream. Prashant è stato assegnato per integrare i dati degli eventi dalle applicazioni aziendali in Microsoft Fabric per il supporto decisionale in tempo reale.
Dato il volume di dati medio-elevato e la preferenza dell'organizzazione per soluzioni senza codice, Prashant cerca un modo per inoltrare facilmente gli eventi man mano che si verificano senza gestire le pianificazioni di estrazione. Per soddisfare questa esigenza, sceglie i flussi di eventi in Microsoft Fabric. I flussi di eventi all'interno dell'esperienza di intelligence Real-Time consentono l'inserimento, la trasformazione e il routing dei dati in tempo reale a varie destinazioni, senza scrivere codice.
Scenario 4
Adam è un data engineer che lavora per una grande azienda di vendita al dettaglio che usa un lakehouse per archiviare e analizzare i dati dei clienti. Come parte del suo lavoro, Adam è responsabile della creazione e della gestione delle pipeline di dati che estraggono, trasformano e caricano i dati nel lakehouse. Uno dei requisiti aziendali dell'azienda consiste nell'eseguire analisi di revisione dei clienti per ottenere informazioni dettagliate sulle esperienze dei clienti e migliorare i propri servizi.
Adam decide che l'opzione migliore consiste nell'usare Spark per compilare la logica di estrazione e trasformazione. Spark offre una piattaforma di elaborazione distribuita in grado di elaborare grandi quantità di dati in parallelo. Scrive un'applicazione Spark usando Python o Scala, che legge dati strutturati, semistrutturati e non strutturati da OneLake per commenti e suggerimenti dei clienti. L'applicazione pulisce, trasforma e scrive i dati nelle tabelle Delta nel lakehouse. I dati sono quindi pronti per essere usati per l'analisi downstream.
Scenario 5
Rajesh, un data engineer, ha il compito di inserire dati incrementali da un'istanza di SQL Server locale in un database SQL di Azure. L'istanza di SQL Server locale di Rajesh ha già abilitato Change Data Capture (CDC) nelle tabelle chiave.
Rajesh sta cercando una soluzione semplice, a bassa complessità di codice, guidata da wizard che gli consente di:
- Selezionare più tabelle di origine nativamente abilitate per CDC
- Eseguire un caricamento completo iniziale
- Passare automaticamente ai caricamenti incrementali dei dati in base a CDC
- Pianificare gli aggiornamenti dei dati per gli aggiornamenti ricorrenti
Vuole evitare di scrivere codice personalizzato o gestire orchestrazioni complesse. Idealmente, vuole una «procedura guidata 5x5» con cui può eseguire la configurazione in solo pochi clic.
Rajesh sceglie la funzionalità Copia attività in Microsoft Fabric. Con il supporto del gateway locale, si connette in modo sicuro a SQL Server, seleziona le tabelle desiderate e configura il flusso per raggiungere il database SQL di Azure di destinazione.
Il processo di copia offre un'esperienza di spostamento dei dati a basso attrito e scalabile, soddisfacendo i requisiti di Rajesh senza la necessità di gestire pipeline complesse.