Condividi tramite


Dataflow Gen2 con supporto per integrazione CI/CD e Git

Dataflow Gen2 supporta ora l'integrazione continua/distribuzione continua (CI/CD) e l'integrazione Git. Questa funzionalità consente di creare, modificare e gestire flussi di dati in un repository Git connesso all'area di lavoro dell'infrastruttura. È anche possibile usare la funzionalità pipeline di distribuzione per automatizzare la distribuzione dei flussi di dati dall'area di lavoro ad altre aree di lavoro. Questo articolo illustra in dettaglio come usare Dataflow Gen2 con integrazione CI/CD e Git in Fabric Data Factory.

Nuove funzionalità

Con Dataflow Gen2 (CI/CD), è ora possibile:

  • Usare il supporto dell'integrazione Git per Dataflow Gen2.
  • Usare la funzionalità pipeline di distribuzione per automatizzare la distribuzione dei flussi di dati dall'area di lavoro ad altre aree di lavoro.
  • Usare le impostazioni di Fabric e l'utilità di pianificazione per aggiornare e modificare le impostazioni di Dataflow Gen2.
  • Crea il Dataflow Gen2 direttamente in una cartella dell'area di lavoro.
  • Usare le API pubbliche (anteprima) per creare e gestire Dataflow Gen2 con integrazione CI/CD e Git.

Prerequisiti

Per iniziare, è necessario soddisfare i prerequisiti seguenti:

  • Avere un account tenant di Microsoft Fabric con una sottoscrizione attiva. Creare un account gratuitamente.
  • Assicurarsi di disporre di un'area di lavoro abilitata per Microsoft Fabric.
  • Per sfruttare l'integrazione con Git, assicurarsi che sia abilitata per l'area di lavoro. Per altre informazioni sull'abilitazione dell'integrazione git, vedere Introduzione all'integrazione con Git.

Creare un flusso di dati Gen2 con supporto CI/CD e Git

Per creare un dataflow Gen2 con supporto CI/CD e Git, seguire questa procedura:

  1. Nello spazio di lavoro Fabric, selezionare Crea nuovo elemento e quindi selezionare Dataflow Gen2.

    Screenshot della finestra Nuovo elemento con l'elemento Dataflow Gen2 evidenziato.

  2. Assegnare un nome al flusso di dati e abilitare l'integrazione git. Successivamente, seleziona Crea.

    Screenshot della finestra New Dataflow Gen2 con il set di nomi del flusso di dati e l'integrazione Git evidenziata e selezionata.

    Il flusso di dati viene creato e viene reindirizzato all'area di disegno di creazione del flusso di dati. È ora possibile iniziare a creare il flusso di dati.

  3. Al termine dello sviluppo del flusso di dati, selezionare Salva ed esegui.

  4. Dopo la pubblicazione, il flusso di dati ha lo stato di cui non è stato eseguito il commit.

    Screenshot del Dataflow Gen2 salvato con lo stato visualizzato come non confermato.

  5. Per eseguire il commit del flusso di dati nel repository Git, selezionare l'icona del controllo del codice sorgente nell'angolo in alto a destra della visualizzazione dell'area di lavoro.

    Screenshot del pulsante controllo del codice sorgente.

  6. Selezionare tutte le modifiche da eseguire per il commit e quindi selezionare Commit.

    Screenshot della finestra Controllo del codice sorgente con il flusso di dati selezionato e il pulsante Commit evidenziati.

È ora disponibile un dataflow Gen2 con supporto CI/CD e Git. È consigliabile seguire le procedure consigliate per l'uso dell'integrazione CI/CD e Git in Fabric descritto nell'esercitazione Scenario 2 - Sviluppare usando un'altra area di lavoro .

Aggiornare un flusso di dati Gen2 o pianificare un aggiornamento

È possibile aggiornare un dataflow Gen2 con supporto CI/CD e Git in due modi, manualmente o pianificando un aggiornamento. Le sezioni seguenti descrivono come aggiornare un dataflow Gen2 con il supporto CI/CD e Git.

Aggiorna

  1. Nell'area di lavoro del tessuto, selezionare l'icona con i puntini di sospensione (menu opzioni) accanto al flusso di dati che si desidera aggiornare.

  2. Selezionare Aggiorna ora.

    Screenshot del menu a discesa delle ulteriori opzioni con Aggiorna ora evidenziato.

Pianificare un aggiornamento

Se il flusso di dati deve essere aggiornato a intervalli regolari, è possibile pianificare l'aggiornamento usando l'utilità di pianificazione di Fabric.

  1. Nell'area di lavoro Fabric, selezionare l'icona con i puntini di sospensione delle opzioni accanto al flusso di dati che si vuole aggiornare.

  2. Selezionare Pianifica.

    Screenshot del menu a tendina delle altre opzioni con l'opzione Pianifica evidenziata.

  3. Nella pagina pianificazione è possibile impostare la frequenza di aggiornamento e l'ora di inizio e l'ora di fine, dopo la quale è possibile applicare le modifiche.

    Screenshot della schermata delle impostazioni del flusso di dati con la scheda Pianificazione selezionata e il pulsante Aggiorna evidenziato.

  4. Per avviare l'aggiornamento ora, selezionare il pulsante Aggiorna .

Aggiorna cronologia e impostazioni

Per visualizzare la cronologia degli aggiornamenti del flusso di dati, è possibile selezionare la scheda Esecuzioni recenti nel menu a discesa oppure passare all'hub di monitoraggio e selezionare il flusso di dati di cui si vuole visualizzare la cronologia di aggiornamento.

Impostazioni per Dataflow Gen2 con CI/CD

L'accesso alle impostazioni del nuovo Dataflow Gen2 con CI/CD e supporto Git è simile a qualsiasi altro elemento di Fabric. È possibile accedere alle impostazioni selezionando l'icona con i puntini di sospensione altre opzioni accanto al flusso di dati e selezionando le impostazioni.

Il salvataggio sostituisce l'operazione di pubblicazione

Con Dataflow Gen2 con supporto CI/CD e Git, l'operazione di salvataggio sostituisce l'operazione di pubblicazione. Questa modifica significa che quando si salva il flusso di dati, vengono automaticamente "pubblicate" le modifiche al flusso di dati.

L'operazione di salvataggio sovrascrive direttamente il flusso di dati nell'area di lavoro. Se si desidera eliminare le modifiche, è possibile farlo selezionando Ignora modifiche quando si chiude l'editor.

Validazione

Durante l'operazione di salvataggio, si verifica anche se il flusso di dati è in uno stato valido. Se il flusso di dati non è in uno stato valido, viene visualizzato un messaggio di errore nel menu a discesa nella visualizzazione area di lavoro. Per determinare la validità del flusso di dati, eseguiamo una valutazione "zero righe" per tutte le query nel flusso di dati.

Questa valutazione significa che vengono eseguite tutte le query nel flusso di dati in modo che richieda solo lo schema del risultato della query, senza restituire alcuna riga. Se una valutazione della query ha esito negativo o lo schema di una query non può essere determinato entro 10 minuti, la convalida non riesce e viene usata la versione salvata in precedenza del flusso di dati per gli aggiornamenti.

Limitazioni e problemi noti

Anche se Dataflow Gen2 con CI/CD e supporto Git offre un potente set di funzionalità per la collaborazione adatta alle imprese, ciò ci ha richiesto di ricompilare il back-end all'architettura a fabric. Ciò significa che alcune funzionalità non sono ancora disponibili o presentano limitazioni. Microsoft sta lavorando attivamente per migliorare l'esperienza e aggiornerà questo articolo man mano che vengono aggiunte nuove funzionalità.

  • Quando si elimina l'ultima versione di Dataflow Gen2 con supporto CI/CD e Git, gli artefatti di staging diventano visibili nell'area di lavoro e possono essere eliminati dall'utente.
  • La vista Area di lavoro non viene mostrata se è in corso una ricarica del flusso di dati.
  • Quando si passa a un'altra area di lavoro, un aggiornamento di Dataflow Gen2 potrebbe non riuscire con il messaggio che il lakehouse di staging non è stato trovato. In questo caso, creare un nuovo dataflow Gen2 con supporto CI/CD e Git nell'area di lavoro per attivare la creazione del lakehouse di staging. In seguito, tutti gli altri flussi di dati nell'area di lavoro devono ricominciare a funzionare.
  • Quando si sincronizzano le modifiche da GIT nell'area di lavoro o si usano le pipeline di distribuzione, è necessario aprire il flusso di dati nuovo o aggiornato e salvare le modifiche manualmente con l'editor. In questo modo viene attivata un'azione di pubblicazione in background per consentire l'uso delle modifiche durante l'aggiornamento del flusso di dati. È anche possibile usare la chiamata API del processo di pubblicazione del flusso di dati su richiesta per automatizzare l'operazione di pubblicazione.
  • Il connettore Power Automate per i flussi di dati non funziona con il nuovo dataflow Gen2 con il supporto CI/CD e Git.