Condividi tramite


Scegliere una tecnologia di orchestrazione della pipeline di dati in Azure

La maggior parte delle soluzioni Big Data è costituita da operazioni ripetute di elaborazione dei dati, incapsulate nei flussi di lavoro. Un agente di orchestrazione della pipeline consente di automatizzare questi flussi di lavoro. Può pianificare processi, eseguire flussi di lavoro e coordinare le dipendenze tra le attività.

Opzioni per l'orchestrazione della pipeline di dati

In Azure, i servizi e gli strumenti seguenti soddisfano i requisiti di base per l'orchestrazione della pipeline, il flusso di controllo e lo spostamento dei dati:

È possibile usare questi servizi e strumenti in modo indipendente o combinarli per creare una soluzione ibrida. Ad esempio, il runtime di integrazione (IR) in Data Factory V2 può eseguire in modo nativo pacchetti SSIS in un ambiente di calcolo di Azure gestito. Questi servizi condividono alcune funzionalità, ma presentano alcune differenze chiave.

Criteri di scelta principali

Per restringere le opzioni, considerare i fattori seguenti:

  • Determinare se sono necessarie funzionalità di Big Data per spostare e trasformare i dati. Queste funzionalità usano in genere più gigabyte (GB) fino a terabyte (TB) di dati. Se sono necessarie queste funzionalità, scegliere un servizio progettato per Big Data.

  • Identificare se è necessario un servizio gestito in grado di operare su larga scala. In tal caso, scegliere un servizio basato sul cloud che non dipende dalla potenza di elaborazione locale.

  • Controllare se sono presenti origini dati in locale. In tal caso, scegliere un servizio che supporti origini dati o destinazioni sia cloud che locali.

  • Controllare se archiviare i dati di origine nell'archivio BLOB in un file system distribuito Hadoop (HDFS). In questo caso, scegliere un servizio che supporti le query Hive.

  • Determinare se è necessaria un'orchestrazione avanzata per flussi di lavoro complessi di estrazione, trasformazione e caricamento (ETL) in più origini dati. In tal caso, scegliere Fabric Data Factory perché fornisce un set di connettori, orchestrazione della pipeline e integrazione con ambienti locali e cloud. È ideale per lo spostamento e la trasformazione dei dati su scala aziendale.

Matrice di funzionalità

Le tabelle seguenti riepilogano le principali differenze nelle funzionalità.

Funzionalità generali

Capacità Data Factory "SSIS" Oozie in HDInsight Fabric Data Factory
Gestito NO
Basato sul cloud No (locale)
Prerequisito Sottoscrizione di Azure SQL Server Sottoscrizione di Azure, cluster HDInsight Area di lavoro abilitata per la fabric
Strumenti di gestione Portale di Azure, PowerShell, interfaccia della riga di comando, .NET SDK SQL Server Management Studio (SSMS), PowerShell Shell Bash, API REST Oozie, interfaccia utente Web Oozie Copia lavoro, mirroring, attività della pipeline, Dataflow Gen2
Prezzi Pagamento in base all'utilizzo Licenze, funzionalità aggiuntive aggiungono costi Incluso nel cluster HDInsight Incluso con la capacità del Fabric

Funzionalità della pipeline

Capacità Data Factory "SSIS" Oozie in HDInsight Fabric Data Factory
Copiare i dati
Trasformazioni personalizzate Sì (compiti MapReduce, Pig e Hive)
Assegnazione dei punteggi di Azure Machine Learning Sì (con scripting) NO Sì (tramite integrazione)
HDInsight su richiesta NO NO NO
Azure Batch NO NO
Pig, Hive e MapReduce NO
Apache Spark NO NO
Eseguire pacchetti SSIS NO
Flusso di controllo
Accedere ai dati locali NO

Funzionalità di scalabilità

Capacità Data Factory "SSIS" Oozie in HDInsight Fabric Data Factory
Aumentare la scala NO NO
Aumentare il numero di istanze NO Sì (aggiungendo nodi di lavoro al cluster)
Ottimizzato per Big Data NO

Approccio alternativo

Oltre all'orchestrazione tradizionale basata su batch, la piattaforma può anche usare l'intelligenza in tempo reale tramite la funzionalità Fabric Real-Time Intelligence. Questo approccio consente l'inserimento continuo dei dati in streaming, la trasformazione in anteprima e i flussi di lavoro basati su eventi, in modo da poter rispondere immediatamente quando arrivano i dati. Supporta scenari di valore elevato, ad esempio l'elaborazione dei dati di telemetria di Internet delle cose (IoT), il rilevamento delle frodi e il monitoraggio operativo.

Contributori

Microsoft gestisce questo articolo. I collaboratori seguenti hanno scritto questo articolo.

Autore principale:

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi