Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
La maggior parte delle soluzioni Big Data è costituita da operazioni ripetute di elaborazione dei dati, incapsulate nei flussi di lavoro. Un agente di orchestrazione della pipeline consente di automatizzare questi flussi di lavoro. Può pianificare processi, eseguire flussi di lavoro e coordinare le dipendenze tra le attività.
Opzioni per l'orchestrazione della pipeline di dati
In Azure, i servizi e gli strumenti seguenti soddisfano i requisiti di base per l'orchestrazione della pipeline, il flusso di controllo e lo spostamento dei dati:
- Azure Data Factory
- Apache Oozie in Azure HDInsight
- SQL Server Integration Services (SSIS)
- Fabric Data Factory
È possibile usare questi servizi e strumenti in modo indipendente o combinarli per creare una soluzione ibrida. Ad esempio, il runtime di integrazione (IR) in Data Factory V2 può eseguire in modo nativo pacchetti SSIS in un ambiente di calcolo di Azure gestito. Questi servizi condividono alcune funzionalità, ma presentano alcune differenze chiave.
Criteri di scelta principali
Per restringere le opzioni, considerare i fattori seguenti:
Determinare se sono necessarie funzionalità di Big Data per spostare e trasformare i dati. Queste funzionalità usano in genere più gigabyte (GB) fino a terabyte (TB) di dati. Se sono necessarie queste funzionalità, scegliere un servizio progettato per Big Data.
Identificare se è necessario un servizio gestito in grado di operare su larga scala. In tal caso, scegliere un servizio basato sul cloud che non dipende dalla potenza di elaborazione locale.
Controllare se sono presenti origini dati in locale. In tal caso, scegliere un servizio che supporti origini dati o destinazioni sia cloud che locali.
Controllare se archiviare i dati di origine nell'archivio BLOB in un file system distribuito Hadoop (HDFS). In questo caso, scegliere un servizio che supporti le query Hive.
Determinare se è necessaria un'orchestrazione avanzata per flussi di lavoro complessi di estrazione, trasformazione e caricamento (ETL) in più origini dati. In tal caso, scegliere Fabric Data Factory perché fornisce un set di connettori, orchestrazione della pipeline e integrazione con ambienti locali e cloud. È ideale per lo spostamento e la trasformazione dei dati su scala aziendale.
Matrice di funzionalità
Le tabelle seguenti riepilogano le principali differenze nelle funzionalità.
Funzionalità generali
| Capacità | Data Factory | "SSIS" | Oozie in HDInsight | Fabric Data Factory |
|---|---|---|---|---|
| Gestito | Sì | NO | Sì | Sì |
| Basato sul cloud | Sì | No (locale) | Sì | Sì |
| Prerequisito | Sottoscrizione di Azure | SQL Server | Sottoscrizione di Azure, cluster HDInsight | Area di lavoro abilitata per la fabric |
| Strumenti di gestione | Portale di Azure, PowerShell, interfaccia della riga di comando, .NET SDK | SQL Server Management Studio (SSMS), PowerShell | Shell Bash, API REST Oozie, interfaccia utente Web Oozie | Copia lavoro, mirroring, attività della pipeline, Dataflow Gen2 |
| Prezzi | Pagamento in base all'utilizzo | Licenze, funzionalità aggiuntive aggiungono costi | Incluso nel cluster HDInsight | Incluso con la capacità del Fabric |
Funzionalità della pipeline
| Capacità | Data Factory | "SSIS" | Oozie in HDInsight | Fabric Data Factory |
|---|---|---|---|---|
| Copiare i dati | Sì | Sì | Sì | Sì |
| Trasformazioni personalizzate | Sì | Sì | Sì (compiti MapReduce, Pig e Hive) | Sì |
| Assegnazione dei punteggi di Azure Machine Learning | Sì | Sì (con scripting) | NO | Sì (tramite integrazione) |
| HDInsight su richiesta | Sì | NO | NO | NO |
| Azure Batch | Sì | NO | NO | Sì |
| Pig, Hive e MapReduce | Sì | NO | Sì | Sì |
| Apache Spark | Sì | NO | NO | Sì |
| Eseguire pacchetti SSIS | Sì | Sì | NO | Sì |
| Flusso di controllo | Sì | Sì | Sì | Sì |
| Accedere ai dati locali | Sì | Sì | NO | Sì |
Funzionalità di scalabilità
| Capacità | Data Factory | "SSIS" | Oozie in HDInsight | Fabric Data Factory |
|---|---|---|---|---|
| Aumentare la scala | Sì | NO | NO | Sì |
| Aumentare il numero di istanze | Sì | NO | Sì (aggiungendo nodi di lavoro al cluster) | Sì |
| Ottimizzato per Big Data | Sì | NO | Sì | Sì |
Approccio alternativo
Oltre all'orchestrazione tradizionale basata su batch, la piattaforma può anche usare l'intelligenza in tempo reale tramite la funzionalità Fabric Real-Time Intelligence. Questo approccio consente l'inserimento continuo dei dati in streaming, la trasformazione in anteprima e i flussi di lavoro basati su eventi, in modo da poter rispondere immediatamente quando arrivano i dati. Supporta scenari di valore elevato, ad esempio l'elaborazione dei dati di telemetria di Internet delle cose (IoT), il rilevamento delle frodi e il monitoraggio operativo.
Contributori
Microsoft gestisce questo articolo. I collaboratori seguenti hanno scritto questo articolo.
Autore principale:
- Zoiner Tejada | CEO e architetto
Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.
Passaggi successivi
- Attività e pipeline nel Data Factory di Fabric
- Effettuare il provisioning del runtime di integrazione Azure-SSIS in Data Factory
- Usare Oozie per eseguire un flusso di lavoro in HDInsight
- Architettura Medaglione in Fabric Real-Time Intelligence