Поделиться через


Выбор технологии оркестрации конвейера данных в Azure

Большинство решений больших данных состоят из повторяющихся операций обработки данных, инкапсулированных в рабочих процессах. Оркестратор конвейеров помогает автоматизировать эти рабочие процессы. Он может планировать задания, запускать рабочие процессы и координировать зависимости между задачами.

Параметры оркестрации потока данных

В Azure следующие службы и средства соответствуют основным требованиям для оркестрации конвейера, потока управления и перемещения данных:

Эти службы и средства можно использовать независимо или объединить их для создания гибридного решения. Например, среда выполнения интеграции (IR) в фабрике данных версии 2 может запускать пакеты служб SSIS в управляемой вычислительной среде Azure. Эти службы имеют некоторые функциональные возможности, но у них есть несколько ключевых различий.

Основные критерии выбора

Чтобы сузить варианты, рассмотрите следующие факторы:

  • Определите, нужны ли возможности больших данных для перемещения и преобразования данных. Эти возможности обычно используют от нескольких гигабайт (ГБ) до терабайт (ТБ) данных. Если вам нужны эти возможности, выберите службу, предназначенную для больших данных.

  • Определите, нужна ли управляемая служба, которая может работать в большом масштабе. Если это сделать, выберите облачную службу, которая не зависит от локальной вычислительной мощности.

  • Проверьте, находятся ли источники данных в локальной среде. Если это сделать, выберите службу, которая поддерживает как облачные, так и локальные источники данных или назначения.

  • Проверьте, храните ли вы исходные данные в Blob-хранилище на распределенной файловой системе Hadoop (HDFS). Если это сделать, выберите службу, которая поддерживает запросы Hive.

  • Определите, требуется ли расширенная оркестрация для сложных рабочих процессов извлечения, преобразования и загрузки (ETL) в нескольких источниках данных. Если это сделать, выберите Фабрику данных Fabric, так как она предоставляет набор соединителей, оркестрацию конвейеров и интеграцию с локальными и облачными средами. Это идеально подходит для перемещения и преобразования данных корпоративного масштаба.

Матрица возможностей

В следующих таблицах приведены основные различия в возможностях.

Общие возможности

Способность Data Factory SQL Server Integration Services (SSIS) Oozie в HDInsight Фабрика данных Fabric
Управляемый Да Нет Да Да
Облачные Да Нет (локальный) Да Да
Предпосылка Подписка Azure SQL Server Подписка Azure, кластер HDInsight Рабочая область с поддержкой структуры
Средства управления Портал Azure, PowerShell, CLI, пакет SDK для .NET SQL Server Management Studio (SSMS), PowerShell Оболочка Bash, REST API Oozie, веб-интерфейс Oozie (пользовательский интерфейс) Копирование заданий, зеркалирование, действия конвейера, Dataflow второго поколения
Ценообразование Оплата за использование Лицензирование, дополнительные функции добавляют затраты Включен в кластер HDInsight Включена в емкость Fabric

Возможности конвейера

Способность Data Factory SQL Server Integration Services (SSIS) Oozie в HDInsight Фабрика данных Fabric
Копирование данных Да Да Да Да
Пользовательские преобразования Да Да Да (задания MapReduce, Pig и Hive) Да
Скоринг в машинном обучении Azure Да Да (с скриптами) Нет Да (через интеграцию)
HDInsight по запросу Да Нет Нет Нет
Пакетная служба Azure Да Нет Нет Да
Pig, Hive и MapReduce Да Нет Да Да
Apache Spark Да Нет Нет Да
Запуск пакетов служб SSIS Да Да Нет Да
Поток управления Да Да Да Да
Доступ к локальным данным Да Да Нет Да

Возможности масштабируемости

Способность Data Factory SQL Server Integration Services (SSIS) Oozie в HDInsight Фабрика данных Fabric
Увеличение масштаба Да Нет Нет Да
Горизонтальное масштабирование Да Нет Да (путем добавления рабочих узлов в кластер) Да
Оптимизировано для больших данных Да Нет Да Да

Альтернативный подход

Помимо традиционной пакетной оркестрации, ваша платформа также может использовать аналитику в режиме реального времени с помощью функции Fabric Real-Time Intelligence. Этот подход позволяет выполнять непрерывное прием данных потоковой передачи, преобразование в полете и рабочие процессы, управляемые событиями, чтобы мгновенно реагировать по мере поступления данных. Он поддерживает высокоценные сценарии, такие как обработка телеметрии Интернета вещей (IoT), обнаружение мошенничества и операционный мониторинг.

Участники

Корпорация Майкрософт поддерживает эту статью. Следующие авторы написали эту статью.

Основной автор:

Чтобы просмотреть неопубликованные профили LinkedIn, войдите в LinkedIn.

Дальнейшие действия