Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Большинство решений больших данных состоят из повторяющихся операций обработки данных, инкапсулированных в рабочих процессах. Оркестратор конвейеров помогает автоматизировать эти рабочие процессы. Он может планировать задания, запускать рабочие процессы и координировать зависимости между задачами.
Параметры оркестрации потока данных
В Azure следующие службы и средства соответствуют основным требованиям для оркестрации конвейера, потока управления и перемещения данных:
- Фабрике данных Azure
- Apache Oozie в Azure HDInsight
- SQL Server Integration Services
- Фабрика данных Fabric
Эти службы и средства можно использовать независимо или объединить их для создания гибридного решения. Например, среда выполнения интеграции (IR) в фабрике данных версии 2 может запускать пакеты служб SSIS в управляемой вычислительной среде Azure. Эти службы имеют некоторые функциональные возможности, но у них есть несколько ключевых различий.
Основные критерии выбора
Чтобы сузить варианты, рассмотрите следующие факторы:
Определите, нужны ли возможности больших данных для перемещения и преобразования данных. Эти возможности обычно используют от нескольких гигабайт (ГБ) до терабайт (ТБ) данных. Если вам нужны эти возможности, выберите службу, предназначенную для больших данных.
Определите, нужна ли управляемая служба, которая может работать в большом масштабе. Если это сделать, выберите облачную службу, которая не зависит от локальной вычислительной мощности.
Проверьте, находятся ли источники данных в локальной среде. Если это сделать, выберите службу, которая поддерживает как облачные, так и локальные источники данных или назначения.
Проверьте, храните ли вы исходные данные в Blob-хранилище на распределенной файловой системе Hadoop (HDFS). Если это сделать, выберите службу, которая поддерживает запросы Hive.
Определите, требуется ли расширенная оркестрация для сложных рабочих процессов извлечения, преобразования и загрузки (ETL) в нескольких источниках данных. Если это сделать, выберите Фабрику данных Fabric, так как она предоставляет набор соединителей, оркестрацию конвейеров и интеграцию с локальными и облачными средами. Это идеально подходит для перемещения и преобразования данных корпоративного масштаба.
Матрица возможностей
В следующих таблицах приведены основные различия в возможностях.
Общие возможности
| Способность | Data Factory | SQL Server Integration Services (SSIS) | Oozie в HDInsight | Фабрика данных Fabric |
|---|---|---|---|---|
| Управляемый | Да | Нет | Да | Да |
| Облачные | Да | Нет (локальный) | Да | Да |
| Предпосылка | Подписка Azure | SQL Server | Подписка Azure, кластер HDInsight | Рабочая область с поддержкой структуры |
| Средства управления | Портал Azure, PowerShell, CLI, пакет SDK для .NET | SQL Server Management Studio (SSMS), PowerShell | Оболочка Bash, REST API Oozie, веб-интерфейс Oozie (пользовательский интерфейс) | Копирование заданий, зеркалирование, действия конвейера, Dataflow второго поколения |
| Ценообразование | Оплата за использование | Лицензирование, дополнительные функции добавляют затраты | Включен в кластер HDInsight | Включена в емкость Fabric |
Возможности конвейера
| Способность | Data Factory | SQL Server Integration Services (SSIS) | Oozie в HDInsight | Фабрика данных Fabric |
|---|---|---|---|---|
| Копирование данных | Да | Да | Да | Да |
| Пользовательские преобразования | Да | Да | Да (задания MapReduce, Pig и Hive) | Да |
| Скоринг в машинном обучении Azure | Да | Да (с скриптами) | Нет | Да (через интеграцию) |
| HDInsight по запросу | Да | Нет | Нет | Нет |
| Пакетная служба Azure | Да | Нет | Нет | Да |
| Pig, Hive и MapReduce | Да | Нет | Да | Да |
| Apache Spark | Да | Нет | Нет | Да |
| Запуск пакетов служб SSIS | Да | Да | Нет | Да |
| Поток управления | Да | Да | Да | Да |
| Доступ к локальным данным | Да | Да | Нет | Да |
Возможности масштабируемости
| Способность | Data Factory | SQL Server Integration Services (SSIS) | Oozie в HDInsight | Фабрика данных Fabric |
|---|---|---|---|---|
| Увеличение масштаба | Да | Нет | Нет | Да |
| Горизонтальное масштабирование | Да | Нет | Да (путем добавления рабочих узлов в кластер) | Да |
| Оптимизировано для больших данных | Да | Нет | Да | Да |
Альтернативный подход
Помимо традиционной пакетной оркестрации, ваша платформа также может использовать аналитику в режиме реального времени с помощью функции Fabric Real-Time Intelligence. Этот подход позволяет выполнять непрерывное прием данных потоковой передачи, преобразование в полете и рабочие процессы, управляемые событиями, чтобы мгновенно реагировать по мере поступления данных. Он поддерживает высокоценные сценарии, такие как обработка телеметрии Интернета вещей (IoT), обнаружение мошенничества и операционный мониторинг.
Участники
Корпорация Майкрософт поддерживает эту статью. Следующие авторы написали эту статью.
Основной автор:
- Зойнер Тейада | Генеральный директор и архитектор
Чтобы просмотреть неопубликованные профили LinkedIn, войдите в LinkedIn.
Дальнейшие действия
- Конвейеры и действия в Фабрике данных Fabric
- Подготовка среды выполнения интеграции Azure-SSIS в фабрике данных
- Использование Oozie для запуска рабочего процесса в HDInsight
- Архитектура Medallion в Fabric Real-Time Intelligence