Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Решения больших данных часто состоят из дискретных задач пакетной обработки, которые способствуют общему решению обработки данных. Пакетную обработку можно использовать для рабочих нагрузок, которые не требуют немедленного доступа к аналитическим сведениям. Пакетная обработка может дополнять требования к обработке в режиме реального времени. Вы также можете использовать пакетную обработку для балансировки сложности и снижения затрат на общую реализацию.
Основным требованием подсистем пакетной обработки является горизонтальное масштабирование вычислений для обработки большого объема данных. В отличие от обработки в режиме реального времени, пакетная обработка имеет задержки или время между приемом данных и вычислением результата, в минутах или часах.
Выбор технологии для пакетной обработки
Корпорация Майкрософт предлагает несколько служб, которые можно использовать для пакетной обработки.
Microsoft Fabric
Microsoft Fabric — это единая аналитика и платформа данных для организаций. Это программное обеспечение как услуга, которое упрощает подготовку, управление и контроль над комплексным решением для полной аналитики. Платформа обрабатывает перемещение данных, их обработку, прием, преобразование и составление отчетов. Функции платформы Fabric, используемые для пакетной обработки, включают проектирование данных, хранилища данных, озеро данных, а также обработку с использованием Apache Spark. Фабрика данных Azure в Fabric также поддерживает хранение данных в формате lakehouse. Чтобы упростить и ускорить разработку, можно включить Copilot на основе искусственного интеллекта.
Языки: R, Python, Java, Scala и SQL
Безопасность: управляемая виртуальная сеть и управление доступом на основе ролей OneLake (RBAC)
Основное хранилище: OneLake с сочетаниями клавиш и параметрами зеркального отображения
Spark: предварительно заполненный стартовый пул и пользовательский пул Spark с заранее заданными размерами узлов
Azure Synapse Analytics
Azure Synapse Analytics — это корпоративная служба аналитики, которая объединяет технологии SQL и Spark в рамках одной конструкции рабочей области. Azure Synapse Analytics упрощает безопасность, управление и менеджмент. Каждая рабочая область содержит интегрированные конвейеры данных, которые можно использовать для создания комплексных рабочих процессов. Вы также можете подготовить выделенный пул SQL для крупномасштабной аналитики, бессерверную конечную точку SQL, которую можно использовать для прямого запроса к озеру, а также среду выполнения Spark для распределенной обработки данных.
Языки: Python, Java, Scala и SQL
Безопасность: управляемая виртуальная сеть, RBAC и управление доступом и списки управления доступом к хранилищу в Azure Data Lake Storage
Основное хранилище: Data Lake Storage, а также интегрируется с другими источниками
Spark: настраиваемая настройка конфигурации Spark с предопределенными размерами узлов
Azure Databricks
Azure Databricks — это платформа аналитики на основе Spark. Она предоставляет широкие возможности и функции Spark уровня "Премиум", созданные на основе Spark с открытым кодом. Azure Databricks — это служба Майкрософт, которая интегрируется с остальными службами Azure. Она содержит дополнительные конфигурации для развертываний кластера Spark. И каталог Unity помогает упростить управление объектами Azure Databricks Spark.
Языки: R, Python, Java, Scala и Spark SQL.
Безопасность: проверка подлинности пользователей с помощью идентификатора Microsoft Entra.
Основное хранилище: встроенная интеграция с Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics и другими службами. Дополнительные сведения см. в разделе "Источники данных".
Другие преимущества:
Записные книжки на основе веб-технологий для совместной работы и просмотра данных.
Быстрое время запуска кластеров, автоматическое завершение и автомасштабирование.
Поддержка кластеров с поддержкой GPU.
Основные критерии выбора
Чтобы выбрать технологию пакетной обработки, рассмотрите следующие вопросы:
Хотите ли вы управлять управляемыми службами или управлять собственными серверами?
Какой подход будет использоваться для создания логики пакетной обработки: декларативный или императивный?
Выполняется ли пакетная обработка пачками? Если да, рассмотрите варианты, которые предоставляют возможность автоматического завершения кластера или с моделями ценообразования для каждого пакетного задания.
Нужно ли отправлять запросы к реляционным хранилищами данных во время пакетной обработки, например для поиска эталонных данных? Если да, рассмотрите варианты, которые предоставляют возможность запрашивать внешние реляционные хранилища.
Матрица возможностей
В следующих таблицах приведены основные различия в возможностях между службами.
Общие возможности
Возможность | ткань | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Программное обеспечение как услуга | Да1 | Нет | Нет |
Управляемая служба | Нет | Да | Да |
Реляционное хранилище данных | Да | Да | Да |
Модель ценообразования | Единицы емкости | Час пула SQL или кластера | Блок 2 Azure Databricks и час работы кластера |
[1] Назначенная емкость Fabric.
[2] Единица Azure Databricks — это мощность обработки в час.
Другие возможности
Возможность | Ткань | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Автомасштабирование | Нет | Нет | Да |
Степень детализации при горизонтальном масштабировании | SKU для ткани | На уровне кластера или пула SQL | По кластерам |
Выполняющееся в памяти кэширование данных | Нет | Да | Да |
Отправка запросов из внешних реляционных хранилищ | Да | Нет | Да |
Проверка подлинности | Microsoft Entra ID | SQL или Microsoft Entra ID | Microsoft Entra ID |
Аудит | Да | Да | Да |
Безопасность на уровне строк | Да | Да 1 | Да |
Поддержка брандмауэров | Да | Да | Да |
Динамическое маскирование данных | Да | Да | Да |
[1] Только предикаты фильтра. Дополнительные сведения см. в разделе "Безопасность на уровне строк".
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.
Основные авторы:
- Зойнер Теджада | Генеральный директор и архитектор
- Пратима Валавала | Архитектор основных решений
Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.
Следующие шаги
- Что такое Fabric?
- Руководство по принятию решений Fabric
- Учебный курс. Введение в Azure Synapse Analytics
- Что такое Azure HDInsight?
- Что такое Azure Databricks?