Рекомендации по использованию Apache Spark

В этой статье приводятся различные рекомендации по использованию Apache Spark в Azure HDInsight.

Как правильно запускать или отправлять задания Spark?

Вариант	Документы
Visual Studio Code	Использование средств Spark и Hive для Visual Studio Code
Ноутбуки Jupyter	Руководство. Загрузка данных и выполнение запросов в кластере Apache Spark в Azure HDInsight
IntelliJ	Руководство. Использование Azure Toolkit for IntelliJ для создания приложений Apache Spark для кластера HDInsight
IntelliJ	Руководство. Создание приложения Scala Maven для Apache Spark в HDInsight с помощью IntelliJ
Записные книжки Zeppelin	Use Apache Zeppelin notebooks with Apache Spark cluster on Azure HDInsight (Использование записных книжек Apache Zeppelin с кластером Apache Spark в Azure HDInsight)
Удаленная отправка заданий с помощью Livy	Удаленная отправка заданий в кластер HDInsight Spark с помощью Apache Spark REST API
Apache Oozie	Oozie — это система рабочих процессов и координации, управляющая заданиями Hadoop.
Apache Livy	Вы можете использовать Livy для выполнения интерактивных оболочек Spark или отправки пакетных заданий для выполнения на Spark.
Фабрика данных Azure для Apache Spark	Действие Spark в конвейере Data Factory выполняет программу Spark в вашем собственном кластере HDInsight или в кластере HDInsight по запросу.
Фабрика данных Azure для Apache Hive	Действие Hive в конвейере Фабрики данных выполняет запросы Hive в ваш собственный кластер HDInsight или в кластер HDInsight, создаваемый по запросу.

Как выполнять мониторинг и отладку заданий Spark?

Вариант	Документы
Azure Toolkit for IntelliJ	Отладка сбоев в задании Spark с помощью Azure Toolkit for IntelliJ (предварительная версия)
Azure Toolkit for IntelliJ (через SSH)	Удаленная или локальная отладка приложений Apache Spark в кластере HDInsight с помощью набора Azure Toolkit for IntelliJ через SSH
Azure Toolkit for IntelliJ (через VPN)	Использование Набора средств Azure для IntelliJ для удаленной отладки приложений Apache Spark в HDInsight с помощью VPN
Граф заданий на историческом сервере Apache Spark	Отладка и диагностика приложений Apache Spark с использованием расширенного сервера журнала Apache Spark

Как повысить эффективность выполнения заданий Spark?

Вариант	Документы
Кэш ввода-вывода	Повышение производительности рабочих нагрузок Apache Spark с помощью кэша ввода-вывода Azure HDInsight (предварительная версия)
Варианты конфигурации	Оптимизация заданий Apache Spark

Как подключиться к другим службам Azure?

Вариант	Документы
Apache Hive в HDInsight;	Integrate Apache Spark and Apache Hive with the Hive Warehouse Connector (Интеграция Apache Spark и Apache Hive с помощью соединителя хранилища Hive)
Apache HBase в HDInsight	Чтение и запись данных Apache HBase с помощью Apache Spark
Apache Kafka в HDInsight	Руководство: Использование структурированной потоковой передачи Apache Spark с Apache Kafka в HDInsight
Azure Cosmos DB	Azure Synapse Link для Azure Cosmos DB

Какие есть варианты хранилища?

Вариант	Документы
Azure Data Lake Storage 2-го поколения	Использование Azure Data Lake Storage Gen2 с кластерами Azure HDInsight
Хранилище BLOB-объектов Azure	Использование службы хранилища Azure с кластерами Azure HDInsight

Следующие шаги

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-02-28