Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье приводятся различные рекомендации по использованию Apache Spark в Azure HDInsight.
Как правильно запускать или отправлять задания Spark?
| Вариант | Документы |
|---|---|
| Visual Studio Code | Использование средств Spark и Hive для Visual Studio Code |
| Ноутбуки Jupyter | Руководство. Загрузка данных и выполнение запросов в кластере Apache Spark в Azure HDInsight |
| IntelliJ | Руководство. Использование Azure Toolkit for IntelliJ для создания приложений Apache Spark для кластера HDInsight |
| IntelliJ | Руководство. Создание приложения Scala Maven для Apache Spark в HDInsight с помощью IntelliJ |
| Записные книжки Zeppelin | Use Apache Zeppelin notebooks with Apache Spark cluster on Azure HDInsight (Использование записных книжек Apache Zeppelin с кластером Apache Spark в Azure HDInsight) |
| Удаленная отправка заданий с помощью Livy | Удаленная отправка заданий в кластер HDInsight Spark с помощью Apache Spark REST API |
| Apache Oozie | Oozie — это система рабочих процессов и координации, управляющая заданиями Hadoop. |
| Apache Livy | Вы можете использовать Livy для выполнения интерактивных оболочек Spark или отправки пакетных заданий для выполнения на Spark. |
| Фабрика данных Azure для Apache Spark | Действие Spark в конвейере Data Factory выполняет программу Spark в вашем собственном кластере HDInsight или в кластере HDInsight по запросу. |
| Фабрика данных Azure для Apache Hive | Действие Hive в конвейере Фабрики данных выполняет запросы Hive в ваш собственный кластер HDInsight или в кластер HDInsight, создаваемый по запросу. |
Как выполнять мониторинг и отладку заданий Spark?
| Вариант | Документы |
|---|---|
| Azure Toolkit for IntelliJ | Отладка сбоев в задании Spark с помощью Azure Toolkit for IntelliJ (предварительная версия) |
| Azure Toolkit for IntelliJ (через SSH) | Удаленная или локальная отладка приложений Apache Spark в кластере HDInsight с помощью набора Azure Toolkit for IntelliJ через SSH |
| Azure Toolkit for IntelliJ (через VPN) | Использование Набора средств Azure для IntelliJ для удаленной отладки приложений Apache Spark в HDInsight с помощью VPN |
| Граф заданий на историческом сервере Apache Spark | Отладка и диагностика приложений Apache Spark с использованием расширенного сервера журнала Apache Spark |
Как повысить эффективность выполнения заданий Spark?
| Вариант | Документы |
|---|---|
| Кэш ввода-вывода | Повышение производительности рабочих нагрузок Apache Spark с помощью кэша ввода-вывода Azure HDInsight (предварительная версия) |
| Варианты конфигурации | Оптимизация заданий Apache Spark |
Как подключиться к другим службам Azure?
| Вариант | Документы |
|---|---|
| Apache Hive в HDInsight; | Integrate Apache Spark and Apache Hive with the Hive Warehouse Connector (Интеграция Apache Spark и Apache Hive с помощью соединителя хранилища Hive) |
| Apache HBase в HDInsight | Чтение и запись данных Apache HBase с помощью Apache Spark |
| Apache Kafka в HDInsight | Руководство: Использование структурированной потоковой передачи Apache Spark с Apache Kafka в HDInsight |
| Azure Cosmos DB | Azure Synapse Link для Azure Cosmos DB |
Какие есть варианты хранилища?
| Вариант | Документы |
|---|---|
| Azure Data Lake Storage 2-го поколения | Использование Azure Data Lake Storage Gen2 с кластерами Azure HDInsight |
| Хранилище BLOB-объектов Azure | Использование службы хранилища Azure с кластерами Azure HDInsight |