Общие сведения о сценариях использования для интеграции пулов SQL и Spark

Завершено

Интеграция Apache Spark и SQL в Azure Synapse Analytics предоставляет несколько преимуществ.

  • Вы можете использовать преимущества вычислительной мощности больших данных, которые предоставляет Apache Spark.
  • Платформы и языки Apache Spark и SQL можно гибко использовать на одной платформе.
  • Интеграция не вызывает затруднений и не требует сложной конфигурации.
  • SQL и Apache Spark используют одно и то же хранилище базовых метаданных для простой передачи данных.

В результате при развертывании кластера Azure Synapse Apache Spark возможность Azure Data Lake 2-го поколения позволяет хранить в нем таблицы Apache Spark SQL. При использовании таблиц Apache Spark SQL для запросов к этим таблицам можно использовать язык T-SQL на основе SQL, не используя такие команды, как CREATE EXTERNAL TABLE. В Azure Synapse Analytics эти запросы изначально интегрированы в файлы данных, хранящиеся в формате Apache Parquet.

Интеграция может быть полезной в случаях, когда вы выполняете процесс извлечения, преобразования и загрузки преимущественно с помощью SQL. Однако для выполнения части процесса извлечения, преобразования и загрузки необходимо использовать вычислительную мощность Apache Spark, так как такой подход более эффективен.

Итак, предположим, вы хотите записать данные в пул SQL после выполнения задач инженерного проектирования в Apache Spark. Вы можете ссылаться на данные выделенного пула SQL как на источник для объединения с кадрами данных Apache Spark, которые могут содержать данные из других файлов. Этот метод использует соединитель Apache Spark для Synapse SQL в службе Azure Synapse, это дает вам возможность эффективно передавать данные между пулами Apache Spark и SQL.

Соединитель Spark для Synapse SQL в службе Azure Synapse реализует источник данных для Apache Spark. Он использует Azure Data Lake Storage 2-го поколения и PolyBase в пулах SQL для эффективной передачи данных между кластером Spark и экземпляром Synapse SQL.

Кроме того, следует помнить, что, помимо описанных выше возможностей, Azure Synapse Studio предоставляет встроенные функции записных книжек. В пределах этого интерфейса записной книжки можно подключить пул SQL или Apache Spark, а также разработать и выполнить конвейеры преобразования, использующие Python, Scala и собственный SQL Spark.