Поделиться через


Синхронизация определений внешней таблицы Apache Spark для Azure Synapse в бессерверном пуле SQL

Бессерверный пул SQL может автоматически синхронизировать метаданные из Apache Spark. База данных бессерверного пула SQL будет создана для каждой базы данных, существующей в бессерверных пулах Apache Spark.

Для каждой внешней таблицы Spark на основе Parquet или CSV и расположенной в службе хранилища Azure внешняя таблица создается в бессерверной базе данных пула SQL. Таким образом, вы можете завершить работу пулов Spark и по-прежнему запрашивать внешние таблицы Spark из бессерверного пула SQL.

Если таблица секционирована в Spark, файлы в хранилище упорядочены по папкам. Бессерверный пул SQL будет использовать метаданные разделов и нацеливаться только на соответствующие папки и файлы для вашего запроса.

Синхронизация метаданных автоматически настраивается для каждого бессерверного пула Apache Spark, подготовленного в рабочей области Azure Synapse. Вы можете мгновенно запросить внешние таблицы Spark.

Каждая внешняя таблица Spark Parquet или CSV, расположенная в службе хранилища Azure, представлена внешней таблицей в схеме dbo, соответствующей бессерверной базе данных пула SQL.

Для выполнения запросов к внешней таблице Spark используйте запрос, направленный на внешнюю [spark_table]. Перед выполнением следующего примера убедитесь, что у вас есть правильный доступ к учетной записи хранения , в которой находятся файлы.

SELECT * FROM [db].dbo.[spark_table]

Сопоставление типов данных Apache Spark с типами данных SQL

Дополнительные сведения о сопоставлении типов данных Apache Spark с типами данных SQL см. в таблицах общих метаданных Azure Synapse Analytics.

Дальнейшие действия

Перейдите к статье "Управление доступом к хранилищу ", чтобы узнать больше об управлении доступом к хранилищу.