Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Область применения: SQL Server 2019 (15.x)
В этой статье описывается роль пула носителей SQL Server в кластере больших данных SQL Server. В следующих разделах описана архитектура и функциональные возможности пула носителей.
Important
Кластеры больших данных Microsoft SQL Server 2019 прекращены. Поддержка кластеров больших данных SQL Server 2019 закончилась с 28 февраля 2025 г. Дополнительные сведения см. в записи блога объявлений и параметрах больших данных на платформе Microsoft SQL Server.
Архитектура пула хранения
Пул носителей — это локальный кластер HDFS (Hadoop) в кластере больших данных SQL Server. Он предоставляет постоянное хранилище для неструктурированных и полуструктурированных данных. Файлы данных, такие как Parquet или текст с разделителями, могут храниться в пуле хранения. Для обеспечения постоянного хранения данных каждому pod в пуле прикреплён постоянный том. Файлы пула хранения доступны через PolyBase с использованием SQL Server или напрямую через шлюз Apache Knox.
Классическая настройка HDFS состоит из набора компьютеров на недорогом оборудовании с подключенным хранилищем. Данные распределяется по блокам между узлами для отказоустойчивости и использования параллельной обработки. Один из узлов в кластере работает в качестве узла имени и содержит сведения о метаданных о файлах, расположенных на узлах данных.
Пул носителей состоит из узлов хранения, входящих в кластер HDFS. Он запускает один или несколько подов Kubernetes, в каждом из которых размещаются следующие контейнеры:
- Контейнер Hadoop, связанный с постоянным томом (хранилищем). Все контейнеры этого типа вместе образуют кластер Hadoop. В контейнере Hadoop находится процесс управления узлами YARN, который может создавать рабочие процессы Apache Spark по запросу. Головной узел Spark управляет хранилищем метаданных Hive, системой истории Spark и контейнерами истории заданий YARN.
- Экземпляр SQL Server для чтения данных из HDFS с помощью технологии OpenRowSet.
-
collectdдля сбора данных метрик. -
fluentbitдля сбора данных журнала.
Responsibilities
Узлы хранилища отвечают за:
- Прием данных с помощью Apache Spark.
- Хранилище данных в HDFS (parquet и текстовый формат с разделителями). HDFS также обеспечивает сохранение данных, так как данные HDFS распределяется по всем узлам хранилища в BDC SQL.
- Доступ к данным через конечные точки HDFS и SQL Server.
Accessing data
Основными методами доступа к данным в пуле носителей являются:
- Spark jobs.
- Использование внешних таблиц SQL Server для запроса данных с помощью вычислительных узлов PolyBase и экземпляров SQL Server, работающих на узлах HDFS.
Вы также можете взаимодействовать с HDFS с помощью:
- Azure Data Studio.
- Azure Data CLI (
azdata). - kubectl для выдачи команд контейнеру Hadoop.
- HTTP-шлюз HDFS.
Next steps
Дополнительные сведения о кластерах больших данных SQL Server см. в следующих ресурсах: