Знакомство с пулом носителей в кластерах больших данных SQL Server

Область применения: SQL Server 2019 (15.x)

В этой статье описывается роль пула носителей SQL Server в кластере больших данных SQL Server. В следующих разделах описана архитектура и функциональные возможности пула носителей.

Important

Кластеры больших данных Microsoft SQL Server 2019 прекращены. Поддержка кластеров больших данных SQL Server 2019 закончилась с 28 февраля 2025 г. Дополнительные сведения см. в записи блога объявлений и параметрах больших данных на платформе Microsoft SQL Server.

Архитектура пула хранения

Пул носителей — это локальный кластер HDFS (Hadoop) в кластере больших данных SQL Server. Он предоставляет постоянное хранилище для неструктурированных и полуструктурированных данных. Файлы данных, такие как Parquet или текст с разделителями, могут храниться в пуле хранения. Для обеспечения постоянного хранения данных каждому pod в пуле прикреплён постоянный том. Файлы пула хранения доступны через PolyBase с использованием SQL Server или напрямую через шлюз Apache Knox.

Классическая настройка HDFS состоит из набора компьютеров на недорогом оборудовании с подключенным хранилищем. Данные распределяется по блокам между узлами для отказоустойчивости и использования параллельной обработки. Один из узлов в кластере работает в качестве узла имени и содержит сведения о метаданных о файлах, расположенных на узлах данных.

Классическая настройка HDFS

Пул носителей состоит из узлов хранения, входящих в кластер HDFS. Он запускает один или несколько подов Kubernetes, в каждом из которых размещаются следующие контейнеры:

  • Контейнер Hadoop, связанный с постоянным томом (хранилищем). Все контейнеры этого типа вместе образуют кластер Hadoop. В контейнере Hadoop находится процесс управления узлами YARN, который может создавать рабочие процессы Apache Spark по запросу. Головной узел Spark управляет хранилищем метаданных Hive, системой истории Spark и контейнерами истории заданий YARN.
  • Экземпляр SQL Server для чтения данных из HDFS с помощью технологии OpenRowSet.
  • collectd для сбора данных метрик.
  • fluentbit для сбора данных журнала.

Архитектура пула хранения

Responsibilities

Узлы хранилища отвечают за:

  • Прием данных с помощью Apache Spark.
  • Хранилище данных в HDFS (parquet и текстовый формат с разделителями). HDFS также обеспечивает сохранение данных, так как данные HDFS распределяется по всем узлам хранилища в BDC SQL.
  • Доступ к данным через конечные точки HDFS и SQL Server.

Accessing data

Основными методами доступа к данным в пуле носителей являются:

  • Spark jobs.
  • Использование внешних таблиц SQL Server для запроса данных с помощью вычислительных узлов PolyBase и экземпляров SQL Server, работающих на узлах HDFS.

Вы также можете взаимодействовать с HDFS с помощью:

  • Azure Data Studio.
  • Azure Data CLI (azdata).
  • kubectl для выдачи команд контейнеру Hadoop.
  • HTTP-шлюз HDFS.

Next steps

Дополнительные сведения о кластерах больших данных SQL Server см. в следующих ресурсах: