Выбор подходящего размера виртуальной машины для кластера Azure HDInsight

В этой статье описывается, как выбрать нужный размер виртуальной машины для различных узлов в кластере HDInsight.

Начните с понимания того, как свойства виртуальной машины, такие как обработка ЦП, размер ОЗУ и задержка в сети, влияют на обработку рабочих нагрузок. Затем проанализируйте ваше приложение и то, как оно соответствует различным семействам виртуальных машин, для которых они оптимизированы. Убедитесь, что семейство виртуальных машин, которое вы хотите использовать, совместимо с типом кластера, который планируется развернуть. Список всех поддерживаемых и рекомендуемых размеров виртуальных машин для каждого типа кластера см. в поддерживаемых конфигурациях узлов Azure HDInsight. Наконец, можно использовать процесс тестирования для некоторых примеров рабочих нагрузок и проверить, какой артикул SKU в этой линейке подходит для вас.

Дополнительные сведения о планировании других аспектов кластера, таких как выбор типа хранилища или размера кластера, см. в разделе "Планирование емкости для кластеров HDInsight".

Свойства виртуальной машины и рабочие нагрузки больших данных

Размер и тип виртуальной машины определяются мощностью обработки ЦП, размером ОЗУ и задержкой в сети:

  • ЦП: размер виртуальной машины определяет количество ядер. Чем больше ядер, тем более высокую степень параллельных вычислений может достигать каждый узел. Кроме того, некоторые типы виртуальных машин имеют более быстрые ядра.

  • ОЗУ: размер виртуальной машины также определяет объем ОЗУ, доступный на виртуальной машине. Для рабочих нагрузок, которые хранят данные в памяти для обработки, а не считывания с диска, убедитесь, что рабочие узлы имеют достаточно памяти, чтобы соответствовать данным.

  • Сеть. Для большинства типов кластеров данные, обрабатываемые кластером, не на локальном диске, а не во внешней службе хранилища, например Data Lake Storage или службе хранилища Azure. Рассмотрим пропускную способность сети и пропускную способность между виртуальной машиной узла и службой хранилища. Пропускная способность сети, доступная виртуальной машине, обычно увеличивается с большими размерами. Дополнительные сведения см. в обзоре размеров виртуальных машин.

Общие сведения об оптимизации виртуальных машин

Семейства виртуальных машин в Azure оптимизированы для различных вариантов использования. В следующей таблице можно найти некоторые из наиболее популярных вариантов использования и семейства виртуальных машин, которые соответствуют им.

Тип Размеры Описание
Начальный уровень Av2 Лучше всего подходит конфигурация производительности ЦП и памяти для рабочих нагрузок начального уровня, таких как разработка и тестирование. Они экономичны и предоставляют недорогий вариант для начала работы с Azure.
Общее назначение D, DSv2, Dv2 Сбалансированное соотношение вычислительных ресурсов к объему памяти. Идеальное решение для тестирования и разработки, небольших и средних баз данных, а также веб-серверов с небольшим или средним объемом трафика.
Оптимизированные вычисления F Высокое соотношение между ЦП и памятью. Подходит для веб-серверов со средним трафиком, сетевых устройств, пакетных процессов и серверов приложений.
Оптимизация памяти Esv3, Ev3 Высокое соотношение памяти к процессору. Подходит для серверов реляционных баз данных, средних и больших кэшей, а также аналитики в оперативной памяти.
  • Сведения о ценах на доступные экземпляры виртуальных машин в поддерживаемых регионах HDInsight см. в разделе цен на HDInsight.

Экономичные типы виртуальных машин для лёгких рабочих нагрузок

Если у вас есть требования к легкой обработке, серия F может быть хорошим выбором для начала работы с HDInsight. При более низкой почасовой стоимости, серия F является лучшим выбором по соотношению цена/производительность в портфеле Azure на основе единицы вычислений Azure (ACU) на виртуальный процессор.

В следующей таблице описываются типы кластеров и типы узлов, которые можно создать с помощью виртуальных машин серии Fsv2.

Тип кластера Версия Рабочий узел Головной узел Узел Zookeeper
Spark Все F4 и выше нет нет
Hadoop Все F4 и выше нет нет
Kafka Все F4 и выше нет нет
HBase Все F4 и выше нет нет
LLAP disabled нет нет нет

Сведения о спецификациях каждого номера SKU серии F см. в разделе "Размеры виртуальных машин серии F".

Сравнительный анализ

Тестирование — это процесс выполнения имитированных рабочих нагрузок на разных виртуальных машинах, чтобы оценить, насколько хорошо они подходят для ваших производственных задач.

Дополнительные сведения о тестировании для SKU виртуальных машин и размерах кластера см. в статье "Планирование емкости кластера" в Azure HDInsight .

Дальнейшие действия