Термин больших вычислений описывает крупномасштабные рабочие нагрузки, требующие большого количества ядер, часто нумерующих в сотнях или тысячах. Сценарии включают отрисовку изображений, динамическую динамику, моделирование финансовых рисков, исследование нефти, проектирование лекарств и инженерный стресс-анализ, среди прочего.
Ниже приведены некоторые типичные характеристики больших вычислительных приложений:
- Работа может быть разделена на дискретные задачи, которые могут выполняться одновременно по нескольким ядрам.
- Каждая задача ограничена. Он принимает некоторые входные данные, выполняет некоторую обработку и создает выходные данные. Все приложение выполняется в течение ограниченного времени (минут до дней). Распространенный шаблон заключается в подготовке большого количества ядер в всплеске, а затем отключается до нуля после завершения приложения.
- Приложению не нужно оставаться до 24/7. Однако система должна обрабатывать сбои узлов или сбои приложения.
- Для некоторых приложений задачи независимы и могут выполняться параллельно. В других случаях задачи тесно связаны, то есть они должны взаимодействовать или обмениваться промежуточными результатами. В этом случае рекомендуется использовать высокоскоростные сетевые технологии, такие как InfiniBand и удаленный прямой доступ к памяти (RDMA).
- В зависимости от рабочей нагрузки можно использовать размеры виртуальных машин с интенсивным вычислением (H16r, H16mr и A9).
Когда следует использовать эту архитектуру
- Вычислительные интенсивные операции, такие как моделирование и хрустение чисел.
- Имитации, которые являются вычислительными и должны быть разделены по ЦП на нескольких компьютерах (10–1000).
- Имитации, требующие слишком много памяти для одного компьютера, и должны быть разделены на несколько компьютеров.
- Длительные вычисления, которые занять слишком много времени для выполнения на одном компьютере.
- Небольшие вычисления, которые должны выполняться 100-х или 1000-х раз, например симуляция Монте-Карло.
Преимущества
- Высокая производительность с "смущательно параллельной" обработкой.
- Может использовать сотни или тысячи ядер компьютера, чтобы быстрее решить большие проблемы.
- Доступ к специализированному высокопроизводительного оборудования с выделенными высокоскоростными сетями InfiniBand.
- Вы можете подготавливать виртуальные машины по мере необходимости для работы, а затем отключать их.
Сложности
- Управление инфраструктурой виртуальной машины.
- Управление объемом хрустения чисел
- Подготовка тысяч ядер своевременно.
- Для тесно связанных задач добавление дополнительных ядер может иметь снижение отдачи. Возможно, вам потребуется поэкспериментировать, чтобы найти оптимальное количество ядер.
Большие вычислительные ресурсы с помощью пакетной службы Azure
Пакетная служба Azure — это управляемая служба для выполнения крупномасштабных высокопроизводительных вычислений (HPC).
С помощью пакетной службы Azure вы настраиваете пул виртуальных машин и отправляете приложения и файлы данных. Затем пакетная служба подготавливает виртуальные машины, назначает задачи виртуальным машинам, выполняет задачи и отслеживает ход выполнения. Пакетная служба может автоматически масштабировать виртуальные машины в ответ на рабочую нагрузку. Пакет также предоставляет планирование заданий.
Большие вычислительные ресурсы, выполняемые на виртуальных машинах
Пакет Microsoft HPC можно использовать для администрирования кластера виртуальных машин, а также планирования заданий HPC и отслеживания заданий HPC. С помощью этого подхода необходимо подготовить виртуальные машины и сетевую инфраструктуру и управлять ими. Рассмотрите этот подход, если у вас есть рабочие нагрузки HPC и хотите переместить некоторые или все эти рабочие нагрузки в Azure. Вы можете переместить весь кластер HPC в Azure или сохранить локальный кластер HPC, но использовать Azure для ускорения емкости. Дополнительные сведения см. в решениях пакетной службы и HPC для крупномасштабных вычислительных рабочих нагрузок.
Пакет HPC, развернутый в Azure
В этом сценарии кластер HPC создается полностью в Azure.
Головной узел предоставляет службы планирования заданий и управления в кластере. Для тесно связанных задач используйте сеть RDMA, которая обеспечивает очень высокую пропускную способность, низкую задержку связи между виртуальными машинами. Дополнительные сведения см. в статье "Развертывание кластера HPC с пакетом 2016" в Azure.
Ускорение кластера HPC в Azure
В этом сценарии организация выполняет локальный пакет HPC и использует виртуальные машины Azure для ускорения емкости. Головной узел кластера находится в локальной среде. ExpressRoute или VPN-шлюз подключает локальную сеть к виртуальной сети Azure.