Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Slurm является одним из самых популярных и широко используемых диспетчеров рабочих нагрузок с открытым исходным кодом для ИИ, HPC и облачных вычислений. С помощью Slurm можно запускать крупномасштабные параллельные и распределенные приложения в наборе вычислительных узлов. Она предоставляет такие функции, как планирование заданий, управление ресурсами, отказоустойчивость и управление питанием. Многие из лучших суперкомпьютеров мира, исследовательских институтов, университетов и предприятий используют Slurm.
Однако настройка кластеров Slurm в облаке может быть сложной и много времени, особенно если вы не знакомы с облачной средой или конфигурацией Slurm. Необходимо обрабатывать такие задачи, как подготовка и масштабирование вычислительных узлов, установка и обновление программного обеспечения Slurm, настройка сети и хранилища, мониторинг работоспособности кластера и производительность, а также устранение неполадок. Эти задачи могут отвлекать вас от основных исследований или бизнес-целей, а также снизить производительность и эффективность рабочих нагрузок ИИ и HPC.
Рабочая область Azure CycleCloud для Slurm — это шаблон решения Azure Marketplace, который можно использовать для создания, настройки и развертывания предопределенных кластеров Slurm с помощью CycleCloud в Azure. Вам не нужны предварительные знания о Azure или Slurm. Решение предварительно настраивает кластеры Slurm с PMix v4, Pyxis и enroot для поддержки контейнеризованных заданий Slurm для AI/HPC. Вы можете получить доступ к подготовленному узлу входа с помощью SSH или Visual Studio Code для выполнения распространенных задач, таких как отправка заданий Slurm и управление ими.
Хотя Azure CycleCloud уже позволяет выполнять некоторые из этих задач, он не развертывает инфраструктуру ИИ/HPC для вас. Необходимо решать такие задачи, как установка и настройка CycleCloud, настройка сети и хранилища, создание и настройка кластера Slurm. Рабочая область Azure CycleCloud для Slurm выполняет эти задачи в шаблоне решения Marketplace, который можно развернуть непосредственно на портале Azure или с помощью Azure CLI. Вы готовы за считанные минуты, а не за дни или недели.
Преимущества рабочей области Azure CycleCloud для Slurm
Azure CycleCloud — это отличное решение, если вы хотите создать среду ИИ/HPC в Azure, чтобы поднять и переместить некоторые локальные рабочие нагрузки ИИ/HPC или создать новую. Однако создание полной комплексной среды ИИ/HPC не является простой задачей. Вам нужно решить, как разработать сеть, какой компонент хранилища следует использовать в качестве общей файловой системы, тип виртуальной машины для выполнения рабочей нагрузки и множество небольших компонентов, которые могут сделать проект сложным для доставки.
Рабочая область Azure CycleCloud для Slurm предлагает несколько преимуществ для пользователей, которые хотят запускать рабочие нагрузки Slurm в Azure, например:
Простое и быстрое создание кластера. Вы можете создавать кластеры Slurm в Azure в минутах, выполнив несколько простых действий в графическом интерфейсе. Этот процесс быстрее, чем работа, которая занимала несколько дней или недель в прошлом без использования рабочей области Azure CycleCloud для Slurm. Вы можете выбрать различные размеры и типы виртуальных машин Azure. Вы можете настроить параметры кластера, такие как количество узлов, конфигурация сети, параметры хранения из Azure NetApp Files в управляемую файловую систему Lustre Azure и параметры Slurm.
Гибкое и динамическое управление кластерами: Azure CycleCloud масштабирует кластеры Slurm вверх или вниз. Вы можете отслеживать состояние кластера, производительность и использование. Журналы и метрики кластера можно просмотреть в графическом интерфейсе. Вы также можете удалить кластеры Slurm, если они больше не нужны и платить только за используемые ресурсы.
Как создать рабочую область Azure CycleCloud для Slurm?
Вы можете развернуть рабочую область Azure CycleCloud для Slurm из Azure Marketplace или с помощью Azure CLI. Чтобы развернуть в Marketplace, найдите Slurm и выберите Создать. Чтобы развернуть с помощью Azure CLI, сначала необходимо создать входной файл параметров, а затем развернуть с помощью az deployment sub create команды. Подробные инструкции см. в статье "Развертывание среды Рабочей области CycleCloud Slurm" с помощью интерфейса командной строки.
Чем не является рабочая область Azure CycleCloud для Slurm?
Рабочая область Azure CycleCloud для Slurm не является службой PaaS. Вся инфраструктура развертывается в клиенте, что позволяет развертывать все (развертывание гринфилда) или указывать существующие ресурсы для повторного использования (развертывания браунфилда), таких как целевая группа ресурсов, виртуальная сеть, Azure NetApp Files и многое другое.
Как выглядит рабочая зона Azure CycleCloud в среде Slurm после развертывания.
Ниже приведена стандартная архитектура развертывания рабочей области Azure CycleCloud для Slurm. Архитектура включает обязательные ресурсы, такие как виртуальная машина для запуска CycleCloud, общая файловая система для каталогов домашних пользователей и учетная запись хранения для хранилища проектов CycleCloud.
Рабочая область Azure CycleCloud для Slurm может развернуть виртуальную сеть или использовать существующую виртуальную сеть для создания ресурсов. При необходимости можно создать управляемую файловую систему Lustre Azure в собственной подсети.
Если правила безопасности организации не разрешают общедоступные IP-адреса (и многие из этого не делают), вы можете создать пиринг виртуальной сети в существующей виртуальной сети в концентраторе и шаблоны периферийных серверов. Концентратор содержит все службы подключения, такие как шлюз виртуальной сети или бастион Azure.
Наконец, в среде без общедоступного IP-адреса и нет VPN, вам нужен бастион. Бастион обеспечивает безопасный доступ к веб-порталу CycleCloud и позволяет использовать SSH для подключения к узлам проверки подлинности.