Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Применимо к: ✔️ виртуальные машины Linux ✔️ виртуальные машины Windows ✔️ гибкие наборы масштабирования ✔️ унифицированные наборы масштабирования
Виртуальные машины, поддерживающие RDMA, серийHB и N взаимодействуют по сети InfiniBand, характеризующейся низкой задержкой и высокой пропускной способностью. Возможность RDMA для такого взаимодействия является критически важной для повышения масштабируемости и производительности рабочих нагрузок HPC и искусственного интеллекта распределенного узла. Виртуальные машины серий HB и N с поддержкой InfiniBand подключены в неблокирующее жирное дерево с малым диаметром для оптимизированной и стабильной работы RDMA.
Существуют различные способы включения InfiniBand на поддерживаемых размерах виртуальных машин.
Замечание
Попробуйте использовать виртуальную машину для ускорения диагностики. Рекомендуется запустить Ассистент виртуальных машин для Windows или Ассистент виртуальных машин для Linux. Эти средства диагностики на основе скриптов помогают выявить распространенные проблемы, влияющие на гостевой агент виртуальной машины Azure и общую работоспособность виртуальных машин.
Если у вас возникли проблемы с производительностью виртуальных машин, перед обращением в службу поддержки запустите эти средства.
Образы виртуальных машин с драйверами InfiniBand
Ознакомьтесь со списком поддерживаемых образов виртуальных машин в Marketplace, которые идут с предварительно установленными драйверами InfiniBand (для виртуальных машин с поддержкой SR-IOV или без неё), или могут быть настроены с соответствующими драйверами для виртуальных машин с поддержкой RDMA. Образы виртуальных машин Ubuntu-HPC и AlmaLinux-HPC в Marketplace — самый простой способ приступить к работе.
Дополнения для виртуальных машин драйвера InfiniBand
В Linux можно использовать расширение виртуальной машины InfiniBandDriverLinux для установки драйверов Mellanox OFED и включения InfiniBand на виртуальных машинах с поддержкой SR-IOV серий HB и N.
В Windows расширение виртуальной машины InfiniBandDriverWindows устанавливает драйверы Windows Network Direct (на виртуальных машинах без SR-IOV) или драйверы Mellanox OFED (на виртуальных машинах с SR-IOV) для обеспечения подключения RDMA. В некоторых развертываниях экземпляров A8 и A9 расширение HpcVmDrivers добавляется автоматически. Обратите внимание, что расширение виртуальной машины HpcVmDrivers устарело; Оно не будет обновлено.
Чтобы добавить расширение к виртуальной машине, можно использовать командлеты Azure PowerShell. Дополнительные сведения см. в разделе "Расширения и функции виртуальной машины". Вы также можете работать с расширениями для виртуальных машин, развернутых в классической модели развертывания.
Установка вручную
Драйверы Mellanox OpenFabrics (OFED) можно установить вручную на виртуальных машинах с поддержкой SR-IOV серии HB и серии N.
Линукс
Драйверы OFED для Linux можно установить с помощью приведенного ниже примера. Хотя пример приведен для RHEL, но шаги являются общими и могут использоваться для любой совместимой операционной системы Linux, такой как Ubuntu (22.04, 24.04) и SLES (12 SP4+ и 15). Дополнительные примеры для других дистрибутивов находятся в репозитории azhpc-images. Драйверы папки "Входящие" также работают, но драйверы Mellanox OFED предоставляют дополнительные возможности.
MLNX_OFED_DOWNLOAD_URL=http://content.mellanox.com/ofed/MLNX_OFED-5.0-2.1.8.0/MLNX_OFED_LINUX-5.0-2.1.8.0-rhel7.7-x86_64.tgz
# Optionally verify checksum
wget --retry-connrefused --tries=3 --waitretry=5 $MLNX_OFED_DOWNLOAD_URL
tar zxvf MLNX_OFED_LINUX-5.0-2.1.8.0-rhel7.7-x86_64.tgz
KERNEL=( $(rpm -q kernel | sed 's/kernel\-//g') )
KERNEL=${KERNEL[-1]}
# Uncomment the lines below if you are running this on a VM
#RELEASE=( $(cat /etc/redhat-release | awk '{print $4}') )
#yum -y install http://olcentgbl.trafficmanager.net/redhat/${RELEASE}/updates/x86_64/kernel-devel-${KERNEL}.rpm
sudo yum install -y kernel-devel-${KERNEL}
sudo ./MLNX_OFED_LINUX-5.0-2.1.8.0-rhel7.7-x86_64/mlnxofedinstall --kernel $KERNEL --kernel-sources /usr/src/kernels/${KERNEL} --add-kernel-support --skip-repo
Виндоус
Для Windows скачайте и установите драйверы Mellanox OFED for Windows.
Включение IP-адреса через InfiniBand (IB)
Если вы планируете выполнять задания MPI, обычно не требуется IPoIB. Библиотека MPI будет использовать интерфейс глаголов для обмена данными IB (если вы явно не используете канал TCP/IP библиотеки MPI). Но если у вас есть приложение, использующее TCP/IP для связи, и вы хотите запустить через IB, можно использовать IPoIB через интерфейс IB. Используйте следующие команды (для RHEL), чтобы включить IP-адрес через InfiniBand.
Это важно
Чтобы избежать проблем, убедитесь, что вы не работаете с более старыми версиями агента Microsoft Azure Linux (waagent). Перед включением IP-адреса по протоколу IB рекомендуется использовать по крайней мере версию 2.4.0.2 .
sudo sed -i -e 's/# OS.EnableRDMA=n/OS.EnableRDMA=y/g' /etc/waagent.conf
sudo systemctl restart waagent
Дальнейшие шаги
- Дополнительные сведения об установке и запуске различных поддерживаемых библиотек MPI на виртуальных машинах.
- Ознакомьтесь с обзором серии HBv3 и обзором серии HC.
- Ознакомьтесь с последними объявлениями, примерами рабочей нагрузки HPC, а также результатами оценки производительности в блогах технического сообщества Вычислений Azure.
- Сведения о более высоком уровне архитектурного представления выполнения рабочих нагрузок HPC см. в статье Высокопроизводительные вычисления (HPC) в Azure.