Руководство по миграции для вычислительных рабочих нагрузок GPU в Azure

Так как более мощные графические процессоры становятся доступными в Marketplace и в центрах обработки данных Microsoft Azure, мы рекомендуем повторно оценить производительность рабочих нагрузок и рассмотреть возможность миграции на более новые GPU.

По той же причине, а также для поддержания высококачественного и надежного предложения услуг, Azure периодически удаляет оборудование, которое обеспечивает более старые размеры виртуальных машин. Первая группа продуктов GPU, которые будут выведены из эксплуатации в Azure, включает виртуальные машины исходной серии NC, версии NC v2 и серии ND, разработанные на базе GPU-ускорителей для центров обработки данных NVIDIA Tesla K80, P100 и P40 соответственно. Эти продукты будут прекращены 31 августа 2023 года, а самые старые виртуальные машины в этой серии запущены в 2016 году.

С тех пор GPU добились невероятных успехов вместе с развитием всей отрасли глубокого обучения и высокопроизводительных вычислительных систем, обычно увеличивая производительность в два раза между поколениями. С момента запуска GPU K80, P40 и P100, Azure представила несколько новых поколений и категорий продуктов виртуальных машин, предназначенных для вычислений и ИИ с ускорением на базе GPU, используя NVIDIA T4, V100 и A100, и отличающихся дополнительными функциями, такими как структуры взаимодействия на базе InfiniBand. Это все варианты, которые мы рекомендуем клиентам изучить в качестве путей миграции.

В большинстве случаев значительное увеличение производительности, предлагаемое новыми поколениями GPU, снижает общую стоимость владения (TCO), сокращая продолжительность задания для поддающихся изменению заданий, а также уменьшая общее количество виртуальных машин с поддержкой GPU, необходимых для обеспечения фиксированного спроса на вычислительные ресурсы, несмотря на то, что затраты на час GPU могут варьироваться. В дополнение к этим преимуществам клиенты могут улучшить время на решение с помощью более высокопроизводительных виртуальных машин, а также повысить работоспособность и поддержку своего решения путем внедрения более новых программ, среды выполнения CUDA и версий драйверов.

Миграция и оптимизация

Azure признает, что у клиентов есть множество требований, которые могут диктовать выбор определенного продукта виртуальной машины GPU, включая рекомендации по архитектуре GPU, взаимосвязи, TCO, время до решения задачи и региональную доступность в зависимости от соответствия нормативным требованиям или требований к задержке, и некоторые из этих требований могут изменяться с течением времени.

В то же время ускорение GPU является новой и быстро развивающейся областью.

Таким образом, нет истинных одноуровневых рекомендаций для этой области продукта, и миграция является идеальным временем для повторной оценки потенциально драматических изменений в рабочей нагрузке, например переход от кластеризованной модели развертывания к одной большой 8-GPU виртуальной машины или наоборот, используя сокращенные типы данных точности, применяя такие функции, как GPU с несколькими экземплярами, и многое другое.

Эти аспекты, когда рассматриваются в контексте уже значительных увеличений производительности GPU с каждым новым поколением, где такая функция, как добавление TensorCores, может повысить производительность на порядок, крайне зависят от характера рабочей нагрузки.

Объединение миграции с повторной архитектурой приложений может обеспечить огромную ценность и улучшение затрат и времени на решение.

Однако эти улучшения выходят за рамки данного документа, который сосредоточен на прямых классах эквивалентности для общих рабочих нагрузок, которые могут выполняться клиентами сегодня, чтобы определить наиболее аналогичные варианты виртуальных машин по цене и производительности графических процессоров (GPU) для существующих семейств виртуальных машин, находящихся в процессе вывода из использования.

Таким образом, в этом документе предполагается, что пользователь не может иметь никакого анализа или контроля над свойствами, связанными с рабочей нагрузкой, такими как количество обязательных экземпляров виртуальных машин, GPU, межсоединений и многое другое.

NC-Series виртуальные машины с графическими процессорами NVIDIA K80

NC (v1)-Series виртуальные машины Azure являются самыми старыми виртуальными машинами с ускорением на GPU, на основе 1 до 4 графических ускорителей NVIDIA Tesla K80 в сочетании с процессорами Intel Xeon E5-2690 v3 (Haswell). Бывший флагманский тип виртуальной машины для требовательных приложений ИИ, машинного обучения и высокопроизводительных вычислений, они оставались популярным выбором даже в конце жизненного цикла продукта (особенно благодаря рекламным ценам серии NC) для пользователей, которые предпочитали очень низкую абсолютную стоимость на GPU-час, чем GPUs с более высокой производительностью на каждый потраченный доллар.

Сегодня, учитывая относительно низкую производительность вычислений устаревшей платформы GPU NVIDIA K80, в сравнении с сериями виртуальных машин с новыми GPU, популярным вариантом использования для серии NC является анализ и аналитические задачи, для которых ускоренная виртуальная машина должна быть доступна в стабильном состоянии для обслуживания запросов от приложений по мере их поступления. В таких случаях объем или размер пакета запросов может оказаться недостаточным, чтобы воспользоваться более эффективными графическими процессорами. Виртуальные машины NC также популярны среди разработчиков и студентов, которые изучают, разрабатывают или экспериментируют с ускорением GPU и которым требуется недорогая облачная среда для развертывания CUDA, не нуждающаяся в производительности на уровне производства для итеративных улучшений.

Как правило, клиентам NC-Series следует рассмотреть возможность перехода непосредственно с размеров NC на размеры NC T4 версии 3, новой платформы Azure с ускорением GPU для легких рабочих нагрузок на базе GPU Tesla T4.

Текущий размер виртуальной машины Целевой размер виртуальной машины Разница в спецификации
Standard_NC6
Standard_NC6_Promo
Standard_NC4as_T4_v3
или
Standard_NC8as_T4
ЦП: Intel Haswell против AMD Rome
Количество GPU: 1 (то же)
Поколение GPU: NVIDIA Keppler vs. Turing (+2 поколения, ~2x FP32 FLOPs)
Память GPU (ГиБ на GPU): 16 (+4)
VCPU: 4 (-2) или 8 (+2)
Память ГиБ: 16 (-40) или 56 (то же самое)
Temp Storage (SSD) GiB: 180 (-160) или 360 (+20)
Максимальное число дисков данных: 8 (-4) или 16 (+4)
Ускорение сети: Да (+)
хранилище класса Premium: Да (+)
Standard_NC12
Standard_NC12_Promo
Standard_NC16as_T4_v3 ЦП: Intel Haswell против AMD Rome
Количество GPU: 1 (-1)
Поколение GPU: NVIDIA Keppler vs. Turing (+2 поколения, ~2x FP32 FLOPs)
Память GPU (ГиБ на GPU): 16 (+4)
VCPU: 16 (+4)
Память ГиБ: 110 (-2)
Temp Storage (SSD) GiB: 360 (-320)
Максимальное число дисков данных: 48 (+16)
Ускорение сети: Да (+)
хранилище класса Premium: Да (+)
Standard_NC24
Standard_NC24_Promo
Standard_NC64as_T4_v3* ЦП: Intel Haswell против AMD Rome
Количество GPU: 4 (то же)
Поколение GPU: NVIDIA Keppler vs. Turing (+2 поколения, ~2x FP32 FLOPs)
Память GPU (ГиБ на GPU): 16 (+4)
vCPU: 64 (+40)
Память ГиБ: 440 (+216)
Temp Storage (SSD) GiB: 2880 (+1440)
Максимальное количество дисков данных: 32 (-32)
Ускорение сети: Да (+)
хранилище класса Premium: Да (+)
Standard_NC24r
Standard_NC24r_Promo
Standard_NC64as_T4_v3* ЦП: Intel Haswell против AMD Rome
Количество GPU: 4 (то же)
Поколение GPU: NVIDIA Keppler vs. Turing (+2 поколения, ~2x FP32 FLOPs)
Память GPU (ГиБ на GPU): 16 (+4)
vCPU: 64 (+40)
Память ГиБ: 440 (+216)
Temp Storage (SSD) GiB: 2880 (+1440)
Максимальное количество дисков данных: 32 (-32)
Ускорение сети: Да (+)
хранилище класса Premium: Да (+)
Межсоединение InfiniBand: Нет

Виртуальные машины серии NC версии 2 с графическими процессорами NVIDIA Tesla P100

Виртуальные машины серии NC версии 2 являются флагманской платформой, изначально предназначенной для рабочих нагрузок искусственного интеллекта и глубокого обучения. Они предложили отличную производительность для обучения на основе глубокого обучения, с производительностью на один GPU примерно в 2 раза выше, чем у исходного NC-Series, и работают на GPU NVIDIA Tesla P100 и процессорах Intel Xeon E5-2690 v4 (Broadwell). Как и в серии NC и ND, NC версии 2 предлагает конфигурацию со вторичной низкой задержкой, сетью с высокой пропускной способностью через RDMA и подключение InfiniBand, чтобы можно было выполнять крупномасштабные задания обучения, охватывающие множество gpu.

Как правило, NCv2-Series-клиентам следует рассмотреть возможность перехода непосредственно на размеры NC A100 v4, новую платформу Azure с GPU-ускорением, использующую NVIDIA Ampere A100 PCIe GPU.

Текущий размер виртуальной машины Целевой размер виртуальной машины Разница в спецификации
Standard_NC6s_v2 Standard_NC24ads_A100_v4 ЦП: Intel Broadwell против AMD Милан
Количество GPU: 1 (то же)
Поколение GPU: NVIDIA Pascal и Ampere (+2 поколение)
Память GPU (ГиБ на GPU): 80 (+64)
vCPU: 24 (+18)
Память ГиБ: 220 (+108)
Temp Storage (SSD) GiB: 1123 (+387)
Максимальное число дисков данных: 12 (то же)
Ускорение сети: Да (+)
хранилище класса Premium: Да (+)
Standard_NC12s_v2 Standard_NC48ads_A100_v4 ЦП: Intel Broadwell против AMD Милан
Количество GPU: 2 (то же)
Поколение GPU: NVIDIA Pascal и Ampere (+2 поколения)
Память GPU (ГиБ на GPU): 80 (+64)
VCPU: 48 (+36)
Память ГиБ: 440 (+216)
Temp Storage (SSD) GiB: 2246 (+772)
Максимальное количество дисков данных: 24 (то же)
Ускорение сети: Да (+)
хранилище класса Premium: Да (+)
Standard_NC24s_v2 Standard_NC96ads_A100_v4 ЦП: Intel Broadwell против AMD Милан
Количество GPU: 4 (то же)
Поколение GPU: NVIDIA Pascal и Ampere (+2 поколения)
Память GPU (ГиБ на GPU): 80 (+64)
vCPU: 96 (+72)
Память ГиБ: 880 (+432)
Temp Storage (SSD) GiB: 4492 (+1544)
Максимальное число дисков данных: 32 (то же)
Ускорение сети: Да (+)
хранилище класса Premium: Да (+)
Standard_NC24rs_v2 Standard_NC96ads_A100_v4 ЦП: Intel Broadwell против AMD Милан
Количество GPU: 4 (то же)
Поколение GPU: NVIDIA Pascal и Ampere (+2 поколения)
Память GPU (ГиБ на GPU): 80 (+64)
Виртуальный ЦП: 96 (+72)
Память ГиБ: 880 (+432)
Temp Storage (SSD) GiB: 4492 (+1544)
Максимальное число дисков данных: 32 (то же)
Ускорение сети: Да (+)
хранилище класса Premium: Да (+)
Межсоединение InfiniBand: Нет (-)

ND-Series виртуальные машины с графическими процессорами NVIDIA Tesla P40

Виртуальные машины серии ND — это платформа среднего уровня, предназначенная для рабочих нагрузок искусственного интеллекта и глубокого обучения. Они предложили отличную производительность для пакетного инференса с помощью улучшенных операций с одиночной точностью плавающей запятой по сравнению с их предшественниками и основаны на графических процессорах NVIDIA Tesla P40 и центральных процессорах Intel Xeon E5-2690 v4 (Broadwell). Как и серии NC и NC v2, ND-Series предлагает конфигурацию с вторичной сетью с низкой задержкой и высокой пропускной способностью через RDMA, а также подключением InfiniBand, чтобы можно было выполнять крупномасштабные задачи обучения, охватывающие множество GPU.

Текущий размер виртуальной машины Целевой размер виртуальной машины Разница в спецификации
Standard_ND6 Standard_NC4as_T4_v3
или
Standard_NC8as_T4_v3
ЦП: Intel Broadwell против AMD Rome
Количество GPU: 1 (то же)
Поколение GPU: NVIDIA Pascal и Turing (+1 поколение)
Память GPU (ГиБ на GPU): 16 (-8)
VCPU: 4 (-2) или 8 (+2)
Память ГиБ: 16 (-40) или 56 (-56)
Temp Storage (SSD) GiB: 180 (-552) или 360 (-372)
Максимальное число дисков данных: 8 (-4) или 16 (+4)
Ускорение сети: Да (+)
хранилище класса Premium: Да (+)
Standard_ND12 Standard_NC16as_T4_v3 ЦП: Intel Broadwell против AMD Rome
Количество GPU: 1 (-1)
Поколение GPU: NVIDIA Pascal и Turing (+1 поколения)
Память GPU (ГиБ на GPU): 16 (-8)
VCPU: 16 (+4)
Память ГиБ: 110 (-114)
Temp Storage (SSD) GiB: 360 (-114)
Максимальное число дисков данных: 48 (+16)
Ускорение сети: Да (+)
хранилище класса Premium: Да (+)
Standard_ND24 Standard_NC64as_T4_v3* ЦП: Intel Broadwell против AMD Rome
Количество GPU: 4 (то же)
Поколение GPU: NVIDIA Pascal и Turing (+1 поколения)
Память GPU (ГиБ на GPU): 16 (-8)
vCPU: 64 (+40)
Память ГиБ: 440 (то же)
Temp Storage (SSD) GiB: 2880 (то же)
Максимальное число дисков данных: 32 (то же)
Ускорение сети: Да (+)
хранилище класса Premium: Да (+)
Standard_ND24r Standard_ND96amsr_A100_v4 ЦП: Intel Broadwell против AMD Rome
Количество GPU: 8 (+4)
Поколение GPU: NVIDIA Pascal и Ampere (+2 поколение)
Память GPU (ГиБ на GPU): 80 (+56)
vCPU: 96 (+72)
Память ГиБ: 1,900 (+1,452)
Temp Storage (SSD) GiB: 6400 (+3452)
Максимальное число дисков данных: 32 (то же)
Ускорение сети: Да (+)
хранилище класса Premium: Да (+)
Межсоединение InfiniBand: Да (то же)

«NP-Series» виртуальные машины

Это важно

Размеры серии NP (Standard_NP10s, Standard_NP20s, Standard_NP40s) запланированы для снятия с эксплуатации 31 мая 2027 года. После этой даты оставшиеся виртуальные машины серии NP автоматически освобождаются, перестают работать, перестают взимать плату и больше не имеют соглашения об уровне обслуживания или поддержке. Данные управляемого диска сохраняются.

Окончание покупки зарезервированных экземпляров: приобретение 1-летних и 3-летних зарезервированных виртуальных машин Azure для серии NP закончилось 2 апреля 2026 года. Клиенты с планированием емкости, привязанными к зарезервированным экземплярам, должны соответствующим образом перенести или изменить резервирования.

Виртуальные машины серии NP оснащены AMD Xilinx Alveo U250 FPGAs и используются для пользовательских рабочих нагрузок с ускорением FPGA, таких как инференция машинного обучения, перекодирование видео и поиск по базам данных и аналитика. В отличие от серии виртуальных машин на основе GPU, серия NP использует ускорение FPGA через инструментарии Xilinx XRT/Vitis. Для переноса на альтернативы на основе GPU требуется перенос рабочих нагрузок из платформ на основе FPGA в платформы на основе GPU, такие как CUDA.

Рекомендуемые целевые показатели миграции на основе характеристик рабочей нагрузки:

  • NCasT4_v3 (NVIDIA T4) — лучше всего подходит для вывода, интерактивной графики и рабочих нагрузок с учетом затрат.
  • NDv2 (NVIDIA V100 с NVLink) — лучше всего подходит для обучения ИИ с ускорением GPU и рабочих нагрузок HPC, требующих высокой памяти GPU и взаимодействия.
  • NCads_H100_v5 (NVIDIA H100) — лучше всего подходит для современного обучения ИИ и пакетного вывода по последнему поколению GPU.
Текущий размер виртуальной машины Целевой размер виртуальной машины графический процессор (GPU) Количество GPU Создание GPU виртуальные ЦП Память (ГиБ)
Standard_NP10s Standard_NC4as_T4_v3 NVIDIA T4 1 Турин 4 28
Standard_NP20s Standard_NC16as_T4_v3
или Standard_ND40rs_v2 (обучение)
NVIDIA T4 или V100 1 или 8 Тьюринг или Ольта 16 или 40 110 или 672
Standard_NP40s Standard_NC64as_T4_v3
или Standard_NC24ads_A100_v4 (высокоуровневая версия)
NVIDIA T4 или H100 4 или 1 Тьюринг или Хопер 64 или 24 440 или 220

Шаги переноса

Общие изменения

  1. Выберите серию и размер для миграции. Используйте калькулятор цен для получения дополнительных сведений.

  2. Получение квоты для целевой серии виртуальных машин

  3. Измените размер текущей виртуальной машины серии N* на целевой размер. Это также может быть хорошим временем для обновления операционной системы, используемой в образе вашей виртуальной машины, или выбора одного из образов HPC с предварительно установленными драйверами для начала работы.

    Это важно

    Возможно, образ виртуальной машины был создан с более старой версией среды выполнения CUDA, драйвера NVIDIA и (если применимо, только для размеров с поддержкой RDMA) драйверов Mellanox OFED, чем требуется новая серия виртуальных машин GPU. Они могут быть обновлены, следуя инструкциям в документации Azure.

Разрушающие изменения

Выбор целевого размера для миграции

После оценки текущего использования выберите нужный тип виртуальной машины GPU. В зависимости от требований рабочей нагрузки у вас есть несколько различных вариантов.

Замечание

Рекомендуется выбрать размер виртуальной машины на основе затрат и производительности. Рекомендации, приведенные в этом руководстве, основаны на сравнении метрик производительности по принципу один-к-одному, общего назначения и ближайшем совпадении в другой серии виртуальных машин. Прежде чем выбрать нужный размер, получите сравнение затрат с помощью калькулятора цен Azure.

Клиенты серии NP: при выборе альтернатив виртуальным машинам серии NP следует учитывать как затраты, так и производительность. Новые поколения GPU (T4, V100, H100) могут значительно сократить время на решение для рабочих нагрузок искусственного интеллекта и аналитики. Подробные рекомендации по миграции серии NP, смотрите в разделе виртуальные машины серии NP выше.

Это важно

Все устаревшие размеры NC, NC версии 2 и ND-Series доступны в конфигурациях с несколькими GPU, включая версии с 4-GPU, с поддержкой и без поддержки InfiniBand для горизонтального масштабирования и тесно связанных рабочих нагрузок, требующих больше вычислительной мощности, чем может предоставить одна виртуальная машина с 4-GPU или один GPU K80, P40 или P100 соответственно. Хотя приведенные выше рекомендации предлагают простой путь вперед, пользователи этих размеров должны рассмотреть возможность достижения своих целей производительности с более мощными сериями виртуальных машин на основе GPU NVIDIA V100, такими как серия NC версии 3 и ND версии 2, которые обычно обеспечивают одинаковый уровень производительности рабочей нагрузки при более низких затратах и с улучшенной управляемостью, обеспечивая значительно большую производительность на GPU и на каждую виртуальную машину до настройки нескольких GPU и нескольких узлов, соответственно.

Получение квоты для целевого семейства виртуальных машин

Следуйте инструкциям, чтобы запросить увеличение квоты виртуальных ЦП по семейству виртуальных машин. Выберите целевой размер виртуальной машины, выбранный для миграции.

Изменение размера текущей виртуальной машины

Вы можете изменить размер виртуальной машины.

Дальнейшие шаги

Полный список размеров виртуальных машин с поддержкой GPU см. в разделе GPU — обзор ускорения вычислений