Поделиться через


Что такое целевые объекты вычислений в Машинном обучении Azure?

Целевой объект вычисления – это назначенный вычислительный ресурс для выполнения сценария обучения или размещения развертывания службы. Это может быть локальный компьютер или облачный ресурс вычислений. С помощью целевых объектов вычислений можно легко менять среду вычислений, не изменяя код.

Машинное обучение Azure поддерживает различные целевые объекты вычислений. В типичном цикле разработки модели вы можете:

  1. Начать с разработки и экспериментирования с небольшим объемом данных. На этом этапе используйте локальную среду, например локальный компьютер или облачную виртуальную машину (ВМ) в качестве целевого объекта вычислений.
  2. Масштабируйте до больших данных или выполняйте распределенное обучение с помощью одной из этих обучающих вычислительных целей.
  3. Когда модель будет готова, разверните ее в среде веб-размещения, используя один из этих целевых объектов для вычислений развертывания.

Вы присоединяете вычислительные ресурсы, используемые для целевых объектов вычислений, в рабочую область. Пользователи рабочей области используют вычислительные ресурсы, отличные от локального компьютера.

Обучение целевых объектов вычислений

При масштабировании обучения на больших наборах данных или распределенном обучении используйте вычислительные ресурсы Машинного обучения Azure для создания одноузлового или многоузлового кластера, который автоматически масштабируется при каждом отправке задания. Можно также присоединить собственный ресурс вычислений, хотя поддержка может различаться в зависимости от сценария.

Вы можете повторно использовать целевые объекты вычислений из одного задания обучения на следующее. Например, после подключения удаленной виртуальной машины к вашей рабочей области ее можно многократно использовать для нескольких заданий.

В конвейерах машинного обучения используйте правильный шаг конвейера для каждого целевого объекта вычислений.

Для большинства заданий можно использовать любой из приведенных ниже ресурсов для обучающего целевого объекта вычислений. Не все ресурсы можно использовать для автоматизированного машинного обучения, конвейеров машинного обучения или конструктора. Azure Databricks можно использовать в качестве учебного ресурса для локальных запусков и конвейеров машинного обучения, но не в качестве удаленного целевого объекта для других видов обучения.

Целевые объекты обучения Автоматизированное машинное обучение Конвейеры машинного обучения Конструктор Машинного обучения Azure
Вычислительный кластер Машинного обучения Azure Да Да Да
Машинное обучение Azure бессерверные вычисления Да Да Да
Вычислительная операция Машинного обучения Azure да (с помощью пакета SDK) Да Да
Kubernetes для Машинного обучения Azure Да Да
Удаленная виртуальная машина Да Да  
Пулы Apache Spark (предварительная версия) да (только в локальном режиме SDK) Да  
Azure Databricks да (только в локальном режиме SDK) Да  
Azure Data Lake Analytics   Да  
Azure HDInsight   Да  
Пакетная служба Azure   Да  
Целевые объекты обучения Автоматизированное машинное обучение Конвейеры машинного обучения Конструктор Машинного обучения Azure
Локальный компьютер Да    
Вычислительный кластер Машинного обучения Azure Да Да Да
Вычислительная операция Машинного обучения Azure да (с помощью пакета SDK) Да Да
Kubernetes для Машинного обучения Azure Да Да
Удаленная виртуальная машина Да Да  
Пулы Apache Spark (предварительная версия) да (только в локальном режиме SDK) Да  
Azure Databricks да (только в локальном режиме SDK) Да  
Azure Data Lake Analytics   Да  
Azure HDInsight   Да  
Пакетная служба Azure   Да  

Совет

Вычислительный экземпляр имеет диск ОС размером 120 ГБ. Если на диске заканчивается свободное место, очистите с помощью терминала по крайней мере 1–2 ГБ, прежде чем остановить или перезапустить вычислительный экземпляр.

Целевые объекты вычислений для вывода

При выполнении вывода Машинное обучение Azure создает контейнер Docker, на котором размещена модель и связанные ресурсы, необходимые для его использования. Вы используете этот контейнер в целевом вычислительном объекте.

Целевой объект вычислений, используемый для размещения модели, влияет на стоимость и доступность развернутой конечной точки. Для выбора подходящего целевого объекта вычислений используйте приведенную таблицу.

Целевой объект вычислений Используется для Поддержка GPU Описание
Машинное обучение Azure — конечные точки Вывод в режиме реального времени

Пакетный вывод
Да Полностью управляемые вычисления для управляемых конечных точек в режиме реального времени (управляемые сетевые конечные точки) и пакетной оценки (конечные точки пакетной службы) на бессерверных вычислительных ресурсах.
Kubernetes для Машинного обучения Azure Вывод в режиме реального времени

Пакетный вывод
Да Запустите рабочие нагрузки вывода в локальных, облачных и пограничных кластерах Kubernetes.
Целевой объект вычислений Используется для Поддержка GPU Описание
Локальная веб-служба Тестирование и отладка   Используется для ограниченного тестирования и устранения неполадок. Аппаратное ускорение зависит от использования библиотек в локальной системе.
Kubernetes для Машинного обучения Azure Вывод в реальном времени Да Запустите рабочие нагрузки вывода в облаке.
Экземпляры контейнеров Azure Вывод в режиме реального времени

Рекомендуется только для разработки и тестирования.
  Используйте для небольших рабочих нагрузок на основе ЦП, которым требуется менее 48 ГБ ОЗУ. Вам не нужно управлять кластером.

Подходит только для моделей размером менее 1 ГБ.

Поддерживается в конструкторе.

Примечание.

При выборе SKU кластера сначала увеличьте масштаб, затем расширьте его. Начните с машины, оснащенной объемом памяти, превышающим необходимые вашей модели на 150%, выполните профилирование результата и найдите машину с необходимой вам производительностью. Как только вы это освоите, увеличьте количество компьютеров в соответствии с вашими потребностями в параллельных вычислениях.

Развертывание и оценка модели машинного обучения с помощью сетевой конечной точки.

Развертывание моделей машинного обучения в Azure.

Вычислительная среда Машинного обучения Azure (управляемая)

Машинное обучение Azure создает управляемые вычислительные ресурсы и управляет ими. Этот тип вычислений оптимизирован для рабочих нагрузок машинного обучения. Машинное обучение Azure вычислительных кластеров, бессерверных вычислений и вычислительных экземпляров являются единственными управляемыми вычислениями.

Вам не нужно создавать бессерверные вычисления. Вы можете создавать вычислительные экземпляры или вычислительные кластеры Машинного обучение Azure из:

Примечание.

Вместо создания вычислительного кластера используйте бессерверные вычисления для разгрузки управления жизненным циклом вычислений в Машинное обучение Azure.

При создании этих вычислительных ресурсов они автоматически становятся частью рабочей области, в отличие от других типов целевых объектов вычислений.

Возможность Вычислительный кластер Вычислительная операция
Кластер с одним узлом или несколькими узлами Кластер с одним узлом
Автоматическое масштабирование при каждой отправке задания
Автоматическое управление кластерами и планирование заданий
поддерживает ресурсы ЦП и GPU;

Примечание.

Чтобы избежать расходов при простое вычислении, выполните следующие действия.

  • Для вычислительного кластера убедитесь, что для минимального количества узлов задано значение 0 или бессерверные вычисления.
  • Для вычислительного экземпляра включите завершение простоя. Хотя остановка вычислительного экземпляра прекращает начисление платы за вычислительные часы, вам все равно придется платить за диск, общедоступный IP-адрес и стандартный балансировщик нагрузки.

Поддерживаемые размеры и серии виртуальных машин

Внимание

Если вычислительный экземпляр или вычислительные кластеры основаны на любой из этих рядов, создайте повторное создание с другим размером виртуальной машины.

Эта серия прекращена 31 августа 2023 г.:

Эта серия прекращена 31 августа 2024 г.:

Эта серия прекращена 30 сентября 2025 г.:

При выборе размера узла для управляемого вычислительного ресурса в Машинном обучении Azure можно выбрать размеры виртуальных машин, доступные в Azure. В Azure предоставлен диапазон размеров виртуальных машин Windows и Linux для разных рабочих нагрузок. Дополнительные сведения см. в разделе "Типы и размеры виртуальных машин".

При выборе размера виртуальной машины существует несколько исключений и ограничений.

  • Машинное обучение Azure не поддерживает некоторые серии виртуальных машин.
  • Некоторые серии виртуальных машин, такие как GPU и другие специальные номера SKU, могут не отображаться в списке доступных виртуальных машин. Но вы по-прежнему можете использовать их после запроса на изменение квоты. Дополнительные сведения о запросах квот см. в разделе "Увеличение квоты запросов и предельных ограничений".

Дополнительные сведения о поддерживаемых сериях см. в следующей таблице.

Поддерживаемые серии виртуальных машин Категория Поддерживается
DDSv4 Универсальные Вычислительные кластеры и экземпляры
Dv2 Универсальные Вычислительные кластеры и экземпляры
Dv3 Универсальные Вычислительные кластеры и экземпляры
DSv2 Универсальные Вычислительные кластеры и экземпляры
DSv3 Универсальные Вычислительные кластеры и экземпляры
EAv4 Оптимизированные для памяти Вычислительные кластеры и экземпляры
Ev3 Оптимизированные для памяти Вычислительные кластеры и экземпляры
ESv3 Оптимизированные для памяти Вычислительные кластеры и экземпляры
FSv2 Оптимизированные для вычислений Вычислительные кластеры и экземпляры
FX Оптимизированные для вычислений Вычислительные кластеры
H Для высокопроизводительных вычислений Вычислительные кластеры и экземпляры
HB Для высокопроизводительных вычислений Вычислительные кластеры и экземпляры
HBv2 Для высокопроизводительных вычислений Вычислительные кластеры и экземпляры
HBv3 Для высокопроизводительных вычислений Вычислительные кластеры и экземпляры
ХК Для высокопроизводительных вычислений Вычислительные кластеры и экземпляры
LSv2 Оптимизированные для хранилища Вычислительные кластеры и экземпляры
M Оптимизированные для памяти Вычислительные кластеры и экземпляры
NC Графический процессор Вычислительные кластеры и экземпляры
Рекламные акции NC Графический процессор Вычислительные кластеры и экземпляры
NCv2 Графический процессор Вычислительные кластеры и экземпляры
NCv3 Графический процессор Вычислительные кластеры и экземпляры
ND Графический процессор Вычислительные кластеры и экземпляры
NDv2 Графический процессор Вычислительные кластеры и экземпляры
NV Графический процессор Вычислительные кластеры и экземпляры
NVv3 Графический процессор Вычислительные кластеры и экземпляры
NCasT4_v3 Графический процессор Вычислительные кластеры и экземпляры
NDasrA100_v4 Графический процессор Вычислительные кластеры и экземпляры
ND-H100-v5 Графический процессор Вычислительные кластеры и экземпляры
ND-H200-v5 Графический процессор Вычислительные кластеры и экземпляры

Хотя Машинное обучение Azure поддерживает эти серии виртуальных машин, они могут быть доступны не во всех регионах Azure. Чтобы проверить, доступна ли серия виртуальных машин, ознакомьтесь со статьей Доступность продуктов по регионам.

Примечание.

Машинное обучение Azure поддерживает не все размеры виртуальных машин, поддерживаемые в Вычислениях Azure. Чтобы получить список доступных размеров виртуальных машин, используйте следующий метод:

Примечание.

Машинное обучение Azure поддерживает не все размеры виртуальных машин, поддерживаемые в Вычислениях Azure. Чтобы получить список доступных размеров виртуальных машин, поддерживаемых определенными типами вычислительных виртуальных машин, используйте один из следующих методов:

Если вы используете целевые объекты вычислений с поддержкой GPU, важно убедиться, что правильные драйверы CUDA установлены в среде обучения. Воспользуйтесь следующей таблицей, чтобы определить правильную версию CUDA:

Архитектура GPU Серия виртуальных машин Azure Поддерживаемые версии CUDA
Ампер NDA100_v4 11.0+
Турин NCT4_v3 10.0+
Вольта NCv3, NDv2 9.0+
Паскаль NCv2, ND 9.0+
Максвелл NV, NVv3 9.0+
Кеплер NC, NC Промо 9.0+

Помимо обеспечения совместимости версии И оборудования CUDA, также убедитесь, что версия CUDA совместима с версией платформы машинного обучения, которую вы используете:

Изоляция вычислительных ресурсов

Машинное обучение Azure предлагает размеры виртуальных машин, которые используют оборудование строго определенного типа и выделяются отдельному клиенту. Такие изолированные размеры лучше всего подходят для рабочих нагрузок, требующих высокого уровня изоляции от рабочих нагрузок других клиентов, например для обеспечения соответствия нормативным требованиям. При использовании изолированного размера виртуальная машина является единственной, работающей на этом конкретном экземпляре сервера.

Текущие предложения изолированных виртуальных машин включают в себя:

  • Standard_M128ms
  • Standard_F72s_v2
  • Standard_NC24s_v3
  • Standard_NC24rs_v3 (с поддержкой RDMA)

Дополнительные сведения об изоляции см. в статье "Изоляция" в общедоступном облаке Azure.

Неуправляемые вычисления

Машинное обучение Azure не управляет неуправляемым целевым объектом вычислений. Этот тип целевого объекта вычислений можно создать за пределами Машинного обучения Azure, а затем подключить его к рабочей области. Вам может потребоваться выполнить дополнительные действия для поддержания неуправляемых вычислительных ресурсов или повышения производительности рабочих нагрузок машинного обучения.

Машинное обучение Azure поддерживает следующие типы неуправляемых вычислений:

  • Удаленные виртуальные машины
  • Azure HDInsight
  • Azure Databricks
  • Аналитика озера данных Azure

Дополнительные сведения см. в разделе "Управление вычислительными ресурсами".