Поделиться через


Что такое целевые объекты вычислений в Azure Machine Learning?

Целевой объект вычисления – это назначенный вычислительный ресурс или среда, где выполняется ваш учебный сценарий или размещается развёртывание службы. Это может быть локальный компьютер или облачный ресурс вычислений. С помощью целевых объектов вычислений можно легко менять среду вычислений, не изменяя код.

Azure Machine Learning поддерживает различные целевые объекты вычислений. В типичном цикле разработки модели вы можете:

  1. Начать с разработки и экспериментирования с небольшим объемом данных. На этом этапе используйте локальную среду, например локальный компьютер или облачную виртуальную машину (ВМ) в качестве целевого объекта вычислений.
  2. Увеличьте масштаб обработки данных или выполняйте распределенное обучение с помощью одной из этих вычислительных ресурсов для обучения.
  3. Когда ваша модель будет готова, разверните её в среде веб-хостинга, используя одну из этих целевых вычислительных платформ для развертывания.

Вы присоединяете вычислительные ресурсы, используемые для целевых объектов вычислений, в рабочую область. Пользователи рабочей области используют вычислительные ресурсы, отличные от локального компьютера.

Обучение целевых объектов вычислений

При масштабировании обучения на более крупных наборах данных или выполнении дистрибутированного обучения используйте Azure Machine Learning вычислений для создания одноузлового или многоузлового кластера, который автоматически масштабируется при каждом отправке задания. Можно также присоединить собственный ресурс вычислений, хотя поддержка может различаться в зависимости от сценария.

Вы можете повторно использовать целевые объекты вычислений из одного задания обучения на следующее. Например, после подключения удаленной виртуальной машины к вашей рабочей области ее можно многократно использовать для нескольких заданий.

В конвейерах машинного обучения используйте правильный шаг конвейера для каждого целевого объекта вычислений.

Для большинства заданий можно использовать любой из представленных ниже ресурсов в качестве целевой вычислительной платформы для обучения. Не все ресурсы можно использовать для автоматизированного машинного обучения, конвейеров машинного обучения или конструктора. Azure Databricks можно использовать в качестве ресурса обучения для локальных запусков и конвейеров машинного обучения, но не в качестве удаленного целевого объекта для других учебных занятий.

Цели обучения Автоматизированное машинное обучение Конвейеры машинного обучения Дизайнер Azure Machine Learning
Azure Machine Learning вычислительный кластер Да Да Да
Azure Machine Learning бессерверные вычисления Да Да Да
вычислительный экземпляр Azure Machine Learning да (с помощью пакета SDK) Да Да
Azure Machine Learning Kubernetes Да Да
Удаленная виртуальная машина Да Да  
Пулы Apache Spark (предварительный просмотр) да (только в локальном режиме SDK) Да  
Azure Databricks да (только в локальном режиме SDK) Да  
Azure Data Lake Analytics   Да  
Azure HDInsight   Да  
Azure Batch   Да  
Цели обучения Автоматизированное машинное обучение Конвейеры машинного обучения Дизайнер Azure Machine Learning
Локальный компьютер Да    
Azure Machine Learning вычислительный кластер Да Да Да
вычислительный экземпляр Azure Machine Learning да (с помощью пакета SDK) Да Да
Azure Machine Learning Kubernetes Да Да
Удаленная виртуальная машина Да Да  
Пулы Apache Spark (предварительная версия) да (только в локальном режиме SDK) Да  
Azure Databricks да (только в локальном режиме SDK) Да  
Azure HDInsight   Да  
Azure Batch   Да  

Совет

Вычислительный экземпляр имеет диск ОС размером 120 ГБ. Если на диске заканчивается свободное место, очистите с помощью терминала по крайней мере 1–2 ГБ, прежде чем остановить или перезапустить вычислительный экземпляр.

Целевые объекты вычислений для вывода

При выполнении вывода Azure Machine Learning создает контейнер Docker, на котором размещена модель и связанные ресурсы, необходимые для его использования. Вы используете этот контейнер в целевом вычислительном объекте.

Целевой объект вычислений, используемый для размещения модели, влияет на стоимость и доступность развернутой конечной точки. Для выбора подходящего целевого объекта вычислений используйте приведенную таблицу.

Целевой объект вычислений Используется для Поддержка GPU Описание
Azure Machine Learning конечные точки Вывод в режиме реального времени

Пакетный вывод
Да Полностью управляемые вычисления для управляемых окончательных точек в реальном времени (сетевые конечные точки) и для пакетной оценки (пакетные конечные точки) на платформе бессерверных вычислений.
Azure Machine Learning Kubernetes Вывод в режиме реального времени

Пакетный вывод
Да Запускайте вычислительные задачи на локальных, облачных и граничных кластерах Kubernetes.
Целевой объект вычислений Используется для Поддержка GPU Описание
Локальная веб-служба Тестирование и отладка   Используется для ограниченного тестирования и устранения неполадок. Аппаратное ускорение зависит от использования библиотек в локальной системе.
Azure Machine Learning Kubernetes Инференция в реальном времени Да Запускайте инференсные рабочие нагрузки в облаке.
Azure Container Instances Вывод в режиме реального времени

Рекомендуется только для разработки и тестирования.
  Используйте для небольших рабочих нагрузок на основе ЦП, которым требуется менее 48 ГБ ОЗУ. Вам не нужно управлять кластером.

Подходит только для моделей размером менее 1 ГБ.

Поддерживается в конструкторе.

Примечание.

При выборе SKU кластера сначала увеличьте масштаб, затем расширьте его. Начните с машины, оснащенной объемом памяти, превышающим необходимые вашей модели на 150%, выполните профилирование результата и найдите машину с необходимой вам производительностью. Как только вы это освоите, увеличьте количество компьютеров в соответствии с вашими потребностями в параллельных вычислениях.

Развертывание и оценка модели машинного обучения с помощью сетевой конечной точки.

Развертывание моделей машинного обучения в Azure.

Azure Machine Learning вычислительные мощности (управляемые)

Azure Machine Learning создает управляемые вычислительные ресурсы и управляет ими. Этот тип вычислений оптимизирован для рабочих нагрузок машинного обучения. Управляемыми вычислительными ресурсами являются только кластеры вычислений Azure Machine Learning, бессерверные вычисления и экземпляры вычислений.

Вам не нужно создавать бессерверные вычисления. Вы можете создавать вычислительные экземпляры или вычислительные кластеры в Azure Machine Learning из:

Примечание.

Вместо создания вычислительного кластера используйте бессерверные вычисления, чтобы передать управление жизненным циклом вычислений службе Azure Machine Learning.

При создании этих вычислительных ресурсов они автоматически становятся частью рабочей области, в отличие от других типов целевых объектов вычислений.

Возможность Вычислительный кластер Вычислительный экземпляр
Кластер с одним узлом или несколькими узлами Кластер с одним узлом
Автоматическое масштабирование при каждой отправке задания
Автоматическое управление кластерами и планирование заданий
поддерживает ресурсы ЦП и GPU;

Примечание.

Чтобы избежать расходов, когда вычислительные ресурсы бездействуют, выполните следующие действия.

  • Для вычислительного кластера убедитесь, что минимальное количество узлов установлено на 0, или используйте бессерверные вычислительные ресурсы.
  • Для вычислительного экземпляравключите отключение при простое. Хотя остановка вычислительного экземпляра прекращает начисление платы за вычислительные часы, вам все равно придется платить за диск, общедоступный IP-адрес и стандартный балансировщик нагрузки.

Поддерживаемые размеры и серии виртуальных машин

Внимание

Если вычислительный экземпляр или вычислительные кластеры основаны на любой из этих серий, воссоздайте их с другим размером виртуальной машины.

Эта серия прекращена 31 августа 2023 г.:

Эта серия прекращена 31 августа 2024 г.:

Эта серия прекращена 30 сентября 2025 г.:

При выборе размера узла для управляемого вычислительного ресурса в Azure Machine Learning можно выбрать размеры виртуальных машин, доступные в Azure. Azure предлагает диапазон размеров для Linux и Windows для разных рабочих нагрузок. Дополнительные сведения см. в разделе "Типы и размеры виртуальных машин".

При выборе размера виртуальной машины существует несколько исключений и ограничений.

  • Azure Machine Learning не поддерживает некоторые серии виртуальных машин.
  • Некоторые серии виртуальных машин, такие как GPU и другие специальные номера SKU, могут не отображаться в списке доступных виртуальных машин. Но вы по-прежнему можете использовать их после запроса на изменение квоты. Дополнительные сведения о запросах квот см. в разделе "Увеличение квоты запросов и предельных ограничений".

Дополнительные сведения о поддерживаемых сериях см. в следующей таблице.

Поддерживаемые серии виртуальных машин Категория Поддерживается
DDSv4 Общее назначение Вычислительные кластеры и экземпляры
Dv2 Общее назначение Вычислительные кластеры и экземпляры
Dv3 Общее назначение Вычислительные кластеры и экземпляры
DSv2 Общее назначение Вычислительные кластеры и экземпляры
DSv3 Общее назначение Вычислительные кластеры и экземпляры
EAv4 Оптимизация памяти Вычислительные кластеры и экземпляры
Ev3 Оптимизация памяти Вычислительные кластеры и экземпляры
ESv3 Оптимизация памяти Вычислительные кластеры и экземпляры
FSv2 Оптимизированные для вычислений Вычислительные кластеры и экземпляры
FX Оптимизированные для вычислений Вычислительные кластеры
H Высокопроизводительные вычисления Вычислительные кластеры и экземпляры
HB Высокопроизводительные вычисления Вычислительные кластеры и экземпляры
HBv2 Высокопроизводительные вычисления Вычислительные кластеры и экземпляры
HBv3 Высокопроизводительные вычисления Вычислительные кластеры и экземпляры
ХК Высокопроизводительные вычисления Вычислительные кластеры и экземпляры
LSv2 Оптимизированные под хранение Вычислительные кластеры и экземпляры
M Оптимизация памяти Вычислительные кластеры и экземпляры
NC Графический процессор Вычислительные кластеры и экземпляры
Рекламные акции NC Графический процессор Вычислительные кластеры и экземпляры
NCv2 Графический процессор Вычислительные кластеры и экземпляры
NCv3 Графический процессор Вычислительные кластеры и экземпляры
ND Графический процессор Вычислительные кластеры и экземпляры
NDv2 Графический процессор Вычислительные кластеры и экземпляры
NV Графический процессор Вычислительные кластеры и экземпляры
NVv3 Графический процессор Вычислительные кластеры и экземпляры
NCasT4_v3 Графический процессор Вычислительные кластеры и экземпляры
NDasrA100_v4 Графический процессор Вычислительные кластеры и экземпляры
ND-H100-v5 Графический процессор Вычислительные кластеры и экземпляры
ND-H200-v5 Графический процессор Вычислительные кластеры и экземпляры

Хотя Azure Machine Learning поддерживает эти серии виртуальных машин, они могут быть недоступны во всех Azure регионах. Чтобы проверить, доступна ли серия виртуальных машин, ознакомьтесь со статьей Доступность продуктов по регионам.

Примечание.

Azure Machine Learning не поддерживает все размеры виртуальных машин, которые поддерживает Azure Compute. Чтобы получить список доступных размеров виртуальных машин, используйте следующий метод:

Примечание.

Azure Machine Learning не поддерживает все размеры виртуальных машин, которые поддерживает Azure Compute. Чтобы получить список доступных размеров виртуальных машин, поддерживаемых определенными типами вычислительных виртуальных машин, используйте один из следующих методов:

Если вы используете целевые объекты вычислений с поддержкой GPU, важно убедиться, что правильные драйверы CUDA установлены в среде обучения. Воспользуйтесь следующей таблицей, чтобы определить правильную версию CUDA:

Архитектура GPU Azure серии виртуальных машин Поддерживаемые версии CUDA
Ампер NDA100_v4 11.0+
Турин NCT4_v3 10.0+
Вольта NCv3, NDv2 9.0+
Паскаль NCv2, ND 9.0+
Максвелл NV, NVv3 9.0+
Кеплер NC, NC Промо 9.0+

Помимо обеспечения совместимости версии И оборудования CUDA, также убедитесь, что версия CUDA совместима с версией платформы машинного обучения, которую вы используете:

Изоляция вычислительных ресурсов

Azure Machine Learning вычислительные ресурсы предоставляют размеры виртуальных машин, изолированные от определенного типа оборудования и выделенные одному клиенту. Изолированные размеры ВМ лучше всего подходят для рабочих нагрузок, которые требуют высокого уровня изоляции от нагрузок других клиентов, например, для соблюдения нормативных требований. При использовании изолированного размера виртуальная машина является единственной, работающей на этом конкретном экземпляре сервера.

Текущие предложения изолированных виртуальных машин включают в себя:

  • Standard_M128ms
  • Standard_F72s_v2
  • Standard_NC24s_v3
  • Standard_NC24rs_v3 (с поддержкой RDMA)

Дополнительные сведения об изоляции см. в разделе Isolation в общедоступном облаке Azure.

Неуправляемые вычисления

Azure Machine Learning не управляет целевым объектом вычислений unmanaged. Вы создаете этот тип целевого объекта вычислений вне Azure Machine Learning, а затем присоединяете его к рабочей области. Вам может потребоваться выполнить дополнительные действия для поддержания неуправляемых вычислительных ресурсов или повышения производительности рабочих нагрузок машинного обучения.

Azure Machine Learning поддерживает следующие неуправляемые типы вычислений:

  • Удаленные виртуальные машины
  • Azure HDInsight
  • Azure Databricks
  • Azure Data Lake Analytics

Дополнительные сведения см. в разделе "Управление вычислительными ресурсами".