Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Целевой объект вычисления – это назначенный вычислительный ресурс для выполнения сценария обучения или размещения развертывания службы. Это может быть локальный компьютер или облачный ресурс вычислений. С помощью целевых объектов вычислений можно легко менять среду вычислений, не изменяя код.
Машинное обучение Azure поддерживает различные целевые объекты вычислений. В типичном цикле разработки модели вы можете:
- Начать с разработки и экспериментирования с небольшим объемом данных. На этом этапе используйте локальную среду, например локальный компьютер или облачную виртуальную машину (ВМ) в качестве целевого объекта вычислений.
- Масштабируйте до больших данных или выполняйте распределенное обучение с помощью одной из этих обучающих вычислительных целей.
- Когда модель будет готова, разверните ее в среде веб-размещения, используя один из этих целевых объектов для вычислений развертывания.
Вы присоединяете вычислительные ресурсы, используемые для целевых объектов вычислений, в рабочую область. Пользователи рабочей области используют вычислительные ресурсы, отличные от локального компьютера.
Обучение целевых объектов вычислений
При масштабировании обучения на больших наборах данных или распределенном обучении используйте вычислительные ресурсы Машинного обучения Azure для создания одноузлового или многоузлового кластера, который автоматически масштабируется при каждом отправке задания. Можно также присоединить собственный ресурс вычислений, хотя поддержка может различаться в зависимости от сценария.
Вы можете повторно использовать целевые объекты вычислений из одного задания обучения на следующее. Например, после подключения удаленной виртуальной машины к вашей рабочей области ее можно многократно использовать для нескольких заданий.
В конвейерах машинного обучения используйте правильный шаг конвейера для каждого целевого объекта вычислений.
Для большинства заданий можно использовать любой из приведенных ниже ресурсов для обучающего целевого объекта вычислений. Не все ресурсы можно использовать для автоматизированного машинного обучения, конвейеров машинного обучения или конструктора. Azure Databricks можно использовать в качестве учебного ресурса для локальных запусков и конвейеров машинного обучения, но не в качестве удаленного целевого объекта для других видов обучения.
| Целевые объекты обучения | Автоматизированное машинное обучение | Конвейеры машинного обучения | Конструктор Машинного обучения Azure |
|---|---|---|---|
| Вычислительный кластер Машинного обучения Azure | Да | Да | Да |
| Машинное обучение Azure бессерверные вычисления | Да | Да | Да |
| Вычислительная операция Машинного обучения Azure | да (с помощью пакета SDK) | Да | Да |
| Kubernetes для Машинного обучения Azure | Да | Да | |
| Удаленная виртуальная машина | Да | Да | |
| Пулы Apache Spark (предварительная версия) | да (только в локальном режиме SDK) | Да | |
| Azure Databricks | да (только в локальном режиме SDK) | Да | |
| Azure Data Lake Analytics | Да | ||
| Azure HDInsight | Да | ||
| Пакетная служба Azure | Да |
| Целевые объекты обучения | Автоматизированное машинное обучение | Конвейеры машинного обучения | Конструктор Машинного обучения Azure |
|---|---|---|---|
| Локальный компьютер | Да | ||
| Вычислительный кластер Машинного обучения Azure | Да | Да | Да |
| Вычислительная операция Машинного обучения Azure | да (с помощью пакета SDK) | Да | Да |
| Kubernetes для Машинного обучения Azure | Да | Да | |
| Удаленная виртуальная машина | Да | Да | |
| Пулы Apache Spark (предварительная версия) | да (только в локальном режиме SDK) | Да | |
| Azure Databricks | да (только в локальном режиме SDK) | Да | |
| Azure Data Lake Analytics | Да | ||
| Azure HDInsight | Да | ||
| Пакетная служба Azure | Да |
Совет
Вычислительный экземпляр имеет диск ОС размером 120 ГБ. Если на диске заканчивается свободное место, очистите с помощью терминала по крайней мере 1–2 ГБ, прежде чем остановить или перезапустить вычислительный экземпляр.
Целевые объекты вычислений для вывода
При выполнении вывода Машинное обучение Azure создает контейнер Docker, на котором размещена модель и связанные ресурсы, необходимые для его использования. Вы используете этот контейнер в целевом вычислительном объекте.
Целевой объект вычислений, используемый для размещения модели, влияет на стоимость и доступность развернутой конечной точки. Для выбора подходящего целевого объекта вычислений используйте приведенную таблицу.
| Целевой объект вычислений | Используется для | Поддержка GPU | Описание |
|---|---|---|---|
| Машинное обучение Azure — конечные точки | Вывод в режиме реального времени Пакетный вывод |
Да | Полностью управляемые вычисления для управляемых конечных точек в режиме реального времени (управляемые сетевые конечные точки) и пакетной оценки (конечные точки пакетной службы) на бессерверных вычислительных ресурсах. |
| Kubernetes для Машинного обучения Azure | Вывод в режиме реального времени Пакетный вывод |
Да | Запустите рабочие нагрузки вывода в локальных, облачных и пограничных кластерах Kubernetes. |
| Целевой объект вычислений | Используется для | Поддержка GPU | Описание |
|---|---|---|---|
| Локальная веб-служба | Тестирование и отладка | Используется для ограниченного тестирования и устранения неполадок. Аппаратное ускорение зависит от использования библиотек в локальной системе. | |
| Kubernetes для Машинного обучения Azure | Вывод в реальном времени | Да | Запустите рабочие нагрузки вывода в облаке. |
| Экземпляры контейнеров Azure | Вывод в режиме реального времени Рекомендуется только для разработки и тестирования. |
Используйте для небольших рабочих нагрузок на основе ЦП, которым требуется менее 48 ГБ ОЗУ. Вам не нужно управлять кластером. Подходит только для моделей размером менее 1 ГБ. Поддерживается в конструкторе. |
Примечание.
При выборе SKU кластера сначала увеличьте масштаб, затем расширьте его. Начните с машины, оснащенной объемом памяти, превышающим необходимые вашей модели на 150%, выполните профилирование результата и найдите машину с необходимой вам производительностью. Как только вы это освоите, увеличьте количество компьютеров в соответствии с вашими потребностями в параллельных вычислениях.
Вычислительная среда Машинного обучения Azure (управляемая)
Машинное обучение Azure создает управляемые вычислительные ресурсы и управляет ими. Этот тип вычислений оптимизирован для рабочих нагрузок машинного обучения. Машинное обучение Azure вычислительных кластеров, бессерверных вычислений и вычислительных экземпляров являются единственными управляемыми вычислениями.
Вам не нужно создавать бессерверные вычисления. Вы можете создавать вычислительные экземпляры или вычислительные кластеры Машинного обучение Azure из:
- Студия машинного обучения Azure
- Пакет SDK для Python и Azure CLI:
- Шаблон Azure Resource Manager. Пример шаблона см. в Создание вычислительного кластера Машинного обучение Azure.
Примечание.
Вместо создания вычислительного кластера используйте бессерверные вычисления для разгрузки управления жизненным циклом вычислений в Машинное обучение Azure.
При создании этих вычислительных ресурсов они автоматически становятся частью рабочей области, в отличие от других типов целевых объектов вычислений.
| Возможность | Вычислительный кластер | Вычислительная операция |
|---|---|---|
| Кластер с одним узлом или несколькими узлами | ✓ | Кластер с одним узлом |
| Автоматическое масштабирование при каждой отправке задания | ✓ | |
| Автоматическое управление кластерами и планирование заданий | ✓ | ✓ |
| поддерживает ресурсы ЦП и GPU; | ✓ | ✓ |
Примечание.
Чтобы избежать расходов при простое вычислении, выполните следующие действия.
- Для вычислительного кластера убедитесь, что для минимального количества узлов задано значение 0 или бессерверные вычисления.
- Для вычислительного экземпляра включите завершение простоя. Хотя остановка вычислительного экземпляра прекращает начисление платы за вычислительные часы, вам все равно придется платить за диск, общедоступный IP-адрес и стандартный балансировщик нагрузки.
Поддерживаемые размеры и серии виртуальных машин
Внимание
Если вычислительный экземпляр или вычислительные кластеры основаны на любой из этих рядов, создайте повторное создание с другим размером виртуальной машины.
Эта серия прекращена 31 августа 2023 г.:
Эта серия прекращена 31 августа 2024 г.:
Эта серия прекращена 30 сентября 2025 г.:
При выборе размера узла для управляемого вычислительного ресурса в Машинном обучении Azure можно выбрать размеры виртуальных машин, доступные в Azure. В Azure предоставлен диапазон размеров виртуальных машин Windows и Linux для разных рабочих нагрузок. Дополнительные сведения см. в разделе "Типы и размеры виртуальных машин".
При выборе размера виртуальной машины существует несколько исключений и ограничений.
- Машинное обучение Azure не поддерживает некоторые серии виртуальных машин.
- Некоторые серии виртуальных машин, такие как GPU и другие специальные номера SKU, могут не отображаться в списке доступных виртуальных машин. Но вы по-прежнему можете использовать их после запроса на изменение квоты. Дополнительные сведения о запросах квот см. в разделе "Увеличение квоты запросов и предельных ограничений".
Дополнительные сведения о поддерживаемых сериях см. в следующей таблице.
| Поддерживаемые серии виртуальных машин | Категория | Поддерживается |
|---|---|---|
| DDSv4 | Универсальные | Вычислительные кластеры и экземпляры |
| Dv2 | Универсальные | Вычислительные кластеры и экземпляры |
| Dv3 | Универсальные | Вычислительные кластеры и экземпляры |
| DSv2 | Универсальные | Вычислительные кластеры и экземпляры |
| DSv3 | Универсальные | Вычислительные кластеры и экземпляры |
| EAv4 | Оптимизированные для памяти | Вычислительные кластеры и экземпляры |
| Ev3 | Оптимизированные для памяти | Вычислительные кластеры и экземпляры |
| ESv3 | Оптимизированные для памяти | Вычислительные кластеры и экземпляры |
| FSv2 | Оптимизированные для вычислений | Вычислительные кластеры и экземпляры |
| FX | Оптимизированные для вычислений | Вычислительные кластеры |
| H | Для высокопроизводительных вычислений | Вычислительные кластеры и экземпляры |
| HB | Для высокопроизводительных вычислений | Вычислительные кластеры и экземпляры |
| HBv2 | Для высокопроизводительных вычислений | Вычислительные кластеры и экземпляры |
| HBv3 | Для высокопроизводительных вычислений | Вычислительные кластеры и экземпляры |
| ХК | Для высокопроизводительных вычислений | Вычислительные кластеры и экземпляры |
| LSv2 | Оптимизированные для хранилища | Вычислительные кластеры и экземпляры |
| M | Оптимизированные для памяти | Вычислительные кластеры и экземпляры |
| NC | Графический процессор | Вычислительные кластеры и экземпляры |
| Рекламные акции NC | Графический процессор | Вычислительные кластеры и экземпляры |
| NCv2 | Графический процессор | Вычислительные кластеры и экземпляры |
| NCv3 | Графический процессор | Вычислительные кластеры и экземпляры |
| ND | Графический процессор | Вычислительные кластеры и экземпляры |
| NDv2 | Графический процессор | Вычислительные кластеры и экземпляры |
| NV | Графический процессор | Вычислительные кластеры и экземпляры |
| NVv3 | Графический процессор | Вычислительные кластеры и экземпляры |
| NCasT4_v3 | Графический процессор | Вычислительные кластеры и экземпляры |
| NDasrA100_v4 | Графический процессор | Вычислительные кластеры и экземпляры |
| ND-H100-v5 | Графический процессор | Вычислительные кластеры и экземпляры |
| ND-H200-v5 | Графический процессор | Вычислительные кластеры и экземпляры |
Хотя Машинное обучение Azure поддерживает эти серии виртуальных машин, они могут быть доступны не во всех регионах Azure. Чтобы проверить, доступна ли серия виртуальных машин, ознакомьтесь со статьей Доступность продуктов по регионам.
Примечание.
Машинное обучение Azure поддерживает не все размеры виртуальных машин, поддерживаемые в Вычислениях Azure. Чтобы получить список доступных размеров виртуальных машин, используйте следующий метод:
Примечание.
Машинное обучение Azure поддерживает не все размеры виртуальных машин, поддерживаемые в Вычислениях Azure. Чтобы получить список доступных размеров виртуальных машин, поддерживаемых определенными типами вычислительных виртуальных машин, используйте один из следующих методов:
Если вы используете целевые объекты вычислений с поддержкой GPU, важно убедиться, что правильные драйверы CUDA установлены в среде обучения. Воспользуйтесь следующей таблицей, чтобы определить правильную версию CUDA:
| Архитектура GPU | Серия виртуальных машин Azure | Поддерживаемые версии CUDA |
|---|---|---|
| Ампер | NDA100_v4 | 11.0+ |
| Турин | NCT4_v3 | 10.0+ |
| Вольта | NCv3, NDv2 | 9.0+ |
| Паскаль | NCv2, ND | 9.0+ |
| Максвелл | NV, NVv3 | 9.0+ |
| Кеплер | NC, NC Промо | 9.0+ |
Помимо обеспечения совместимости версии И оборудования CUDA, также убедитесь, что версия CUDA совместима с версией платформы машинного обучения, которую вы используете:
- Для PyTorch проверьте совместимость, перейдя на страницу предыдущих версий PyTorch.
- Для TensorFlow проверьте совместимость, перейдя на сборку TensorFlow с исходной страницы.
Изоляция вычислительных ресурсов
Машинное обучение Azure предлагает размеры виртуальных машин, которые используют оборудование строго определенного типа и выделяются отдельному клиенту. Такие изолированные размеры лучше всего подходят для рабочих нагрузок, требующих высокого уровня изоляции от рабочих нагрузок других клиентов, например для обеспечения соответствия нормативным требованиям. При использовании изолированного размера виртуальная машина является единственной, работающей на этом конкретном экземпляре сервера.
Текущие предложения изолированных виртуальных машин включают в себя:
- Standard_M128ms
- Standard_F72s_v2
- Standard_NC24s_v3
- Standard_NC24rs_v3 (с поддержкой RDMA)
Дополнительные сведения об изоляции см. в статье "Изоляция" в общедоступном облаке Azure.
Неуправляемые вычисления
Машинное обучение Azure не управляет неуправляемым целевым объектом вычислений. Этот тип целевого объекта вычислений можно создать за пределами Машинного обучения Azure, а затем подключить его к рабочей области. Вам может потребоваться выполнить дополнительные действия для поддержания неуправляемых вычислительных ресурсов или повышения производительности рабочих нагрузок машинного обучения.
Машинное обучение Azure поддерживает следующие типы неуправляемых вычислений:
- Удаленные виртуальные машины
- Azure HDInsight
- Azure Databricks
- Аналитика озера данных Azure
- Служба Azure Kubernetes
- Пул Azure Synapse Spark (не рекомендуется)
Дополнительные сведения см. в разделе "Управление вычислительными ресурсами".