Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Контейнер Azure для PyTorch — это упрощенная автономная среда, которая включает необходимые компоненты для эффективного запуска оптимизированного обучения для больших моделей на Машинное обучение Azure. Управляемые среды машинного обучения Azure доступны в рабочей области пользователя по умолчанию и поддерживаются кэшированными образами Docker, которые используют последнюю версию пакета SDK машинного обучения Azure. Это помогает сократить затраты на подготовку и ускорить развертывание. ACPT можно использовать для быстрого начала работы с различными задачами глубокого обучения с помощью PyTorch в Azure.
Примечание.
Используйте пакет SDK Python, CLI или Студию машинного обучения Azure, чтобы получить полный список сред и их зависимостей. Дополнительные сведения см. в статье по средам.
Почему следует использовать ACPT?
- Гибкость. Использование как есть с предварительно установленными пакетами или сборкой на основе курированной среды.
- Простота использования. Все компоненты устанавливаются и проверяются на основе десятков рабочих нагрузок Майкрософт, чтобы сократить затраты на настройку и ускорить время, чтобы получить значение.
- Эффективность. Избегайте ненужных сборок образов и имеют только необходимые зависимости, доступные в образе или контейнере.
- Оптимизированная платформа обучения: настройка, разработка и ускорение моделей PyTorch на больших рабочих нагрузках, а также повышение скорости обучения и успешного развертывания.
- Актуальный стек: доступ к последним совместимым версиям Ubuntu, Python, PyTorch, CUDA/RocM и т. д.
- Последние технологии оптимизации обучения: использование среды выполнения ONNX, DeepSpeed, MSCCL и многое другое.
- Интеграция с Машинное обучение Azure. Отслеживание экспериментов PyTorch по Студия машинного обучения Azure или использованию пакета SDK. Поддержка клиентов Azure также снижает задержку обучения и развертывания.
- Доступность как DSVM: образ также доступен как Виртуальная машина для обработки и анализа данных (DSVM). Дополнительные сведения о Виртуальная машина для обработки и анализа данных см. в обзорной документации по DSVM.
Внимание
Чтобы просмотреть дополнительные сведения о пакетах и версиях курируемых сред, перейдите на вкладку "Среды" Студии машинного обучения Azure.
Поддерживаемые конфигурации для контейнера Azure для PyTorch (ACPT)
Описание: Курируемая Azure среда для PyTorch — это наша последняя курируемая среда PyTorch. Он оптимизирован для больших распределенных рабочих нагрузок глубокого обучения и поставляется предварительно упакован с лучшими технологиями Майкрософт для ускорения обучения (например, Onnx Runtime Training (ORT), DeepSpeed, MSCCL и т. д.). Другие пакеты, такие как fairscale, horovod, msccl, protobuf, pyspark, pytest, pytorch-lightning, tensorboard, torchvision и факелметрики предоставляются для поддержки всех потребностей обучения.
Внимание
В этой статье содержатся сведения об использовании пакета Python с контейнером nebulaml Azure для PyTorch (ACPT). Пакет Nebula устарел и больше недоступен в последних образах ACPT.
Пакет nebulaml недоступен в общедоступном индексе пакета PyPI python. Чтобы избежать проблем, не пытайтесь установить nebulaml из PyPI или с помощью pip команды.
Поддерживаются следующие конфигурации:
| Имя среды | ОС | Версия GPU | Версия Python | Версия PyTorch | Версия ORT-training | Версия DeepSpeed | Версия torch-ort | Версия Nebula |
|---|---|---|---|---|---|---|---|---|
| acpt-pytorch-2.2-cuda12.1 | Ubuntu 20.04 | cu121 | 3,10 | 2.2.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
| acpt-pytorch-2.1-cuda12.1 | Ubuntu 20.04 | cu121 | 3,10 | 2.1.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
| acpt-pytorch-2.0-cuda11.7 | Ubuntu 20.04 | cu117 | 3,10 | 2.0.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
| acpt-pytorch-1.13-cuda11.7 | Ubuntu 20.04 | cu117 | 3,10 | 1.13.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
Дополнительные сведения см. в статье "Создание пользовательских курируемых сред ACPT".
Поддержка
Обновления версий для поддерживаемых сред, в том числе базовых образов, на которые они ссылаются, выпускаются каждые две недели для устранения уязвимостей не старше 30 дней. В зависимости от использования некоторые среды могут рассматриваться как нерекомендуемые (скрыты от продукта, но используются) для поддержки более распространенных сценариев машинного обучения.