Поделиться через


Управление квотами и ограничениями для ресурсов с помощью Машинное обучение Azure

Azure использует квоты и ограничения для предотвращения переполнения бюджета из-за мошенничества и учета ограничений емкости Azure. Учитывайте эти ограничения при масштабировании рабочих нагрузок. В этой статье раскрываются следующие темы:

  • Ограничения по умолчанию для ресурсов Azure, связанных с Машинным обучением Azure.
  • Создание квот уровня рабочей области.
  • Просмотр квот и ограничений.
  • Запрос на увеличение квоты.

Помимо управления квотами и ограничениями, вы можете узнать, как планировать затраты и управлять затратами на Машинное обучение Azure или узнать об ограничениях службы в Машинное обучение Azure.

Примечания

  • Квоты применяются к каждой подписке в вашей учетной записи. Если у вас несколько подписок, необходимо запросить увеличение квоты для каждой подписки.

  • Квота — это кредитный лимит ресурсов Azure, а не гарантия емкости. Если вам нужны большие объемы ресурсов, обратитесь в службу поддержки Azure для увеличения квоты.

  • Квоты являются общими для всех служб в вашей подписке, включая Машинное обучение Azure. При оценке емкости следует вычислять использование во всех службах.

    Примечание.

    Исключением являются вычисления в Машинном обучении Azure. Для них предусмотрена квота, отдельная от базовой квоты вычислений.

  • Ограничения по умолчанию зависят от типа категории предложения, например бесплатной пробной версии, стандартной и виртуальной машины (например, Dv2, F и G).

Квоты и ограничения ресурсов по умолчанию

В этом разделе описываются квоты по умолчанию и максимальные квоты для следующих ресурсов:

  • Ресурсы Машинного обучения Azure
  • Машинное обучение Azure вычисления (включая бессерверную Spark)
  • общая квота Машинное обучение Azure
  • Машинное обучение Azure сетевые конечные точки (как управляемые, так и Kubernetes) и пакетные конечные точки
  • Конвейеры Машинного обучение Azure
  • Виртуальные машины
  • Экземпляры контейнеров Azure
  • Хранилище Azure

Внимание

Ограничения могут измениться. Последние сведения см. в разделе Ограничения служб в машинном обучении Azure.

Ресурсы Машинного обучения Azure

Следующие ограничения на ресурсы применяются на основе каждой рабочей области .

Ресурс Максимальное ограничение
Наборы данных 10 млн
Запуски 10 млн
Модели 10 млн
Компонент 10 млн
Артефакты 10 млн

Максимальное время выполнения — 30 дней, а максимальное количество метрик, зарегистрированных на каждый запуск , составляет 1 миллион.

Вычислительная среда Машинного обучения Azure

Вычисление машинного обучения Azure имеет ограничения квоты по умолчанию на количество ядер и количество уникальных вычислительных ресурсов , разрешенных для каждого региона в подписке.

Примечание.

  • Квота на количество ядер разделяется по каждому семейству виртуальных машин и совокупным общим ядрам.
  • Квота на количество уникальных вычислительных ресурсов в каждом регионе отделена от квоты ядра виртуальной машины, так как она применяется только к управляемым вычислительным ресурсам Машинное обучение Azure.

Чтобы увеличить ограничения для следующих элементов, запросите увеличение квоты:

  • Квоты семейства виртуальных машин. Дополнительные сведения о том, для какого семейства виртуальных машин запрашивать увеличение квоты, см. в статье о размерах виртуальных машин в Azure. Например, семейства виртуальных машин GPU начинаются с "N" в названии серии (например, серии NCasT4_v3).
  • Общая квота ядра подписки
  • Квота кластера
  • Другие ресурсы в этом разделе

Доступные ресурсы:

  • Квота выделенных ядер на регион по умолчанию составляет от 24 до 300, в зависимости от типа предложения подписки. Вы можете увеличить количество выделенных ядер на подписку для каждого семейства виртуальных машин. Специализированные семейства виртуальных машин, такие как NCasT4_v3, NC_A100_v4 или серии NDv2, начинаются с нуля ядер. Число ядер для GPU также по умолчанию равно 0.

  • Квота ядер с низким приоритетом на регион по умолчанию составляет от 100 до 3000, в зависимости от типа предложения подписки. Вы можете увеличить число ядер с низким приоритетом для каждой подписки. Это ограничение является одним значением в семействах виртуальных машин.

  • Общий объем вычислительных ресурсов в каждом регионе имеет ограничение по умолчанию 500 на регион в пределах данной подписки. Это ограничение можно увеличить до максимального значения 2500 в каждом регионе. Это ограничение распределяется между кластерами обучения, вычислительными экземплярами и развертываниями управляемых подключенных конечных точек. В контексте квот вычислительным экземпляром считается кластер с одним узлом.

В следующей таблице показаны дополнительные ограничения на платформе. Обратитесь к группе разработчиков Машинное обучение Azure через запрос в службу технической поддержки, чтобы запросить исключение.

Ресурс или действие Максимальное ограничение
Максимальное количество рабочих областей на группу ресурсов 800
Узлы в одном кластере вычислений Машинное обучение Azure (AmlCompute), настроенные в качестве несоответного пула (т. е. не могут выполнять задания MPI) 100 узлов, но можно настроить до 65 000 узлов
Узлы в одном шаге параллельного запуска выполняются в кластере вычислений Машинное обучение Azure (AmlCompute) 100 узлов, но можно настроить до 65 000 узлов, если кластер настроен для масштабирования, как упоминалось ранее.
Узлы в одном кластере вычислений Машинное обучение Azure (AmlCompute), настроенные в качестве пула с поддержкой связи 300 узлов, но можно настроить до 4000 узлов.
Узлы в одном кластере вычислений Машинное обучение Azure (AmlCompute), настроенные в качестве пула с поддержкой обмена данными в семействе виртуальных машин с поддержкой RDMA. 100 узлов
Узлы в одном MPI выполняются в кластере вычислений Машинное обучение Azure (AmlCompute) 100 узлов
Время существования задания 21 день 1
Время существования задания на узле с низким приоритетом 7 дней2
Количество серверов параметров на узел 1

1 Максимальное время существования — это время между запуском и завершением выполнения. Время хранения завершенных заданий не ограничено. Данные для заданий, не завершенных в течение максимального времени существования, недоступны.

2 Задания в узле с низким приоритетом могут быть вытеснены в любое время при наличии ограничения емкости. Реализуйте контрольные точки в задании.

общая квота Машинное обучение Azure

Платформа Машинного обучения Azure предоставляет общий пул квот, к которому пользователи в различных регионах имеют доступ для выполнения тестирования в течение ограниченного периода времени в зависимости от доступности. Определенный период времени зависит от варианта использования. Временно используя квоту из пула квот, вам больше не нужно отправлять запрос в службу поддержки для краткосрочного увеличения квоты или ожидать утверждения запроса квоты, прежде чем продолжить работу с рабочей нагрузкой.

Общий пул квот можно использовать для выполнения заданий Spark и проверки выводов для моделей из каталога моделей на короткое время. Перед развертыванием этих моделей с помощью общей квоты необходимо иметь подписку Соглашение Enterprise. Дополнительные сведения об использовании общей квоты для развертывания конечных точек в Сети см. в статье "Развертывание базовых моделей с помощью студии".

Используйте общую квоту только для создания временных тестовых конечных точек, а не рабочих конечных точек. Для конечных точек в рабочей среде запрашивайте выделенную квоту, отправив запрос в службу поддержки. Выставление счетов за общую квоту основано на использовании, как и для выделенных семейств виртуальных машин. Чтобы отказаться от общего квоты для заданий Spark, заполните форму отказа от выделения общей емкости Машинное обучение Azure.

Машинное обучение Azure сетевые конечные точки и пакетные конечные точки

Машинное обучение Azure сетевые конечные точки и конечные точки пакетной службы имеют ограничения ресурсов, описанные в следующей таблице.

Внимание

Эти ограничения являются региональными, что означает, что вы можете использовать до этих ограничений для каждого региона, который вы используете. Например, если текущий предел для количества конечных точек на подписку равен 100, можно создать 100 конечных точек в регионе "Восточная часть США", 100 конечных точек в регионе "Западная часть США" и 100 конечных точек в каждом из других поддерживаемых регионов в одной подписке. Тот же принцип применяется ко всем другим ограничениям.

Чтобы определить текущее использование конечной точки, просмотрите метрики.

Чтобы запросить исключение из команды Машинное обучение Azure продукта, выполните действия, описанные в разделе "Ограничение конечной точки".

Ресурс   Ограничение 1                                                 Разрешает исключение Относится к
Имя конечной точки Имена конечных точек должны быть
  • Начало с буквы
  • Длина 3–32 символов
  • Только буквы и цифры 2
  • Для конечной точки Kubernetes имя конечной точки и имя развертывания должно составлять 6–62 символов в общей длине.
  • - Все типы конечных точек 3
    Deployment name (Имя развертывания) Имена развертываний должны быть
  • Начало с буквы
  • Длина 3–32 символов
  • Только буквы и цифры 2
  • Для конечной точки Kubernetes имя конечной точки и имя развертывания должно составлять 6–62 символов в общей длине.
  • - Все типы конечных точек 3
    Количество конечных точек на подписку 100 Да Все типы конечных точек 3
    Количество конечных точек на кластер шестьдесят - Конечная точка Kubernetes в Интернете
    Количество развертываний на подписку 500 Да Все типы конечных точек 3
    Количество развертываний на конечную точку 20 Да Все типы конечных точек 3
    Количество развертываний на кластер 100 - Конечная точка Kubernetes в Интернете
    Количество экземпляров на развертывание 50 4 Да Управляемая сетевая конечная точка
    Максимальное время ожидания запроса на уровне конечной точки 180 секунд 5 - Управляемая сетевая конечная точка
    Максимальное время ожидания запроса на уровне конечной точки 300 секунд - Конечная точка Kubernetes в Интернете
    Общее количество запросов в секунду на уровне конечной точки для всех развертываний 500 6 Да Управляемая сетевая конечная точка
    Общее количество подключений в секунду на уровне конечной точки для всех развертываний 500 6 Да Управляемая сетевая конечная точка
    Общее количество подключений, активных на уровне конечной точки для всех развертываний 500 6 Да Управляемая сетевая конечная точка
    Общая пропускная способность на уровне конечной точки для всех развертываний 5 МБ/С 6 Да Управляемая сетевая конечная точка

    1 Это региональное ограничение. Например, если текущее ограничение на количество конечных точек равно 100, можно создать 100 конечных точек в регионе "Восточная часть США", 100 конечных точек в регионе "Западная часть США" и 100 конечных точек в каждом из других поддерживаемых регионов в одной подписке. Тот же принцип применяется ко всем другим ограничениям.

    2 Одиночные дефисы, как my-endpoint-name, принимаются в именах конечных точек и развертываний.

    3 Конечные точки и развертывания могут быть разными типами, но ограничения применяются к сумме всех типов. Например, по умолчанию сумма управляемых онлайн конечных точек, конечная точка Kubernetes онлайн и конечная точка пакетной обработки в каждой подписке не может превышать 100 на регион. Аналогичным образом сумма управляемых сетевых развертываний, веб-развертываний Kubernetes и пакетных развертываний в каждой подписке не может превышать 500 на регион по умолчанию.

    4 Azure Machine Learning резервирует дополнительные вычислительные ресурсы в размере 20% для выполнения обновлений. Например, если вы запрашиваете 10 экземпляров в развертывании, необходимо иметь квоту на 12 единиц. В противном случае вы получите сообщение об ошибке. Некоторые номера SKU виртуальных машин исключены из дополнительной квоты. Дополнительные сведения о выделении квот см. в статье о выделении квот виртуальной машины для развертывания.

    5 Максимальное время ожидания запроса составляет 180 секунд, если это развертывание потока (потока запроса). Максимальное время ожидания запроса для развертывания потока составляет 300 секунд. Дополнительные сведения о времени ожидания при развертывании потоков см. в статье о развертывании потока запросов.

    6 запросов в секунду, подключения, пропускная способность и связанные ограничения. Если вы запрашиваете увеличение любого из этих ограничений, убедитесь, что вы оцениваете или вычисляете другие связанные ограничения вместе.

    Выделение квот виртуальной машины для развертывания

    Для управляемых сетевых конечных точек Машинное обучение Azure резервирует 20 % вычислительных ресурсов для выполнения обновлений на некоторых номерах SKU виртуальных машин. Если вы запрашиваете определенное количество экземпляров для этих SKU виртуальных машин в развертывании, необходимо иметь квоту, чтобы ceil(1.2 * number of instances requested for deployment) * number of cores for the VM SKU избежать возникновения ошибки. Например, если вы запрашиваете 10 экземпляров виртуальной машины Standard_DS3_v2 (которая поставляется с четырьмя ядрами) в развертывании, у вас должна быть квота на 48 ядер () (12 instances * 4 coresдоступно). Эта дополнительная квота зарезервирована для операций, инициируемых системой, таких как обновления ОС и восстановление виртуальной машины, и она не будет стоить, если такие операции не выполняются.

    Существуют определенные номера SKU виртуальных машин, исключенные из дополнительного резервирования квот. Чтобы просмотреть полный список, ознакомьтесь со списком SKU управляемых конечных точек в Интернете. Чтобы просмотреть увеличение квоты на использование и запрос, ознакомьтесь с разделом "Просмотр использования и квот" в портал Azure. Чтобы просмотреть затраты на запуск управляемой сетевой конечной точки, см. статью " Просмотр затрат на управляемую конечную точку в Сети".

    Конвейеры Машинного обучение Azure

    Конвейеры Машинного обучения Azure имеют следующие ограничения.

    Ресурс Лимит
    Шаги в конвейере 30,000
    Максимальное количество рабочих областей на группу ресурсов 800

    Виртуальные машины

    Каждая подписка Azure имеет ограничение на количество виртуальных машин во всех службах. Для ядер виртуальных машин существует региональное ограничение на общее количество и региональное ограничение по размерам серий. Оба ограничения применяются отдельно.

    Например, рассмотрим подписку с ограничением до 30 ядер виртуальных машин с восточной части США, 30 ядер серии A и 30 ядер серии D. Можно развернуть 30 виртуальных машин A1 или 30 виртуальных машин D1 или сочетание двух виртуальных машин, не превышающих 30 ядер.

    Вы не можете поднять ограничения для виртуальных машин выше значений, указанных в следующей таблице.

    Ресурс Ограничение
    Подписки Azure, связанные с клиентом Microsoft Entra Не ограничено
    Соадминистраторы на подписку Не ограничено
    Количество групп ресурсов на подписку 980
    Размер запроса API Azure Resource Manager 4 194 304 байт
    Количество тегов на подписку1 50
    Количество вычислений уникальных тегов на подписку2 80 000
    Количество развертываний на уровне подписки на расположение 8003
    Расположение развертываний на уровне подписки 10

    1 Вы можете применить до 50 тегов непосредственно к подписке. В рамках подписки каждый ресурс или группа ресурсов также ограничен 50 тегами. Однако подписка может содержать неограниченное количество тегов, распределенных по ресурсам и группам ресурсов.

    2Диспетчер ресурсов возвращает список имен и значений тегов в подписке, только если число уникальных тегов не превышает 80000. Уникальный тег определяется сочетанием ИД ресурса, имени тега и значения тега. Например, два ресурса с одинаковыми именами и значениями тегов будут вычисляться как два уникальных тега. Но вы по-прежнему можете найти ресурс по тегу, если это число превышает 80 000.

    3Развертывания автоматически удаляются из журнала, когда вы приближаетесь к ограничению. См. статью Автоматическое удаление из журнала развертывания.

    Экземпляры контейнеров

    Дополнительные сведения см. в разделе Ограничения экземпляров контейнеров.

    Хранилище

    Служба хранилища Azure имеет ограничение в 250 учетных записей хранения в регионе для каждой подписки. Сюда входят учетные записи хранения категории "Стандартный" и "Премиум".

    Квоты уровня рабочей области

    Квоты уровня рабочей области используются для управления распределением целевых объектов вычислений Машинного обучения Azure между несколькими рабочими областями в одной подписке.

    По умолчанию ко всем рабочим областям применяется общая квота уровня подписки для семейств виртуальных машин. Однако вы можете задать максимальную квоту для отдельных семейств виртуальных машин в рабочих областях в подписке. Квоты для отдельных семейств виртуальных машин позволяют совместно использовать емкость и избежать проблем с конфликтами ресурсов.

    1. Перейдите в любую рабочую область в своей подписке.
    2. В левой панели выберите Использование и квоты.
    3. Затем перейдите на вкладку Настройки квот, чтобы просмотреть квоты.
    4. Разверните семейство виртуальных машин.
    5. Установите квоту для любой рабочей области, перечисленной для этого семейства виртуальных машин.

    Однако вы не можете задать отрицательное значение или значение выше квоты уровня подписки.

    Снимок экрана: выбор квоты уровня рабочей области Машинного обучения Azure.

    Примечание.

    Для задания квоты на уровне рабочего пространства необходимы разрешения уровня подписки.

    Просмотр квот в Studio

    1. При создании нового вычислительного ресурса видны только те размеры виртуальных машин, на которые у вас уже есть квота для использования. Переключите представление, нажав Выбрать из всех вариантов.

      Снимок экрана: выбор всех параметров для просмотра вычислительных ресурсов, требующих дополнительную квоту

    2. Прокрутите вниз, пока не увидите список размеров виртуальных машин, для которых нет квоты.

      Снимок экрана, список ресурсов, для которых нет квоты

    3. Используйте ссылку, чтобы создать запрос на поддержку для получения дополнительной квоты.

    Просмотр использования и квот на портале Azure

    Чтобы просмотреть квоты для различных ресурсов Azure, таких как виртуальные машины, хранилище или сеть, используйте портал Azure:

    1. В левой панели выберите Все службы, а затем в категории Общее выберите Подписки.

    2. В списке подписок выберите подписку, квоту которой вы хотите просмотреть.

    3. В разделе "Параметры" выберите "Использование и квоты" , чтобы просмотреть текущие ограничения квоты и их использование. Используйте фильтры для выбора поставщика и расположений.

    Управление квотами Вычислительной среды Машинного обучения Azure в подписке выполняется отдельно от других квот Azure.

    1. На портале Azure перейдите к рабочей области Машинного обучения Azure.

    2. В левой панели в разделе Support + troubleshooting (Поддержка и устранение неполадок) нажмите Usage + quotas (Использование и квоты), чтобы просмотреть текущие квоты и их использование.

      Снимок экрана: представление портала Azure о текущих ограничениях квоты и использовании.

    3. Выберите подписку, для которой нужно просмотреть квоты. Выполните фильтрацию по интересующему региону.

    4. Вы можете переключаться между представлением уровня подписки и представлением уровня рабочей области.

    Запрос увеличения квоты и ограничения

    Увеличение квоты виртуальной машины увеличивает число ядер для каждого семейства виртуальных машин в каждом регионе. Увеличение ограничения конечной точки увеличивает ограничения для конкретной конечной точки для каждой подписки в каждом регионе. При отправке запроса на увеличение квоты выберите нужную категорию, как описано в следующем разделе.

    Увеличение квоты виртуальной машины

    Чтобы увеличить квоту для виртуальной машины Машинного обучения Azure, превышающую ограничение по умолчанию, отправьте запрос на увеличение квоты из представления "Использование и квоты " или отправьте запрос на увеличение квоты из студии машинного обучения Azure.

    1. Перейдите на страницу "Использование и квоты" , следуя инструкциям в предыдущем разделе. Ознакомьтесь с действующими ограничениями для квот. Выберите номер SKU, для которого требуется запросить увеличение.

      Снимок экрана: сведения о квоте на виртуальные машины.

    2. Введите квоту, которую вы хотите увеличить, и новое значение ограничения. Нажмите кнопку Отправить , чтобы продолжить.

      Снимок экрана: форма запроса новой квоты на виртуальные машины.

    Увеличение ограничения конечной точки

    Чтобы увеличить ограничение конечной точки, откройте запрос в службу поддержки клиентов в Интернете. При запросе увеличения ограничения конечной точки укажите следующие сведения:

    1. Выберите ограничения службы и подписки (квоты) в качестве типа проблемы.

    2. Выберите подписку, которую нужно использовать.

    3. Выберите Служба машинного обучения: ограничения конечных точек в качестве типа квоты.

    4. На вкладке "Дополнительные сведения" укажите подробные причины увеличения предела. Выберите Ввести сведения, а затем укажите ограничение, которое требуется увеличить, а также новое значение каждого ограничения, причину запроса на увеличение ограничения и расположения, в которых требуется увеличить ограничение. Обязательно укажите следующие сведения в причине увеличения ограничения:

      1. описание сценария и рабочей нагрузки (например, текст, изображение и т.д.);
      2. обоснование запрошенного увеличения;
        1. целевую пропускную способность и ее шаблон (среднее/пиковое число запросов в секунду, количество одновременных пользователей);
        2. целевую задержку в масштабе и текущую задержку, наблюдаемую для одного экземпляра;
        3. SKU виртуальной машины и общее количество экземпляров, для которых требуется поддержка целевой пропускной способности и задержки; Укажите количество конечных точек, развертываний и экземпляров, которые планируется использовать в каждом регионе.
        4. Проверьте наличие тестового теста, указывающего выбранный номер SKU виртуальной машины и количество экземпляров, удовлетворяющих требованиям к пропускной способности и задержке.
        5. тип полезной нагрузки и размер отдельной полезной нагрузки; (пропускная способность сети должна соответствовать размеру полезной нагрузки и числу запросов в секунду);
        6. поэтапный план внедрения (к какому сроку нужно увеличить ограничения, если вы его знаете), а также сведения том, (1) отражаются ли затраты на работу в этом масштабе на вашем бюджете и (2) утверждены ли целевые номера SKU виртуальных машин.
    5. Выберите Сохранить и продолжить.

      Снимок экрана: форма сведений об ограничении конечной точки.

      Примечание.

      Этот запрос на увеличение предела конечной точки отличается от запроса на увеличение квоты виртуальной машины. Если запрос связан с увеличением квоты виртуальной машины, следуйте инструкциям в разделе "Квота виртуальной машины ".

    Увеличение предела вычислений

    Чтобы увеличить общий объем вычислительных ресурсов, откройте запрос в службу поддержки клиентов в Интернете. Введите следующую информацию:

    1. Выберите "Технический" в качестве типа проблемы.

    2. Выберите подписку, которую нужно использовать.

    3. Выберите Машинное обучение в качестве Службы.

    4. Выберите ресурс, который вы хотите использовать.

    5. В сводке введите "Увеличить общий объем вычислительных ресурсов".

    6. Выберите вычислительный кластер в качестве типа проблемы и выберите кластер не масштабируется или зависает в изменении размера в качестве подтипа проблемы.

      Снимок экрана: вкладка описания проблемы.

    7. На вкладке "Дополнительные сведения" укажите идентификатор подписки, регион, новое ограничение (от 500 до 2500) и бизнес-обоснование, если вы хотите увеличить общие ограничения вычислений в этом регионе.

      Снимок экрана: вкладка дополнительных сведений.

    8. Нажмите кнопку "Создать", чтобы создать запрос в службу поддержки.