Квоты и ограничения модели искусственного интеллекта Azure в службах ИИ Azure

Статья
2025-04-08

В этой статье содержится краткий справочник и подробное описание квот и ограничений для вывода модели искусственного интеллекта Azure в службах ИИ Azure. Квоты и ограничения, относящиеся к службе Azure OpenAI, см. в разделе "Квота и ограничения" в службе Azure OpenAI.

Справочник по квотам и ограничениям

Azure использует квоты и ограничения для предотвращения переполнения бюджета из-за мошенничества и для учета ограничений емкости Azure. Учитывайте эти ограничения при масштабировании рабочих нагрузок. В следующих разделах приведено краткое руководство по квотам по умолчанию и ограничениям, которые применяются к службе вывода модели ИИ Azure в службах ИИ Azure:

Ограничения ресурсов

Имя ограничения	Предельное значение
Ресурсы служб ИИ Azure для каждого региона на подписку Azure	30
Максимальное количество развертываний на ресурс	32

Ограничения скорости

Имя ограничения	Применимо к	Предельное значение
Маркеры в минуту	Модели Azure OpenAI	Зависит от модели и номера SKU. Смотрите ограничения для Azure OpenAI.
Число запросов в минуту	Модели Azure OpenAI	Зависит от модели и номера SKU. См . ограничения для Azure OpenAI.
Токены в минуту	DeepSeek-R1	5 000 000
Число запросов в минуту	DeepSeek-R1	5,000
Одновременные запросы	DeepSeek-R1	300
Токены в минуту	Остальная часть моделей	400 000
Число запросов в минуту	Остальная часть моделей	1 000
Одновременные запросы	Остальная часть моделей	300

Вы можете запросить увеличение ограничений по умолчанию. Из-за высокого спроса запросы на увеличение предела можно отправлять, и они будут оцениваться по каждому запросу.

Другие ограничения

Имя ограничения	Предельное значение
Максимальное число пользовательских заголовков в запросах^{API 1}	10

¹ Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Мы заметили, что некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки не существует решения, кроме уменьшения объема заголовка. В будущих версиях API мы больше не будем передавать пользовательские заголовки. Мы рекомендуем клиентам не опираться на пользовательские заголовки в архитектурах будущих систем.

Уровни использования

Развертывания Global Standard используют глобальную инфраструктуру Azure, динамически маршрутизируя трафик клиентов в центр обработки данных с наилучшей доступностью для аналитических запросов клиента. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть больше вариабилий в задержке ответа.

Ограничение использования задает порог, выше которого клиенты могут наблюдать значительную вариабельность в задержке ответа. Использование клиента определяется для каждой модели и представляет собой общие токены, потребляемые во всех развертываниях, всех подписках и всех регионах для данного арендатора.

Запрос увеличивается до ограничений по умолчанию

Запросы на увеличение лимита можно отправлять и рассматривать по каждому запросу. Откройте онлайн-запрос в службу поддержки клиентов. При отправке запроса на увеличение ограничения конечной точки необходимо предоставить следующие сведения:

При открытии запроса на поддержку выберите Ограничения службы и подписки (квоты) в качестве типа проблемы.
Выберите нужную подписку.
Выберите Cognitive Services в качестве типа квоты.
Выберите Далее.
На вкладке Дополнительные сведения подробно опишите причины увеличения ограничения. Это необходимо для обработки запроса. Обязательно укажите следующие сведения в причине увеличения ограничения:
- Имя модели, версия модели (если применимо), а также тип развертывания (SKU).
- Описание сценария и рабочей нагрузки.
- обоснование запрошенного увеличения;
- Укажите целевую пропускную способность: токены в минуту, запросы в минуту и т. д.
- Укажите запланированное время, к которому вам потребуются увеличенные лимиты.
Наконец, нажмите кнопку Сохранить и продолжить.

Общие рекомендации по остаться в пределах ограничений скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:

Реализуйте в приложении логику повторных попыток.
Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
Протестируйте различные шаблоны увеличения нагрузки.
Увеличьте назначенную вашему развертыванию квоту. При необходимости переместите квоту из другого развертывания.

Следующие шаги

Дополнительные сведения о моделях, доступных в службе вывода модели ИИ Azure