Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI.
Область квоты
Квоты и ограничения не применяются на уровне арендатора. Вместо этого максимальный уровень ограничений квоты ограничен на уровне подписки Azure.
Выделение региональной квоты
Маркеры в минуту (TPM) и ограничения запросов в минуту (RPM) определяются в каждом регионе, на подписку и на модель или тип развертывания.
Например, если модель gpt-4.1 Глобальный Стандарт указана квотой 5 млн TPM и 5000 RPM, тогда в каждом регионе, где эта модель или тип развертывания доступен, есть собственный выделенный пул квот в таком объеме для каждой из ваших подписок Azure. В рамках одной подписки Azure можно использовать большее количество общих квот TPM и RPM для заданной модели и типа развертывания, если у вас есть ресурсы и развертывания модели, распределенные по нескольким регионам.
Уровни квот
Мы представляем категории квот для повышения качества работы с моделями Foundry и снижения фрикции по мере роста рабочих нагрузок. Теперь квоты будут увеличиваться автоматически с использованием, что помогает избежать ошибок ограничения скорости, а также создания более справедливой среды для всех пользователей. Семь уровней будут доступны: бесплатный уровень и уровни 1–6 — с уровнем 6, предлагающим самые высокие квоты. Первоначальный назначенный уровень клиента основан на текущем использовании этой модели и их текущей связи с Microsoft, например состояние Соглашения Enterprise (EA или MCA-E).
Что изменится для меня?
Ранее Foundry предлагал только типы уровней квот по умолчанию и Enterprise для предложений с оплатой по мере использования, с большим разрывом между уровнями и более длительным процессом запроса увеличения уровня квоты. При использовании уровней квот всем пользователям назначаются уровни с квотами, равными их предыдущим уровням или выше. Все ранее утвержденные увеличение квоты сохраняются и не будут сокращены. По мере роста использования Foundry автоматически увеличивает квоты путем перемещения пользователей на более высокие уровни, а дополнительная квота по-прежнему может быть запрошена через форму квоты.
Как клиент автоматически перемещается с одного уровня на другой, например какие критерии изменения уровня?
Автоматическое обновление уровня основано главным образом на тенденциях потребления клиентов в моделях Foundry с течением времени. Если использование клиента увеличивается таким образом, что текущий уровень квот ограничивает их способность использовать модели Foundry, система автоматически обновит клиента до следующего уровня выше. Кроме того, учитывается связь клиента с Microsoft. Клиентам с корпоративными связями (включая EA и MCA-E) с Microsoft назначаются более высокие уровни квот. Кроме того, Microsoft также рассмотрит историю платежей клиента, чтобы определить право на автоматическое обновление.
Можно ли отказаться от автоматического обновления?
Да, вы можете отказаться от автоматического обновления, и вы останетесь на текущем уровне независимо от изменений в потреблении. Мы понимаем, что некоторые из наших клиентов используют квоту для управления выставлением счетов. Однако это не рекомендация Azure, мы понимаем, что если ваша система настроена таким образом, что мы не хотим ее разорвать. Дополнительные сведения об управлении выставлением счетов и рекомендациях см. здесь: Управление затратами.
Чтобы отказаться, можно задать следующий флаг NoAutoUpgrade:
curl -X PATCH \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
-H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
-H "Content-Type: application/json" \
-d '{
"properties": {
"tierUpgradePolicy": "NoAutoUpgrade"
}
}'
Замечание
Функция отказа является предварительной версией и может быть подвержена изменению или удалению в будущем.
Можно ли запросить дополнительную квоту?
Да, используя форму запроса квоты , можно всегда запрашивать больше квоты. Если запрос утвержден, текущий уровень останется прежним, но с большей квотой.
Как проверить уровень квоты подписки?
В настоящее время можно проверить уровень вашей квоты через API плоскости управления:
curl -X GET \
"https://management.azure.com/subscriptions/9d295860-44e3-44bb-ade9-235cc45c68ba/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
-H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
-H "Content-Type: application/json"
Справочник по уровню квот
Уровень 1
| Имя модели | Тип развертывания | Запросы в минуту (RPM) | Токены за минуту (TPM) |
|---|---|---|---|
| codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| computer-use-preview | GlobalStandard | 4,500 | 450 000 |
| gpt-4.1 | DataZoneStandard | 300 | 300 000 |
| gpt-4.1 | GlobalStandard | 1,000 | 1,000,000 |
| gpt-4.1-mini | DataZoneStandard | 2 000 | 2,000,000 |
| gpt-4.1-mini | GlobalStandard | 5,000 | 5 000 000 |
| gpt-4.1-mini | Стандарт | 6,000 | 6,000,000 |
| gpt-4.1-nano | DataZoneStandard | 2 000 | 2,000,000 |
| gpt-4.1-nano | GlobalStandard | 5,000 | 5 000 000 |
| gpt-4o | DataZoneStandard | 300 / 10 сек. | 300 000 |
| gpt-4o-аудио-превью | GlobalStandard | 30000 / 10s | 30,000,000 |
| гпт-4о-мини | DataZoneStandard | 10 000 | 1,000,000 |
| гпт-4о-мини | GlobalStandard | 20,000 | 2,000,000 |
| gpt-4o-мини-аудио-превью | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-4o-mini-realtime-preview | GlobalStandard | 36 | 6,000 |
| gpt-4o-realtime-preview | GlobalStandard | 36 | 6,000 |
| gpt-5 | DataZoneStandard | 3,000 | 300 000 |
| gpt-5 | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-mini | DataZoneStandard | 300 | 300 000 |
| gpt-5-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-nano | DataZoneStandard | 2 000 | 2,000,000 |
| gpt-5-nano | GlobalStandard | 5,000 | 5 000 000 |
| gpt-5-pro | GlobalStandard | 1600 | 160 000 |
| gpt-5.1 | DataZoneStandard | 3,000 | 300 000 |
| gpt-5.1 | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.1-chat | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.1-codex | DataZoneStandard | 3,000 | 300 000 |
| gpt-5.1-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.1-codex-max | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.1-codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2 | DataZoneStandard | 3,000 | 300 000 |
| gpt-5.2 | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.2-chat | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.3-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2-codex | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.3-codex | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.4 | DataZoneStandard | 300 | 300 000 |
| gpt-5.4 | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.4-pro | GlobalStandard | 160 | 160 000 |
| gpt-5.4-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.4-nano | DataZoneStandard | 2 000 | 2,000,000 |
| gpt-5.4-nano | GlobalStandard | 5,000 | 5 000 000 |
| gpt-audio | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-image-1 | GlobalStandard | 9 | - |
| gpt-image-1-mini | GlobalStandard | 12 | - |
| gpt-image-1.5 | DataZoneStandard | 3 | - |
| gpt-image-1.5 | GlobalStandard | 9 | - |
| gpt-image-2 | DataZoneStandard | 3 | - |
| gpt-image-2 | GlobalStandard | 9 | - |
| gpt-realtime | GlobalStandard | 200 | 100,000 |
| model-router | DataZoneStandard | сто пятьдесят | 150,000 |
| o1 | DataZoneStandard | 100 | 600,000 |
| o1 | GlobalStandard | 500 | 3 000 000 |
| o3 | DataZoneStandard | 300 | 300 000 |
| o3 | GlobalStandard | 1,000 | 1,000,000 |
| o3-глубокие исследования | GlobalStandard | 3,000 | 3 000 000 |
| o3-mini | DataZoneStandard | 200 | 2,000,000 |
| o3-mini | GlobalStandard | 500 | 5 000 000 |
| o3-pro | GlobalStandard | 160 | 1 600 000 |
| o4-mini | DataZoneStandard | 300 / 10 сек. | 300 000 |
| o4-mini | GlobalStandard | 1,000 | 1,000,000 |
| текст-встраивание-3-большой | DataZoneStandard | 1,000 | 1,000,000 |
| текст-встраивание-3-большой | GlobalStandard | 1000/10 секунд | 1,000,000 |
| Встраивание текста - версия 3 - малая | DataZoneStandard | 1,000 | 1,000,000 |
| Встраивание текста - версия 3 - малая | GlobalStandard | 1000/10 секунд | 1,000,000 |
Справочник по квотам и ограничениям
В следующем разделе представлено краткое руководство по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:
| Имя ограничения | Предельное значение |
|---|---|
| Ресурсы Azure OpenAI на каждый регион, на каждую подписку Azure | 30. |
| Ограничения квоты GPT-image-1 по умолчанию | 9 запросов в минуту |
| Ограничения квоты по умолчанию GPT-image-1-mini | 12 запросов в минуту |
| Ограничения квоты GPT-image-1.5 по умолчанию | 9 запросов в минуту |
| Ограничения квоты GPT-image-2 по умолчанию | 9 запросов в минуту |
| Ограничения квоты Sora по умолчанию | 60 запросов в минуту. |
| Ограничения квоты Sora 2 по умолчанию | 2 запросов на задания1 в минуту |
| Ограничения квоты API преобразования речи в текст | 3 запроса в минуту. |
| Максимальное количество подсказочных токенов на один запрос | Зависит от модели. Дополнительные сведения см. в разделе модели Azure OpenAI. |
| Максимальное число стандартных развертываний на ресурс | 32. |
| Максимальное количество развертываний оптимизированных моделей | 10. |
| Общее количество заданий обучения на каждый ресурс | 100. |
| Максимальное количество одновременно выполняемых заданий обучения на одном ресурсе | Стандартный и глобальный учебный курс: 3; Обучение разработчика: 5 |
| Максимально допустимое количество заданий обучения в очереди | 20. |
| Максимальное количество файлов на ресурс (настройка) | 100. |
| Общий размер всех файлов на ресурс (тонкая настройка) | 1 ГБ. |
| Максимальное время задания обучения (задание завершается ошибкой при превышении) | 720 часов. |
Максимальный размер задания обучения (tokens in training file) x (# of epochs) |
2 миллиарда. |
| Максимальный размер всех файлов на одну загрузку (Azure OpenAI при работе с вашими данными) | 16 МБ. |
Максимальное количество входных данных в массиве с /embeddings |
2,048. |
Максимальное количество /chat/completions сообщений |
2,048. |
Максимальное количество /chat/completions функций |
128. |
Максимальное количество /chat/completions инструментов |
128. |
| Максимальное количество подготовленных единиц пропускной способности на развертывание | 100,000. |
| Максимальное количество файлов на помощника или потока | 10 000 при использовании API или портала Microsoft Foundry. |
| Максимальный размер файла для помощников и тонкой настройки | 512 МБ через API 200 МБ через портал Foundry. |
| Максимальное количество запросов на отправку файлов на ресурс | 30 запросов в секунду. |
| Максимальный размер всех отправленных файлов для помощников | 200 ГБ. |
| Ограничение на токенов ассистентов | Предел в 2 000 000 маркеров. |
GPT-4o и GPT-4.1 максимальное количество изображений на запрос (количество изображений в массиве сообщений или журнале бесед) |
50. |
GPT-4 vision-preview и GPT-4 turbo-2024-04-09 токены максимума по умолчанию |
16. max_tokens Увеличьте значение параметра, чтобы избежать усеченных ответов.
GPT-4o максимальное количество токенов по умолчанию составляет 4096. |
| Максимальное количество пользовательских заголовков в запросах API2 | 10. |
| Ограничение символов сообщения | 1,048,576. |
| Размер сообщения для звуковых файлов | 20 МБ. |
1 Квота Sora 2 RPM учитывает только запросы на видеозадания. Другие типы запросов не ограничены скоростью.
2 Наши текущие API-интерфейсы позволяют использование до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки нет решения, кроме уменьшения размера заголовка. В будущих версиях API мы больше не будем передавать настроенные заголовки. Мы рекомендуем клиентам не зависеть от пользовательских заголовков в будущих системных архитектурах.
Замечание
Ограничения квоты могут быть изменены.
Ограничения скорости маршрутизатора модели
| Модель | Тип развертывания | Rpm по умолчанию | TPM по умолчанию | Корпоративный и MCA-E RPM | Корпоративный и MCA-E TPM |
|---|---|---|---|---|---|
model-router (2025-11-18) |
DataZoneStandard | сто пятьдесят | 150,000 | 300 | 300 000 |
model-router (2025-11-18) |
GlobalStandard | 250 | 250 000 | 400 | 400 000 |
Лимиты на партии
| Имя ограничения | Предельное значение |
|---|---|
| Максимальное количество входных файлов для пакетной обработки — (без срока действия) | 500 |
| Максимальное количество входных файлов пакетной обработки — (установка срока действия) | 10 000 |
| Максимальный размер входного файла | 200 МБ |
| Максимальный размер входного файла - Принеси своё собственное хранилище (BYOS) | 1 ГБ |
| Максимальное количество запросов на файл | 100,000 |
Замечание
Ограничения пакетного файла не применяются к выходным файлам (например, result.jsonlи error.jsonl). Чтобы снять ограничения на пакетный входной файл, используйте Batch с Azure Blob Storage.
Квота на пакетную обработку
В таблице показан предел квоты партии. Значения квот для глобального пакета представлены в виде поставленных в очередь токенов. При отправке файла для пакетной обработки число маркеров в файле учитывается. До тех пор, пока пакетное задание не достигнет конечного состояния, эти маркеры учитываются в пределах общего предельного количества маркеров в очереди.
Глобальная партия
| Модель | Enterprise и MCA-E | По умолчанию | Ежемесячные подписки на основе кредитной карты | Подписки MSDN | Azure для учащихся, бесплатные пробные версии |
|---|---|---|---|---|---|
gpt-4.1 |
5B | 200M | 50 млн | 90K | N/A |
gpt-4.1 mini |
15B | 1 млрд | 50 млн | 90K | N/A |
gpt-4.1-nano |
15B | 1 млрд | 50 млн | 90K | N/A |
gpt-4o |
5B | 200M | 50 млн | 90K | N/A |
gpt-4o-mini |
15B | 1 млрд | 50 млн | 90K | N/A |
gpt-4-turbo |
300 млн | 80M | 40M | 90K | N/A |
gpt-4 |
150 млн | 30 млн | 5M | 100 тыс. | N/A |
o3-mini |
15B | 1 млрд | 50 млн | 90K | N/A |
o4-mini |
15B | 1 млрд | 50 млн | 90K | N/A |
gpt-5 |
5B | 200M | 50 млн | 90K | N/A |
gpt-5.1 |
5B | 200M | 50 млн | 90K | N/A |
B = миллиард | M = миллион | K = тысяча
Пакет зоны данных
| Модель | Enterprise и MCA-E | По умолчанию | Ежемесячные подписки на основе кредитной карты | Подписки MSDN | Azure для учащихся, бесплатные пробные версии |
|---|---|---|---|---|---|
gpt-4.1 |
500 млн | 30 млн | 30 млн | 90K | N/A |
gpt-4.1-mini |
1,5 млрд | 100 млн | 50 млн | 90K | N/A |
gpt-4o |
500 млн | 30 млн | 30 млн | 90K | N/A |
gpt-4o-mini |
1,5 млрд | 100 млн | 50 млн | 90K | N/A |
o3-mini |
1,5 млрд | 100 млн | 50 млн | 90K | N/A |
gpt-5 |
5B | 200M | 50 млн | 90K | N/A |
gpt-5.1 |
5B | 200M | 50 млн | 90K | N/A |
gpt-oss
| Модель | Токены в минуту (TPM) | Запросы в минуту (RPM) |
|---|---|---|
gpt-oss-120b |
5 М | 5 км |
Уровни использования
Развертывания Global Standard используют глобальную инфраструктуру Azure. Они динамически направляют трафик клиентов в центр обработки данных с наилучшей доступностью для инференс-запросов клиента. Аналогичным образом развертывания Data Zone Standard позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных в пределах определенной Microsoft зоны данных с оптимальной доступностью для каждого запроса. Эта практика обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть большую вариативность в задержке ответа.
Уровни использования Azure OpenAI предназначены для обеспечения согласованной производительности для большинства клиентов с низким и средним уровнем трафика. Каждый уровень использования определяет максимальную пропускную способность (токены в минуту) с прогнозируемой задержкой. Когда использование остается на назначенном уровне, задержка остается стабильной, а время отклика последовательным.
Что произойдет, если вы превышаете уровень использования?
- Если пропускная способность запроса превышает уровень использования (особенно в периоды высокого спроса), задержка ответа может значительно увеличиться.
- Задержка может варьироваться и в некоторых случаях превышать в два раза значения, характерные для вашего уровня использования.
- Эта изменчивость наиболее заметна для клиентов, которые демонстрируют высокий уровень устойчивого использования или имеют скачкообразные шаблоны трафика.
Рекомендуемые действия при превышении уровня использования
Если вы столкнулись с 429 ошибками или заметите повышенную вариативность задержки, выполните следующие действия.
- Запросить увеличение квоты: посетите портал Azure, чтобы запросить более высокую квоту для подписки.
- Рассмотрите возможность обновления до премиального предложения (PTU): для рабочих нагрузок, критически важных для задержки, или больших объемов рабочих нагрузок, обновитесь до единиц предоставленной пропускной способности (PTU). PTU предоставляет выделенные ресурсы, гарантированную емкость и прогнозируемую задержку даже в большом масштабе. Это лучший выбор для критически важных приложений, требующих согласованной производительности.
- Мониторинг использования: регулярно просматривайте метрики использования на портале Azure, чтобы убедиться, что вы работаете в пределах уровня. При необходимости настройте рабочую нагрузку или стратегию развертывания.
Вы можете получать ответы 429 (Too Many Requests) даже если метрики использования токенов отображаются ниже вашего лимита.
Это может произойти в следующих сценариях:
- Запросы отклонены из-за ограничений длины входных данных или контекста (HTTP 400). Эти запросы не выставляются счётом и могут не отражаться в метриках использования токенов, но они по-прежнему могут засчитываться на ограничение скорости.
- Запросы оцениваются на основе потенциального использования маркеров (например,
max_tokensдаже если маркеры в конечном счете не создаются). - Распределенное поведение с ограничением скорости, когда принудительное применение не может быть совершенно точным или немедленно отражено в агрегированных метриках.
Ограничение использования определяет уровень использования, выше которого клиенты могут видеть большую дисперсию в задержке ответа. Использование клиента определяется для каждой модели. Это общее количество токенов, потребляемых во всех развертываниях, подписках и регионах для данного клиента.
Замечание
Уровни использования применяются только к типам развертывания Standard, Data Zone Standard и Global Standard. Уровни использования не применяются к глобальным пакетным и предоставленным развертываниям с пропускной способностью.
Глобальный стандарт, стандарт "Зона данных" и стандарт
| Модель | Уровни использования в месяц |
|---|---|
gpt-5 |
32 млрд токенов |
gpt-5-mini |
160 миллиардов токенов |
gpt-5-nano |
800 миллиардов токенов |
gpt-5-chat |
32 млрд токенов |
gpt-4
+
gpt-4-32k (все версии) |
6 миллиардов токенов |
gpt-4o |
12 миллиардов токенов |
gpt-4o-mini |
85 миллиардов токенов |
o3-mini |
50 миллиардов токенов |
o1 |
4 млрд токенов |
o4-mini |
50 миллиардов токенов |
o3 |
5 миллиардов токенов |
gpt-4.1 |
30 миллиардов токенов |
gpt-4.1-mini |
150 миллиардов токенов |
gpt-4.1-nano |
550 миллиардов токенов |
Основные передовые методы, чтобы оставаться в пределах лимитов скорости
Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:
- Реализуйте в приложении логику повторных попыток.
- Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
- Протестируйте различные шаблоны увеличения нагрузки.
- Увеличьте назначенную вашему развертыванию квоту. При необходимости переместите квоту из другого развертывания.
Запрос на увеличение квоты
Отправьте форму запроса на увеличение квоты для моделей Foundry, продаваемых непосредственно Azure, моделей Azure OpenAI и моделей Anthropic. За исключением антропических моделей, модели от партнеров и сообщества не поддерживают увеличение квоты.
Запросы на увеличение квот обрабатываются в том порядке, в который они получены, и приоритет передает клиентам, которые активно используют существующее выделение квот. Запросы, которые не соответствуют этому условию, могут быть отклонены.
Ограничения ёмкости региональной квоты
Доступность квоты можно просмотреть по регионам для подписки на портале Foundry.
Чтобы просмотреть емкость квоты по регионам для определенной модели или версии, можно запросить API емкости для подписки. Укажите subscriptionId, model_name и model_version, и API вернет доступную емкость для этой модели во всех регионах и типах развертывания, включенных в вашу подписку.
Замечание
В настоящее время портал Foundry и API для емкости возвращают сведения о квоте и емкости для моделей, которые выведены из эксплуатации и больше не доступны.
См. справочник по API.
Перед запуском примера выполните следующие действия:
- Установка зависимостей:
pip install azure-identity requests - Войдите с помощью идентификатора Azure, который может считывать возможности модели для подписки.
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
Связанный контент
- Узнайте, как управлять квотой для развертываний Azure OpenAI.
- Узнайте больше об основополагающих моделях, которые обеспечивают работу Azure OpenAI.