Azure OpenAI в моделях Foundry от Microsoft: квоты и ограничения

В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI.

Область квоты

Квоты и ограничения не применяются на уровне арендатора. Вместо этого максимальный уровень ограничений квоты ограничен на уровне подписки Azure.

Выделение региональной квоты

Маркеры в минуту (TPM) и ограничения запросов в минуту (RPM) определяются в каждом регионе, на подписку и на модель или тип развертывания.

Например, если модель gpt-4.1 Глобальный Стандарт указана квотой 5 млн TPM и 5000 RPM, тогда в каждом регионе, где эта модель или тип развертывания доступен, есть собственный выделенный пул квот в таком объеме для каждой из ваших подписок Azure. В рамках одной подписки Azure можно использовать большее количество общих квот TPM и RPM для заданной модели и типа развертывания, если у вас есть ресурсы и развертывания модели, распределенные по нескольким регионам.

Уровни квот

Мы представляем категории квот для повышения качества работы с моделями Foundry и снижения фрикции по мере роста рабочих нагрузок. Теперь квоты будут увеличиваться автоматически с использованием, что помогает избежать ошибок ограничения скорости, а также создания более справедливой среды для всех пользователей. Семь уровней будут доступны: бесплатный уровень и уровни 1–6 — с уровнем 6, предлагающим самые высокие квоты. Первоначальный назначенный уровень клиента основан на текущем использовании этой модели и их текущей связи с Microsoft, например состояние Соглашения Enterprise (EA или MCA-E). 

Что изменится для меня?

Ранее Foundry предлагал только типы уровней квот по умолчанию и Enterprise для предложений с оплатой по мере использования, с большим разрывом между уровнями и более длительным процессом запроса увеличения уровня квоты. При использовании уровней квот всем пользователям назначаются уровни с квотами, равными их предыдущим уровням или выше. Все ранее утвержденные увеличение квоты сохраняются и не будут сокращены. По мере роста использования Foundry автоматически увеличивает квоты путем перемещения пользователей на более высокие уровни, а дополнительная квота по-прежнему может быть запрошена через форму квоты.

Как клиент автоматически перемещается с одного уровня на другой, например какие критерии изменения уровня? 

Автоматическое обновление уровня основано главным образом на тенденциях потребления клиентов в моделях Foundry с течением времени. Если использование клиента увеличивается таким образом, что текущий уровень квот ограничивает их способность использовать модели Foundry, система автоматически обновит клиента до следующего уровня выше. Кроме того, учитывается связь клиента с Microsoft. Клиентам с корпоративными связями (включая EA и MCA-E) с Microsoft назначаются более высокие уровни квот. Кроме того, Microsoft также рассмотрит историю платежей клиента, чтобы определить право на автоматическое обновление. 

Можно ли отказаться от автоматического обновления?

Да, вы можете отказаться от автоматического обновления, и вы останетесь на текущем уровне независимо от изменений в потреблении. Мы понимаем, что некоторые из наших клиентов используют квоту для управления выставлением счетов. Однако это не рекомендация Azure, мы понимаем, что если ваша система настроена таким образом, что мы не хотим ее разорвать. Дополнительные сведения об управлении выставлением счетов и рекомендациях см. здесь: Управление затратами.

Чтобы отказаться, можно задать следующий флаг NoAutoUpgrade:

curl -X PATCH \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "properties": {
      "tierUpgradePolicy": "NoAutoUpgrade"
    }
  }'

Замечание

Функция отказа является предварительной версией и может быть подвержена изменению или удалению в будущем.

Можно ли запросить дополнительную квоту?

Да, используя форму запроса квоты , можно всегда запрашивать больше квоты. Если запрос утвержден, текущий уровень останется прежним, но с большей квотой.

Как проверить уровень квоты подписки?

В настоящее время можно проверить уровень вашей квоты через API плоскости управления:

curl -X GET \
  "https://management.azure.com/subscriptions/9d295860-44e3-44bb-ade9-235cc45c68ba/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
  -H "Content-Type: application/json"

import requests
import json
from azure.identity import DefaultAzureCredential


subscriptionId = "{YOUR-SUBSCRIPTION-ID}"
api_version = "2025-10-01-preview" 
base_url = "https://management.azure.com"

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {
    'Authorization': 'Bearer ' + token.token,
    'Content-Type': 'application/json'
}


list_url = (
    f"{base_url}/subscriptions/{subscriptionId}"
    f"/providers/Microsoft.CognitiveServices/quotaTiers"
    f"?api-version={api_version}"
)

response = requests.get(list_url, headers=headers)
print(json.dumps(response.json(), indent=2))

{
  "value": [
    {
      "properties": {
        "currentTierName": "Tier 1",
        "assignmentDate": "2025-10-18T05:09:05.6334222Z",
        "tierUpgradePolicy": "OnceUpgradeIsAvailable"
      },
      "id": "/subscriptions/aaaaa-bbbbb-ccccc-dddd-eeeeeee/providers/Microsoft.CognitiveServices/quotaTiers/default",
      "name": "default",
      "type": "Microsoft.CognitiveServices/quotaTiers"
    }
  ]
}

Справочник по уровню квот

Уровень 1

Имя модели	Тип развертывания	Запросы в минуту (RPM)	Токены за минуту (TPM)
codex-mini	GlobalStandard	1,000	1,000,000
computer-use-preview	GlobalStandard	4,500	450 000
gpt-4.1	DataZoneStandard	300	300 000
gpt-4.1	GlobalStandard	1,000	1,000,000
gpt-4.1-mini	DataZoneStandard	2 000	2,000,000
gpt-4.1-mini	GlobalStandard	5,000	5 000 000
gpt-4.1-mini	Стандарт	6,000	6,000,000
gpt-4.1-nano	DataZoneStandard	2 000	2,000,000
gpt-4.1-nano	GlobalStandard	5,000	5 000 000
gpt-4o	DataZoneStandard	300 / 10 сек.	300 000
gpt-4o-аудио-превью	GlobalStandard	30000 / 10s	30,000,000
гпт-4о-мини	DataZoneStandard	10 000	1,000,000
гпт-4о-мини	GlobalStandard	20,000	2,000,000
gpt-4o-мини-аудио-превью	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	3,000	300 000
gpt-5	GlobalStandard	10 000	1,000,000
gpt-5-chat	GlobalStandard	1,000	1,000,000
gpt-5-codex	GlobalStandard	1,000	1,000,000
gpt-5-mini	DataZoneStandard	300	300 000
gpt-5-mini	GlobalStandard	1,000	1,000,000
gpt-5-nano	DataZoneStandard	2 000	2,000,000
gpt-5-nano	GlobalStandard	5,000	5 000 000
gpt-5-pro	GlobalStandard	1600	160 000
gpt-5.1	DataZoneStandard	3,000	300 000
gpt-5.1	GlobalStandard	10 000	1,000,000
gpt-5.1-chat	GlobalStandard	10 000	1,000,000
gpt-5.1-codex	DataZoneStandard	3,000	300 000
gpt-5.1-codex	GlobalStandard	1,000	1,000,000
gpt-5.1-codex-max	GlobalStandard	10 000	1,000,000
gpt-5.1-codex-mini	GlobalStandard	1,000	1,000,000
gpt-5.2	DataZoneStandard	3,000	300 000
gpt-5.2	GlobalStandard	10 000	1,000,000
gpt-5.2-chat	GlobalStandard	10 000	1,000,000
gpt-5.3-chat	GlobalStandard	1,000	1,000,000
gpt-5.2-codex	GlobalStandard	10 000	1,000,000
gpt-5.3-codex	GlobalStandard	10 000	1,000,000
gpt-5.4	DataZoneStandard	300	300 000
gpt-5.4	GlobalStandard	10 000	1,000,000
gpt-5.4-pro	GlobalStandard	160	160 000
gpt-5.4-mini	GlobalStandard	1,000	1,000,000
gpt-5.4-nano	DataZoneStandard	2 000	2,000,000
gpt-5.4-nano	GlobalStandard	5,000	5 000 000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	9	-
gpt-image-1-mini	GlobalStandard	12	-
gpt-image-1.5	DataZoneStandard	3	-
gpt-image-1.5	GlobalStandard	9	-
gpt-image-2	DataZoneStandard	3	-
gpt-image-2	GlobalStandard	9	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	сто пятьдесят	150,000
o1	DataZoneStandard	100	600,000
o1	GlobalStandard	500	3 000 000
o3	DataZoneStandard	300	300 000
o3	GlobalStandard	1,000	1,000,000
o3-глубокие исследования	GlobalStandard	3,000	3 000 000
o3-mini	DataZoneStandard	200	2,000,000
o3-mini	GlobalStandard	500	5 000 000
o3-pro	GlobalStandard	160	1 600 000
o4-mini	DataZoneStandard	300 / 10 сек.	300 000
o4-mini	GlobalStandard	1,000	1,000,000
текст-встраивание-3-большой	DataZoneStandard	1,000	1,000,000
текст-встраивание-3-большой	GlobalStandard	1000/10 секунд	1,000,000
Встраивание текста - версия 3 - малая	DataZoneStandard	1,000	1,000,000
Встраивание текста - версия 3 - малая	GlobalStandard	1000/10 секунд	1,000,000

Уровень 2

Имя модели	Тип развертывания	Запросы в минуту (RPM)	Токены за минуту (TPM)
codex-mini	GlobalStandard	2 000	2,000,000
computer-use-preview	GlobalStandard	20,000	2,000,000
gpt-4.1	DataZoneStandard	1,000	1,000,000
gpt-4.1	GlobalStandard	3,000	3 000 000
gpt-4.1-mini	DataZoneStandard	6,000	6,000,000
gpt-4.1-mini	GlobalStandard	16 000	16,000,000
gpt-4.1-mini	Стандарт	12 000	12,000,000
gpt-4.1-nano	DataZoneStandard	6,000	6,000,000
gpt-4.1-nano	GlobalStandard	16 000	16,000,000
gpt-4o	DataZoneStandard	1000/10 секунд	1,000,000
gpt-4o-аудио-превью	GlobalStandard	30000 / 10s	30,000,000
гпт-4о-мини	DataZoneStandard	30,000	3 000 000
гпт-4о-мини	GlobalStandard	90 000	9,000,000
gpt-4o-мини-аудио-превью	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	10 000	1,000,000
gpt-5	GlobalStandard	30,000	3 000 000
gpt-5-chat	GlobalStandard	2 000	2,000,000
gpt-5-codex	GlobalStandard	2 000	2,000,000
gpt-5-mini	DataZoneStandard	670	670 000
gpt-5-mini	GlobalStandard	2 000	2,000,000
gpt-5-nano	DataZoneStandard	6,000	6,000,000
gpt-5-nano	GlobalStandard	16 000	16,000,000
gpt-5-pro	GlobalStandard	3,500	350 000
gpt-5.1	DataZoneStandard	6,700	670 000
gpt-5.1	GlobalStandard	20,000	2,000,000
gpt-5.1-chat	GlobalStandard	20,000	2,000,000
gpt-5.1-codex	DataZoneStandard	6,700	670 000
gpt-5.1-codex	GlobalStandard	2 000	2,000,000
gpt-5.1-codex-max	GlobalStandard	20,000	2,000,000
gpt-5.1-codex-mini	GlobalStandard	2 000	2,000,000
gpt-5.2	DataZoneStandard	6,700	670 000
gpt-5.2	GlobalStandard	20,000	2,000,000
gpt-5.2-chat	GlobalStandard	20,000	2,000,000
gpt-5.3-chat	GlobalStandard	2 000	2,000,000
gpt-5.2-codex	GlobalStandard	20,000	2,000,000
gpt-5.3-codex	GlobalStandard	20,000	2,000,000
gpt-5.4	DataZoneStandard	670	670 000
gpt-5.4	GlobalStandard	20,000	2,000,000
gpt-5.4-pro	GlobalStandard	350	350 000
gpt-5.4-mini	GlobalStandard	2 000	2,000,000
gpt-5.4-nano	DataZoneStandard	6,000	6,000,000
gpt-5.4-nano	GlobalStandard	16 000	16,000,000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	18	-
gpt-image-1-mini	GlobalStandard	двадцать семь	-
gpt-image-1.5	DataZoneStandard	5	-
gpt-image-1.5	GlobalStandard	15	-
gpt-image-2	DataZoneStandard	5	-
gpt-image-2	GlobalStandard	15	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	190	190,000
o1	DataZoneStandard	225	1,350,000
o1	GlobalStandard	1,000	6,000,000
o3	DataZoneStandard	670	670 000
o3	GlobalStandard	2 000	2,000,000
o3-глубокие исследования	GlobalStandard	7,000	7,000,000
o3-mini	DataZoneStandard	350	3,500,000
o3-mini	GlobalStandard	1,000	10 000 000
o3-pro	GlobalStandard	350	3,500,000
o4-mini	DataZoneStandard	670 раз в 10 секунд	670 000
o4-mini	GlobalStandard	2 000	2,000,000
текст-встраивание-3-большой	DataZoneStandard	2 000	2,000,000
текст-встраивание-3-большой	GlobalStandard	2000 / 10s	2,000,000
Встраивание текста - версия 3 - малая	DataZoneStandard	2 000	2,000,000
Встраивание текста - версия 3 - малая	GlobalStandard	2000 / 10s	2,000,000

Уровень 3

Имя модели	Тип развертывания	Запросы в минуту (RPM)	Токены за минуту (TPM)
codex-mini	GlobalStandard	4,000	4,000,000
computer-use-preview	GlobalStandard	70 000	7,000,000
gpt-4.1	DataZoneStandard	3,000	3 000 000
gpt-4.1	GlobalStandard	9,000	9,000,000
gpt-4.1-mini	DataZoneStandard	16 000	16,000,000
gpt-4.1-mini	GlobalStandard	46,000	46,000,000
gpt-4.1-mini	Стандарт	30,000	30,000,000
gpt-4.1-nano	DataZoneStandard	16 000	16,000,000
gpt-4.1-nano	GlobalStandard	46,000	46,000,000
gpt-4o	DataZoneStandard	3000 / 10с	3 000 000
gpt-4o-аудио-превью	GlobalStandard	30000 / 10s	30,000,000
гпт-4о-мини	DataZoneStandard	70 000	7,000,000
гпт-4о-мини	GlobalStandard	330,000	33 000 000
gpt-4o-мини-аудио-превью	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	30,000	3 000 000
gpt-5	GlobalStandard	90 000	9,000,000
gpt-5-chat	GlobalStandard	3,000	3 000 000
gpt-5-codex	GlobalStandard	4,000	4,000,000
gpt-5-mini	DataZoneStandard	1,000	1,000,000
gpt-5-mini	GlobalStandard	4,000	4,000,000
gpt-5-nano	DataZoneStandard	16 000	16,000,000
gpt-5-nano	GlobalStandard	46,000	46,000,000
gpt-5-pro	GlobalStandard	7,000	700,000
gpt-5.1	DataZoneStandard	10 000	1,000,000
gpt-5.1	GlobalStandard	40 000	4,000,000
gpt-5.1-chat	GlobalStandard	30,000	3 000 000
gpt-5.1-codex	DataZoneStandard	10 000	1,000,000
gpt-5.1-codex	GlobalStandard	4,000	4,000,000
gpt-5.1-codex-max	GlobalStandard	40 000	4,000,000
gpt-5.1-codex-mini	GlobalStandard	4,000	4,000,000
gpt-5.2	DataZoneStandard	10 000	1,000,000
gpt-5.2	GlobalStandard	40 000	4,000,000
gpt-5.2-chat	GlobalStandard	30,000	3 000 000
gpt-5.3-chat	GlobalStandard	3,000	3 000 000
gpt-5.2-codex	GlobalStandard	40 000	4,000,000
gpt-5.3-codex	GlobalStandard	40 000	4,000,000
gpt-5.4	DataZoneStandard	1,000	1,000,000
gpt-5.4	GlobalStandard	40 000	4,000,000
gpt-5.4-pro	GlobalStandard	700	700,000
gpt-5.4-mini	GlobalStandard	4,000	4,000,000
gpt-5.4-nano	DataZoneStandard	16 000	16,000,000
gpt-5.4-nano	GlobalStandard	46,000	46,000,000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	30	-
gpt-image-1-mini	GlobalStandard	54	-
gpt-image-1.5	DataZoneStandard	10	-
gpt-image-1.5	GlobalStandard	30	-
gpt-image-2	DataZoneStandard	10	-
gpt-image-2	GlobalStandard	30	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	235	235,000
o1	DataZoneStandard	450	2,700,000
o1	GlobalStandard	2 000	12,000,000
o3	DataZoneStandard	1,000	1,000,000
o3	GlobalStandard	4,000	4,000,000
o3-глубокие исследования	GlobalStandard	13,000	13 000 000
o3-mini	DataZoneStandard	900	9,000,000
o3-mini	GlobalStandard	2 000	20,000,000
o3-pro	GlobalStandard	715	7,150,000
o4-mini	DataZoneStandard	1000/10 секунд	1,000,000
o4-mini	GlobalStandard	4,000	4,000,000
текст-встраивание-3-большой	DataZoneStandard	4,000	4,000,000
текст-встраивание-3-большой	GlobalStandard	4000 / 10s	4,000,000
Встраивание текста - версия 3 - малая	DataZoneStandard	4,000	4,000,000
Встраивание текста - версия 3 - малая	GlobalStandard	4000 / 10s	4,000,000

Уровень 4

Имя модели	Тип развертывания	Запросы в минуту (RPM)	Токены за минуту (TPM)
codex-mini	GlobalStandard	7,000	7,000,000
computer-use-preview	GlobalStandard	160 000	16,000,000
gpt-4.1	DataZoneStandard	6,000	6,000,000
gpt-4.1	GlobalStandard	18,000	18 000 000
gpt-4.1-mini	DataZoneStandard	31,000	31,000,000
gpt-4.1-mini	GlobalStandard	90 000	90 000 000
gpt-4.1-mini	Стандарт	75 000	75,000,000
gpt-4.1-nano	DataZoneStandard	31,000	31,000,000
gpt-4.1-nano	GlobalStandard	90 000	90 000 000
gpt-4o	DataZoneStandard	6000 / 10s	6,000,000
gpt-4o-аудио-превью	GlobalStandard	30000 / 10s	30,000,000
гпт-4о-мини	DataZoneStandard	130,000	13 000 000
гпт-4о-мини	GlobalStandard	780,000	78,000,000
gpt-4o-мини-аудио-превью	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	60 000	6,000,000
gpt-5	GlobalStandard	180 000	18 000 000
gpt-5-chat	GlobalStandard	4,000	4,000,000
gpt-5-codex	GlobalStandard	7,000	7,000,000
gpt-5-mini	DataZoneStandard	2 000	2,000,000
gpt-5-mini	GlobalStandard	7,000	7,000,000
gpt-5-nano	DataZoneStandard	31,000	31,000,000
gpt-5-nano	GlobalStandard	90 000	90 000 000
gpt-5-pro	GlobalStandard	11,500	1,150,000
gpt-5.1	DataZoneStandard	20,000	2,000,000
gpt-5.1	GlobalStandard	70 000	7,000,000
gpt-5.1-chat	GlobalStandard	40 000	4,000,000
gpt-5.1-codex	DataZoneStandard	20,000	2,000,000
gpt-5.1-codex	GlobalStandard	7,000	7,000,000
gpt-5.1-codex-max	GlobalStandard	70 000	7,000,000
gpt-5.1-codex-mini	GlobalStandard	7,000	7,000,000
gpt-5.2	DataZoneStandard	20,000	2,000,000
gpt-5.2	GlobalStandard	70 000	7,000,000
gpt-5.2-chat	GlobalStandard	40 000	4,000,000
gpt-5.3-chat	GlobalStandard	4,000	4,000,000
gpt-5.2-codex	GlobalStandard	70 000	7,000,000
gpt-5.3-codex	GlobalStandard	70 000	7,000,000
gpt-5.4	DataZoneStandard	2 000	2,000,000
gpt-5.4	GlobalStandard	70 000	7,000,000
gpt-5.4-pro	GlobalStandard	1150	1,150,000
gpt-5.4-mini	GlobalStandard	7,000	7,000,000
gpt-5.4-nano	DataZoneStandard	31,000	31,000,000
gpt-5.4-nano	GlobalStandard	90 000	90 000 000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	45	-
gpt-image-1-mini	GlobalStandard	84	-
gpt-image-1.5	DataZoneStandard	15	-
gpt-image-1.5	GlobalStandard	45	-
gpt-image-2	DataZoneStandard	15	-
gpt-image-2	GlobalStandard	45	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	270	270,000
o1	DataZoneStandard	700	4,200,000
o1	GlobalStandard	4,000	24,000,000
o3	DataZoneStandard	2 000	2,000,000
o3	GlobalStandard	7,000	7,000,000
o3-глубокие исследования	GlobalStandard	21,000	21,000,000
o3-mini	DataZoneStandard	1,000	10 000 000
o3-mini	GlobalStandard	4,000	40 000 000
o3-pro	GlobalStandard	1150	11,500,000
o4-mini	DataZoneStandard	2000 / 10s	2,000,000
o4-mini	GlobalStandard	7,000	7,000,000
текст-встраивание-3-большой	DataZoneStandard	7,000	7,000,000
текст-встраивание-3-большой	GlobalStandard	7000 / 10s	7,000,000
Встраивание текста - версия 3 - малая	DataZoneStandard	7,000	7,000,000
Встраивание текста - версия 3 - малая	GlobalStandard	7000 / 10s	7,000,000

Уровень 5

Имя модели	Тип развертывания	Запросы в минуту (RPM)	Токены за минуту (TPM)
codex-mini	GlobalStandard	10 000	10 000 000
computer-use-preview	GlobalStandard	300 000	30,000,000
gpt-4.1	DataZoneStandard	10 000	10 000 000
gpt-4.1	GlobalStandard	30,000	30,000,000
gpt-4.1-mini	DataZoneStandard	50,000	50,000,000
gpt-4.1-mini	GlobalStandard	150,000	150,000,000
gpt-4.1-mini	Стандарт	150,000	150,000,000
gpt-4.1-nano	DataZoneStandard	50,000	50,000,000
gpt-4.1-nano	GlobalStandard	150,000	150,000,000
gpt-4o	DataZoneStandard	10000 / 10 сек.	10 000 000
gpt-4o-аудио-превью	GlobalStandard	30000 / 10s	30,000,000
гпт-4о-мини	DataZoneStandard	200,000	20,000,000
гпт-4о-мини	GlobalStandard	1,500,000	150,000,000
gpt-4o-мини-аудио-превью	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	100,000	10 000 000
gpt-5	GlobalStandard	300 000	30,000,000
gpt-5-chat	GlobalStandard	5,000	5 000 000
gpt-5-codex	GlobalStandard	10 000	10 000 000
gpt-5-mini	DataZoneStandard	3,000	3 000 000
gpt-5-mini	GlobalStandard	10 000	10 000 000
gpt-5-nano	DataZoneStandard	50,000	50,000,000
gpt-5-nano	GlobalStandard	150,000	150,000,000
gpt-5-pro	GlobalStandard	16 000	1 600 000
gpt-5.1	DataZoneStandard	30,000	3 000 000
gpt-5.1	GlobalStandard	100,000	10 000 000
gpt-5.1-chat	GlobalStandard	50,000	5 000 000
gpt-5.1-codex	DataZoneStandard	30,000	3 000 000
gpt-5.1-codex	GlobalStandard	10 000	10 000 000
gpt-5.1-codex-max	GlobalStandard	100,000	10 000 000
gpt-5.1-codex-mini	GlobalStandard	10 000	10 000 000
gpt-5.2	DataZoneStandard	30,000	3 000 000
gpt-5.2	GlobalStandard	100,000	10 000 000
gpt-5.2-chat	GlobalStandard	50,000	5 000 000
gpt-5.3-chat	GlobalStandard	5,000	5 000 000
gpt-5.2-codex	GlobalStandard	100,000	10 000 000
gpt-5.3-codex	GlobalStandard	100,000	10 000 000
gpt-5.4	DataZoneStandard	3,000	3 000 000
gpt-5.4	GlobalStandard	100,000	10 000 000
gpt-5.4-pro	GlobalStandard	1600	1 600 000
gpt-5.4-mini	GlobalStandard	10 000	10 000 000
gpt-5.4-nano	DataZoneStandard	50,000	50,000,000
gpt-5.4-nano	GlobalStandard	150,000	150,000,000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	60	-
gpt-image-1-mini	GlobalStandard	120	-
gpt-image-1.5	DataZoneStandard	20	-
gpt-image-1.5	GlobalStandard	60	-
gpt-image-2	DataZoneStandard	20	-
gpt-image-2	GlobalStandard	60	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	300	300 000
o1	DataZoneStandard	1,000	6,000,000
o1	GlobalStandard	5,000	30,000,000
o3	DataZoneStandard	3,000	3 000 000
o3	GlobalStandard	10 000	10 000 000
o3-глубокие исследования	GlobalStandard	30,000	30,000,000
o3-mini	DataZoneStandard	2 000	20,000,000
o3-mini	GlobalStandard	5,000	50,000,000
o3-pro	GlobalStandard	1600	16,000,000
o4-mini	DataZoneStandard	3000 / 10с	3 000 000
o4-mini	GlobalStandard	10 000	10 000 000
текст-встраивание-3-большой	DataZoneStandard	10 000	10 000 000
текст-встраивание-3-большой	GlobalStandard	10000 / 10 сек.	10 000 000
Встраивание текста - версия 3 - малая	DataZoneStandard	10 000	10 000 000
Встраивание текста - версия 3 - малая	GlobalStandard	10000 / 10 сек.	10 000 000

Уровень 6

Имя модели	Тип развертывания	Запросы в минуту (RPM)	Токены за минуту (TPM)
codex-mini	GlobalStandard	15 000	15 000 000
computer-use-preview	GlobalStandard	450 000	45,000,000
gpt-4.1	DataZoneStandard	15 000	15 000 000
gpt-4.1	GlobalStandard	45 000	45,000,000
gpt-4.1-mini	DataZoneStandard	75 000	75,000,000
gpt-4.1-mini	GlobalStandard	225,000	225,000,000
gpt-4.1-mini	Стандарт	225,000	225,000,000
gpt-4.1-nano	DataZoneStandard	75 000	75,000,000
gpt-4.1-nano	GlobalStandard	225,000	225,000,000
gpt-4o	DataZoneStandard	15000 / 10с	15 000 000
gpt-4o-аудио-превью	GlobalStandard	45000 / 10 сек	45,000,000
гпт-4о-мини	DataZoneStandard	300 000	30,000,000
гпт-4о-мини	GlobalStandard	2 250 000	225,000,000
gpt-4o-мини-аудио-превью	GlobalStandard	45000 / 10 сек	45,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	54	9,000
gpt-4o-realtime-preview	GlobalStandard	54	9,000
gpt-5	DataZoneStandard	150,000	15 000 000
gpt-5	GlobalStandard	450 000	45,000,000
gpt-5-chat	GlobalStandard	8000	8,000,000
gpt-5-codex	GlobalStandard	15 000	15 000 000
gpt-5-mini	DataZoneStandard	4,000	4,000,000
gpt-5-mini	GlobalStandard	15 000	15 000 000
gpt-5-nano	DataZoneStandard	75 000	75,000,000
gpt-5-nano	GlobalStandard	225,000	225,000,000
gpt-5-pro	GlobalStandard	24,000	2 400 000
gpt-5.1	DataZoneStandard	40 000	4,000,000
gpt-5.1	GlobalStandard	150,000	15 000 000
gpt-5.1-chat	GlobalStandard	80 000	8,000,000
gpt-5.1-codex	DataZoneStandard	40 000	4,000,000
gpt-5.1-codex	GlobalStandard	15 000	15 000 000
gpt-5.1-codex-max	GlobalStandard	150,000	15 000 000
gpt-5.1-codex-mini	GlobalStandard	15 000	15 000 000
gpt-5.2	DataZoneStandard	40 000	4,000,000
gpt-5.2	GlobalStandard	150,000	15 000 000
gpt-5.2-chat	GlobalStandard	80 000	8,000,000
gpt-5.3-chat	GlobalStandard	8000	8,000,000
gpt-5.2-codex	GlobalStandard	150,000	15 000 000
gpt-5.3-codex	GlobalStandard	150,000	15 000 000
gpt-5.4	DataZoneStandard	4,000	4,000,000
gpt-5.4	GlobalStandard	150,000	15 000 000
gpt-5.4-pro	GlobalStandard	2,400	2 400 000
gpt-5.4-mini	GlobalStandard	15 000	15 000 000
gpt-5.4-nano	DataZoneStandard	75 000	75,000,000
gpt-5.4-nano	GlobalStandard	225,000	225,000,000
gpt-audio	GlobalStandard	45000 / 10 сек	45,000,000
gpt-image-1	GlobalStandard	90	-
gpt-image-1-mini	GlobalStandard	180	-
gpt-image-1.5	DataZoneStandard	30	-
gpt-image-1.5	GlobalStandard	90	-
gpt-image-2	DataZoneStandard	30	-
gpt-image-2	GlobalStandard	90	-
gpt-realtime	GlobalStandard	300	150,000
model-router	DataZoneStandard	450	450 000
o1	DataZoneStandard	2 000	12,000,000
o1	GlobalStandard	8000	48,000,000
o3	DataZoneStandard	4,000	4,000,000
o3	GlobalStandard	15 000	15 000 000
o3-глубокие исследования	GlobalStandard	45 000	45,000,000
o3-mini	DataZoneStandard	3,000	30,000,000
o3-mini	GlobalStandard	8000	80,000,000
o3-pro	GlobalStandard	2,400	24,000,000
o4-mini	DataZoneStandard	4000 / 10s	4,000,000
o4-mini	GlobalStandard	15 000	15 000 000
текст-встраивание-3-большой	DataZoneStandard	15 000	15 000 000
текст-встраивание-3-большой	GlobalStandard	15000 / 10с	15 000 000
Встраивание текста - версия 3 - малая	DataZoneStandard	15 000	15 000 000
Встраивание текста - версия 3 - малая	GlobalStandard	15000 / 10с	15 000 000

Справочник по квотам и ограничениям

В следующем разделе представлено краткое руководство по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:

Имя ограничения	Предельное значение
Ресурсы Azure OpenAI на каждый регион, на каждую подписку Azure	30.
Ограничения квоты GPT-image-1 по умолчанию	9 запросов в минуту
Ограничения квоты по умолчанию GPT-image-1-mini	12 запросов в минуту
Ограничения квоты GPT-image-1.5 по умолчанию	9 запросов в минуту
Ограничения квоты GPT-image-2 по умолчанию	9 запросов в минуту
Ограничения квоты Sora по умолчанию	60 запросов в минуту.
Ограничения квоты Sora 2 по умолчанию	2 запросов на задания¹ в минуту
Ограничения квоты API преобразования речи в текст	3 запроса в минуту.
Максимальное количество подсказочных токенов на один запрос	Зависит от модели. Дополнительные сведения см. в разделе модели Azure OpenAI.
Максимальное число стандартных развертываний на ресурс	32.
Максимальное количество развертываний оптимизированных моделей	10.
Общее количество заданий обучения на каждый ресурс	100.
Максимальное количество одновременно выполняемых заданий обучения на одном ресурсе	Стандартный и глобальный учебный курс: 3; Обучение разработчика: 5
Максимально допустимое количество заданий обучения в очереди	20.
Максимальное количество файлов на ресурс (настройка)	100.
Общий размер всех файлов на ресурс (тонкая настройка)	1 ГБ.
Максимальное время задания обучения (задание завершается ошибкой при превышении)	720 часов.
Максимальный размер задания обучения `(tokens in training file) x (# of epochs)`	2 миллиарда.
Максимальный размер всех файлов на одну загрузку (Azure OpenAI при работе с вашими данными)	16 МБ.
Максимальное количество входных данных в массиве с `/embeddings`	2,048.
Максимальное количество `/chat/completions` сообщений	2,048.
Максимальное количество `/chat/completions` функций	128.
Максимальное количество `/chat/completions` инструментов	128.
Максимальное количество подготовленных единиц пропускной способности на развертывание	100,000.
Максимальное количество файлов на помощника или потока	10 000 при использовании API или портала Microsoft Foundry.
Максимальный размер файла для помощников и тонкой настройки	512 МБ через API 200 МБ через портал Foundry.
Максимальное количество запросов на отправку файлов на ресурс	30 запросов в секунду.
Максимальный размер всех отправленных файлов для помощников	200 ГБ.
Ограничение на токенов ассистентов	Предел в 2 000 000 маркеров.
`GPT-4o` и `GPT-4.1` максимальное количество изображений на запрос (количество изображений в массиве сообщений или журнале бесед)	50.
`GPT-4 vision-preview` и `GPT-4 turbo-2024-04-09` токены максимума по умолчанию	16. `max_tokens` Увеличьте значение параметра, чтобы избежать усеченных ответов. `GPT-4o` максимальное количество токенов по умолчанию составляет 4096.
Максимальное количество пользовательских заголовков в запросах API²	10.
Ограничение символов сообщения	1,048,576.
Размер сообщения для звуковых файлов	20 МБ.

¹ Квота Sora 2 RPM учитывает только запросы на видеозадания. Другие типы запросов не ограничены скоростью.

² Наши текущие API-интерфейсы позволяют использование до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки нет решения, кроме уменьшения размера заголовка. В будущих версиях API мы больше не будем передавать настроенные заголовки. Мы рекомендуем клиентам не зависеть от пользовательских заголовков в будущих системных архитектурах.

Замечание

Ограничения квоты могут быть изменены.

Ограничения скорости маршрутизатора модели

Модель	Тип развертывания	Rpm по умолчанию	TPM по умолчанию	Корпоративный и MCA-E RPM	Корпоративный и MCA-E TPM
`model-router` `(2025-11-18)`	DataZoneStandard	сто пятьдесят	150,000	300	300 000
`model-router` `(2025-11-18)`	GlobalStandard	250	250 000	400	400 000

Лимиты на партии

Имя ограничения	Предельное значение
Максимальное количество входных файлов для пакетной обработки — (без срока действия)	500
Максимальное количество входных файлов пакетной обработки — (установка срока действия)	10 000
Максимальный размер входного файла	200 МБ
Максимальный размер входного файла - Принеси своё собственное хранилище (BYOS)	1 ГБ
Максимальное количество запросов на файл	100,000

Замечание

Ограничения пакетного файла не применяются к выходным файлам (например, result.jsonlи error.jsonl). Чтобы снять ограничения на пакетный входной файл, используйте Batch с Azure Blob Storage.

Квота на пакетную обработку

В таблице показан предел квоты партии. Значения квот для глобального пакета представлены в виде поставленных в очередь токенов. При отправке файла для пакетной обработки число маркеров в файле учитывается. До тех пор, пока пакетное задание не достигнет конечного состояния, эти маркеры учитываются в пределах общего предельного количества маркеров в очереди.

Глобальная партия

Модель	Enterprise и MCA-E	По умолчанию	Ежемесячные подписки на основе кредитной карты	Подписки MSDN	Azure для учащихся, бесплатные пробные версии
`gpt-4.1`	5B	200M	50 млн	90K	N/A
`gpt-4.1 mini`	15B	1 млрд	50 млн	90K	N/A
`gpt-4.1-nano`	15B	1 млрд	50 млн	90K	N/A
`gpt-4o`	5B	200M	50 млн	90K	N/A
`gpt-4o-mini`	15B	1 млрд	50 млн	90K	N/A
`gpt-4-turbo`	300 млн	80M	40M	90K	N/A
`gpt-4`	150 млн	30 млн	5M	100 тыс.	N/A
`o3-mini`	15B	1 млрд	50 млн	90K	N/A
`o4-mini`	15B	1 млрд	50 млн	90K	N/A
`gpt-5`	5B	200M	50 млн	90K	N/A
`gpt-5.1`	5B	200M	50 млн	90K	N/A

B = миллиард | M = миллион | K = тысяча

Пакет зоны данных

Модель	Enterprise и MCA-E	По умолчанию	Ежемесячные подписки на основе кредитной карты	Подписки MSDN	Azure для учащихся, бесплатные пробные версии
`gpt-4.1`	500 млн	30 млн	30 млн	90K	N/A
`gpt-4.1-mini`	1,5 млрд	100 млн	50 млн	90K	N/A
`gpt-4o`	500 млн	30 млн	30 млн	90K	N/A
`gpt-4o-mini`	1,5 млрд	100 млн	50 млн	90K	N/A
`o3-mini`	1,5 млрд	100 млн	50 млн	90K	N/A
`gpt-5`	5B	200M	50 млн	90K	N/A
`gpt-5.1`	5B	200M	50 млн	90K	N/A

gpt-oss

Модель	Токены в минуту (TPM)	Запросы в минуту (RPM)
`gpt-oss-120b`	5 М	5 км

Уровни использования

Развертывания Global Standard используют глобальную инфраструктуру Azure. Они динамически направляют трафик клиентов в центр обработки данных с наилучшей доступностью для инференс-запросов клиента. Аналогичным образом развертывания Data Zone Standard позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных в пределах определенной Microsoft зоны данных с оптимальной доступностью для каждого запроса. Эта практика обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть большую вариативность в задержке ответа.

Уровни использования Azure OpenAI предназначены для обеспечения согласованной производительности для большинства клиентов с низким и средним уровнем трафика. Каждый уровень использования определяет максимальную пропускную способность (токены в минуту) с прогнозируемой задержкой. Когда использование остается на назначенном уровне, задержка остается стабильной, а время отклика последовательным.

Что произойдет, если вы превышаете уровень использования?

Если пропускная способность запроса превышает уровень использования (особенно в периоды высокого спроса), задержка ответа может значительно увеличиться.
Задержка может варьироваться и в некоторых случаях превышать в два раза значения, характерные для вашего уровня использования.
Эта изменчивость наиболее заметна для клиентов, которые демонстрируют высокий уровень устойчивого использования или имеют скачкообразные шаблоны трафика.

Глобальный стандарт, стандарт "Зона данных" и стандарт

Модель	Уровни использования в месяц
`gpt-5`	32 млрд токенов
`gpt-5-mini`	160 миллиардов токенов
`gpt-5-nano`	800 миллиардов токенов
`gpt-5-chat`	32 млрд токенов
`gpt-4` + `gpt-4-32k` (все версии)	6 миллиардов токенов
`gpt-4o`	12 миллиардов токенов
`gpt-4o-mini`	85 миллиардов токенов
`o3-mini`	50 миллиардов токенов
`o1`	4 млрд токенов
`o4-mini`	50 миллиардов токенов
`o3`	5 миллиардов токенов
`gpt-4.1`	30 миллиардов токенов
`gpt-4.1-mini`	150 миллиардов токенов
`gpt-4.1-nano`	550 миллиардов токенов

Основные передовые методы, чтобы оставаться в пределах лимитов скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:

Реализуйте в приложении логику повторных попыток.
Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
Протестируйте различные шаблоны увеличения нагрузки.
Увеличьте назначенную вашему развертыванию квоту. При необходимости переместите квоту из другого развертывания.

Запрос на увеличение квоты

Отправьте форму запроса на увеличение квоты для моделей Foundry, продаваемых непосредственно Azure, моделей Azure OpenAI и моделей Anthropic. За исключением антропических моделей, модели от партнеров и сообщества не поддерживают увеличение квоты.

Запросы на увеличение квот обрабатываются в том порядке, в который они получены, и приоритет передает клиентам, которые активно используют существующее выделение квот. Запросы, которые не соответствуют этому условию, могут быть отклонены.

Ограничения ёмкости региональной квоты

Доступность квоты можно просмотреть по регионам для подписки на портале Foundry.

Чтобы просмотреть емкость квоты по регионам для определенной модели или версии, можно запросить API емкости для подписки. Укажите subscriptionId, model_name и model_version, и API вернет доступную емкость для этой модели во всех регионах и типах развертывания, включенных в вашу подписку.

Замечание

В настоящее время портал Foundry и API для емкости возвращают сведения о квоте и емкости для моделей, которые выведены из эксплуатации и больше не доступны.

См. справочник по API.

Перед запуском примера выполните следующие действия:

Установка зависимостей: pip install azure-identity requests
Войдите с помощью идентификатора Azure, который может считывать возможности модели для подписки.

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Узнайте, как управлять квотой для развертываний Azure OpenAI.
Узнайте больше об основополагающих моделях, которые обеспечивают работу Azure OpenAI.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-08

Поделиться через

Azure OpenAI в моделях Foundry от Microsoft: квоты и ограничения

Область квоты

Выделение региональной квоты

Уровни квот

Что изменится для меня?

Как клиент автоматически перемещается с одного уровня на другой, например какие критерии изменения уровня?

Можно ли отказаться от автоматического обновления?

Можно ли запросить дополнительную квоту?

Как проверить уровень квоты подписки?

Справочник по уровню квот

Уровень 1

Справочник по квотам и ограничениям

Ограничения скорости маршрутизатора модели

Лимиты на партии

Квота на пакетную обработку

Глобальная партия

Пакет зоны данных

gpt-oss

Уровни использования

Что произойдет, если вы превышаете уровень использования?

Рекомендуемые действия при превышении уровня использования

Глобальный стандарт, стандарт "Зона данных" и стандарт

Основные передовые методы, чтобы оставаться в пределах лимитов скорости

Запрос на увеличение квоты

Ограничения ёмкости региональной квоты

Связанный контент

Обратная связь

Дополнительные ресурсы

Как клиент автоматически перемещается с одного уровня на другой, например какие критерии изменения уровня?