Поделиться через


Azure OpenAI в моделях Foundry от Microsoft: квоты и ограничения

В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI.

Область квоты

Квоты и ограничения не применяются на уровне арендатора. Вместо этого максимальный уровень ограничений квоты ограничен на уровне подписки Azure.

Выделение региональной квоты

Маркеры в минуту (TPM) и ограничения запросов в минуту (RPM) определяются в каждом регионе, на подписку и на модель или тип развертывания.

Например, если модель gpt-4.1 Глобальный Стандарт указана квотой 5 млн TPM и 5000 RPM, тогда в каждом регионе, где эта модель или тип развертывания доступен, есть собственный выделенный пул квот в таком объеме для каждой из ваших подписок Azure. В рамках одной подписки Azure можно использовать большее количество общих квот TPM и RPM для заданной модели и типа развертывания, если у вас есть ресурсы и развертывания модели, распределенные по нескольким регионам.

Уровни квот

Мы представляем категории квот для повышения качества работы с моделями Foundry и снижения фрикции по мере роста рабочих нагрузок. Теперь квоты будут увеличиваться автоматически с использованием, что помогает избежать ошибок ограничения скорости, а также создания более справедливой среды для всех пользователей. Семь уровней будут доступны: бесплатный уровень и уровни 1–6 — с уровнем 6, предлагающим самые высокие квоты. Первоначальный назначенный уровень клиента основан на текущем использовании этой модели и их текущей связи с Microsoft, например состояние Соглашения Enterprise (EA или MCA-E). 

Что изменится для меня?

Ранее Foundry предлагал только типы уровней квот по умолчанию и Enterprise для предложений с оплатой по мере использования, с большим разрывом между уровнями и более длительным процессом запроса увеличения уровня квоты. При использовании уровней квот всем пользователям назначаются уровни с квотами, равными их предыдущим уровням или выше. Все ранее утвержденные увеличение квоты сохраняются и не будут сокращены. По мере роста использования Foundry автоматически увеличивает квоты путем перемещения пользователей на более высокие уровни, а дополнительная квота по-прежнему может быть запрошена через форму квоты.

Как клиент автоматически перемещается с одного уровня на другой, например какие критерии изменения уровня? 

Автоматическое обновление уровня основано главным образом на тенденциях потребления клиентов в моделях Foundry с течением времени. Если использование клиента увеличивается таким образом, что текущий уровень квот ограничивает их способность использовать модели Foundry, система автоматически обновит клиента до следующего уровня выше. Кроме того, учитывается связь клиента с Microsoft. Клиентам с корпоративными связями (включая EA и MCA-E) с Microsoft назначаются более высокие уровни квот. Кроме того, Microsoft также рассмотрит историю платежей клиента, чтобы определить право на автоматическое обновление. 

Можно ли отказаться от автоматического обновления?

Да, вы можете отказаться от автоматического обновления, и вы останетесь на текущем уровне независимо от изменений в потреблении. Мы понимаем, что некоторые из наших клиентов используют квоту для управления выставлением счетов. Однако это не рекомендация Azure, мы понимаем, что если ваша система настроена таким образом, что мы не хотим ее разорвать. Дополнительные сведения об управлении выставлением счетов и рекомендациях см. здесь: Управление затратами.

Чтобы отказаться, можно задать следующий флаг NoAutoUpgrade:

curl -X PATCH \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "properties": {
      "tierUpgradePolicy": "NoAutoUpgrade"
    }
  }'

Замечание

Функция отказа является предварительной версией и может быть подвержена изменению или удалению в будущем.

Можно ли запросить дополнительную квоту?

Да, используя форму запроса квоты , можно всегда запрашивать больше квоты. Если запрос утвержден, текущий уровень останется прежним, но с большей квотой.

Как проверить уровень квоты подписки?

В настоящее время можно проверить уровень вашей квоты через API плоскости управления:

curl -X GET \
  "https://management.azure.com/subscriptions/9d295860-44e3-44bb-ade9-235cc45c68ba/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
  -H "Content-Type: application/json"

Справочник по уровню квот

Уровень 1

Имя модели Тип развертывания Запросы в минуту (RPM) Токены за минуту (TPM)
codex-mini GlobalStandard 1,000 1,000,000
computer-use-preview GlobalStandard 4,500 450 000
gpt-4.1 DataZoneStandard 300 300 000
gpt-4.1 GlobalStandard 1,000 1,000,000
gpt-4.1-mini DataZoneStandard 2 000 2,000,000
gpt-4.1-mini GlobalStandard 5,000 5 000 000
gpt-4.1-mini Стандарт 6,000 6,000,000
gpt-4.1-nano DataZoneStandard 2 000 2,000,000
gpt-4.1-nano GlobalStandard 5,000 5 000 000
gpt-4o DataZoneStandard 300 / 10 сек. 300 000
gpt-4o-аудио-превью GlobalStandard 30000 / 10s 30,000,000
гпт-4о-мини DataZoneStandard 10 000 1,000,000
гпт-4о-мини GlobalStandard 20,000 2,000,000
gpt-4o-мини-аудио-превью GlobalStandard 30000 / 10s 30,000,000
gpt-4o-mini-realtime-preview GlobalStandard 36 6,000
gpt-4o-realtime-preview GlobalStandard 36 6,000
gpt-5 DataZoneStandard 3,000 300 000
gpt-5 GlobalStandard 10 000 1,000,000
gpt-5-chat GlobalStandard 1,000 1,000,000
gpt-5-codex GlobalStandard 1,000 1,000,000
gpt-5-mini DataZoneStandard 300 300 000
gpt-5-mini GlobalStandard 1,000 1,000,000
gpt-5-nano DataZoneStandard 2 000 2,000,000
gpt-5-nano GlobalStandard 5,000 5 000 000
gpt-5-pro GlobalStandard 1600 160 000
gpt-5.1 DataZoneStandard 3,000 300 000
gpt-5.1 GlobalStandard 10 000 1,000,000
gpt-5.1-chat GlobalStandard 10 000 1,000,000
gpt-5.1-codex DataZoneStandard 3,000 300 000
gpt-5.1-codex GlobalStandard 1,000 1,000,000
gpt-5.1-codex-max GlobalStandard 10 000 1,000,000
gpt-5.1-codex-mini GlobalStandard 1,000 1,000,000
gpt-5.2 DataZoneStandard 3,000 300 000
gpt-5.2 GlobalStandard 10 000 1,000,000
gpt-5.2-chat GlobalStandard 10 000 1,000,000
gpt-5.3-chat GlobalStandard 1,000 1,000,000
gpt-5.2-codex GlobalStandard 10 000 1,000,000
gpt-5.3-codex GlobalStandard 10 000 1,000,000
gpt-5.4 DataZoneStandard 300 300 000
gpt-5.4 GlobalStandard 10 000 1,000,000
gpt-5.4-pro GlobalStandard 160 160 000
gpt-5.4-mini GlobalStandard 1,000 1,000,000
gpt-5.4-nano DataZoneStandard 2 000 2,000,000
gpt-5.4-nano GlobalStandard 5,000 5 000 000
gpt-audio GlobalStandard 30000 / 10s 30,000,000
gpt-image-1 GlobalStandard 9 -
gpt-image-1-mini GlobalStandard 12 -
gpt-image-1.5 DataZoneStandard 3 -
gpt-image-1.5 GlobalStandard 9 -
gpt-image-2 DataZoneStandard 3 -
gpt-image-2 GlobalStandard 9 -
gpt-realtime GlobalStandard 200 100,000
model-router DataZoneStandard сто пятьдесят 150,000
o1 DataZoneStandard 100 600,000
o1 GlobalStandard 500 3 000 000
o3 DataZoneStandard 300 300 000
o3 GlobalStandard 1,000 1,000,000
o3-глубокие исследования GlobalStandard 3,000 3 000 000
o3-mini DataZoneStandard 200 2,000,000
o3-mini GlobalStandard 500 5 000 000
o3-pro GlobalStandard 160 1 600 000
o4-mini DataZoneStandard 300 / 10 сек. 300 000
o4-mini GlobalStandard 1,000 1,000,000
текст-встраивание-3-большой DataZoneStandard 1,000 1,000,000
текст-встраивание-3-большой GlobalStandard 1000/10 секунд 1,000,000
Встраивание текста - версия 3 - малая DataZoneStandard 1,000 1,000,000
Встраивание текста - версия 3 - малая GlobalStandard 1000/10 секунд 1,000,000

Справочник по квотам и ограничениям

В следующем разделе представлено краткое руководство по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:

Имя ограничения Предельное значение
Ресурсы Azure OpenAI на каждый регион, на каждую подписку Azure 30.
Ограничения квоты GPT-image-1 по умолчанию 9 запросов в минуту
Ограничения квоты по умолчанию GPT-image-1-mini 12 запросов в минуту
Ограничения квоты GPT-image-1.5 по умолчанию 9 запросов в минуту
Ограничения квоты GPT-image-2 по умолчанию 9 запросов в минуту
Ограничения квоты Sora по умолчанию 60 запросов в минуту.
Ограничения квоты Sora 2 по умолчанию 2 запросов на задания1 в минуту
Ограничения квоты API преобразования речи в текст 3 запроса в минуту.
Максимальное количество подсказочных токенов на один запрос Зависит от модели. Дополнительные сведения см. в разделе модели Azure OpenAI.
Максимальное число стандартных развертываний на ресурс 32.
Максимальное количество развертываний оптимизированных моделей 10.
Общее количество заданий обучения на каждый ресурс 100.
Максимальное количество одновременно выполняемых заданий обучения на одном ресурсе Стандартный и глобальный учебный курс: 3;
Обучение разработчика: 5
Максимально допустимое количество заданий обучения в очереди 20.
Максимальное количество файлов на ресурс (настройка) 100.
Общий размер всех файлов на ресурс (тонкая настройка) 1 ГБ.
Максимальное время задания обучения (задание завершается ошибкой при превышении) 720 часов.
Максимальный размер задания обучения (tokens in training file) x (# of epochs) 2 миллиарда.
Максимальный размер всех файлов на одну загрузку (Azure OpenAI при работе с вашими данными) 16 МБ.
Максимальное количество входных данных в массиве с /embeddings 2,048.
Максимальное количество /chat/completions сообщений 2,048.
Максимальное количество /chat/completions функций 128.
Максимальное количество /chat/completions инструментов 128.
Максимальное количество подготовленных единиц пропускной способности на развертывание 100,000.
Максимальное количество файлов на помощника или потока 10 000 при использовании API или портала Microsoft Foundry.
Максимальный размер файла для помощников и тонкой настройки 512 МБ через API

200 МБ через портал Foundry.
Максимальное количество запросов на отправку файлов на ресурс 30 запросов в секунду.
Максимальный размер всех отправленных файлов для помощников 200 ГБ.
Ограничение на токенов ассистентов Предел в 2 000 000 маркеров.
GPT-4o и GPT-4.1 максимальное количество изображений на запрос (количество изображений в массиве сообщений или журнале бесед) 50.
GPT-4 vision-preview и GPT-4 turbo-2024-04-09 токены максимума по умолчанию 16.

max_tokens Увеличьте значение параметра, чтобы избежать усеченных ответов. GPT-4o максимальное количество токенов по умолчанию составляет 4096.
Максимальное количество пользовательских заголовков в запросах API2 10.
Ограничение символов сообщения 1,048,576.
Размер сообщения для звуковых файлов 20 МБ.

1 Квота Sora 2 RPM учитывает только запросы на видеозадания. Другие типы запросов не ограничены скоростью.

2 Наши текущие API-интерфейсы позволяют использование до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки нет решения, кроме уменьшения размера заголовка. В будущих версиях API мы больше не будем передавать настроенные заголовки. Мы рекомендуем клиентам не зависеть от пользовательских заголовков в будущих системных архитектурах.

Замечание

Ограничения квоты могут быть изменены.

Ограничения скорости маршрутизатора модели

Модель Тип развертывания Rpm по умолчанию TPM по умолчанию Корпоративный и MCA-E RPM Корпоративный и MCA-E TPM
model-router
(2025-11-18)
DataZoneStandard сто пятьдесят 150,000 300 300 000
model-router
(2025-11-18)
GlobalStandard 250 250 000 400 400 000

Лимиты на партии

Имя ограничения Предельное значение
Максимальное количество входных файлов для пакетной обработки — (без срока действия) 500
Максимальное количество входных файлов пакетной обработки — (установка срока действия) 10 000
Максимальный размер входного файла 200 МБ
Максимальный размер входного файла - Принеси своё собственное хранилище (BYOS) 1 ГБ
Максимальное количество запросов на файл 100,000

Замечание

Ограничения пакетного файла не применяются к выходным файлам (например, result.jsonlи error.jsonl). Чтобы снять ограничения на пакетный входной файл, используйте Batch с Azure Blob Storage.

Квота на пакетную обработку

В таблице показан предел квоты партии. Значения квот для глобального пакета представлены в виде поставленных в очередь токенов. При отправке файла для пакетной обработки число маркеров в файле учитывается. До тех пор, пока пакетное задание не достигнет конечного состояния, эти маркеры учитываются в пределах общего предельного количества маркеров в очереди.

Глобальная партия

Модель Enterprise и MCA-E По умолчанию Ежемесячные подписки на основе кредитной карты Подписки MSDN Azure для учащихся, бесплатные пробные версии
gpt-4.1 5B 200M 50 млн 90K N/A
gpt-4.1 mini 15B 1 млрд 50 млн 90K N/A
gpt-4.1-nano 15B 1 млрд 50 млн 90K N/A
gpt-4o 5B 200M 50 млн 90K N/A
gpt-4o-mini 15B 1 млрд 50 млн 90K N/A
gpt-4-turbo 300 млн 80M 40M 90K N/A
gpt-4 150 млн 30 млн 5M 100 тыс. N/A
o3-mini 15B 1 млрд 50 млн 90K N/A
o4-mini 15B 1 млрд 50 млн 90K N/A
gpt-5 5B 200M 50 млн 90K N/A
gpt-5.1 5B 200M 50 млн 90K N/A

B = миллиард | M = миллион | K = тысяча

Пакет зоны данных

Модель Enterprise и MCA-E По умолчанию Ежемесячные подписки на основе кредитной карты Подписки MSDN Azure для учащихся, бесплатные пробные версии
gpt-4.1 500 млн 30 млн 30 млн 90K N/A
gpt-4.1-mini 1,5 млрд 100 млн 50 млн 90K N/A
gpt-4o 500 млн 30 млн 30 млн 90K N/A
gpt-4o-mini 1,5 млрд 100 млн 50 млн 90K N/A
o3-mini 1,5 млрд 100 млн 50 млн 90K N/A
gpt-5 5B 200M 50 млн 90K N/A
gpt-5.1 5B 200M 50 млн 90K N/A

gpt-oss

Модель Токены в минуту (TPM) Запросы в минуту (RPM)
gpt-oss-120b 5 М 5 км

Уровни использования

Развертывания Global Standard используют глобальную инфраструктуру Azure. Они динамически направляют трафик клиентов в центр обработки данных с наилучшей доступностью для инференс-запросов клиента. Аналогичным образом развертывания Data Zone Standard позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных в пределах определенной Microsoft зоны данных с оптимальной доступностью для каждого запроса. Эта практика обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть большую вариативность в задержке ответа.

Уровни использования Azure OpenAI предназначены для обеспечения согласованной производительности для большинства клиентов с низким и средним уровнем трафика. Каждый уровень использования определяет максимальную пропускную способность (токены в минуту) с прогнозируемой задержкой. Когда использование остается на назначенном уровне, задержка остается стабильной, а время отклика последовательным.

Что произойдет, если вы превышаете уровень использования?

  • Если пропускная способность запроса превышает уровень использования (особенно в периоды высокого спроса), задержка ответа может значительно увеличиться.
  • Задержка может варьироваться и в некоторых случаях превышать в два раза значения, характерные для вашего уровня использования.
  • Эта изменчивость наиболее заметна для клиентов, которые демонстрируют высокий уровень устойчивого использования или имеют скачкообразные шаблоны трафика.

Если вы столкнулись с 429 ошибками или заметите повышенную вариативность задержки, выполните следующие действия.

  • Запросить увеличение квоты: посетите портал Azure, чтобы запросить более высокую квоту для подписки.
  • Рассмотрите возможность обновления до премиального предложения (PTU): для рабочих нагрузок, критически важных для задержки, или больших объемов рабочих нагрузок, обновитесь до единиц предоставленной пропускной способности (PTU). PTU предоставляет выделенные ресурсы, гарантированную емкость и прогнозируемую задержку даже в большом масштабе. Это лучший выбор для критически важных приложений, требующих согласованной производительности.
  • Мониторинг использования: регулярно просматривайте метрики использования на портале Azure, чтобы убедиться, что вы работаете в пределах уровня. При необходимости настройте рабочую нагрузку или стратегию развертывания.

Вы можете получать ответы 429 (Too Many Requests) даже если метрики использования токенов отображаются ниже вашего лимита.

Это может произойти в следующих сценариях:

  • Запросы отклонены из-за ограничений длины входных данных или контекста (HTTP 400). Эти запросы не выставляются счётом и могут не отражаться в метриках использования токенов, но они по-прежнему могут засчитываться на ограничение скорости.
  • Запросы оцениваются на основе потенциального использования маркеров (например, max_tokensдаже если маркеры в конечном счете не создаются).
  • Распределенное поведение с ограничением скорости, когда принудительное применение не может быть совершенно точным или немедленно отражено в агрегированных метриках.

Ограничение использования определяет уровень использования, выше которого клиенты могут видеть большую дисперсию в задержке ответа. Использование клиента определяется для каждой модели. Это общее количество токенов, потребляемых во всех развертываниях, подписках и регионах для данного клиента.

Замечание

Уровни использования применяются только к типам развертывания Standard, Data Zone Standard и Global Standard. Уровни использования не применяются к глобальным пакетным и предоставленным развертываниям с пропускной способностью.

Глобальный стандарт, стандарт "Зона данных" и стандарт

Модель Уровни использования в месяц
gpt-5 32 млрд токенов
gpt-5-mini 160 миллиардов токенов
gpt-5-nano 800 миллиардов токенов
gpt-5-chat 32 млрд токенов
gpt-4 + gpt-4-32k (все версии) 6 миллиардов токенов
gpt-4o 12 миллиардов токенов
gpt-4o-mini 85 миллиардов токенов
o3-mini 50 миллиардов токенов
o1 4 млрд токенов
o4-mini 50 миллиардов токенов
o3 5 миллиардов токенов
gpt-4.1 30 миллиардов токенов
gpt-4.1-mini 150 миллиардов токенов
gpt-4.1-nano 550 миллиардов токенов

Основные передовые методы, чтобы оставаться в пределах лимитов скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:

  • Реализуйте в приложении логику повторных попыток.
  • Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
  • Протестируйте различные шаблоны увеличения нагрузки.
  • Увеличьте назначенную вашему развертыванию квоту. При необходимости переместите квоту из другого развертывания.

Запрос на увеличение квоты

Отправьте форму запроса на увеличение квоты для моделей Foundry, продаваемых непосредственно Azure, моделей Azure OpenAI и моделей Anthropic. За исключением антропических моделей, модели от партнеров и сообщества не поддерживают увеличение квоты.

Запросы на увеличение квот обрабатываются в том порядке, в который они получены, и приоритет передает клиентам, которые активно используют существующее выделение квот. Запросы, которые не соответствуют этому условию, могут быть отклонены.

Ограничения ёмкости региональной квоты

Доступность квоты можно просмотреть по регионам для подписки на портале Foundry.

Чтобы просмотреть емкость квоты по регионам для определенной модели или версии, можно запросить API емкости для подписки. Укажите subscriptionId, model_name и model_version, и API вернет доступную емкость для этой модели во всех регионах и типах развертывания, включенных в вашу подписку.

Замечание

В настоящее время портал Foundry и API для емкости возвращают сведения о квоте и емкости для моделей, которые выведены из эксплуатации и больше не доступны.

См. справочник по API.

Перед запуском примера выполните следующие действия:

  • Установка зависимостей: pip install azure-identity requests
  • Войдите с помощью идентификатора Azure, который может считывать возможности модели для подписки.
import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))