Поделиться через


Квоты и ограничения службы Azure OpenAI

В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI в службах ИИ Azure.

Справочник по квотам и ограничениям

В следующих разделах приведены краткие инструкции по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:

Название ограничения Значение ограничения
Ресурсы Azure OpenAI для каждого региона на каждой подписке Azure 30
Лимиты квоты DALL-E 2 по умолчанию 2 параллельных запроса
Стандартные ограничения квоты DALL-E 3 2 единицы емкости (6 запросов в минуту)
Ограничения квоты API преобразования речи в текст по умолчанию 3 запроса в минуту
Максимальное количество подсказочных токенов на один запрос Зависит от модели. Дополнительные сведения см. в разделе "Модели службы Azure OpenAI"
Максимальное количество развертываний уровня "Стандартный" для каждого ресурса 32
Максимальное число развертываний тонко настроенной модели 5
Общее количество заданий обучения на каждый ресурс 100
Максимальное количество одновременных обучающих заданий на один ресурс 1
Максимальное число обучающих задач в очереди 20
Максимальное количество файлов на ресурс (настройка) 50
Общий размер всех файлов на ресурс (тонкая настройка) 1 ГБ
Максимальное время задания обучения (задание завершится ошибкой, если оно будет превышено) 720 часов
Максимальный размер задачи обучения (количество токенов в тренировочном файле) умножить на (число эпох) 2 млрд
Максимальный размер всех файлов на загрузку (Azure OpenAI с вашими данными) 16 МБ
Максимальное количество входных данных в массиве с /embeddings 2048
Максимальное /chat/completions количество сообщений 2048
Максимальное /chat/completions число функций 128
Максимальное /chat completions количество инструментов 128
Максимальное количество единиц подготовленной пропускной способности на развертывание 100 000
Максимальное количество файлов на помощника и поток 10 000 при использовании API или портала Azure AI Foundry. В Azure OpenAI Studio ограничение составило 20.
Максимальный размер файла для Помощников и тонкой настройки 512 МБ

200 МБ с помощью портала Azure AI Foundry
Максимальный размер всех отправленных файлов для помощников 100 ГБ
Ограничение на токенов ассистентов 2 000 000 токенов
Максимальное количество изображений на запрос в GPT-4o (количество изображений в массиве сообщений/истории беседы) 50
Максимальные токены по умолчанию GPT-4 vision-preview и GPT-4 turbo-2024-04-09 16

max_tokens Увеличьте значение параметра, чтобы избежать усеченных ответов. По умолчанию максимальное количество токенов для GPT-4o — 4096.
Максимальное число пользовательских заголовков в запросах API1 10
Ограничение символов сообщения 1048576
Размер сообщения для звуковых файлов 20 МБ

1 Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки нет решения, кроме уменьшения размера заголовка. В будущих версиях API мы больше не будем передавать пользовательские заголовки. Мы рекомендуем клиентам не зависеть от настраиваемых заголовков в будущих системных архитектурах.

Примечание.

Ограничения квоты могут быть изменены.

Ограничения партии

Название ограничения Значение ограничения
Максимальное количество файлов на ресурс 500
Максимальный размер входного файла 200 МБ
Максимальное количество запросов на файл 100 000

Квота на пакетную обработку

В таблице показан лимит пакетной квоты. Значения квот для глобального пакета представлены в виде поставленных в очередь токенов. При отправке файла для пакетной обработки количество маркеров, присутствующих в файле, учитывается. До тех пор, пока пакетное задание не достигнет терминального состояния, эти токены будут учитываться против вашего общего лимита на очередь токенов.

Глобальная партия

Модель Соглашение Enterprise По умолчанию. Ежемесячные подписки на основе кредитной карты Подписки MSDN Azure для учащихся, бесплатные пробные версии
gpt-4o 5 B 200 М 50 М 90 K Не применимо
gpt-4o-mini 15 B 1 B 50 М 90 K Не применимо
gpt-4-turbo 300 М 80 М 40 М 90 K Не применимо
gpt-4 150 М 30 М 5 М 100 К Не применимо
gpt-35-turbo 10 B 1 B 100 М 2 млн 50 K
o3-mini 15 B 1 B 50 М 90 K Не применимо

B = миллиард | M = миллион | K = тысяча

Пакет зоны данных

Модель Соглашение Enterprise По умолчанию. Ежемесячные подписки на основе кредитной карты Подписки MSDN Azure для учащихся, бесплатные пробные версии
gpt-4o 500 М 30 М 30 М 90 K Не применимо
gpt-4o-mini 1.5 B 100 М 50 М 90 K Не применимо
o3-mini 1.5 B 100 М 50 М 90 K Не применимо

Серия GPT 4.1

Модель Ярус Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4.1 (2025-04-14) Корпоративный уровень 5 М 5 K
gpt-4.1 (2025-04-14) По умолчанию. 1 млн 1 К
gpt-4.1-nano (2025-04-14) Корпоративный уровень 5 М 5 K
gpt-4.1-nano (2025-04-14) По умолчанию. 1 млн 1 К
gpt-4.1-mini (2025-04-14) Корпоративный уровень 5 М 5 K
gpt-4.1-mini (2025-04-14) По умолчанию. 1 млн 1 К

глобальный стандарт предварительного обзора использования компьютера

Модель уровень Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
computer-use-preview Корпоративный уровень 30 М 300 К
computer-use-preview По умолчанию. 450 K 4.5 K

Просмотр глобального стандарта GPT-4.5

Модель Уровень Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4.5 Корпоративный уровень 200 K 200
gpt-4.5 По умолчанию. 150 K сто пятьдесят

o-series Ограничения скорости

Внимание

Соотношение RPM/TPM для квоты с моделями серии o1 работает иначе, чем со старыми моделями завершения чата.

  • Старые модели чата: 1 единица емкости = 6 RPM и 1000 TPM.
  • o1 и o1-preview: 1 единица емкости = 1 оборот в минуту и 6000 ударов в минуту.
  • o3 1 единица емкости = 1 RPM на 1000 TPM
  • o4-mini 1 единица емкости = 1 RPM на 1000 TPM
  • o3-mini: 1 единица емкости = 1 RPM на 10 000 TPM.
  • o1-mini: 1 единица емкости = 1 RPM на 10 000 TPM.

Это особенно важно для развертывания программируемой модели, так как это изменение в соотношении RPM/TPM может привести к случайному недостаточному выделению квоты, если всё ещё предполагается соотношение 1:1000, за которыми следуют более старые модели завершения чата.

Существует известная проблема с API квот и использования , в которой предполагается, что старое соотношение применяется к новым моделям серии o1. API возвращает правильное базовое значение ёмкости, но не применяет правильный коэффициент для точного вычисления TPM.

o-series глобальный стандарт

Модель Уровень Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
o4-mini Соглашение Enterprise 10 М 10 тыс.
o3 Соглашение Enterprise 10 М 10 тыс.
o3-mini Соглашение Enterprise 50 М 5 K
o1 & o1-preview Соглашение Enterprise 30 М 5 K
o1-mini Соглашение Enterprise 50 М 5 K
o4-mini По умолчанию. 1 млн 1 К
o3 По умолчанию. 1 млн 1 К
o3-mini По умолчанию. 5 М 500
o1 & o1-preview По умолчанию. 3 М 500
o1-mini По умолчанию. 5 М 500

o-series Стандарт зоны данных

Модель Ярус Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
o3-mini Соглашение Enterprise 20 млн. 2 K
o3-mini По умолчанию. 2 млн 200
o1 Соглашение Enterprise 6 М 1 К
o1 По умолчанию. 600 K 100

o1-preview и o1-mini standard

Модель Ярус Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
o1-preview Соглашение Enterprise 600 K 100
o1-mini Соглашение Enterprise 1 млн 100
o1-preview По умолчанию. 300 К 50
o1-mini По умолчанию. 500 K 50

Ограничения скорости gpt-4o и GPT-4 Turbo

gpt-4oи gpt-4o-minigpt-4 (turbo-2024-04-09) имеют уровни ограничений скорости с более высокими ограничениями для определенных типов клиентов.

gpt-4o и GPT-4 Turbo global standard

Модель Уровень Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4o Соглашение Enterprise 30 М 180 К
gpt-4o-mini Соглашение Enterprise 50 М 300 К
gpt-4 (turbo-2024-04-09) Соглашение Enterprise 2 млн 12 К
gpt-4o По умолчанию. 450 K 2,7 K
gpt-4o-mini По умолчанию. 2 млн 12 К
gpt-4 (turbo-2024-04-09) По умолчанию. 450 K 2,7 K

M = миллион | K = тысяча

Стандарт зоны данных gpt-4o

Модель Ярус Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4o Соглашение Enterprise 10 М 60 K
gpt-4o-mini Соглашение Enterprise 20 млн. 120 K
gpt-4o По умолчанию. 300 К 1.8 K
gpt-4o-mini По умолчанию. 1 млн 6 K

M = миллион | K = тысяча

gpt-4o standard

Модель Уровень Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4o Соглашение Enterprise 1 млн 6 K
gpt-4o-mini Соглашение Enterprise 2 млн 12 К
gpt-4o По умолчанию. 150 K 900
gpt-4o-mini По умолчанию. 450 K 2,7 K

M = миллион | K = тысяча

аудио gpt-4o

Пределы скорости для каждого развертывания аудиомодели gpt-4o составляют 100K TPM и 1K RPM. Во время предварительной версии портал Azure AI Foundry и API могут отображать неточные ограничения скорости. Даже если вы попытаетесь установить другой предел скорости, фактический предел скорости будет составлять 100K TPM и 1K RPM.

Модель Ярус Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4o-audio-preview По умолчанию. 450 K 1 К
gpt-4o-realtime-preview По умолчанию. 800 К 1 К
gpt-4o-mini-audio-preview По умолчанию. 2 млн 1 К
gpt-4o-mini-realtime-preview По умолчанию. 800 К 1 К

M = миллион | K = тысяча

Уровни использования

Глобальные стандартные развертывания используют глобальную инфраструктуру Azure, динамически маршрутизируя трафик клиентов в центр обработки данных с наилучшей доступностью для запросов на вывод. Аналогичным образом развертывания стандартной зоны данных позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных в пределах определенной корпорацией Майкрософт зоны данных с оптимальной доступностью для каждого запроса. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть большую вариативность в задержке ответа.

Лимит использования определяет уровень, превышение которого может привести к большей вариативности в задержке ответа у клиентов. Использование клиента рассчитывается для каждой модели и представляет собой общее количество токенов, потребленных через все развертывания, подписки и регионы для данного арендатора.

Примечание.

Уровни использования применяются только к стандартным типам развертывания, стандартной зоне данных и глобальным стандартным типам развертывания. Уровни использования не применяются к глобальным пакетным и предоставленным развертываниям с пропускной способностью.

GPT-4o глобальный стандарт, стандарт зоны данных и стандарт

Модель Категории использования в месяц
gpt-4o 12 миллиардов токенов
gpt-4o-mini 85 миллиардов токенов

Стандарт GPT-4

Модель Категории использования в месяц
gpt-4 + gpt-4-32k (все версии) 6 миллиардов

Другие типы предложений

Если подписка Azure связана с определенными типами предложений , максимальные значения квоты ниже значений, указанных в приведенных выше таблицах.

Ярус Ограничение квоты в токенах в минуту (TPM)
Azure for Students 1 K (все модели)
Exception o-series & GPT-4.1 & GPT 4.5 Предварительный просмотр: 0
MSDN GPT-4o-mini: 200 K
GPT 3.5 Turbo Series: 200 K
Серия GPT-4: 50 K
предпросмотр использования компьютера: 8 КБ
gpt-4o-realtime-preview: 1 К
o-серия: 0
GPT 4.5 Предварительный просмотр: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Pay-as-you-go GPT-4o-mini: 200 K
GPT 3.5 Turbo Серия: 200 K
Серия GPT-4: 50 K
предварительный просмотр использования компьютера: 30 K
o-серия: 0
GPT 4.5 Предварительный просмотр: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini: 200 K
GPT 3.5 Turbo Серия: 200 K
Серия GPT-4: 50 K
CSP Integration Sandbox * Все модели: 0
Lightweight trial
Free Trials
Azure Pass
Все модели: 0

*Это применимо только к небольшому числу устаревших подписок CSP в песочнице. Используйте следующий запрос, чтобы определить, что quotaId связано с вашей подпиской.

Чтобы определить тип предложения, связанный с вашей подпиской, вы можете проверить вашу quotaId. Если ваш quotaId отсутствует в этой таблице, ваша подписка соответствует стандартной квоте.

Справочник по API

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

Выходные данные

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
Распределение квот/Тип предложения Идентификатор квоты подписки
Предприятие EnterpriseAgreement_2014-09-01
Оплата по мере использования PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
Интеграционная песочница CSP CSPDEVTEST_2018-05-01
Azure для учащихся AzureForStudents_2018-01-01
Пробная версия FreeTrial_2014-09-01
Пропуск Azure AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
По умолчанию. Любой идентификатор квоты, не указанный в этой таблице.

Основные передовые методы, чтобы оставаться в пределах лимитов скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:

  • Реализуйте в приложении логику повторных попыток.
  • Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
  • Протестируйте различные шаблоны увеличения нагрузки.
  • Увеличьте назначенную вашему развертыванию квоту. При необходимости переместите квоту из другого развертывания.

Как запросить увеличение квоты

Запросы на увеличение квоты можно отправить с помощью формы запроса на увеличение квоты. Из-за высокого спроса запросы на увеличение квот принимаются и будут заполнены в том порядке, в который они получены. Приоритет предоставляется клиентам, которые создают трафик, который потребляет существующее выделение квот, и ваш запрос может быть отклонен, если это условие не выполнено.

Для других ограничений скорости отправьте запрос на обслуживание.

Ограничения ёмкости региональной квоты

Доступность квоты по регионам для подписки можно просмотреть на портале Azure AI Foundry.

Кроме того, чтобы просмотреть емкость квоты по регионам для конкретной модели или версии, можно запросить API емкости для подписки. Предоставьте subscriptionId, model_name, и model_version, и API вернет доступную емкость для этой модели во всех регионах и типах развертывания для вашей подписки.

Примечание.

В настоящее время как портал Azure AI Foundry, так и API квот/емкости возвращают сведения о квоте и емкости для моделей, которые выведены из эксплуатации и больше не доступны.

Справочник по API

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Следующие шаги

Узнайте, как управлять квотой для развертываний Azure OpenAI. Дополнительные сведения о базовых моделях, использующих Azure OpenAI.