Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI в службах ИИ Azure.
Справочник по квотам и ограничениям
В следующих разделах приведены краткие инструкции по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:
Название ограничения | Значение ограничения |
---|---|
Ресурсы Azure OpenAI для каждого региона на каждой подписке Azure | 30 |
Лимиты квоты DALL-E 2 по умолчанию | 2 параллельных запроса |
Стандартные ограничения квоты DALL-E 3 | 2 единицы емкости (6 запросов в минуту) |
Ограничения квоты API преобразования речи в текст по умолчанию | 3 запроса в минуту |
Максимальное количество подсказочных токенов на один запрос | Зависит от модели. Дополнительные сведения см. в разделе "Модели службы Azure OpenAI" |
Максимальное количество развертываний уровня "Стандартный" для каждого ресурса | 32 |
Максимальное число развертываний тонко настроенной модели | 5 |
Общее количество заданий обучения на каждый ресурс | 100 |
Максимальное количество одновременных обучающих заданий на один ресурс | 1 |
Максимальное число обучающих задач в очереди | 20 |
Максимальное количество файлов на ресурс (настройка) | 50 |
Общий размер всех файлов на ресурс (тонкая настройка) | 1 ГБ |
Максимальное время задания обучения (задание завершится ошибкой, если оно будет превышено) | 720 часов |
Максимальный размер задачи обучения (количество токенов в тренировочном файле) умножить на (число эпох) | 2 млрд |
Максимальный размер всех файлов на загрузку (Azure OpenAI с вашими данными) | 16 МБ |
Максимальное количество входных данных в массиве с /embeddings |
2048 |
Максимальное /chat/completions количество сообщений |
2048 |
Максимальное /chat/completions число функций |
128 |
Максимальное /chat completions количество инструментов |
128 |
Максимальное количество единиц подготовленной пропускной способности на развертывание | 100 000 |
Максимальное количество файлов на помощника и поток | 10 000 при использовании API или портала Azure AI Foundry. В Azure OpenAI Studio ограничение составило 20. |
Максимальный размер файла для Помощников и тонкой настройки | 512 МБ 200 МБ с помощью портала Azure AI Foundry |
Максимальный размер всех отправленных файлов для помощников | 100 ГБ |
Ограничение на токенов ассистентов | 2 000 000 токенов |
Максимальное количество изображений на запрос в GPT-4o (количество изображений в массиве сообщений/истории беседы) | 50 |
Максимальные токены по умолчанию GPT-4 vision-preview и GPT-4 turbo-2024-04-09 |
16 max_tokens Увеличьте значение параметра, чтобы избежать усеченных ответов. По умолчанию максимальное количество токенов для GPT-4o — 4096. |
Максимальное число пользовательских заголовков в запросах API1 | 10 |
Ограничение символов сообщения | 1048576 |
Размер сообщения для звуковых файлов | 20 МБ |
1 Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки нет решения, кроме уменьшения размера заголовка. В будущих версиях API мы больше не будем передавать пользовательские заголовки. Мы рекомендуем клиентам не зависеть от настраиваемых заголовков в будущих системных архитектурах.
Примечание.
Ограничения квоты могут быть изменены.
Ограничения партии
Название ограничения | Значение ограничения |
---|---|
Максимальное количество файлов на ресурс | 500 |
Максимальный размер входного файла | 200 МБ |
Максимальное количество запросов на файл | 100 000 |
Квота на пакетную обработку
В таблице показан лимит пакетной квоты. Значения квот для глобального пакета представлены в виде поставленных в очередь токенов. При отправке файла для пакетной обработки количество маркеров, присутствующих в файле, учитывается. До тех пор, пока пакетное задание не достигнет терминального состояния, эти токены будут учитываться против вашего общего лимита на очередь токенов.
Глобальная партия
Модель | Соглашение Enterprise | По умолчанию. | Ежемесячные подписки на основе кредитной карты | Подписки MSDN | Azure для учащихся, бесплатные пробные версии |
---|---|---|---|---|---|
gpt-4o |
5 B | 200 М | 50 М | 90 K | Не применимо |
gpt-4o-mini |
15 B | 1 B | 50 М | 90 K | Не применимо |
gpt-4-turbo |
300 М | 80 М | 40 М | 90 K | Не применимо |
gpt-4 |
150 М | 30 М | 5 М | 100 К | Не применимо |
gpt-35-turbo |
10 B | 1 B | 100 М | 2 млн | 50 K |
o3-mini |
15 B | 1 B | 50 М | 90 K | Не применимо |
B = миллиард | M = миллион | K = тысяча
Пакет зоны данных
Модель | Соглашение Enterprise | По умолчанию. | Ежемесячные подписки на основе кредитной карты | Подписки MSDN | Azure для учащихся, бесплатные пробные версии |
---|---|---|---|---|---|
gpt-4o |
500 М | 30 М | 30 М | 90 K | Не применимо |
gpt-4o-mini |
1.5 B | 100 М | 50 М | 90 K | Не применимо |
o3-mini |
1.5 B | 100 М | 50 М | 90 K | Не применимо |
Серия GPT 4.1
Модель | Ярус | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4.1 (2025-04-14) |
Корпоративный уровень | 5 М | 5 K |
gpt-4.1 (2025-04-14) |
По умолчанию. | 1 млн | 1 К |
gpt-4.1-nano (2025-04-14) |
Корпоративный уровень | 5 М | 5 K |
gpt-4.1-nano (2025-04-14) |
По умолчанию. | 1 млн | 1 К |
gpt-4.1-mini (2025-04-14) |
Корпоративный уровень | 5 М | 5 K |
gpt-4.1-mini (2025-04-14) |
По умолчанию. | 1 млн | 1 К |
глобальный стандарт предварительного обзора использования компьютера
Модель | уровень | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
computer-use-preview |
Корпоративный уровень | 30 М | 300 К |
computer-use-preview |
По умолчанию. | 450 K | 4.5 K |
Просмотр глобального стандарта GPT-4.5
Модель | Уровень | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4.5 |
Корпоративный уровень | 200 K | 200 |
gpt-4.5 |
По умолчанию. | 150 K | сто пятьдесят |
o-series
Ограничения скорости
Внимание
Соотношение RPM/TPM для квоты с моделями серии o1 работает иначе, чем со старыми моделями завершения чата.
- Старые модели чата: 1 единица емкости = 6 RPM и 1000 TPM.
- o1 и o1-preview: 1 единица емкости = 1 оборот в минуту и 6000 ударов в минуту.
- o3 1 единица емкости = 1 RPM на 1000 TPM
- o4-mini 1 единица емкости = 1 RPM на 1000 TPM
- o3-mini: 1 единица емкости = 1 RPM на 10 000 TPM.
- o1-mini: 1 единица емкости = 1 RPM на 10 000 TPM.
Это особенно важно для развертывания программируемой модели, так как это изменение в соотношении RPM/TPM может привести к случайному недостаточному выделению квоты, если всё ещё предполагается соотношение 1:1000, за которыми следуют более старые модели завершения чата.
Существует известная проблема с API квот и использования , в которой предполагается, что старое соотношение применяется к новым моделям серии o1. API возвращает правильное базовое значение ёмкости, но не применяет правильный коэффициент для точного вычисления TPM.
o-series
глобальный стандарт
Модель | Уровень | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
o4-mini |
Соглашение Enterprise | 10 М | 10 тыс. |
o3 |
Соглашение Enterprise | 10 М | 10 тыс. |
o3-mini |
Соглашение Enterprise | 50 М | 5 K |
o1 & o1-preview |
Соглашение Enterprise | 30 М | 5 K |
o1-mini |
Соглашение Enterprise | 50 М | 5 K |
o4-mini |
По умолчанию. | 1 млн | 1 К |
o3 |
По умолчанию. | 1 млн | 1 К |
o3-mini |
По умолчанию. | 5 М | 500 |
o1 & o1-preview |
По умолчанию. | 3 М | 500 |
o1-mini |
По умолчанию. | 5 М | 500 |
o-series
Стандарт зоны данных
Модель | Ярус | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
o3-mini |
Соглашение Enterprise | 20 млн. | 2 K |
o3-mini |
По умолчанию. | 2 млн | 200 |
o1 |
Соглашение Enterprise | 6 М | 1 К |
o1 |
По умолчанию. | 600 K | 100 |
o1-preview и o1-mini standard
Модель | Ярус | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
o1-preview |
Соглашение Enterprise | 600 K | 100 |
o1-mini |
Соглашение Enterprise | 1 млн | 100 |
o1-preview |
По умолчанию. | 300 К | 50 |
o1-mini |
По умолчанию. | 500 K | 50 |
Ограничения скорости gpt-4o и GPT-4 Turbo
gpt-4o
и gpt-4o-mini
gpt-4
(turbo-2024-04-09
) имеют уровни ограничений скорости с более высокими ограничениями для определенных типов клиентов.
gpt-4o и GPT-4 Turbo global standard
Модель | Уровень | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4o |
Соглашение Enterprise | 30 М | 180 К |
gpt-4o-mini |
Соглашение Enterprise | 50 М | 300 К |
gpt-4 (turbo-2024-04-09) |
Соглашение Enterprise | 2 млн | 12 К |
gpt-4o |
По умолчанию. | 450 K | 2,7 K |
gpt-4o-mini |
По умолчанию. | 2 млн | 12 К |
gpt-4 (turbo-2024-04-09) |
По умолчанию. | 450 K | 2,7 K |
M = миллион | K = тысяча
Стандарт зоны данных gpt-4o
Модель | Ярус | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4o |
Соглашение Enterprise | 10 М | 60 K |
gpt-4o-mini |
Соглашение Enterprise | 20 млн. | 120 K |
gpt-4o |
По умолчанию. | 300 К | 1.8 K |
gpt-4o-mini |
По умолчанию. | 1 млн | 6 K |
M = миллион | K = тысяча
gpt-4o standard
Модель | Уровень | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4o |
Соглашение Enterprise | 1 млн | 6 K |
gpt-4o-mini |
Соглашение Enterprise | 2 млн | 12 К |
gpt-4o |
По умолчанию. | 150 K | 900 |
gpt-4o-mini |
По умолчанию. | 450 K | 2,7 K |
M = миллион | K = тысяча
аудио gpt-4o
Пределы скорости для каждого развертывания аудиомодели gpt-4o
составляют 100K TPM и 1K RPM. Во время предварительной версии портал Azure AI Foundry и API могут отображать неточные ограничения скорости. Даже если вы попытаетесь установить другой предел скорости, фактический предел скорости будет составлять 100K TPM и 1K RPM.
Модель | Ярус | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4o-audio-preview |
По умолчанию. | 450 K | 1 К |
gpt-4o-realtime-preview |
По умолчанию. | 800 К | 1 К |
gpt-4o-mini-audio-preview |
По умолчанию. | 2 млн | 1 К |
gpt-4o-mini-realtime-preview |
По умолчанию. | 800 К | 1 К |
M = миллион | K = тысяча
Уровни использования
Глобальные стандартные развертывания используют глобальную инфраструктуру Azure, динамически маршрутизируя трафик клиентов в центр обработки данных с наилучшей доступностью для запросов на вывод. Аналогичным образом развертывания стандартной зоны данных позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных в пределах определенной корпорацией Майкрософт зоны данных с оптимальной доступностью для каждого запроса. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть большую вариативность в задержке ответа.
Лимит использования определяет уровень, превышение которого может привести к большей вариативности в задержке ответа у клиентов. Использование клиента рассчитывается для каждой модели и представляет собой общее количество токенов, потребленных через все развертывания, подписки и регионы для данного арендатора.
Примечание.
Уровни использования применяются только к стандартным типам развертывания, стандартной зоне данных и глобальным стандартным типам развертывания. Уровни использования не применяются к глобальным пакетным и предоставленным развертываниям с пропускной способностью.
GPT-4o глобальный стандарт, стандарт зоны данных и стандарт
Модель | Категории использования в месяц |
---|---|
gpt-4o |
12 миллиардов токенов |
gpt-4o-mini |
85 миллиардов токенов |
Стандарт GPT-4
Модель | Категории использования в месяц |
---|---|
gpt-4
+
gpt-4-32k (все версии) |
6 миллиардов |
Другие типы предложений
Если подписка Azure связана с определенными типами предложений , максимальные значения квоты ниже значений, указанных в приведенных выше таблицах.
Ярус | Ограничение квоты в токенах в минуту (TPM) |
---|---|
Azure for Students |
1 K (все модели) Exception o-series & GPT-4.1 & GPT 4.5 Предварительный просмотр: 0 |
MSDN |
GPT-4o-mini: 200 K GPT 3.5 Turbo Series: 200 K Серия GPT-4: 50 K предпросмотр использования компьютера: 8 КБ gpt-4o-realtime-preview: 1 К o-серия: 0 GPT 4.5 Предварительный просмотр: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Pay-as-you-go |
GPT-4o-mini: 200 K GPT 3.5 Turbo Серия: 200 K Серия GPT-4: 50 K предварительный просмотр использования компьютера: 30 K o-серия: 0 GPT 4.5 Предварительный просмотр: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini: 200 K GPT 3.5 Turbo Серия: 200 K Серия GPT-4: 50 K |
CSP Integration Sandbox
*
|
Все модели: 0 |
Lightweight trial Free Trials Azure Pass |
Все модели: 0 |
*Это применимо только к небольшому числу устаревших подписок CSP в песочнице. Используйте следующий запрос, чтобы определить, что quotaId
связано с вашей подпиской.
Чтобы определить тип предложения, связанный с вашей подпиской, вы можете проверить вашу quotaId
. Если ваш quotaId
отсутствует в этой таблице, ваша подписка соответствует стандартной квоте.
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
Выходные данные
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
Распределение квот/Тип предложения | Идентификатор квоты подписки |
---|---|
Предприятие | EnterpriseAgreement_2014-09-01 |
Оплата по мере использования | PayAsYouGo_2014-09-01 |
MSDN | MSDN_2014-09-01 |
Интеграционная песочница CSP | CSPDEVTEST_2018-05-01 |
Azure для учащихся | AzureForStudents_2018-01-01 |
Пробная версия | FreeTrial_2014-09-01 |
Пропуск Azure | AzurePass_2014-09-01 |
Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
По умолчанию. | Любой идентификатор квоты, не указанный в этой таблице. |
Основные передовые методы, чтобы оставаться в пределах лимитов скорости
Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:
- Реализуйте в приложении логику повторных попыток.
- Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
- Протестируйте различные шаблоны увеличения нагрузки.
- Увеличьте назначенную вашему развертыванию квоту. При необходимости переместите квоту из другого развертывания.
Как запросить увеличение квоты
Запросы на увеличение квоты можно отправить с помощью формы запроса на увеличение квоты. Из-за высокого спроса запросы на увеличение квот принимаются и будут заполнены в том порядке, в который они получены. Приоритет предоставляется клиентам, которые создают трафик, который потребляет существующее выделение квот, и ваш запрос может быть отклонен, если это условие не выполнено.
Для других ограничений скорости отправьте запрос на обслуживание.
Ограничения ёмкости региональной квоты
Доступность квоты по регионам для подписки можно просмотреть на портале Azure AI Foundry.
Кроме того, чтобы просмотреть емкость квоты по регионам для конкретной модели или версии, можно запросить API емкости для подписки. Предоставьте subscriptionId
, model_name
, и model_version
, и API вернет доступную емкость для этой модели во всех регионах и типах развертывания для вашей подписки.
Примечание.
В настоящее время как портал Azure AI Foundry, так и API квот/емкости возвращают сведения о квоте и емкости для моделей, которые выведены из эксплуатации и больше не доступны.
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
Следующие шаги
Узнайте, как управлять квотой для развертываний Azure OpenAI. Дополнительные сведения о базовых моделях, использующих Azure OpenAI.