Квоты и ограничения службы Azure OpenAI
В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI в службах ИИ Azure.
Справочник по квотам и ограничениям
В следующих разделах приведены краткие инструкции по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:
Имя ограничения | Значение ограничения |
---|---|
Ресурсы OpenAI для каждого региона на подписку Azure | 30 |
Ограничения квоты DALL-E 2 по умолчанию | 2 параллельных запроса |
Ограничения квоты DALL-E по умолчанию | 2 единицы емкости (6 запросов в минуту) |
Ограничения квоты Whisper по умолчанию | 3 запроса в минуту |
Максимальное количество маркеров запроса на запрос | Зависит от модели. Дополнительные сведения см. в разделе "Модели службы Azure OpenAI" |
Максимальное количество развертываний уровня "Стандартный" для каждого ресурса | 32 |
Максимальное число развертываний модели точной настройки | 5 |
Общее количество заданий обучения на ресурс | 100 |
Максимальное число одновременных заданий обучения на ресурс | 1 |
Максимальное число заданий обучения в очереди | 20 |
Максимальное количество файлов на ресурс (настройка) | 50 |
Общий размер всех файлов на ресурс (точная настройка) | 1 ГБ |
Максимальное время задания обучения (задание завершится ошибкой при превышении) | 720 часов |
Максимальный размер задания обучения (токены в файле обучения) x (# эпохи) | 2 млрд |
Максимальный размер всех файлов на отправку (Azure OpenAI в данных) | 16 МБ |
Максимальное число или входные данные в массиве с /embeddings |
2048 |
Максимальное /chat/completions количество сообщений |
2048 |
Максимальное /chat/completions число функций |
128 |
Максимальное /chat completions количество инструментов |
128 |
Максимальное количество единиц подготовленной пропускной способности на развертывание | 100,000 |
Максимальное количество файлов на помощника или потока | 10 000 при использовании API или AI Studio. 20 при использовании Azure OpenAI Studio. |
Максимальный размер файла для помощников и точной настройки | 512 МБ |
Максимальный размер всех отправленных файлов для помощников | 100 ГБ |
Ограничение маркера помощников | 2 000 000 маркеров |
GPT-4o max images per request (#of images in the messages array/conversation history) | 10 |
Максимальные токены GPT-4 vision-preview и GPT-4 turbo-2024-04-09 |
16 max_tokens Увеличьте значение параметра, чтобы избежать усеченных ответов. Максимальные маркеры GPT-4o по умолчанию — 4096. |
Максимальное число пользовательских заголовков в запросахAPI 1 | 10 |
Максимальное число запросов в минуту Текущие ограничения скорости аудио ( gpt-4o-realtime-preview ) в режиме реального времени определяются как количество новых подключений websocket в минуту. Например, 6 запросов в минуту (RPM) означает 6 новых подключений в минуту. В настоящее время ограничения gpt-4o-realtime-preview использования подходят для тестирования и разработки. |
6 новых подключений в минуту |
1 Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки нет решения, кроме уменьшения тома заголовка. В будущих версиях API мы больше не будем передавать пользовательские заголовки. Мы рекомендуем клиентам не зависеть от пользовательских заголовков в будущих системных архитектурах.
Ограничения региональной квоты
Область/регион | o1-mini | o1 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o-mini | GPT-35-Turbo | GPT-35-Turbo-Instruct | o1-mini - GlobalStandard | o1 — GlobalStandard | gpt-4o — GlobalStandard | gpt-4o-mini - GlobalStandard | GPT-4-Turbo — GlobalStandard | GPT-4o — global-Batch | GPT-4o-mini - Global-Batch | GPT-4 — глобальная пакетная служба | GPT-4-Turbo — глобальная пакетная служба | gpt-35-turbo - Global-Batch | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | GPT-4o - finetune | GPT-4o-mini - finetune | GPT-4 — finetune | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-35-Turbo-0125 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | - | - | 40 тыс. | 80 K | 80 K | 30 K | - | - | 300 K | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | - | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
canadaeast | - | - | 40 тыс. | 80 K | 80 K | - | - | - | 300 K | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus | 1 млн | 600 K | - | - | 80 K | - | 1 млн | 2 млн | 240 K | 240 K | 50 М | 30 М | 30 М | 50 М | 2 млн | 5 B | 15 B | 150 М | 300 М | 10 B | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus2 | 1 млн | 600 K | - | - | 80 K | - | 1 млн | 2 млн | 300 K | - | 50 М | 30 М | 30 М | 50 М | 2 млн | - | - | - | - | - | 350 K | 350 K | 350 K | 250 K | - | - | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | - | - | 20 тыс. | 60 K | 80 K | - | - | - | 240 K | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | - | - | 30 K | - | - | 300 K | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | 1 млн | 600 K | - | - | 80 K | - | 1 млн | 2 млн | 300 K | - | 50 М | 30 М | 30 М | 50 М | 2 млн | - | - | - | - | - | 350 K | - | - | 250 K | 500 тыс. | 100 тыс. | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | - | - | 150 K | - | - | - | - | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
польшацентральная | - | - | - | - | - | - | - | - | - | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | - | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
southcentralus | 1 млн | 600 K | - | - | 80 K | - | 1 млн | 2 млн | 240 K | - | 50 М | 30 М | 30 М | 50 М | 2 млн | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | - | - | 150 K | - | - | - | 300 K | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
spaincentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
swedencentral | 1 млн | 600 K | 40 тыс. | 80 K | 150 K | 30 K | 1 млн | 2 млн | 300 K | 240 K | 50 М | 30 М | 30 М | 50 М | 2 млн | 5 B | 15 B | 150 М | 300 М | 10 B | 350 K | - | 350 K | 250 K | 500 тыс. | 100 тыс. | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
switzerlandnorth | - | - | 40 тыс. | 80 K | - | 30 K | - | - | 300 K | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | - | - | 80 K | - | - | - | 240 K | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | - | - | 240 K | - | - | - | 30 М | 50 М | 2 млн | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus | 1 млн | 600 K | - | - | 80 K | 30 K | 1 млн | 2 млн | 300 K | - | 50 М | 30 М | 30 М | 50 М | 2 млн | 5 B | 15 B | 150 М | 300 М | 10 B | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus3 | 1 млн | 600 K | - | - | 80 K | - | 1 млн | 2 млн | 300 K | - | 50 М | 30 М | 30 М | 50 М | 2 млн | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Глобальные ограничения пакетной службы
Имя ограничения | Значение ограничения |
---|---|
Максимальное количество файлов на ресурс | 500 |
Максимальный размер входного файла | 200 МБ |
Максимальное количество запросов на файл | 100,000 |
Глобальная квота пакетной службы
В таблице показан предел квоты пакетной службы. Значения квот для глобального пакета представлены с точки зрения закрепленных маркеров. При отправке файла для пакетной обработки количество маркеров, присутствующих в файле, учитывается. До тех пор, пока пакетное задание не достигнет состояния терминала, эти маркеры будут учитываться в отношении общего лимита, затраченного на маркер.
Модель | Соглашение Enterprise | По умолчанию. | Ежемесячные подписки на основе кредитной карты | Подписки MSDN | Azure для учащихся, бесплатные пробные версии |
---|---|---|---|---|---|
gpt-4o |
5 B | 200 М | 50 М | 90 K | Н/П |
gpt-4o-mini |
15 B | 1 B | 50 М | 90 K | Н/П |
gpt-4-turbo |
300 М | 80 М | 40 М | 90 K | Н/П |
gpt-4 |
150 М | 30 М | 5 М | 100 тыс. | Н/П |
gpt-35-turbo |
10 B | 1 B | 100 М | 2 млн | 50 тыс |
B = миллиард | M = миллион | K = тысяча
ограничения скорости o1-preview и o1-mini
Внимание
Соотношение RPM/TPM для квоты с моделями серии o1 отличается от старых моделей завершения чата:
- Старые модели чата: 1 единица емкости = 6 RPM и 1000 TPM.
- o1-preview: 1 единица емкости = 1 RPM и 6000 TPM.
- o1-mini: 1 единица емкости = 1 RPM на 10 000 TPM.
Это особенно важно для развертывания программной модели, так как это изменение в соотношении RPM/TPM может привести к случайному выделению квоты, если оно по-прежнему предполагает соотношение 1:1000, за которым следует более старые модели завершения чата.
Существует известная проблема с API квот и использования, где предполагается, что старое соотношение применяется к новым моделям серии o1. API возвращает правильный базовый номер емкости, но не применяет правильное соотношение для точного вычисления доверенного платформенного модуля.
o1-preview и o1-mini global standard
Модель | Уровень | Ограничение квоты в маркерах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
o1-preview |
Соглашение Enterprise | 30 М | 5000 |
o1-mini |
Соглашение Enterprise | 50 М | 5000 |
o1-preview |
По умолчанию. | 3 М | 500 |
o1-mini |
По умолчанию. | 5 М | 500 |
o1-preview и o1-mini standard
Модель | Уровень | Ограничение квоты в маркерах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
o1-preview |
Соглашение Enterprise | 600 K | 100 |
o1-mini |
Соглашение Enterprise | 1 млн | 100 |
o1-preview |
По умолчанию. | 300 K | 50 |
o1-mini |
По умолчанию. | 500 тыс. | 50 |
Ограничения скорости gpt-4o и GPT-4 Turbo
gpt-4o
и gpt-4o-mini
gpt-4
(turbo-2024-04-09
) имеют уровни ограничений скорости с более высокими ограничениями для определенных типов клиентов.
gpt-4o и GPT-4 Turbo global standard
Модель | Уровень | Ограничение квоты в маркерах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4o |
Соглашение Enterprise | 30 М | 180 K |
gpt-4o-mini |
Соглашение Enterprise | 50 М | 300 K |
gpt-4 (turbo-2024-04-09) |
Соглашение Enterprise | 2 млн | 12 тыс. |
gpt-4o |
По умолчанию. | 450 K | 2.7 K |
gpt-4o-mini |
По умолчанию. | 2 млн | 12 тыс. |
gpt-4 (turbo-2024-04-09) |
По умолчанию. | 450 K | 2.7 K |
M = миллион | K = тысяча
Стандарт зоны данных gpt-4o
Модель | Уровень | Ограничение квоты в маркерах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4o |
Соглашение Enterprise | 10 М | 60 K |
gpt-4o-mini |
Соглашение Enterprise | 20 млн. | 120 K |
gpt-4o |
По умолчанию. | 300 K | 1.8 K |
gpt-4o-mini |
По умолчанию. | 1 млн | 6 тыс. |
M = миллион | K = тысяча
gpt-4o standard
Модель | Уровень | Ограничение квоты в маркерах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4o |
Соглашение Enterprise | 1 млн | 6 тыс. |
gpt-4o-mini |
Соглашение Enterprise | 2 млн | 12 тыс. |
gpt-4o |
По умолчанию. | 150 K | 900 |
gpt-4o-mini |
По умолчанию. | 450 K | 2.7 K |
M = миллион | K = тысяча
Уровни использования
Глобальные стандартные развертывания используют глобальную инфраструктуру Azure, динамически маршрутизацию трафика клиентов в центр обработки данных с наилучшей доступностью для запросов вывода клиента. Аналогичным образом развертывания стандартной зоны данных позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных в пределах определенной корпорацией Майкрософт зоны данных с оптимальной доступностью для каждого запроса. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть более вариативность в задержке ответа.
Ограничение использования определяет уровень использования выше, чем клиенты могут видеть большую вариативность в задержке ответа. Использование клиента определяется для каждой модели и является общими маркерами, используемыми во всех развертываниях во всех подписках во всех регионах для данного клиента.
Примечание.
Уровни использования применяются только к стандартным типам развертывания, зонам данных и глобальным типам развертывания уровня "Стандартный". Уровни использования не применяются к глобальным пакетам и подготовленным развертываниям пропускной способности.
GPT-4o global standard, data zone standard, &standard
Модель | Уровни использования в месяц |
---|---|
gpt-4o |
12 миллиардов токенов |
gpt-4o-mini |
85 миллиардов токенов |
Стандарт GPT-4
Модель | Уровни использования в месяц |
---|---|
gpt-4 + gpt-4-32k (все версии) |
6 миллиардов |
Другие типы предложений
Если подписка Azure связана с определенными типами предложений, максимальные значения квоты ниже значений, указанных в приведенных выше таблицах.
Уровень | Ограничение квоты в маркерах в минуту (TPM) |
---|---|
Azure для учащихся, бесплатные пробные версии | 1 K (все модели) |
Подписки MSDN | GPT 3.5 Turbo Series: 30 K Серия GPT-4: 8 K |
Ежемесячные подписки на основе кредитной карты 1 | GPT 3.5 Turbo Series: 30 K Серия GPT-4: 8 K |
1 Это применимо к типу предложения 0003P
В портал Azure вы можете просмотреть тип предложения, связанный с подпиской, перейдя к подписке и проверив панель обзора подписок. Тип предложения соответствует полю плана в обзоре подписки.
Общие рекомендации по остаться в пределах ограничений скорости
Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:
- Реализуйте в приложении логику повторных попыток.
- Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
- Протестируйте различные шаблоны увеличения нагрузки.
- Увеличьте квоту, назначенную развертыванию. При необходимости переместите квоту из другого развертывания.
Как запросить увеличение квот и ограничений по умолчанию
Запросы на увеличение квот можно отправить на странице "Квоты " в Azure AI Studio. Из-за высокого спроса запросы на увеличение квот принимаются и будут заполнены в том порядке, в который они получены. Приоритет предоставляется клиентам, которые создают трафик, который потребляет существующее выделение квот, и ваш запрос может быть отклонен, если это условие не выполнено.
Для других ограничений скорости отправьте запрос на обслуживание.
Следующие шаги
Узнайте, как управлять квотой для развертываний Azure OpenAI. Ознакомьтесь с дополнительными сведениями о базовых моделях, лежащих в основе Azure OpenAI.