Поделиться через


Квоты и ограничения службы Azure OpenAI

В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI в службах ИИ Azure.

Справочник по квотам и ограничениям

В следующих разделах приведены краткие инструкции по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:

Имя ограничения Значение ограничения
Ресурсы OpenAI для каждого региона на подписку Azure 30
Ограничения квоты DALL-E 2 по умолчанию 2 параллельных запроса
Ограничения квоты DALL-E по умолчанию 2 единицы емкости (6 запросов в минуту)
Ограничения квоты Whisper по умолчанию 3 запроса в минуту
Максимальное количество маркеров запроса на запрос Зависит от модели. Дополнительные сведения см. в разделе "Модели службы Azure OpenAI"
Максимальное количество развертываний уровня "Стандартный" для каждого ресурса 32
Максимальное число развертываний модели точной настройки 5
Общее количество заданий обучения на ресурс 100
Максимальное число одновременных заданий обучения на ресурс 1
Максимальное число заданий обучения в очереди 20
Максимальное количество файлов на ресурс (настройка) 50
Общий размер всех файлов на ресурс (точная настройка) 1 ГБ
Максимальное время задания обучения (задание завершится ошибкой при превышении) 720 часов
Максимальный размер задания обучения (токены в файле обучения) x (# эпохи) 2 млрд
Максимальный размер всех файлов на отправку (Azure OpenAI в данных) 16 МБ
Максимальное число или входные данные в массиве с /embeddings 2048
Максимальное /chat/completions количество сообщений 2048
Максимальное /chat/completions число функций 128
Максимальное /chat completions количество инструментов 128
Максимальное количество единиц подготовленной пропускной способности на развертывание 100,000
Максимальное количество файлов на помощника или потока 10 000 при использовании API или AI Studio. 20 при использовании Azure OpenAI Studio.
Максимальный размер файла для помощников и точной настройки 512 МБ
Максимальный размер всех отправленных файлов для помощников 100 ГБ
Ограничение маркера помощников 2 000 000 маркеров
GPT-4o max images per request (#of images in the messages array/conversation history) 10
Максимальные токены GPT-4 vision-preview и GPT-4 turbo-2024-04-09 16

max_tokens Увеличьте значение параметра, чтобы избежать усеченных ответов. Максимальные маркеры GPT-4o по умолчанию — 4096.
Максимальное число пользовательских заголовков в запросахAPI 1 10
Максимальное число запросов в минуту

Текущие ограничения скорости аудио (gpt-4o-realtime-preview) в режиме реального времени определяются как количество новых подключений websocket в минуту. Например, 6 запросов в минуту (RPM) означает 6 новых подключений в минуту. В настоящее время ограничения gpt-4o-realtime-preview использования подходят для тестирования и разработки.
6 новых подключений в минуту

1 Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки нет решения, кроме уменьшения тома заголовка. В будущих версиях API мы больше не будем передавать пользовательские заголовки. Мы рекомендуем клиентам не зависеть от пользовательских заголовков в будущих системных архитектурах.

Ограничения региональной квоты

Область/регион o1-mini o1 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Instruct o1-mini - GlobalStandard o1 — GlobalStandard gpt-4o — GlobalStandard gpt-4o-mini - GlobalStandard GPT-4-Turbo — GlobalStandard GPT-4o — global-Batch GPT-4o-mini - Global-Batch GPT-4 — глобальная пакетная служба GPT-4-Turbo — глобальная пакетная служба gpt-35-turbo - Global-Batch Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large GPT-4o - finetune GPT-4o-mini - finetune GPT-4 — finetune Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - finetune GPT-35-Turbo-1106 - finetune GPT-35-Turbo-0125 - finetune
australiaeast - - 40 тыс. 80 K 80 K 30 K - - 300 K - - - 30 М 50 М 2 млн - - - - - 350 K - - - - - - - - - - - -
brazilsouth - - - - - - - - - - - - 30 М 50 М 2 млн - - - - - 350 K - - - - - - - - - - - -
canadaeast - - 40 тыс. 80 K 80 K - - - 300 K - - - 30 М 50 М 2 млн - - - - - 350 K 350 K 350 K - - - - - - - - - -
eastus 1 млн 600 K - - 80 K - 1 млн 2 млн 240 K 240 K 50 М 30 М 30 М 50 М 2 млн 5 B 15 B 150 М 300 М 10 B 240 K 350 K 350 K - - - - - - - - - -
eastus2 1 млн 600 K - - 80 K - 1 млн 2 млн 300 K - 50 М 30 М 30 М 50 М 2 млн - - - - - 350 K 350 K 350 K 250 K - - - - - - 250 K 250 K 250 K
francecentral - - 20 тыс. 60 K 80 K - - - 240 K - - - 30 М 50 М 2 млн - - - - - 240 K - 350 K - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - 30 М 50 М 2 млн - - - - - - - - - - - - - - - - - -
japaneast - - - - - 30 K - - 300 K - - - 30 М 50 М 2 млн - - - - - 350 K 350 K 350 K - - - - - - - - - -
koreacentral - - - - - - - - - - - - 30 М 50 М 2 млн - - - - - - - - - - - - - - - - - -
northcentralus 1 млн 600 K - - 80 K - 1 млн 2 млн 300 K - 50 М 30 М 30 М 50 М 2 млн - - - - - 350 K - - 250 K 500 тыс. 100 тыс. 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norwayeast - - - - 150 K - - - - - - - 30 М 50 М 2 млн - - - - - 350 K - 350 K - - - - - - - - - -
польшацентральная - - - - - - - - - - - - 30 М 50 М 2 млн - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - 30 М 50 М 2 млн - - - - - 350 K - - - - - - - - - - - -
southcentralus 1 млн 600 K - - 80 K - 1 млн 2 млн 240 K - 50 М 30 М 30 М 50 М 2 млн - - - - - 240 K - - - - - - - - - - - -
southindia - - - - 150 K - - - 300 K - - - 30 М 50 М 2 млн - - - - - 350 K - 350 K - - - - - - - - - -
spaincentral - - - - - - - - - - - - 30 М 50 М 2 млн - - - - - - - - - - - - - - - - - -
swedencentral 1 млн 600 K 40 тыс. 80 K 150 K 30 K 1 млн 2 млн 300 K 240 K 50 М 30 М 30 М 50 М 2 млн 5 B 15 B 150 М 300 М 10 B 350 K - 350 K 250 K 500 тыс. 100 тыс. 240 K 250 K 240 K 250 K 250 K 250 K 250 K
switzerlandnorth - - 40 тыс. 80 K - 30 K - - 300 K - - - 30 М 50 М 2 млн - - - - - 350 K - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - - - 80 K - - - 240 K - - - 30 М 50 М 2 млн - - - - - 350 K - 350 K - - - - - - - - - -
westeurope - - - - - - - - 240 K - - - 30 М 50 М 2 млн - - - - - 240 K - - - - - - - - - - - -
westus 1 млн 600 K - - 80 K 30 K 1 млн 2 млн 300 K - 50 М 30 М 30 М 50 М 2 млн 5 B 15 B 150 М 300 М 10 B 350 K - - - - - - - - - - - -
westus3 1 млн 600 K - - 80 K - 1 млн 2 млн 300 K - 50 М 30 М 30 М 50 М 2 млн - - - - - 350 K - 350 K - - - - - - - - - -

Глобальные ограничения пакетной службы

Имя ограничения Значение ограничения
Максимальное количество файлов на ресурс 500
Максимальный размер входного файла 200 МБ
Максимальное количество запросов на файл 100,000

Глобальная квота пакетной службы

В таблице показан предел квоты пакетной службы. Значения квот для глобального пакета представлены с точки зрения закрепленных маркеров. При отправке файла для пакетной обработки количество маркеров, присутствующих в файле, учитывается. До тех пор, пока пакетное задание не достигнет состояния терминала, эти маркеры будут учитываться в отношении общего лимита, затраченного на маркер.

Модель Соглашение Enterprise По умолчанию. Ежемесячные подписки на основе кредитной карты Подписки MSDN Azure для учащихся, бесплатные пробные версии
gpt-4o 5 B 200 М 50 М 90 K Н/П
gpt-4o-mini 15 B 1 B 50 М 90 K Н/П
gpt-4-turbo 300 М 80 М 40 М 90 K Н/П
gpt-4 150 М 30 М 5 М 100 тыс. Н/П
gpt-35-turbo 10 B 1 B 100 М 2 млн 50 тыс

B = миллиард | M = миллион | K = тысяча

ограничения скорости o1-preview и o1-mini

Внимание

Соотношение RPM/TPM для квоты с моделями серии o1 отличается от старых моделей завершения чата:

  • Старые модели чата: 1 единица емкости = 6 RPM и 1000 TPM.
  • o1-preview: 1 единица емкости = 1 RPM и 6000 TPM.
  • o1-mini: 1 единица емкости = 1 RPM на 10 000 TPM.

Это особенно важно для развертывания программной модели, так как это изменение в соотношении RPM/TPM может привести к случайному выделению квоты, если оно по-прежнему предполагает соотношение 1:1000, за которым следует более старые модели завершения чата.

Существует известная проблема с API квот и использования, где предполагается, что старое соотношение применяется к новым моделям серии o1. API возвращает правильный базовый номер емкости, но не применяет правильное соотношение для точного вычисления доверенного платформенного модуля.

o1-preview и o1-mini global standard

Модель Уровень Ограничение квоты в маркерах в минуту (TPM) Число запросов в минуту
o1-preview Соглашение Enterprise 30 М 5000
o1-mini Соглашение Enterprise 50 М 5000
o1-preview По умолчанию. 3 М 500
o1-mini По умолчанию. 5 М 500

o1-preview и o1-mini standard

Модель Уровень Ограничение квоты в маркерах в минуту (TPM) Число запросов в минуту
o1-preview Соглашение Enterprise 600 K 100
o1-mini Соглашение Enterprise 1 млн 100
o1-preview По умолчанию. 300 K 50
o1-mini По умолчанию. 500 тыс. 50

Ограничения скорости gpt-4o и GPT-4 Turbo

gpt-4oи gpt-4o-minigpt-4 (turbo-2024-04-09) имеют уровни ограничений скорости с более высокими ограничениями для определенных типов клиентов.

gpt-4o и GPT-4 Turbo global standard

Модель Уровень Ограничение квоты в маркерах в минуту (TPM) Число запросов в минуту
gpt-4o Соглашение Enterprise 30 М 180 K
gpt-4o-mini Соглашение Enterprise 50 М 300 K
gpt-4 (turbo-2024-04-09) Соглашение Enterprise 2 млн 12 тыс.
gpt-4o По умолчанию. 450 K 2.7 K
gpt-4o-mini По умолчанию. 2 млн 12 тыс.
gpt-4 (turbo-2024-04-09) По умолчанию. 450 K 2.7 K

M = миллион | K = тысяча

Стандарт зоны данных gpt-4o

Модель Уровень Ограничение квоты в маркерах в минуту (TPM) Число запросов в минуту
gpt-4o Соглашение Enterprise 10 М 60 K
gpt-4o-mini Соглашение Enterprise 20 млн. 120 K
gpt-4o По умолчанию. 300 K 1.8 K
gpt-4o-mini По умолчанию. 1 млн 6 тыс.

M = миллион | K = тысяча

gpt-4o standard

Модель Уровень Ограничение квоты в маркерах в минуту (TPM) Число запросов в минуту
gpt-4o Соглашение Enterprise 1 млн 6 тыс.
gpt-4o-mini Соглашение Enterprise 2 млн 12 тыс.
gpt-4o По умолчанию. 150 K 900
gpt-4o-mini По умолчанию. 450 K 2.7 K

M = миллион | K = тысяча

Уровни использования

Глобальные стандартные развертывания используют глобальную инфраструктуру Azure, динамически маршрутизацию трафика клиентов в центр обработки данных с наилучшей доступностью для запросов вывода клиента. Аналогичным образом развертывания стандартной зоны данных позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных в пределах определенной корпорацией Майкрософт зоны данных с оптимальной доступностью для каждого запроса. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть более вариативность в задержке ответа.

Ограничение использования определяет уровень использования выше, чем клиенты могут видеть большую вариативность в задержке ответа. Использование клиента определяется для каждой модели и является общими маркерами, используемыми во всех развертываниях во всех подписках во всех регионах для данного клиента.

Примечание.

Уровни использования применяются только к стандартным типам развертывания, зонам данных и глобальным типам развертывания уровня "Стандартный". Уровни использования не применяются к глобальным пакетам и подготовленным развертываниям пропускной способности.

GPT-4o global standard, data zone standard, &standard

Модель Уровни использования в месяц
gpt-4o 12 миллиардов токенов
gpt-4o-mini 85 миллиардов токенов

Стандарт GPT-4

Модель Уровни использования в месяц
gpt-4 + gpt-4-32k (все версии) 6 миллиардов

Другие типы предложений

Если подписка Azure связана с определенными типами предложений, максимальные значения квоты ниже значений, указанных в приведенных выше таблицах.

Уровень Ограничение квоты в маркерах в минуту (TPM)
Azure для учащихся, бесплатные пробные версии 1 K (все модели)
Подписки MSDN GPT 3.5 Turbo Series: 30 K
Серия GPT-4: 8 K
Ежемесячные подписки на основе кредитной карты 1 GPT 3.5 Turbo Series: 30 K
Серия GPT-4: 8 K

1 Это применимо к типу предложения 0003P

В портал Azure вы можете просмотреть тип предложения, связанный с подпиской, перейдя к подписке и проверив панель обзора подписок. Тип предложения соответствует полю плана в обзоре подписки.

Общие рекомендации по остаться в пределах ограничений скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:

  • Реализуйте в приложении логику повторных попыток.
  • Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
  • Протестируйте различные шаблоны увеличения нагрузки.
  • Увеличьте квоту, назначенную развертыванию. При необходимости переместите квоту из другого развертывания.

Как запросить увеличение квот и ограничений по умолчанию

Запросы на увеличение квот можно отправить на странице "Квоты " в Azure AI Studio. Из-за высокого спроса запросы на увеличение квот принимаются и будут заполнены в том порядке, в который они получены. Приоритет предоставляется клиентам, которые создают трафик, который потребляет существующее выделение квот, и ваш запрос может быть отклонен, если это условие не выполнено.

Для других ограничений скорости отправьте запрос на обслуживание.

Следующие шаги

Узнайте, как управлять квотой для развертываний Azure OpenAI. Ознакомьтесь с дополнительными сведениями о базовых моделях, лежащих в основе Azure OpenAI.