Квоты и ограничения моделей Microsoft Foundry

В этой статье представлен краткий справочник и подробное описание квот и ограничений для Foundry Models, продаваемых непосредственно компанией Azure. Квоты и ограничения, относящиеся к Azure OpenAI в моделях Foundry, см. в разделе Квоты и ограничения в Azure OpenAI.

Справочник по квотам и ограничениям

В следующих разделах приводится краткое руководство по квотам и ограничениям по умолчанию, которые применяются к моделям Foundry:

Ограничения ресурсов (в каждой подписке Azure, в каждом регионе Azure)

Название лимита	Предел значения
Ресурсы Foundry для каждого региона и каждой подписки Azure	100
Максимальное количество проектов на ресурс	250
Максимальное количество развертываний на ресурс (развертывания модели в ресурсе Foundry)	32

Ограничения скорости

В следующей таблице перечислены ограничения для моделей Foundry для следующих ставок:

Токены в минуту
Запросы в минуту
Одновременный запрос

Модели	Токены в минуту	Запросы в минуту	Одновременные запросы
Azure OpenAI модели	Зависит от модели и номера SKU. См. ограничения для Azure OpenAI.	Зависит от модели и номера SKU. См. ограничения для Azure OpenAI.	Меняется. См. ограничения Azure OpenAI.
- DeepSeek-R1 - DeepSeek-V3-0324	5,000,000	5,000	300
- LLaMa 3.3 70B Instruct - Лама-4-Маверрик-17B-128E-Instruct-FP8 - Grok 3 - Grok 3 mini	400,000	1,000	300
- Flux.2-Pro	неприменимо	- Низкий (по умолчанию): 15 - Средний: 30 - Высокий (Предприятие): 100	неприменимо
- Flux-Pro 1.1 - Flux.1-Kontext Pro	неприменимо	2 единицы емкости (6 запросов в минуту)	неприменимо
Остальная часть моделей	400,000	1,000	300

Чтобы увеличить квоту, выполните приведенные ниже действия.

Для Azure OpenAI используйте службу Foundry Service: Запрос на увеличение квоты для отправки запроса.
Сведения о других моделях см. в статье о увеличении запросов до ограничений по умолчанию.

Из-за высокого спроса запросы на увеличение лимита оцениваются по отдельности.

Другие ограничения

Название лимита	Предел значения
Максимальное число пользовательских заголовков в запросах API¹	10

¹ Текущие API позволяют использовать до 10 пользовательских заголовков одновременно, которые обрабатываются конвейером и возвращаются. Если вы превышаете это число заголовков, запрос приводит к ошибке HTTP 431. Чтобы устранить эту ошибку, уменьшите объем заголовка. Будущие версии API не будут передавать пользовательские заголовки. Не полагайтесь на пользовательские заголовки при проектировании будущих системных архитектур.

Уровни использования

Развертывания Global Standard используют глобальную инфраструктуру Azure для динамической маршрутизации трафика клиентов в центр обработки данных с наилучшей доступностью для запросов на обработку данных клиентов. Эта инфраструктура обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть больше вариабилий в задержке ответа.

Лимит использования определяет, при каком уровне использования клиенты могут столкнуться с большей вариативностью задержки ответа. Использование клиента определяется для каждой модели и является общими маркерами, используемыми во всех развертываниях во всех подписках во всех регионах для данного клиента.

Запрос увеличивается до ограничений по умолчанию

Отправьте форму запроса на увеличение квоты, чтобы запросить увеличение квоты для моделей Foundry, продаваемых непосредственно Azure, моделей OpenAI Azure и моделей Anthropic. За исключением моделей Anthropic, модели от партнеров и сообщества не поддерживают увеличение квоты.

Запросы на увеличение квот обрабатываются в том порядке, в который они получены, и приоритет передает клиентам, которые активно используют существующее выделение квот. Запросы, которые не соответствуют этому условию, могут быть отклонены.

Общие рекомендации по пребыванию в пределах ограничений скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, используйте следующие методы:

Реализуйте логику повторных попыток в приложении.
Избегайте резких изменений в рабочей нагрузке. Постепенно увеличивайте рабочую нагрузку.
Тестирование различных шаблонов увеличения нагрузки.
Увеличьте квоту, назначенную развертыванию. При необходимости переместите квоту из другого развертывания.

Настройка времени ожидания на стороне клиента

Задайте время ожидания на стороне клиента явным образом на основе приведенных ниже рекомендаций.

Примечание

Если не задано явным образом, время ожидания на стороне клиента существует в отношении используемой библиотеки и может не совпадать с указанными выше ограничениями.

Модели причин (модели, создающие промежуточные маркеры причин перед созданием сводного ответа): до 29 минут.
Модели без рассуждений
- Для потоковой передачи до 60 секунд.
- Для запросов, отличных от потоковой передачи, до 29 минут.

29 минут здесь не означает, что все запросы будут занимать 29 минут, но в зависимости от токенов контекста, сгенерированных токенов и частоты срабатывания кэша, запросы могут занимать до 29 минут.

Задайте время ожидания, которое меньше этих значений, настроенных на шаблоны трафика.

Для моделей рассуждения, включая потоковые запросы, все токены рассуждения сначала создаются и затем суммируются, прежде чем первый токен ответа отправляется пользователю.

Вы можете изменить параметр усилий рассуждений, чтобы контролировать количество токенов рассуждений, созданных в процессе.

Устранение неполадок

Симптом	Причина	Разрешение
HTTP 429 слишком много запросов	Превышено ограничение токена в минуту или запроса в минуту	Реализуйте логику повторов с экспоненциальной задержкой. Используйте значение заголовка `Retry-After` .
Слишком большие поля заголовка запроса HTTP 431	Более 10 пользовательских заголовков отправлено	Уменьшите количество пользовательских заголовков до 10 или меньше.
Страница квоты показывает 0 доступных	Полностью выделенная подписка или региональная квота	Перемещение неиспользуемой квоты из другого развертывания. Чтобы увеличить ограничение, запросить увеличение квоты.
Модель недоступна в регионе	Модель не развертывается или не поддерживается в выбранном регионе	Проверьте доступность модели и выберите доступный регион.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-30