Включение обработки приоритета для моделей Microsoft Foundry

Приоритетная обработка обеспечивает производительность с низкой задержкой с гибкостью модели оплаты по факту использования. В этой статье описано, как включить обработку приоритета в развертывании модели, проверить, какой уровень служб обработал ваши запросы, и отслеживать связанные затраты.

Необходимые условия

Подписка Azure: Создайте бесплатно.
Проект Microsoft Foundry с моделью типа развертывания GlobalStandard или DataZoneStandard.
Версии модели 2025-12-01 или более поздние.

Основные варианты использования

Согласованная, низкая задержка, обеспечивающая быструю реакцию на действия пользователей.
Простота оплаты по мере использования без долгосрочных обязательств.
Трафик, зависящий от рабочих часов или всплесковый трафик, получает преимущество от масштабируемой, экономичной производительности. При необходимости можно объединить приоритетную обработку с подготовленной единицей пропускной способности (PTU) для оптимизации постоянной пропускной способности и затрат.

Целевой уровень задержки

Модель	Целевое значение задержки²
gpt-5.4, 2026-03-05¹	99% > 50 токенов в секунду
gpt-5.2, 2025-12-11	99% > 50 токенов в секунду
gpt-5.1, 2025-11-13	99% > 50 токенов в секунду
gpt-4.1, 2025-04-14¹	99% > 80 токенов в секунду

¹ Длинные запросы контекста (т. е. запросы, оцененные более чем в 128 тыс. токенов) будут понижены до стандартной обработки, и с вас будет взиматься плата по стандартному тарифу.

² Вычисляется как задержка запроса p50 за 5 минут.

Доступность приоритетной обработки по типу развертывания

Приоритетная обработка может быть включена в глобальных стандартных развертываниях или в стандартных развертываниях Датазоны (США). Сведения о ценах см. на странице ценообразования Azure OpenAI.

Глобальный стандарт
Стандарт зоны данных

Доступность глобальной стандартной модели

Регион	gpt-5.5, 2026-04-24	gpt-5.4-mini, 2026-03-17	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
australiaeast	-	✅	✅	✅	✅	✅
южнаябразилия	-	✅	✅	✅	✅	✅
canadacentral	-	✅	✅	✅	✅	✅
canadaeast	-	✅	✅	✅	✅	✅
centralus	-	✅	✅	✅	✅	✅
eastus	-	✅	✅	✅	✅	✅
francecentral	-	✅	✅	✅	✅	✅
Германия Западно-Центральная	-	✅	✅	✅	✅	✅
Северная Италия	-	✅	✅	✅	✅	✅
japaneast	-	✅	✅	✅	✅	✅
koreacentral	-	✅	✅	✅	✅	✅
northcentralus	-	✅	✅	✅	✅	✅
норвегия восток	-	✅	✅	✅	✅	✅
polandcentral	✅	✅	✅	✅	✅	✅
southafricanorth	-	✅	✅	✅	✅	✅
southcentralus	✅	✅	✅	✅	✅	✅
Юго-Восточная Азия	-	✅	✅	✅	✅	✅
Южная Индия	-	✅	✅	✅	✅	✅
spaincentral	-	✅	✅	✅	✅	✅
ЦентральнаяШвеция	✅	✅	✅	✅	✅	✅
швейцариянорт	-	✅	✅	✅	✅	✅
швейцариязапад	-	✅	✅	✅	✅	✅
uaenorth	-	✅	✅	✅	✅	✅
uksouth	-	✅	✅	✅	✅	✅
westeurope	-	✅	✅	✅	✅	✅
westus	-	✅	✅	✅	✅	✅
westus3	-	✅	✅	✅	✅	✅

Доступность стандартной модели зоны данных

Регион	gpt-5.5, 2026-04-24	gpt-5.4-mini, 2026-03-17	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
centralus	-	✅	✅	✅	✅	✅
eastus	-	✅	✅	✅	✅	✅
northcentralus	-	✅	✅	✅	✅	✅
southcentralus	✅	✅	✅	✅	✅	✅
westus	-	✅	✅	✅	✅	✅
westus3	-	✅	✅	✅	✅	✅

Включение обработки приоритета на уровне развертывания

Вы можете включить обработку приоритета на уровне развертывания и (необязательно) на уровне запроса.

Примечание

В развертываниях Global Standard или Data Zone Standard (США) можно включить приоритетную обработку. Приоритетная обработка использует ту же квоту, что и стандартная обработка.

На портале Microsoft Foundry включите переключатель приоритетной обработки на странице сведений о развертывании при создании развертывания или обновите настройки развернутой модели, отредактировав сведения о развертывании.

Примечание

Если вы предпочитаете использовать код для включения обработки приоритета на уровне развертывания, это можно сделать с помощью REST API для развертывания, задав service_tier атрибут следующим образом: "properties" : {"service_tier" : "priority"} Допустимые значения атрибута service_tier : default и priority. default подразумевает стандартную обработку, в то время как priority включает обработку приоритета.

После настройки развертывания модели для использования обработки приоритета можно начать отправку запросов в модель.

Просмотр метрик использования

Вы можете просмотреть меру использования ресурса в разделе Azure Monitor на портале Azure.

Чтобы просмотреть объем запросов, обработанных стандартным способом и с приоритетной обработкой, с разбитием по уровням обслуживания (стандартного или приоритетного), указанным в исходном запросе:

Войдите в https://portal.azure.com.
Перейдите к ресурсу OpenAI Azure и выберите параметр Metrics в области навигации слева.
На странице метрик добавьте метрику запросы Azure OpenAI. Вы также можете выбрать другие метрики, такие как Azure задержка OpenAI, Azure использование OpenAI и другие.
Выберите "Добавить фильтр", чтобы выбрать стандартное развертывание, для которого были обработаны запросы на обработку приоритета.
Выберите "Применить разделение" , чтобы разделить значения по ServiceTierRequest и ServiceTierResponse.

Дополнительные сведения о мониторинге развертываний см. в разделе Monitor Azure OpenAI.

Мониторинг затрат

Вы можете просмотреть разбивку затрат на приоритеты и стандартные запросы на странице анализа затрат на портале Azure, отфильтровав имя развертывания и теги выставления счетов следующим образом:

Перейдите на страницу анализа затрат на портале Azure.
(Необязательно) Фильтрация по ресурсу.
Чтобы фильтровать по имени развертывания: добавьте фильтр для тега> выставления счетов выберите развертывание в качестве значения, а затем выберите имя развертывания .

Сведения о ценах на приоритетную обработку можно найти в разделе обзор цен на Служба Azure OpenAI.

Включение обработки приоритета на уровне запроса

Включение обработки приоритета на уровне запроса является необязательным. API завершения чата и API ответов имеют необязательный атрибут service_tier , указывающий тип обработки, используемый при обслуживании запроса. В следующем примере показано, как задать значение service_tierpriority в запросе ответов.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

service_tier Используйте атрибут для переопределения параметра уровня развертывания. service_tier может принимать значения auto, defaultи priority.

Если атрибут не задан, он устанавливается по умолчанию на auto.
service_tier = auto означает, что запрос использует уровень служб, настроенный в развертывании.
service_tier = default означает, что запрос использует стандартные цены и производительность выбранной модели.
service_tier = priority означает, что запрос использует уровень служб обработки приоритета.

В следующей таблице приведены сведения о том, какой уровень служб обрабатывает запросы на основе параметров уровня развертывания и уровня запросов.service_tier

Параметр уровня развертывания	Параметр уровня запроса	Запрос, обработанный по уровню служб
По умолчанию	авто, по умолчанию	Стандартный
По умолчанию	Приоритет	Обработка с приоритетом
Приоритет	авто, приоритет	Обработка с приоритетом
Приоритет	По умолчанию	Стандартный

Ограничения

В настоящее время служба не поддерживает региональные стандартные развертывания и стандартные развертывания в зоне данных ЕС.
Служба может перенаправить некоторые приоритетные запросы на стандартную обработку* во время следующих сценариев:
- Если быстрое увеличение количества приоритетных маркеров обработки в минуту приводит к достижению лимитов увеличения темпа. В настоящее время ограничение скорости увеличения определяется как увеличение трафика более чем на 50% токенов в минуту за менее чем 15 минут.
- Во время пиковых запросов на приоритетную обработку.
- Контекстные длинные запросы отправляются определённым моделям, перечисленным в целевой таблице задержки.
Совет

Если вы обычно сталкиваетесь с ограничениями скорости увеличения мощности, рассмотрите покупку PTU вместо или в дополнение к приоритетной обработке.

* Сервис выставляет счета за запросы, обработанные на стандартном уровне обслуживания, по стандартным тарифам. Запросы, обрабатываемые уровнем стандартного сервиса, включают service_tier = default в ответ, в то время как запросы, обработанные приоритетным уровнем обработки, включают service_tier = priority в ответ.

Устранение неполадок

Проблема	Причина	Разрешение
Запросы, пониженные до уровня "Стандартный"	Одна из следующих ситуаций: - Трафик резко увеличился более чем на 50% токенов в минуту менее чем за 15 минут, достигнув предела скорости. — Запросы, отправленные в периоды максимальной нагрузки, обрабатываются с приоритетом. — Длинные запросы контекста, отправленные определенным моделям, перечисленным в целевой таблице задержки.	- Постепенное увеличение трафика, если вы столкнулись с ограничениями скорости рампы. - Рассмотрите возможность приобретения PTU для емкости в стационарном режиме.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-30