Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Приоритетная обработка обеспечивает производительность с низкой задержкой с гибкостью модели оплаты по факту использования. В этой статье описано, как включить обработку приоритета в развертывании модели, проверить, какой уровень служб обработал ваши запросы, и отслеживать связанные затраты.
Необходимые условия
- Подписка Azure: Создайте бесплатно.
- Проект Microsoft Foundry с моделью типа развертывания
GlobalStandardилиDataZoneStandard. - Версии модели
2025-12-01или более поздние.
Основные варианты использования
- Согласованная, низкая задержка, обеспечивающая быструю реакцию на действия пользователей.
- Простота оплаты по мере использования без долгосрочных обязательств.
- Трафик, зависящий от рабочих часов или всплесковый трафик, получает преимущество от масштабируемой, экономичной производительности. При необходимости можно объединить приоритетную обработку с подготовленной единицей пропускной способности (PTU) для оптимизации постоянной пропускной способности и затрат.
Целевой уровень задержки
| Модель | Целевое значение задержки2 |
|---|---|
| gpt-5.4, 2026-03-051 | 99% > 50 токенов в секунду |
| gpt-5.2, 2025-12-11 | 99% > 50 токенов в секунду |
| gpt-5.1, 2025-11-13 | 99% > 50 токенов в секунду |
| gpt-4.1, 2025-04-141 | 99% > 80 токенов в секунду |
1 Длинные запросы контекста (т. е. запросы, оцененные более чем в 128 тыс. токенов) будут понижены до стандартной обработки, и с вас будет взиматься плата по стандартному тарифу.
2 Вычисляется как задержка запроса p50 за 5 минут.
Доступность приоритетной обработки по типу развертывания
Приоритетная обработка может быть включена в глобальных стандартных развертываниях или в стандартных развертываниях Датазоны (США). Сведения о ценах см. на странице ценообразования Azure OpenAI.
Доступность глобальной стандартной модели
| Регион | gpt-5.5, 2026-04-24 | gpt-5.4-mini, 2026-03-17 | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|---|---|
| australiaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| южнаябразилия | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| centralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| francecentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Германия Западно-Центральная | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Северная Италия | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| northcentralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| норвегия восток | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| polandcentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Юго-Восточная Азия | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Южная Индия | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| spaincentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| ЦентральнаяШвеция | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| швейцариянорт | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| швейцариязапад | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westeurope | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ | ✅ | ✅ |
Включение обработки приоритета на уровне развертывания
Вы можете включить обработку приоритета на уровне развертывания и (необязательно) на уровне запроса.
Примечание
В развертываниях Global Standard или Data Zone Standard (США) можно включить приоритетную обработку. Приоритетная обработка использует ту же квоту, что и стандартная обработка.
На портале Microsoft Foundry включите переключатель приоритетной обработки на странице сведений о развертывании при создании развертывания или обновите настройки развернутой модели, отредактировав сведения о развертывании.
Примечание
Если вы предпочитаете использовать код для включения обработки приоритета на уровне развертывания, это можно сделать с помощью REST API для развертывания, задав service_tier атрибут следующим образом: "properties" : {"service_tier" : "priority"} Допустимые значения атрибута service_tier : default и priority.
default подразумевает стандартную обработку, в то время как priority включает обработку приоритета.
После настройки развертывания модели для использования обработки приоритета можно начать отправку запросов в модель.
Просмотр метрик использования
Вы можете просмотреть меру использования ресурса в разделе Azure Monitor на портале Azure.
Чтобы просмотреть объем запросов, обработанных стандартным способом и с приоритетной обработкой, с разбитием по уровням обслуживания (стандартного или приоритетного), указанным в исходном запросе:
- Войдите в https://portal.azure.com.
- Перейдите к ресурсу OpenAI Azure и выберите параметр Metrics в области навигации слева.
- На странице метрик добавьте метрику запросы Azure OpenAI. Вы также можете выбрать другие метрики, такие как Azure задержка OpenAI, Azure использование OpenAI и другие.
- Выберите "Добавить фильтр", чтобы выбрать стандартное развертывание, для которого были обработаны запросы на обработку приоритета.
- Выберите "Применить разделение" , чтобы разделить значения по ServiceTierRequest и ServiceTierResponse.
Дополнительные сведения о мониторинге развертываний см. в разделе Monitor Azure OpenAI.
Мониторинг затрат
Вы можете просмотреть разбивку затрат на приоритеты и стандартные запросы на странице анализа затрат на портале Azure, отфильтровав имя развертывания и теги выставления счетов следующим образом:
- Перейдите на страницу анализа затрат на портале Azure.
- (Необязательно) Фильтрация по ресурсу.
- Чтобы фильтровать по имени развертывания: добавьте фильтр для тега> выставления счетов выберите развертывание в качестве значения, а затем выберите имя развертывания .
Сведения о ценах на приоритетную обработку можно найти в разделе обзор цен на Служба Azure OpenAI.
Включение обработки приоритета на уровне запроса
Включение обработки приоритета на уровне запроса является необязательным. API завершения чата и API ответов имеют необязательный атрибут service_tier , указывающий тип обработки, используемый при обслуживании запроса. В следующем примере показано, как задать значение service_tierpriority в запросе ответов.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
service_tier Используйте атрибут для переопределения параметра уровня развертывания.
service_tier может принимать значения auto, defaultи priority.
Если атрибут не задан, он устанавливается по умолчанию на
auto.service_tier = autoозначает, что запрос использует уровень служб, настроенный в развертывании.service_tier = defaultозначает, что запрос использует стандартные цены и производительность выбранной модели.service_tier = priorityозначает, что запрос использует уровень служб обработки приоритета.
В следующей таблице приведены сведения о том, какой уровень служб обрабатывает запросы на основе параметров уровня развертывания и уровня запросов.service_tier
| Параметр уровня развертывания | Параметр уровня запроса | Запрос, обработанный по уровню служб |
|---|---|---|
| По умолчанию | авто, по умолчанию | Стандартный |
| По умолчанию | Приоритет | Обработка с приоритетом |
| Приоритет | авто, приоритет | Обработка с приоритетом |
| Приоритет | По умолчанию | Стандартный |
Ограничения
В настоящее время служба не поддерживает региональные стандартные развертывания и стандартные развертывания в зоне данных ЕС.
Служба может перенаправить некоторые приоритетные запросы на стандартную обработку* во время следующих сценариев:
- Если быстрое увеличение количества приоритетных маркеров обработки в минуту приводит к достижению лимитов увеличения темпа. В настоящее время ограничение скорости увеличения определяется как увеличение трафика более чем на 50% токенов в минуту за менее чем 15 минут.
- Во время пиковых запросов на приоритетную обработку.
- Контекстные длинные запросы отправляются определённым моделям, перечисленным в целевой таблице задержки.
Совет
Если вы обычно сталкиваетесь с ограничениями скорости увеличения мощности, рассмотрите покупку PTU вместо или в дополнение к приоритетной обработке.
* Сервис выставляет счета за запросы, обработанные на стандартном уровне обслуживания, по стандартным тарифам. Запросы, обрабатываемые уровнем стандартного сервиса, включают
service_tier = defaultв ответ, в то время как запросы, обработанные приоритетным уровнем обработки, включаютservice_tier = priorityв ответ.
Устранение неполадок
| Проблема | Причина | Разрешение |
|---|---|---|
| Запросы, пониженные до уровня "Стандартный" | Одна из следующих ситуаций: - Трафик резко увеличился более чем на 50% токенов в минуту менее чем за 15 минут, достигнув предела скорости. — Запросы, отправленные в периоды максимальной нагрузки, обрабатываются с приоритетом. — Длинные запросы контекста, отправленные определенным моделям, перечисленным в целевой таблице задержки. |
- Постепенное увеличение трафика, если вы столкнулись с ограничениями скорости рампы. - Рассмотрите возможность приобретения PTU для емкости в стационарном режиме. |