Включение обработки приоритета для моделей Microsoft Foundry

Приоритетная обработка обеспечивает производительность с низкой задержкой с гибкостью модели оплаты по факту использования. В этой статье описано, как включить обработку приоритета в развертывании модели, проверить, какой уровень служб обработал ваши запросы, и отслеживать связанные затраты.

Необходимые условия

  • Подписка Azure: Создайте бесплатно.
  • Проект Microsoft Foundry с моделью типа развертывания GlobalStandard или DataZoneStandard.
  • Версии модели 2025-12-01 или более поздние.

Основные варианты использования

  • Согласованная, низкая задержка, обеспечивающая быструю реакцию на действия пользователей.
  • Простота оплаты по мере использования без долгосрочных обязательств.
  • Трафик, зависящий от рабочих часов или всплесковый трафик, получает преимущество от масштабируемой, экономичной производительности. При необходимости можно объединить приоритетную обработку с подготовленной единицей пропускной способности (PTU) для оптимизации постоянной пропускной способности и затрат.

Целевой уровень задержки

Модель Целевое значение задержки2
gpt-5.4, 2026-03-051 99% > 50 токенов в секунду
gpt-5.2, 2025-12-11 99% > 50 токенов в секунду
gpt-5.1, 2025-11-13 99% > 50 токенов в секунду
gpt-4.1, 2025-04-141 99% > 80 токенов в секунду

1 Длинные запросы контекста (т. е. запросы, оцененные более чем в 128 тыс. токенов) будут понижены до стандартной обработки, и с вас будет взиматься плата по стандартному тарифу.

2 Вычисляется как задержка запроса p50 за 5 минут.

Доступность приоритетной обработки по типу развертывания

Приоритетная обработка может быть включена в глобальных стандартных развертываниях или в стандартных развертываниях Датазоны (США). Сведения о ценах см. на странице ценообразования Azure OpenAI.

Доступность глобальной стандартной модели

Регион gpt-5.5, 2026-04-24 gpt-5.4-mini, 2026-03-17 gpt-5.4, 2026-03-05 gpt-5.2, 2025-12-11 gpt-5.1, 2025-11-13 gpt-4.1, 2025-04-14
australiaeast -
южнаябразилия -
canadacentral -
canadaeast -
centralus -
eastus -
francecentral -
Германия Западно-Центральная -
Северная Италия -
japaneast -
koreacentral -
northcentralus -
норвегия восток -
polandcentral
southafricanorth -
southcentralus
Юго-Восточная Азия -
Южная Индия -
spaincentral -
ЦентральнаяШвеция
швейцариянорт -
швейцариязапад -
uaenorth -
uksouth -
westeurope -
westus -
westus3 -

Включение обработки приоритета на уровне развертывания

Вы можете включить обработку приоритета на уровне развертывания и (необязательно) на уровне запроса.

Примечание

В развертываниях Global Standard или Data Zone Standard (США) можно включить приоритетную обработку. Приоритетная обработка использует ту же квоту, что и стандартная обработка.

На портале Microsoft Foundry включите переключатель приоритетной обработки на странице сведений о развертывании при создании развертывания или обновите настройки развернутой модели, отредактировав сведения о развертывании.

Снимок экрана: включение обработки приоритета во время развертывания модели на портале Foundry.

Примечание

Если вы предпочитаете использовать код для включения обработки приоритета на уровне развертывания, это можно сделать с помощью REST API для развертывания, задав service_tier атрибут следующим образом: "properties" : {"service_tier" : "priority"} Допустимые значения атрибута service_tier : default и priority. default подразумевает стандартную обработку, в то время как priority включает обработку приоритета.

После настройки развертывания модели для использования обработки приоритета можно начать отправку запросов в модель.

Просмотр метрик использования

Вы можете просмотреть меру использования ресурса в разделе Azure Monitor на портале Azure.

Чтобы просмотреть объем запросов, обработанных стандартным способом и с приоритетной обработкой, с разбитием по уровням обслуживания (стандартного или приоритетного), указанным в исходном запросе:

  1. Войдите в https://portal.azure.com.
  2. Перейдите к ресурсу OpenAI Azure и выберите параметр Metrics в области навигации слева.
  3. На странице метрик добавьте метрику запросы Azure OpenAI. Вы также можете выбрать другие метрики, такие как Azure задержка OpenAI, Azure использование OpenAI и другие.
  4. Выберите "Добавить фильтр", чтобы выбрать стандартное развертывание, для которого были обработаны запросы на обработку приоритета.
  5. Выберите "Применить разделение" , чтобы разделить значения по ServiceTierRequest и ServiceTierResponse.

Снимок экрана использования приоритетной обработки на странице метрик ресурса в Azure portal.

Дополнительные сведения о мониторинге развертываний см. в разделе Monitor Azure OpenAI.

Мониторинг затрат

Вы можете просмотреть разбивку затрат на приоритеты и стандартные запросы на странице анализа затрат на портале Azure, отфильтровав имя развертывания и теги выставления счетов следующим образом:

  1. Перейдите на страницу анализа затрат на портале Azure.
  2. (Необязательно) Фильтрация по ресурсу.
  3. Чтобы фильтровать по имени развертывания: добавьте фильтр для тега> выставления счетов выберите развертывание в качестве значения, а затем выберите имя развертывания .

Снимок экрана использования приоритетного обработки на странице анализа затрат ресурса на портале Azure.

Сведения о ценах на приоритетную обработку можно найти в разделе обзор цен на Служба Azure OpenAI.

Включение обработки приоритета на уровне запроса

Включение обработки приоритета на уровне запроса является необязательным. API завершения чата и API ответов имеют необязательный атрибут service_tier , указывающий тип обработки, используемый при обслуживании запроса. В следующем примере показано, как задать значение service_tierpriority в запросе ответов.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

service_tier Используйте атрибут для переопределения параметра уровня развертывания. service_tier может принимать значения auto, defaultи priority.

  • Если атрибут не задан, он устанавливается по умолчанию на auto.

  • service_tier = auto означает, что запрос использует уровень служб, настроенный в развертывании.

  • service_tier = default означает, что запрос использует стандартные цены и производительность выбранной модели.

  • service_tier = priority означает, что запрос использует уровень служб обработки приоритета.

В следующей таблице приведены сведения о том, какой уровень служб обрабатывает запросы на основе параметров уровня развертывания и уровня запросов.service_tier

Параметр уровня развертывания Параметр уровня запроса Запрос, обработанный по уровню служб
По умолчанию авто, по умолчанию Стандартный
По умолчанию Приоритет Обработка с приоритетом
Приоритет авто, приоритет Обработка с приоритетом
Приоритет По умолчанию Стандартный

Ограничения

  • В настоящее время служба не поддерживает региональные стандартные развертывания и стандартные развертывания в зоне данных ЕС.

  • Служба может перенаправить некоторые приоритетные запросы на стандартную обработку* во время следующих сценариев:

    • Если быстрое увеличение количества приоритетных маркеров обработки в минуту приводит к достижению лимитов увеличения темпа. В настоящее время ограничение скорости увеличения определяется как увеличение трафика более чем на 50% токенов в минуту за менее чем 15 минут.
    • Во время пиковых запросов на приоритетную обработку.
    • Контекстные длинные запросы отправляются определённым моделям, перечисленным в целевой таблице задержки.

    Совет

    Если вы обычно сталкиваетесь с ограничениями скорости увеличения мощности, рассмотрите покупку PTU вместо или в дополнение к приоритетной обработке.

    * Сервис выставляет счета за запросы, обработанные на стандартном уровне обслуживания, по стандартным тарифам. Запросы, обрабатываемые уровнем стандартного сервиса, включают service_tier = default в ответ, в то время как запросы, обработанные приоритетным уровнем обработки, включают service_tier = priority в ответ.

Устранение неполадок

Проблема Причина Разрешение
Запросы, пониженные до уровня "Стандартный" Одна из следующих ситуаций:
- Трафик резко увеличился более чем на 50% токенов в минуту менее чем за 15 минут, достигнув предела скорости.
— Запросы, отправленные в периоды максимальной нагрузки, обрабатываются с приоритетом.
— Длинные запросы контекста, отправленные определенным моделям, перечисленным в целевой таблице задержки.
- Постепенное увеличение трафика, если вы столкнулись с ограничениями скорости рампы.
- Рассмотрите возможность приобретения PTU для емкости в стационарном режиме.