Управление трафиком с помощью перелива для подготовленных развертываний (классическая модель)

В настоящее время просмотр:Версия портала Foundry (классическая версия - )Переход на версию для нового портала Foundry

В этой статье описывается, как управлять трафиком с помощью разлива для подготовленных развертываний в Azure OpenAI. Разлив управляет колебаниями трафика путем маршрутизации перебора трафика в соответствующее стандартное развертывание. Эту необязательную возможность можно задать для всех запросов на развертывание или управлять на основе каждого запроса, что помогает снизить нарушения во время всплесков трафика.

Необходимые условия

Подписка Azure. Создайте его бесплатно.
Подготовленное управляемое развертывание и стандартное развертывание в том же ресурсе OpenAI Azure
Azure CLI установлен для примеров REST API или доступа к порталу Foundry
Переменная среды AZURE_OPENAI_ENDPOINT, заданная для URL-адреса конечной точки OpenAI Azure
участник Cognitive Services или более поздней роли в ресурсе OpenAI Azure Для создания или изменения развертываний

Включение разлива для всех запросов в подготовленном развертывании

Портал Foundry
REST API

Чтобы развернуть модель с возможностью разлива, перейдите на портал Foundry. В меню навигации слева выберите "Развертывания".

Выберите "Развернуть модель". В появившемся меню выберите "Настроить".

Укажите один из подготовленных параметров в качестве типа развертывания, например глобальную подготовленную пропускную способность. Выберите разлив трафика , чтобы включить разлив для подготовленного развертывания.

Совет

Чтобы включить разлив, ваша учетная запись должна иметь по крайней мере одно активное развертывание по мере использования с оплатой по мере использования, соответствующее модели и версии текущего подготовленного развертывания.
Чтобы узнать, как включить разлив для запросов выбора вывода, перейдите на вкладку REST API выше.

Возможность разлива может быть включена для всех запросов в подготовленном развертывании с помощью свойства развертывания или ее можно управлять на основе каждого запроса с помощью заголовков запросов. Чтобы включить переключение для всех запросов на подготовленное развертывание, задайте для свойства spilloverDeploymentName развертывания стандартный целевой объект развертывания для запросов на разлив. Это свойство можно задать во время создания нового подготовленного развертывания или добавить в существующее подготовленное развертывание. Свойство spilloverDeploymentName должно иметь имя стандартного развертывания в том же Azure ресурсе OpenAI, что и подготовленное развертывание.

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/spillover-ptu-deployment?api-version=2024-10-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"GlobalProvisionedManaged","capacity":100},"properties": {"spilloverDeploymentName": "spillover-standard-deployment", "model":{"format": "OpenAI","name": "gpt-4o-mini","version": "2024-07-18"}}}'

Успешный запрос возвращает состояние 200 HTTP или 201 ответ JSON, содержащий сведения о развертывании.

Reference:Deployments — создание или обновление

Включение разлива для запросов выбора вывода

Чтобы выборочно включить разлив на основе каждого запроса, задайте x-ms-spillover-deployment заголовок запроса вывода в стандартном целевом объекте развертывания для запросов на разлив. x-ms-spillover-deployment Если заголовок не задан для данного запроса, то переключение инициируется в случае ответа, отличного от 200. Использование или упущение этого заголовка обеспечивает гибкость для управления тем, когда разлив должен или не должен быть инициирован для данной рабочей нагрузки или сценария.

curl $AZURE_OPENAI_ENDPOINT/openai/deployments/spillover-ptu-deployment/chat/completions?api-version=2024-10-21 \
  -H "Content-Type: application/json" \
  -H "x-ms-spillover-deployment: spillover-standard-deployment" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"messages":[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Does Azure OpenAI support customer managed keys?"},{"role": "assistant", "content": "Yes, customer managed keys are supported by Azure OpenAI."},{"role": "user", "content": "Do other Azure services support this too?"}]}'

Успешный запрос возвращает состояние 200 HTTP с ответом завершения чата. При возникновении разлива x-ms-spillover-from-<deployment-name> ответ включает заголовок.

Справка:Создание завершения чата

Примечание

Если возможность разлива включена для развертывания с помощью свойства, а также включена на уровне запроса с помощью spilloverDeploymentNamex-ms-spillover-deployment заголовка, система по умолчанию использует параметр свойства развертывания. Если вы хотите убедиться, что разлив включен только для каждого запроса, не устанавливайте spilloverDeploymentName свойство в подготовленном развертывании и полагаться только на x-ms-spillover-deployment заголовок на основе каждого запроса.

Включение разлива

Чтобы максимально увеличить использование подготовленного развертывания, включите переключение для всех подготовленных глобальных и зон данных. При перемещении всплески или колебания трафика можно автоматически управлять службой. Эта возможность снижает риск возникновения сбоев при полном использовании подготовленного развертывания. Кроме того, переключение можно настроить для каждого запроса, чтобы обеспечить гибкость в разных сценариях и рабочих нагрузках. Разлив также работает со службой агента Foundry.

При переходе на силу

Если включить разлив для развертывания или настроить его для заданного запроса вывода, перелив инициируется при получении определенного200 кода ответа, отличного от ответа, в результате одного из следующих сценариев:

Подготовленные единицы пропускной способности (PTU) полностью используются, что приводит к коду 429 ответа.
Вы отправляете длинный запрос маркера контекста, который приводит к коду 400 ошибки. Например, при использовании gpt 4.1 моделей серии PTU поддерживает только длину контекста меньше 128K и возвращает HTTP 400.
Ошибки сервера возникают при обработке запроса, что приводит к коду 500 ошибки или 503.

Если запрос приводит к выполнению одного из этих кодов ответа, отличных от 200, Azure OpenAI автоматически отправляет запрос из подготовленного развертывания в стандартное развертывание.

Примечание

Даже если подмножество запросов направляется в стандартное развертывание, служба определяет приоритет отправки запросов в подготовленное развертывание перед отправкой любых запросов перебора в стандартное развертывание. Эта приоритетность может привести к дополнительной задержке.

Определение запросов на разлив

Следующие заголовки ответа HTTP указывают на то, что определенный запрос перелился:

x-ms-spillover-from-<deployment-name>. Этот заголовок содержит имя развертывания PTU. Наличие этого заголовка указывает, что запрос является запросом на разлив.
x-ms-<deployment-name>. Этот заголовок содержит имя развертывания, обслуживающего запрос. Если запрос перетекает, имя развертывания — это имя стандартного развертывания.

Если стандартный запрос развертывания завершается сбоем по какой-либо причине, исходный ответ PTU используется в ответе на запрос клиента. Клиент видит заголовок x-ms-spillover-error , содержащий код ответа запроса на разлив (например 429 , или 500), чтобы они знали причину отработки отказа.

Мониторинг использования разлива

Так как возможность разлива зависит от сочетания подготовленных и стандартных развертываний для управления превышением трафика, мониторинг можно проводить на уровне развертывания для каждого развертывания. Чтобы просмотреть, сколько запросов было обработано в основном подготовленном развертывании и стандартном развертывании разлива, примените функцию разделения в метриках Azure Monitor для просмотра запросов, обработанных каждым развертыванием и соответствующими кодами состояния. Аналогичным образом используйте функцию разделения для просмотра количества маркеров, обработанных в основном подготовленном развертывании, и при использовании стандартного развертывания разлива в течение заданного периода времени.

Дополнительные сведения о наблюдаемости в Azure OpenAI см. в документации Monitor Azure OpenAI.

Стоимость разлива

Так как разлив использует сочетание подготовленных и стандартных развертываний для управления колебаниями трафика, выставление счетов за разлив включает два компонента:

Для всех запросов, обработанных подготовленным развертыванием, применяется только почасовая стоимость развертывания. За эти запросы не взимается никаких дополнительных расходов.
Для всех запросов, перенаправленных в стандартное развертывание, запрос выставляется по связанному входному маркеру, кэшированному маркеру и тарифам выходных маркеров для указанной версии модели и типа развертывания.

Мониторинг метрик на портале Azure

На следующей диаграмме Azure Monitor метрики приведен пример разделения запросов между основным подготовленным развертыванием и развертыванием стандартного развертывания при запуске разлива. Чтобы создать диаграмму, перейдите к ресурсу на< портале Azure/c0>.

Выберите"Метрикимониторинга>" в меню навигации слева.
Добавьте метрику Azure OpenAI Requests.
Выберите Apply splitting и примените разделитель ModelDeploymentName и StatusCode к метрике Azure OpenAI Requests. На этой диаграмме 200 показаны коды ответов (успешно) и 429 (слишком много запросов), созданные для вашего ресурса.

Не забудьте добавить развертывания модели, которые необходимо просмотреть при применении ModelDeploymentName разделения.

В следующем примере показан экземпляр, в котором всплеск запросов, отправленных в подготовленное развертывание пропускной способности, создает 429 коды ошибок. Вскоре после этого происходит разлив и запросы начинаются в развертывание с оплатой по мере использования, используемое для разлива, создавая 200 ответы для этого развертывания.

Примечание

По мере того как запросы отправляются в развертывание с оплатой по мере использования, они по-прежнему создают 429 кодов ответов для подготовленного развертывания перед перенаправлением.

Просмотр метрик разлива

Применение разделения позволяет просматривать запросы к развертыванию IsSpillover , которые перенаправляются в развертывание разлива. После предыдущего примера можно увидеть, как 429 ответы из основного развертывания соответствуют 200 кодам ответов, созданным развертыванием разлива.

См. также

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-05-01