Управление трафиком с помощью перелива для подготовленных развертываний (классическая модель)

В настоящее время просмотр:Версия портала Foundry (классическая версия - )Переход на версию для нового портала Foundry

В этой статье описывается, как управлять трафиком с помощью разлива для подготовленных развертываний в Azure OpenAI. Разлив управляет колебаниями трафика путем маршрутизации перебора трафика в соответствующее стандартное развертывание. Эту необязательную возможность можно задать для всех запросов на развертывание или управлять на основе каждого запроса, что помогает снизить нарушения во время всплесков трафика.

Необходимые условия

  • Подписка Azure. Создайте его бесплатно.

  • Подготовленное управляемое развертывание и стандартное развертывание в том же ресурсе OpenAI Azure

  • Azure CLI установлен для примеров REST API или доступа к порталу Foundry

  • Переменная среды AZURE_OPENAI_ENDPOINT, заданная для URL-адреса конечной точки OpenAI Azure

  • участник Cognitive Services или более поздней роли в ресурсе OpenAI Azure Для создания или изменения развертываний

Включение разлива для всех запросов в подготовленном развертывании

Чтобы развернуть модель с возможностью разлива, перейдите на портал Foundry. В меню навигации слева выберите "Развертывания".

Выберите "Развернуть модель". В появившемся меню выберите "Настроить".

Снимок экрана: кнопка настройки развертывания.

Укажите один из подготовленных параметров в качестве типа развертывания, например глобальную подготовленную пропускную способность. Выберите разлив трафика , чтобы включить разлив для подготовленного развертывания.

Совет

  • Чтобы включить разлив, ваша учетная запись должна иметь по крайней мере одно активное развертывание по мере использования с оплатой по мере использования, соответствующее модели и версии текущего подготовленного развертывания.
  • Чтобы узнать, как включить разлив для запросов выбора вывода, перейдите на вкладку REST API выше.

Снимок экрана: параметр перелива.

Включение разлива

Чтобы максимально увеличить использование подготовленного развертывания, включите переключение для всех подготовленных глобальных и зон данных. При перемещении всплески или колебания трафика можно автоматически управлять службой. Эта возможность снижает риск возникновения сбоев при полном использовании подготовленного развертывания. Кроме того, переключение можно настроить для каждого запроса, чтобы обеспечить гибкость в разных сценариях и рабочих нагрузках. Разлив также работает со службой агента Foundry.

При переходе на силу

Если включить разлив для развертывания или настроить его для заданного запроса вывода, перелив инициируется при получении определенного200 кода ответа, отличного от ответа, в результате одного из следующих сценариев:

  • Подготовленные единицы пропускной способности (PTU) полностью используются, что приводит к коду 429 ответа.

  • Вы отправляете длинный запрос маркера контекста, который приводит к коду 400 ошибки. Например, при использовании gpt 4.1 моделей серии PTU поддерживает только длину контекста меньше 128K и возвращает HTTP 400.

  • Ошибки сервера возникают при обработке запроса, что приводит к коду 500 ошибки или 503.

Если запрос приводит к выполнению одного из этих кодов ответа, отличных от 200, Azure OpenAI автоматически отправляет запрос из подготовленного развертывания в стандартное развертывание.

Примечание

Даже если подмножество запросов направляется в стандартное развертывание, служба определяет приоритет отправки запросов в подготовленное развертывание перед отправкой любых запросов перебора в стандартное развертывание. Эта приоритетность может привести к дополнительной задержке.

Определение запросов на разлив

Следующие заголовки ответа HTTP указывают на то, что определенный запрос перелился:

  • x-ms-spillover-from-<deployment-name>. Этот заголовок содержит имя развертывания PTU. Наличие этого заголовка указывает, что запрос является запросом на разлив.

  • x-ms-<deployment-name>. Этот заголовок содержит имя развертывания, обслуживающего запрос. Если запрос перетекает, имя развертывания — это имя стандартного развертывания.

Если стандартный запрос развертывания завершается сбоем по какой-либо причине, исходный ответ PTU используется в ответе на запрос клиента. Клиент видит заголовок x-ms-spillover-error , содержащий код ответа запроса на разлив (например 429 , или 500), чтобы они знали причину отработки отказа.

Мониторинг использования разлива

Так как возможность разлива зависит от сочетания подготовленных и стандартных развертываний для управления превышением трафика, мониторинг можно проводить на уровне развертывания для каждого развертывания. Чтобы просмотреть, сколько запросов было обработано в основном подготовленном развертывании и стандартном развертывании разлива, примените функцию разделения в метриках Azure Monitor для просмотра запросов, обработанных каждым развертыванием и соответствующими кодами состояния. Аналогичным образом используйте функцию разделения для просмотра количества маркеров, обработанных в основном подготовленном развертывании, и при использовании стандартного развертывания разлива в течение заданного периода времени.

Дополнительные сведения о наблюдаемости в Azure OpenAI см. в документации Monitor Azure OpenAI.

Стоимость разлива

Так как разлив использует сочетание подготовленных и стандартных развертываний для управления колебаниями трафика, выставление счетов за разлив включает два компонента:

  • Для всех запросов, обработанных подготовленным развертыванием, применяется только почасовая стоимость развертывания. За эти запросы не взимается никаких дополнительных расходов.

  • Для всех запросов, перенаправленных в стандартное развертывание, запрос выставляется по связанному входному маркеру, кэшированному маркеру и тарифам выходных маркеров для указанной версии модели и типа развертывания.

Мониторинг метрик на портале Azure

На следующей диаграмме Azure Monitor метрики приведен пример разделения запросов между основным подготовленным развертыванием и развертыванием стандартного развертывания при запуске разлива. Чтобы создать диаграмму, перейдите к ресурсу на< портале Azure/c0>.

  1. Выберите"Метрикимониторинга>" в меню навигации слева.

  2. Добавьте метрику Azure OpenAI Requests.

    A снимок экрана, показывающий метрики для базового примера разлива на портале Azure.

  3. Выберите Apply splitting и примените разделитель ModelDeploymentName и StatusCode к метрике Azure OpenAI Requests. На этой диаграмме 200 показаны коды ответов (успешно) и 429 (слишком много запросов), созданные для вашего ресурса.

    A снимок экрана: меню для добавления разделений Azure на портале.

    Не забудьте добавить развертывания модели, которые необходимо просмотреть при применении ModelDeploymentName разделения.

    Снимок экрана: доступные фильтры моделей.

    В следующем примере показан экземпляр, в котором всплеск запросов, отправленных в подготовленное развертывание пропускной способности, создает 429 коды ошибок. Вскоре после этого происходит разлив и запросы начинаются в развертывание с оплатой по мере использования, используемое для разлива, создавая 200 ответы для этого развертывания.

    Снимок экрана: метрики для визуализации разлива.

    Примечание

    По мере того как запросы отправляются в развертывание с оплатой по мере использования, они по-прежнему создают 429 кодов ответов для подготовленного развертывания перед перенаправлением. Снимок экрана: коды ответов из подготовленного развертывания.

Просмотр метрик разлива

Применение разделения позволяет просматривать запросы к развертыванию IsSpillover , которые перенаправляются в развертывание разлива. После предыдущего примера можно увидеть, как 429 ответы из основного развертывания соответствуют 200 кодам ответов, созданным развертыванием разлива.

A снимок экрана: разбиение на портале Azure portal.

См. также