Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В настоящее время просмотр:Версия портала Foundry (классическая версия - )Переход на версию для нового портала Foundry
В этой статье описывается, как управлять трафиком с помощью разлива для подготовленных развертываний в Azure OpenAI. Разлив управляет колебаниями трафика путем маршрутизации перебора трафика в соответствующее стандартное развертывание. Эту необязательную возможность можно задать для всех запросов на развертывание или управлять на основе каждого запроса, что помогает снизить нарушения во время всплесков трафика.
Необходимые условия
Подписка Azure. Создайте его бесплатно.
Подготовленное управляемое развертывание и стандартное развертывание в том же ресурсе OpenAI Azure
Azure CLI установлен для примеров REST API или доступа к порталу Foundry
Переменная среды
AZURE_OPENAI_ENDPOINT, заданная для URL-адреса конечной точки OpenAI Azureучастник Cognitive Services или более поздней роли в ресурсе OpenAI Azure Для создания или изменения развертываний
Включение разлива для всех запросов в подготовленном развертывании
Чтобы развернуть модель с возможностью разлива, перейдите на портал Foundry. В меню навигации слева выберите "Развертывания".
Выберите "Развернуть модель". В появившемся меню выберите "Настроить".
Укажите один из подготовленных параметров в качестве типа развертывания, например глобальную подготовленную пропускную способность. Выберите разлив трафика , чтобы включить разлив для подготовленного развертывания.
Совет
- Чтобы включить разлив, ваша учетная запись должна иметь по крайней мере одно активное развертывание по мере использования с оплатой по мере использования, соответствующее модели и версии текущего подготовленного развертывания.
- Чтобы узнать, как включить разлив для запросов выбора вывода, перейдите на вкладку REST API выше.
Включение разлива
Чтобы максимально увеличить использование подготовленного развертывания, включите переключение для всех подготовленных глобальных и зон данных. При перемещении всплески или колебания трафика можно автоматически управлять службой. Эта возможность снижает риск возникновения сбоев при полном использовании подготовленного развертывания. Кроме того, переключение можно настроить для каждого запроса, чтобы обеспечить гибкость в разных сценариях и рабочих нагрузках. Разлив также работает со службой агента Foundry.
При переходе на силу
Если включить разлив для развертывания или настроить его для заданного запроса вывода, перелив инициируется при получении определенного200 кода ответа, отличного от ответа, в результате одного из следующих сценариев:
Подготовленные единицы пропускной способности (PTU) полностью используются, что приводит к коду
429ответа.Вы отправляете длинный запрос маркера контекста, который приводит к коду
400ошибки. Например, при использованииgpt 4.1моделей серии PTU поддерживает только длину контекста меньше 128K и возвращает HTTP 400.Ошибки сервера возникают при обработке запроса, что приводит к коду
500ошибки или503.
Если запрос приводит к выполнению одного из этих кодов ответа, отличных от 200, Azure OpenAI автоматически отправляет запрос из подготовленного развертывания в стандартное развертывание.
Примечание
Даже если подмножество запросов направляется в стандартное развертывание, служба определяет приоритет отправки запросов в подготовленное развертывание перед отправкой любых запросов перебора в стандартное развертывание. Эта приоритетность может привести к дополнительной задержке.
Определение запросов на разлив
Следующие заголовки ответа HTTP указывают на то, что определенный запрос перелился:
x-ms-spillover-from-<deployment-name>. Этот заголовок содержит имя развертывания PTU. Наличие этого заголовка указывает, что запрос является запросом на разлив.x-ms-<deployment-name>. Этот заголовок содержит имя развертывания, обслуживающего запрос. Если запрос перетекает, имя развертывания — это имя стандартного развертывания.
Если стандартный запрос развертывания завершается сбоем по какой-либо причине, исходный ответ PTU используется в ответе на запрос клиента. Клиент видит заголовок x-ms-spillover-error , содержащий код ответа запроса на разлив (например 429 , или 500), чтобы они знали причину отработки отказа.
Мониторинг использования разлива
Так как возможность разлива зависит от сочетания подготовленных и стандартных развертываний для управления превышением трафика, мониторинг можно проводить на уровне развертывания для каждого развертывания. Чтобы просмотреть, сколько запросов было обработано в основном подготовленном развертывании и стандартном развертывании разлива, примените функцию разделения в метриках Azure Monitor для просмотра запросов, обработанных каждым развертыванием и соответствующими кодами состояния. Аналогичным образом используйте функцию разделения для просмотра количества маркеров, обработанных в основном подготовленном развертывании, и при использовании стандартного развертывания разлива в течение заданного периода времени.
Дополнительные сведения о наблюдаемости в Azure OpenAI см. в документации Monitor Azure OpenAI.
Стоимость разлива
Так как разлив использует сочетание подготовленных и стандартных развертываний для управления колебаниями трафика, выставление счетов за разлив включает два компонента:
Для всех запросов, обработанных подготовленным развертыванием, применяется только почасовая стоимость развертывания. За эти запросы не взимается никаких дополнительных расходов.
Для всех запросов, перенаправленных в стандартное развертывание, запрос выставляется по связанному входному маркеру, кэшированному маркеру и тарифам выходных маркеров для указанной версии модели и типа развертывания.
Мониторинг метрик на портале Azure
На следующей диаграмме Azure Monitor метрики приведен пример разделения запросов между основным подготовленным развертыванием и развертыванием стандартного развертывания при запуске разлива. Чтобы создать диаграмму, перейдите к ресурсу на< портале
Выберите"Метрикимониторинга>" в меню навигации слева.
Добавьте метрику
Azure OpenAI Requests.Выберите Apply splitting и примените разделитель
ModelDeploymentNameиStatusCodeк метрикеAzure OpenAI Requests. На этой диаграмме200показаны коды ответов (успешно) и429(слишком много запросов), созданные для вашего ресурса.Не забудьте добавить развертывания модели, которые необходимо просмотреть при применении
ModelDeploymentNameразделения.В следующем примере показан экземпляр, в котором всплеск запросов, отправленных в подготовленное развертывание пропускной способности, создает
429коды ошибок. Вскоре после этого происходит разлив и запросы начинаются в развертывание с оплатой по мере использования, используемое для разлива, создавая200ответы для этого развертывания.
Просмотр метрик разлива
Применение разделения позволяет просматривать запросы к развертыванию IsSpillover , которые перенаправляются в развертывание разлива. После предыдущего примера можно увидеть, как 429 ответы из основного развертывания соответствуют 200 кодам ответов, созданным развертыванием разлива.