Поделиться через


Управление трафиком с помощью разлива для подготовленных развертываний

Замечание

Этот документ относится к порталу Microsoft Foundry (классическая модель).

🔄 Перейдите в новую документацию по Microsoft Foundry, если вы используете новый портал.

Замечание

Этот документ относится к порталу Microsoft Foundry (new).

В этой статье описывается, как управлять трафиком с помощью перераспределения для выделенных развертываний в Azure OpenAI. Контроль потока управляет изменением трафика, маршрутизируя избыточный трафик в соответствующую стандартную установку. Эту необязательную настройку можно установить на всех запросах в среде развертывания или управлять ею по каждому запросу, что помогает снизить перебои при резких увеличениях трафика.

Предпосылки

  • Подписка Azure. Создайте его бесплатно.

  • Подготовленное управляемое развертывание и стандартное развертывание в том же ресурсе Azure OpenAI

  • Уровень обработки данных вашего стандартного развертывания должен соответствовать вашему зарезервированному развертыванию. Например, используйте глобальное развертывание с предварительной настройкой совместно с развертыванием для стандартного распределения нагрузки.

  • Azure CLI, установленная для примеров REST API, или доступ к порталу Foundry

  • Переменная среды AZURE_OPENAI_ENDPOINT, установленная в URL-адрес вашей конечной точки Azure OpenAI

  • Роль участника Cognitive Services или выше в ресурсе Azure OpenAI для создания или изменения развертываний

Включите спилловер для всех запросов в предоставленном развертывании

Чтобы развернуть модель с возможностью разлива, перейдите на портал Foundry. В меню навигации слева выберите "Развертывания".

Выберите "Развернуть модель". В появившемся меню выберите "Настроить".

Снимок экрана: кнопка настройки развертывания.

Укажите один из подготовленных параметров в качестве типа развертывания, например глобальную подготовленную пропускную способность. Выберите разлив трафика , чтобы включить разлив для подготовленного развертывания.

Подсказка

  • Чтобы включить разлив, ваша учетная запись должна иметь по крайней мере одно активное развертывание по мере использования с оплатой по мере использования, соответствующее модели и версии текущего подготовленного развертывания.
  • Чтобы узнать, как включить возможность использования резервного пути для некоторых запросов вывода, выберите вкладку REST API выше.

Снимок экрана: параметр перелива.

Перейдите на вкладку REST API, чтобы узнать, как включить разлив.

Когда включать перераспределение

Для максимального использования выделенного развертывания включите переполнение для всех выделенных развертываний в глобальной сети и зоне данных. С помощью распределения избыточного трафика, всплески или колебания трафика могут автоматически управляться службой. Эта возможность снижает риск возникновения сбоев при полном использовании подготовленного развертывания. Кроме того, перераспределение можно настроить для каждого запроса, чтобы обеспечить гибкость в разных сценариях и рабочих нагрузках. Разлив также работает со службой агента Foundry.

Когда действует эффект spillover

Если включить режим резервирования для развертывания или настроить его для конкретного запроса на предсказание, резервирование активируется при получении определенного 200 кода ответа, отличного от успешного, в результате одного из следующих сценариев:

  • Выделенные единицы пропускной способности (PTU) полностью используются, следствием чего является ответный код 429.

  • Вы отправляете запрос с длинным токеном контекста, что приводит к коду ошибки 400. Например, при использовании gpt 4.1 моделей серии PTU поддерживает только длину контекста меньше 128K и возвращает HTTP 400.

  • Ошибки сервера возникают при обработке запроса, что приводит к коду 500 ошибки или 503.

Когда запрос приводит к одному из этих нестандартных кодов ответа, Azure OpenAI автоматически отправляет запрос из вашего выделенного развертывания в стандартное развертывание для обработки.

Замечание

Даже если подмножество запросов направляется в стандартное развертывание, служба определяет приоритет отправки запросов в развертывание с выделенными ресурсами, прежде чем отправлять любые избыточные запросы в стандартное развертывание. Эта приоритетность может привести к дополнительной задержке.

Определение запросов на разлив

Следующие заголовки ответа HTTP указывают на то, что определенный запрос перелился:

  • x-ms-spillover-from-<deployment-name>. Этот заголовок содержит имя конфигурации развертывания PTU. Наличие этого заголовка указывает, что запрос является запросом на разлив.

  • x-ms-<deployment-name>. Этот заголовок содержит имя развертывания, обслуживающего запрос. При переполнении запроса имя развертывания — это имя стандартного развертывания.

Если стандартный запрос развертывания завершается сбоем по какой-либо причине, исходный ответ PTU используется в ответе на запрос клиента. Клиент видит заголовок x-ms-spillover-error, содержащий код ответа на запрос перевыделения (например, 429 или 500), чтобы он/она знали причину отказа перевыделения.

Мониторинг использования разлива

Так как возможность перераспределения зависит от сочетания зарезервированных и стандартных развертываний для управления избытком трафика, мониторинг можно проводить на уровне каждого развертывания. Чтобы просмотреть, сколько запросов было обработано в основном подготовленном развертывании и стандартном развертывании разлива, примените функцию разделения в метриках Azure Monitor для просмотра запросов, обработанных каждым развертыванием и соответствующими кодами состояния. Аналогичным образом используйте функцию разделения данных для просмотра количества токенов, обработанных в первичном задействованном развертывании, по сравнению с дополнительным стандартным развертыванием в течение заданного периода времени.

Дополнительные сведения об обеспечении наблюдаемости в Azure OpenAI см. в документации по мониторингу Azure OpenAI.

Стоимость разлива

Так как разлив использует сочетание подготовленных и стандартных развертываний для управления колебаниями трафика, выставление счетов за разлив включает два компонента:

  • Для всех запросов, обработанных подготовленным развертыванием, применяется только почасовая стоимость развертывания. За эти запросы не взимается никаких дополнительных расходов.

  • Для любого запроса, направленного в ваше стандартное развертывание, выставляется счет на основе связанных тарифов за входные, кэшированные и выходные токены, применяемых к указанной версии модели и типу развертывания.

Мониторинг метрик на портале Azure

На следующей диаграмме метрик Azure Monitor представлен пример разделения запросов между основным выделенным развертыванием и стандартным развертыванием при запуске перераспределения нагрузки. Чтобы создать диаграмму, перейдите к ресурсу на портале Azure.

  1. Выберите Мониторинг>Метрики в меню навигации слева.

  2. Добавьте метрику Azure OpenAI Requests .

    Снимок экрана: метрики для базового примера разлива на портале Azure.

  3. Нажмите кнопку "Применить разделение" и примените ModelDeploymentName разделение StatusCode к Azure OpenAI Requests метрикам. На этой диаграмме 200 показаны коды ответов (успешно) и 429 (слишком много запросов), созданные для вашего ресурса.

    Снимок экрана: меню для добавления разбиений на портале Azure.

    Не забудьте добавить развертывания модели, которые необходимо просмотреть при применении ModelDeploymentName разделения.

    Снимок экрана: доступные фильтры моделей.

    В следующем примере показан экземпляр, в котором всплеск запросов, отправленных в подготовленное развертывание пропускной способности, создает 429 коды ошибок. Вскоре после этого происходит перераспределение нагрузки, и запросы начинают отправляться в развертывание с оплатой по факту использования, используемое для перераспределения, создавая 200 ответы для этого развертывания.

    Снимок экрана: метрики для визуализации разлива.

    Замечание

    По мере того как запросы отправляются в развертывание с оплатой по мере использования, они по-прежнему создают 429 кодов ответов для подготовленного развертывания перед перенаправлением. Снимок экрана: коды ответов из подготовленного развертывания.

Просмотр метрик разлива

Применение разделения позволяет просматривать запросы к развертыванию IsSpillover , которые перенаправляются в развертывание разлива. После предыдущего примера можно увидеть, как 429 ответы из основного развертывания соответствуют 200 кодам ответов, созданным развертыванием разлива.

Снимок экрана: разбиение разбиения на портале Azure.

См. также