Поделиться через


Azure OpenAI Динамическая квота (предварительный просмотр) (классический)

Применяется только к:Портал Foundry (классический). Эта статья недоступна для нового портала Foundry. Дополнительные сведения о новом портале.

Замечание

Некоторые ссылки в этой статье могут открывать содержимое в новой документации Microsoft Foundry, а не в классической версии Foundry, которую вы просматриваете сейчас.

Динамическая квота — это функция Azure OpenAI, которая позволяет стандартному развертыванию оппортунистически воспользоваться дополнительными квотами при наличии дополнительной емкости. Если динамическая квота отключена, развертывание сможет обрабатывать максимальную производительность, установленную вашим параметром Tokens Per Minute (TPM), то есть количеством токенов в минуту. Когда вы превышаете предустановленное количество операций в минуту (TPM), запросы возвращают ответы HTTP 429. Если включена динамическая квота, развертывание может получить более высокую пропускную способность перед тем, как возвращать коды 429, что позволяет выполнять больше вызовов на более раннем этапе. Дополнительные запросы по-прежнему выставляются по регулярным тарифам.

Динамическая квота может временно увеличить доступную квоту: она никогда не уменьшается ниже настроенного значения.

Когда следует использовать динамическую квоту

Динамическая квота полезна в большинстве сценариев, особенно если приложение может использовать дополнительную емкость оппортунистически или само приложение управляет скоростью вызова AZURE API OpenAI.

Как правило, ситуация, в которой лучше избегать динамической квоты, заключается в том, что ваше приложение создаст неблагоприятные условия, если квота будет нестабильной или увеличенной.

Для динамической квоты рассмотрим такие сценарии, как:

  • Массовая обработка,
  • Создание суммаризаций или векторов для дополненной генерации с использованием поиска (RAG)
  • Автономный анализ журналов для создания метрик и вычислений,
  • Низкоприоритетные исследования,
  • Приложения с небольшим объемом квоты.

Когда вступает в силу динамическая квота?

Серверная часть OpenAI Azure решает, когда и сколько дополнительных динамических квот добавляется или удаляется из разных развертываний. Он не прогнозируется или объявляется заранее, и не предсказуем. Чтобы воспользоваться динамической квотой, код приложения должен иметь возможность выдавать больше запросов, так как ответы HTTP 429 становятся редко. Azure OpenAI позволяет приложению знать, когда вы попали в ограничение квоты, отвечая на запросы HTTP 429 и не разрешая больше вызовов API.

Как динамическая квота изменяет затраты?

  • Вызовы, выполненные над базовой квотой, имеют те же затраты, что и обычные звонки.

  • В развертывании нет дополнительных затрат для включения динамической квоты, хотя повышенная пропускная способность в конечном итоге может привести к увеличению затрат в зависимости от объема трафика, получаемого вашим развертыванием.

Замечание

С динамической квотой нет принудительного применения предельной квоты или пропускной способности. Azure OpenAI обрабатывает столько запросов, сколько это может быть выше базовой квоты. Если вам нужно управлять скоростью расходов, даже если квота менее ограничена, код приложения должен отложить запросы соответствующим образом.

Использование динамической квоты

Чтобы использовать динамическую квоту, необходимо:

  • Включите динамическое свойство квоты в развертывании Azure OpenAI.
  • Убедитесь, что приложение может воспользоваться динамической квотой.

Включение динамической квоты

Чтобы активировать динамическую квоту для развертывания, можно перейти к расширенным свойствам в конфигурации ресурсов и включить её.

Кроме того, его можно включить программным способом с помощью az rest Azure CLI:

Замените {subscriptionId}, {resourceGroupName}{accountName}и {deploymentName} соответствующими значениями для ресурса. В этом случае accountName соответствует имени ресурса Azure OpenAI.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Как мне узнать, сколько пропускной способности добавляют динамические квоты к моему приложению?

Чтобы отслеживать работу приложения, можно отслеживать пропускную способность приложения в Azure Monitor. Во время предварительной версии динамической квоты нет конкретных метрик или журналов, чтобы указать, была ли квота динамически увеличена или уменьшена. динамическая квота, скорее всего, не будет задействована для развертывания, если оно осуществляется в сильно загруженных регионах и в часы пиковой нагрузки на эти регионы.

Дальнейшие шаги