Azure Динамическая квота OpenAI (предварительная версия) (классическая версия)

Применяется только к:Портал Foundry (классический). Эта статья недоступна для нового портала Foundry. Дополнительные сведения о новом портале.

Примечание

Ссылки в этой статье могут открывать содержимое в новой документации Microsoft Foundry вместо документации Foundry (классической), которую вы просматриваете сейчас.

Динамическая квота — это функция Azure OpenAI, которая позволяет стандартному развертыванию оппортунистически воспользоваться дополнительными квотами при наличии дополнительной емкости. Если динамическая квота отключена, развертывание сможет обрабатывать максимальную пропускную способность, установленную вашим параметром "Токены в минуту" (TPM). При превышении предустановленного числа транзакций в минуту запросы возвращают ответы HTTP 429. Если включена динамическая квота, развертывание имеет возможность получить доступ к более высокой пропускной способности, прежде чем возвращать 429 ответов, что позволяет выполнять более ранние вызовы. Дополнительные запросы по-прежнему выставляются по обычным ценам.

Динамическая квота может временно увеличить доступную квоту: она никогда не уменьшается ниже настроенного значения.

Когда следует использовать динамическую квоту

Динамическая квота полезна в большинстве сценариев, особенно если приложение может использовать дополнительную емкость оппортунистически или само приложение управляет скоростью вызова AZURE API OpenAI.

Обычно стоит избегать динамической квоты, если ваше приложение будет давать негативный пользовательский опыт при нестабильной или увеличенной квоте.

Для динамической квоты рассмотрим такие сценарии, как:

  • Массовая обработка,
  • Создание сводок или эмбеддингов для получения генерации с дополнением данных (RAG)
  • Автономный анализ журналов для создания метрик и вычислений,
  • Низкоприоритетные исследования,
  • Приложения с небольшим объемом квоты.

Когда вступает в силу динамическая квота?

Серверная часть OpenAI Azure решает, когда и сколько дополнительных динамических квот добавляется или удаляется из разных развертываний. Он не прогнозируется или объявляется заранее, и не предсказуем. Чтобы воспользоваться динамической квотой, код приложения должен иметь возможность выдавать больше запросов, так как ответы HTTP 429 становятся редко. Azure OpenAI позволяет приложению знать, когда вы попали в ограничение квоты, отвечая на запросы HTTP 429 и не разрешая больше вызовов API.

Как динамическая квота изменяет затраты?

  • Вызовы, выполненные над базовой квотой, имеют те же затраты, что и обычные звонки.

  • Нет дополнительных затрат на активацию динамической квоты в развертывании, хотя повышенная пропускная способность в конце концов может привести к увеличению расходов в зависимости от объема трафика, который получает развертывание.

Примечание

С динамической квотой не осуществляется принудительное применение максимальной квоты или максимальной пропускной способности. Azure OpenAI обрабатывает столько запросов, сколько это может быть выше базовой квоты. Если вам нужно управлять скоростью расходов, даже если квота менее ограничена, код приложения должен отложить запросы соответствующим образом.

Использование динамической квоты

Чтобы использовать динамическую квоту, необходимо:

  • Включите динамическое свойство квоты в развертывании Azure OpenAI.
  • Убедитесь, что приложение может воспользоваться динамической квотой.

Включение динамической квоты

Чтобы активировать динамическую квоту для вашего развертывания, перейдите к расширенным свойствам в конфигурации ресурсов и включите её.

Кроме того, его можно включить программным способом с помощью az rest Azure CLI:

Замените {subscriptionId}, {resourceGroupName}{accountName}и {deploymentName} соответствующими значениями для ресурса. В этом случае accountName равно названию ресурса Azure OpenAI.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Как узнать, сколько динамических квот пропускной способности добавляется в приложение?

Чтобы отслеживать работу приложения, можно отслеживать пропускную способность приложения в Azure Monitor. Во время предварительной версии динамической квоты нет конкретных метрик или журналов, чтобы указать, была ли квота динамически увеличена или уменьшена. динамическая квота с меньшей вероятностью будет задействована для вашего развертывания, если оно работает в сильно загруженных регионах и в пиковые часы использования для этих регионов.

Дальнейшие действия