Управление Azure OpenAI в квоте моделей Microsoft Foundry (классическая модель)

Применяется только к:Портал Foundry (классический). Эта статья недоступна для нового портала Foundry. Дополнительные сведения о новом портале.

Замечание

Некоторые ссылки в этой статье могут открывать содержимое в новой документации Microsoft Foundry, а не в классической версии Foundry, которую вы просматриваете сейчас.

Квота обеспечивает гибкость для активного управления распределением ограничений скорости между развертываниями в вашей подписке. В этой статье описывается процесс управления квотой OpenAI Azure.

Предпосылки

Это важно

Для любой задачи, требующей просмотра доступной квоты, мы рекомендуем использовать роль Cognitive Services Usages Reader. Эта роль обеспечивает минимальный доступ, необходимый для просмотра использования квот в Azure подписке. Дополнительные сведения об этой роли и других ролях, необходимых для доступа к Azure OpenAI, см. в руководстве по управлению доступом на основе ролей Azure.

Эту роль можно найти на портале Azure в разделе Subscriptions>Access control (IAM)>Add role assignment>, найдите Cognitive Services Usages Reader. Эта роль должна применяться на уровне подписки, она не существует на уровне ресурса.

Если вы не хотите использовать эту роль, роль читателя подписки предоставит эквивалентный доступ, но также предоставит доступ на чтение за пределы области, необходимой для просмотра квоты и развертывания модели.

Общие сведения о квоте

Функция квоты Azure OpenAI позволяет назначать ограничения скорости для развертывания, до глобального предела, называемого quota. Квота назначается вашей подписке по каждому региону, на каждую модель, на каждый тип развертывания в единицах токенов в минуту (TPM). При подключении подписки к Azure OpenAI вы получите квоту по умолчанию для большинства доступных моделей. Затем вы назначите TPM каждому развертыванию по мере его создания, а доступная квота для этой модели будет сокращена на эту сумму. Вы можете продолжать создавать развертывания и назначать им TPM, пока не достигнете лимита квоты. После этого можно создать новые развертывания этой модели только путем уменьшения количества TPM, назначенного другим развертываниям этой же модели (таким образом освобождая TPM для использования), или запрашивая увеличение квоты модели в нужном регионе и получая на это одобрение.

Замечание

С квотой 240 тыс. TPM для GPT-4o в восточной части США, клиент может создать одно развертывание на 240 тыс. TPM, два развертывания по 120 тыс. TPM каждое или любое количество развертываний в одном или нескольких ресурсах Azure OpenAI, если их суммарный TPM составляет менее 240 тыс. в этом регионе.

При создании развертывания назначенный TPM напрямую сопоставляется с установленным ограничением скорости токенов в минуту для запросов на интерпретацию. Ограничение скорости запросов на минуту (RPM) также будет применяться, и его значение устанавливается пропорционально назначению TPM с использованием следующего соотношения:

Это важно

Соотношение запросов в минуту (RPM) к токенам в минуту (TPM) для квоты может варьироваться в зависимости от модели. При программном развертывании модели или запросе увеличения квоты у вас нет детализированного контроля над TPM и RPM в качестве независимых значений. Квота выделяется в единицах емкости, которые имеют соответствующие показатели RPM и TPM.

Модель	Capacity	Запросы в минуту (RPM)	Токены за минуту (TPM)
Старые модели чата:	1 единица	6 об/мин	1 000 TPM
o1 и o1-preview:	1 единица	1 об/мин	6000 TPM
o3	1 единица	1 об/мин	1 000 TPM
o4-mini	1 единица	1 об/мин	1 000 TPM
o3-mini:	1 единица	1 об/мин	10 000 TPM
o1-mini:	1 единица	1 об/мин	10 000 TPM
o3-pro:	1 единица	1 об/мин	10 000 TPM

Это особенно важно для развертывания программной модели, так как изменения в соотношении RPM/TPM могут привести к случайному неправильному расположению квоты.

Гибкость глобального распространения модуля TPM в рамках подписки и региона позволила Azure OpenAI смягчить другие ограничения.

Максимальное количество ресурсов в каждом регионе увеличивается до 30.
Ограничение на создание не более одного развертывания одной модели в ресурсе было удалено.

Назначение квоты

При создании развертывания модели у вас есть возможность назначить количество токенов в минуту (TPM) для этого развертывания. TPM можно изменять с шагом в 1000, и эти изменения будут соответствовать ограничениям скорости TPM и RPM, применяемым в вашем развертывании, как обсуждалось выше.

Чтобы создать новое развертывание в портале Microsoft Foundry, выберите Развертывания, затем >, Развернуть базовую модель, > и Подтвердить.

После развертывания вы можете отрегулировать выделение TPM, выбрав и изменив свою модель на странице "Развертывания" в портале Foundry. Этот параметр также можно изменить на странице управления>модель квоты.

Это важно

Квоты и ограничения могут быть изменены, для наиболее актуальной информации обратитесь к нашей статье о квотах и ограничениях.

Запрос дополнительных квот

Отправьте форму запроса увеличения квоты, чтобы запросить увеличение квоты для моделей Foundry, продаваемых напрямую через Azure, моделей Azure OpenAI и моделей Anthropic. За исключением антропических моделей, модели от партнеров и сообщества не поддерживают увеличение квоты.

Запросы на увеличение квот обрабатываются в том порядке, в который они получены, и приоритет передает клиентам, которые активно используют существующее выделение квот. Запросы, которые не соответствуют этому условию, могут быть отклонены.

Конкретные параметры модели

Различные развертывания моделей, также называемые классами моделей, имеют уникальные максимальные значения TPM, которыми вы теперь можете управлять. Это определяет максимальное количество TPM, которое может быть выделено для этого типа развертывания модели в определенном регионе.

Все остальные классы моделей имеют общее максимальное значение TPM.

Замечание

Маркеры квоты— выделениеPer-Minute (TPM) не связано с максимальным ограничением входного маркера модели. Ограничения входных маркеров модели определяются в таблице моделей и не влияют на изменения, внесенные в TPM.

Просмотр и запрос квоты

Чтобы получить общее представление о распределении ваших квот по развертываниям в определенном регионе, выберите Управление>Квота в портале Foundry:

Развертывание: развертывания модели, разделенные на класс модели.
Тип квоты: для каждого типа модели имеется одно значение квоты для каждого региона. Квота охватывает все версии этой модели.
Распределение квоты: Для имени квоты показывается, сколько квот используется развертываниями, а также общая квота, утвержденная для этой подписки и региона. Этот объем квоты также представлен в графе линейчатой диаграммы.
Квота запроса: значок переходит к этой форме, где можно отправить запросы на увеличение квоты.

Перенос существующих развертываний

В рамках перехода на новую систему квот и распределение на основе TPM все существующие развертывания моделей Azure OpenAI были автоматически перенесены и теперь используют квоты. В случаях, когда существующее распределение TPM/RPM превышает значения по умолчанию из-за предыдущих увеличений ограничения скорости, эквивалентный TPM был назначен затронутым развертываниям.

Общие сведения об ограничениях скорости

Назначение TPM развертыванию устанавливает ограничения скорости токены в минуту (TPM) и запросы в минуту (RPM) для развертывания, как описано выше. Ограничения скорости на основе TPM определяются максимальным числом маркеров, предположительно обрабатываемых в момент получения запроса. Это не то же самое, что и счетчик токенов, используемый для выставления счетов, который вычисляется после завершения всей обработки.

По мере получения каждого запроса Azure OpenAI вычисляет предполагаемое максимально обработанное количество токенов, которое включает следующее:

Запрос текста и подсчета
Настройка параметра max_tokens
Настройка параметра best_of

По мере поступления запросов в конечную точку развертывания, предполагаемое максимальное количество обработанных токенов добавляется к суммарному числу токенов всех запросов, которое сбрасывается каждую минуту. Если в течение этой минуты в любой момент достигнуто ограничение скорости запросов, дальнейшие запросы получат код ответа 429 до сброса счетчика.

Это важно

Количество маркеров, используемое в вычислении ограничения скорости, — это оценка, основанная частично на количестве символов запроса API. Оценка лимита токенов не совпадает с вычислением количества токенов, которое используется для выставления счетов или определения того, что запрос находится ниже лимита входных токенов модели. Из-за приблизительного характера расчета токенов ограничения скорости ожидается, что ограничение скорости может сработать раньше, чем это было бы предположено на основе точного подсчета токенов для каждого запроса.

Ограничения скорости RPM основаны на количестве запросов, полученных с течением времени. Ожидается, что ограничение частоты запросов обеспечит равномерное распределение запросов в течение одной минуты. Если этот средний поток не поддерживается, запросы могут получить ответ 429, даже если лимит не превышен при измерении в течение минуты. Для реализации этого поведения Azure OpenAI оценивает скорость входящих запросов в течение небольшого периода времени, обычно 1 или 10 секунд. Если число полученных запросов в течение этого времени превышает ожидаемое значение в заданном пределе RPM, новые запросы получат код ответа 429 до следующего периода оценки. Например, если Azure OpenAI выполняет мониторинг частоты запросов по 1-секундным интервалам, ограничение скорости будет происходить для развертывания 600-RPM, если в течение каждого 10-секундного периода получаются более 10 запросов (600 запросов в минуту = 10 запросов в секунду).

Общие сведения об ошибках регулирования 429 и о том, что делать

Почему вы можете увидеть ошибку 429

Ошибка 429 ("Слишком много запросов") может возникнуть, когда использование превышает допустимые ограничения или когда система испытывает высокий спрос. Мы недавно улучшили обмен сообщениями об ошибках, чтобы сделать эти ситуации более прозрачными и действенными.

Распространенные 429 сценарии и что с ними делать

Превышено ограничение скорости. Это наиболее распространенная ситуация, когда вы получили 429 ответов. Это означает, что ваши запросы превысили ограничение скорости для текущей квоты. В этом случае можно запросить увеличение квоты с помощью предоставленной ссылки в сообщении об ошибке.
Система испытывает высокий спрос и не может обрабатывать запрос. Система находится под высоким спросом и не может обрабатывать запрос из-за ограничений емкости или задержки. В этом случае можно повторить попытку после предлагаемого времени. Обратите внимание, что предложение "Стандарт" не имеет соглашения об уровне обслуживания (SLA) и может столкнуться с переменной задержкой при превышении уровня использования. Если вы ищете улучшенную надежность или низкую задержку, рассмотрите возможность обновления до предложения Premium (подготовленная пропускная способность) для повышения прогнозируемости.

Автоматизация развертывания

В этом разделе представлены краткие примеры шаблонов, которые помогут вам начать программное создание внедрений, использующих квоту для установки ограничений скорости модуля TPM. При вводе квоты необходимо использовать версию 2023-05-01 API для связанных действий по управлению ресурсами. Эта версия API предназначена только для управления вашими ресурсами и не влияет на версию API, используемую для вызовов, связанных с выводом данных, таких как автодополнения, чат-комплиты, внедрение данных, генерация изображений и т. д.

Развертывание

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

Параметры пути

Параметр	Тип	Обязательное?	Description
`accountName`	струна	Обязательно	Имя вашего ресурса Azure OpenAI.
`deploymentName`	струна	Обязательно	Имя развертывания, выбранное при развертывании существующей модели или имя, которое будет иметь новое развертывание модели.
`resourceGroupName`	струна	Обязательно	Имя связанной группы ресурсов для развертывания этой модели.
`subscriptionId`	струна	Обязательно	Идентификатор подписки для связанной подписки.
`api-version`	струна	Обязательно	Версия API, используемая для данной операции. Имеет формат ГГГГ-ММ-ДД.

Поддерживаемые версии

2023-05-01 Спецификация Swagger

Текст запроса

Это только подмножество доступных параметров текста запроса. Полный список параметров см. в справочной документации по REST API.

Параметр	Тип	Description
sku	Sku	Определение модели ресурсов, представляющее номер SKU.
capacity	целое число	Это представляет объем квоты , которую вы назначаете этому развертыванию. Значение 1 единицы измерения равно 1000 токенов в минуту (TPM). Значение 10 соответствует 10 тысячам токенов в минуту (TPM).

Пример запроса

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-4o-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-4o","version": "2024-11-20"}}}'

Замечание

Существует несколько способов создания токена авторизации. Самый простой способ начального тестирования — запустить Cloud Shell на портале Azure. Затем выполните az account get-access-token. Этот маркер можно использовать в качестве временного маркера авторизации для тестирования API.

Дополнительные сведения см. в справочной документации по REST API по использованию и развертыванию.

Usage

Запрос использования квоты в определенном регионе для конкретной подписки

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01

Параметры пути

Параметр	Тип	Обязательное?	Description
`subscriptionId`	струна	Обязательно	Идентификатор подписки для связанной подписки.
`location`	струна	Обязательно	Местоположение для просмотра использования, например: `eastus`
`api-version`	струна	Обязательно	Версия API, используемая для данной операции. Имеет формат ГГГГ-ММ-ДД.

Поддерживаемые версии

2023-05-01 Спецификация Swagger

Пример запроса

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN'

Установите Azure CLI. Для квоты требуется Azure CLI version 2.51.0. Если вы уже установили Azure CLI локально запустите az upgrade для обновления до последней версии.

Чтобы проверить, какую версию Azure CLI вы используете, введите az version. Azure Cloud Shell в настоящее время работает на версии 2.50.0, поэтому в этот переходный период требуется локальная установка Azure CLI для использования последних функций Azure OpenAI.

Развертывание

az cognitiveservices account deployment create --model-format
                                               --model-name
                                               --model-version
                                               --name
                                               --resource-group
                                               [--capacity]
                                               [--deployment-name]
                                               [--scale-capacity]
                                               [--scale-settings-scale-type {Manual, Standard}]
                                               [--sku]

Чтобы войти в локальную установку интерфейса командной строки, выполните следующую az login команду:

az login

При установке емкости SKU на 10 в команде ниже для этого развертывания будет установлено ограничение на 10 тысяч TPM.

az cognitiveservices account deployment create -g test-resource-group -n test-resource-name --deployment-name test-deployment-name --model-name gpt-4o --model-version "2024-11-20" --model-format OpenAI --sku-capacity 10 --sku-name "Standard"

Usage

Чтобы запросить использование квоты в определенном регионе для конкретной подписки

az cognitiveservices usage list --location

Пример

az cognitiveservices usage list -l eastus

Эта команда выполняется в контексте текущей активной подписки для Azure CLI. Используйте az-account-set --subscription для изменения активной подписки.

Дополнительные сведения см. в справочной документации Azure CLI

Установите последнюю версию модуля Az PowerShell. Если модуль Az PowerShell уже установлен локально, выполните обновление Update-Module -Name Az до последней версии.

Чтобы проверить, какая версия запущенного модуля Az PowerShell, используйте Get-InstalledModule -Name Az. Azure Cloud Shell в настоящее время работает с версией Azure PowerShell, которая может воспользоваться новейшими функциями Azure OpenAI.

Развертывание

New-AzCognitiveServicesAccountDeployment
   [-ResourceGroupName] <String>
   [-AccountName] <String>
   [-Name] <String>
   [-Properties] <DeploymentProperties>
   [-Sku] <Sku>
   [-DefaultProfile <IAzureContextContainer>]
   [-WhatIf]
   [-Confirm]
   [<CommonParameters>]

Чтобы войти в локальную установку Azure PowerShell, выполните команду Connect-AzAccount:

Connect-AzAccount

Задав значение SKU Capacity равным 10 в приведенной ниже команде, это развертывание имеет ограничение на 10K TPM.

$cognitiveServicesDeploymentParams = @{
    ResourceGroupName = 'test-resource-group'
    AccountName = 'test-resource-name'
    Name = 'test-deployment-name'
    Properties = @{
        Model = @{
            Name = 'gpt-4o'
            Version = '2024-11-20'
            Format  = 'OpenAI'
        }
    }
    Sku = @{
        Name = 'Standard'
        Capacity = '10'
    }
}
New-AzCognitiveServicesAccountDeployment @cognitiveServicesDeploymentParams

Usage

Чтобы запросить использование квоты в определенном регионе для конкретной подписки, выполните указанные ниже действия.

Get-AzCognitiveServicesUsage -Location <location>

Пример

Get-AzCognitiveServicesUsage -Location eastus

Эта команда выполняется в контексте активной подписки для Azure PowerShell. Используйте Set-AzContext для изменения активной подписки.

Дополнительные сведения о New-AzCognitiveServicesAccountDeployment и Get-AzCognitiveServicesUsage см. в справочной документации Azure PowerShell.

//
// This Azure Resource Manager template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
{
    "type": "Microsoft.CognitiveServices/accounts/deployments",
    "apiVersion": "2023-05-01",
    "name": "arm-je-aoai-test-resource/arm-je-std-deployment",    // Update reference to parent Azure OpenAI resource
    "dependsOn": [
        "[resourceId('Microsoft.CognitiveServices/accounts', 'arm-je-aoai-test-resource')]"  // Update reference to parent Azure OpenAI resource
    ],
    "sku": {
        "name": "Standard",      
        "capacity": 10            // The deployment will be created with a 10K TPM limit
    },
    "properties": {
        "model": {
            "format": "OpenAI",
            "name": "gpt-4o",
            "version": "2024-11-20"       
        }
    }
}

Дополнительные сведения см. в справочной документации full Azure Resource Manager.

//
// This Bicep template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
resource arm_je_std_deployment 'Microsoft.CognitiveServices/accounts/deployments@2023-05-01' = {
  parent: arm_je_aoai_resource   // Replace this with a reference to the parent Azure OpenAI resource
  name: 'arm-je-std-deployment'
  sku: {
    name: 'Standard'            
    capacity: 10                 // The deployment will be created with a 10K TPM limit
  }
  properties: {
    model: {
      format: 'OpenAI'
      name: 'gpt-4o'
      version: '2024-11-20'          
    }
  }
}

Дополнительную информацию см. в полной справочной документации Bicep.

# This Terraform template shows how to use the new schema introduced in the 2023-05-01 API version to 
# create deployments that set the model version and the TPM limits for standard deployments.
# 
# The new schema is not yet available in the AzureRM provider (target v4.0), so this template uses the AzAPI
# provider, which provides a Terraform-compatible interface to the underlying ARM structures.
# 
# For more details on these providers:
#     AzureRM: https://registry.terraform.io/providers/hashicorp/azurerm/latest/docs
#     AzAPI: https://registry.terraform.io/providers/azure/azapi/latest/docs
#

# 
terraform {
  required_providers {
    azapi   = { source  = "Azure/azapi" }
    azurerm = { source  = "hashicorp/azurerm" }
  }
}

provider "azapi" {
  # Insert auth info here as necessary
}

provider "azurerm" {
    # Insert auth info here as necessary  
    features {
    }
}

# 
# To create a complete example, AzureRM is used to create a new resource group and Azure OpenAI Resource
# 
resource "azurerm_resource_group" "TERRAFORM-AOAI-TEST-GROUP" {
  name     = "TERRAFORM-AOAI-TEST-GROUP"
  location = "canadaeast"
}

resource "azurerm_cognitive_account" "TERRAFORM-AOAI-TEST-ACCOUNT" {
  name                  = "terraform-aoai-test-account"
  location              = "canadaeast"
  resource_group_name   = azurerm_resource_group.TERRAFORM-AOAI-TEST-GROUP.name
  kind                  = "OpenAI"
  sku_name              = "S0"
  custom_subdomain_name = "terraform-test-account-"
  }

# 
# AzAPI is used to create the deployment so that the TPM limit and model versions can be set
#
resource "azapi_resource" "TERRAFORM-AOAI-STD-DEPLOYMENT" {
  type      = "Microsoft.CognitiveServices/accounts/deployments@2023-05-01"
  name      = "TERRAFORM-AOAI-STD-DEPLOYMENT"
  parent_id = azurerm_cognitive_account.TERRAFORM-AOAI-TEST-ACCOUNT.id

  body = jsonencode({
    sku = {                            # The sku object specifies the deployment type and limit in 2023-05-01
        name = "Standard",             
        capacity = 10                  # This deployment will be set with a 10K TPM limit
    },
    properties = {
        model = {
            format = "OpenAI",
            name = "gpt-4o",
            version = "2024-11-20"           
        }
    }
  })
}

Дополнительные сведения см. в полной справочной документации Terraform.

Удаление ресурсов

При попытке удалить ресурс OpenAI Azure из портала Azure, если все развертывания еще присутствуют, удаление будет заблокировано до тех пор, пока связанные развертывания не будут удалены. Сначала удаляя развертывания, можно правильно освободить распределенные квоты, чтобы их можно было использовать в новых развертываниях.

Однако, если вы удаляете ресурс с помощью REST API или другого программного метода, это обходит необходимость сначала удалять развертывания. При этом связанное квотирование будет оставаться недоступным для назначения новому развертыванию в течение 48 часов, пока ресурс не будет очищен. Чтобы активировать немедленную очистку удаленного ресурса, чтобы освободить квоту, следуйте инструкциям по очистке удаленного ресурса.

Дальнейшие шаги

Чтобы просмотреть значения квоты по умолчанию для Azure OpenAI, ознакомьтесь со статьей о квотах и ограничениях.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-02-28

Поделиться через

Управление Azure OpenAI в квоте моделей Microsoft Foundry (классическая модель)

Предпосылки

Общие сведения о квоте

Назначение квоты

Запрос дополнительных квот

Конкретные параметры модели

Просмотр и запрос квоты

Перенос существующих развертываний

Общие сведения об ограничениях скорости

Рекомендации по ограничению скорости

Общие сведения об ошибках регулирования 429 и о том, что делать

Почему вы можете увидеть ошибку 429

Распространенные 429 сценарии и что с ними делать

Автоматизация развертывания

Развертывание

Пример запроса

Usage

Пример запроса

Удаление ресурсов

Дальнейшие шаги

Обратная связь

Дополнительные ресурсы