Azure OpenAI in Microsoft Foundry: quote e limiti dei modelli

Questo articolo contiene un riferimento rapido e una descrizione dettagliata delle quote e dei limiti per Azure OpenAI.

Ambito della quota

Le quote e i limiti non vengono applicati a livello di tenant. Invece, il livello massimo di restrizioni di quota è definito al livello della sottoscrizione Azure.

Allocazione della quota a livello di area

I token al minuto (TPM) e le richieste al minuto (RPM) sono definiti per area, per sottoscrizione e per modello o tipo di distribuzione.

Ad esempio, se il modello gpt-4.1 Global Standard è elencato con una quota di 5 milioni di TPM e 5.000 RPM, ciascuna regione in cui è disponibile il modello o tipo di distribuzione ha un proprio pool di quote dedicato per ciascuna delle sottoscrizioni Azure. All'interno di una singola sottoscrizione Azure, è possibile usare una quantità maggiore di quote TPM e RPM totali per un determinato modello e tipo di distribuzione, purché si disponga di risorse e distribuzioni di modelli distribuite in più aree.

Livelli di quota

Sono stati introdotti modelli di quota per migliorare l'esperienza dei modelli Foundry e ridurre le difficoltà man mano che i carichi di lavoro aumentano. Le quote aumentano automaticamente con l'utilizzo, consentendo di evitare errori di limite di velocità, creando anche un ambiente più equo per tutti gli utenti. Verranno resi disponibili sette livelli: livello gratuito e livelli da 1 a 6, con il livello 6 che offre le quote più elevate. Il livello assegnato iniziale di un cliente si basa sull'utilizzo corrente di tale modello e sulla relazione corrente con Microsoft, ad esempio lo stato contratto Enterprise (EA o MCA-E). 

Cosa cambia per me?

In precedenza, Foundry offriva solo livelli di quota Predefinita ed Enterprise per l'offerta 'pay as you go', con un grande divario tra i livelli e un processo più lungo per richiedere incrementi. Con i livelli di quota, a tutti gli utenti viene assegnato un livello con quote uguali o superiori ai livelli precedenti. Eventuali aumenti di quota approvati in precedenza vengono mantenuti e non verranno ridotti. Con l'aumentare dell'utilizzo, Foundry aumenta automaticamente le quote spostando gli utenti a livelli più elevati e la quota aggiuntiva può comunque essere richiesta tramite il modulo di quota.

In che modo un cliente passerà automaticamente da un livello a un altro, ad esempio quali sono i criteri di modifica del livello? 

Gli aggiornamenti automatici dei livelli si basano principalmente sulle tendenze di consumo dei clienti nei modelli Foundry nel corso del tempo. Se l'utilizzo di un cliente aumenta in modo che il livello di quota corrente limiti la possibilità di usare i modelli Foundry, il sistema aggiornerà automaticamente il cliente al livello superiore successivo. Viene presa in considerazione anche la relazione di un cliente con Microsoft. Ai clienti con relazioni Enterprise (inclusi EA e MCA-E) con Microsoft vengono assegnati livelli di quota più elevati. Inoltre, Microsoft considererà anche la cronologia dei pagamenti di un cliente per determinare l'idoneità per gli aggiornamenti automatici. 

È possibile rifiutare esplicitamente gli aggiornamenti automatici?

Sì, è possibile rifiutare esplicitamente gli aggiornamenti automatici e rimanere nel livello corrente indipendentemente dalle modifiche apportate all'utilizzo. Alcuni clienti usano la quota per gestire la fatturazione. Questa non è la Azure procedura consigliata, tuttavia, sappiamo che se il sistema è configurato in questo modo non vogliamo interromperlo. Per altre informazioni sulla gestione della fatturazione e sulle procedure consigliate, vedere Gestione costi.

Per rifiutare esplicitamente, è possibile impostare il flag seguente su NoAutoUpgrade:

curl -X PATCH \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "properties": {
      "tierUpgradePolicy": "NoAutoUpgrade"
    }
  }'

Nota

La funzionalità di rifiuto esplicito è in anteprima e potrebbe essere soggetta a modifiche/rimozione in futuro.

È possibile richiedere più quote?

Sì, usando il modulo di richiesta di quota è sempre possibile richiedere più quota. Se la richiesta viene approvata, il livello corrente rimarrà invariato, ma con più quote assegnate.

Come è possibile controllare il livello di quota della sottoscrizione?

È attualmente possibile controllare il livello di quota con l'API del piano di controllo:

curl -X GET \
  "https://management.azure.com/subscriptions/9d295860-44e3-44bb-ade9-235cc45c68ba/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
  -H "Content-Type: application/json"

import requests
import json
from azure.identity import DefaultAzureCredential


subscriptionId = "{YOUR-SUBSCRIPTION-ID}"
api_version = "2025-10-01-preview" 
base_url = "https://management.azure.com"

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {
    'Authorization': 'Bearer ' + token.token,
    'Content-Type': 'application/json'
}


list_url = (
    f"{base_url}/subscriptions/{subscriptionId}"
    f"/providers/Microsoft.CognitiveServices/quotaTiers"
    f"?api-version={api_version}"
)

response = requests.get(list_url, headers=headers)
print(json.dumps(response.json(), indent=2))

{
  "value": [
    {
      "properties": {
        "currentTierName": "Tier 1",
        "assignmentDate": "2025-10-18T05:09:05.6334222Z",
        "tierUpgradePolicy": "OnceUpgradeIsAvailable"
      },
      "id": "/subscriptions/aaaaa-bbbbb-ccccc-dddd-eeeeeee/providers/Microsoft.CognitiveServices/quotaTiers/default",
      "name": "default",
      "type": "Microsoft.CognitiveServices/quotaTiers"
    }
  ]
}

Riferimento al livello di quota

Livello 1

Nome del modello	Tipo di distribuzione	Richieste al minuto (RPM)	Token al minuto (TPM)
codex-mini	GlobalStandard	1,000	1,000,000
computer-use-preview	GlobalStandard	4,500	450.000
gpt-4.1	DataZoneStandard	300	300,000
gpt-4.1	GlobalStandard	1,000	1,000,000
gpt-4.1-mini	DataZoneStandard	2.000	2,000,000
gpt-4.1-mini	GlobalStandard	5,000	5,000,000
gpt-4.1-mini	Standard	6,000	6,000,000
gpt-4.1-nano	DataZoneStandard	2.000	2,000,000
gpt-4.1-nano	GlobalStandard	5,000	5,000,000
gpt-4o	DataZoneStandard	300 / 10s	300,000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	10.000	1,000,000
gpt-4o-mini	GlobalStandard	20,000	2,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-anteprima-in-tempo-reale	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	3,000	300,000
gpt-5	GlobalStandard	10.000	1,000,000
gpt-5-chat	GlobalStandard	1,000	1,000,000
gpt-5-codex	GlobalStandard	1,000	1,000,000
gpt-5-mini	DataZoneStandard	300	300,000
gpt-5-mini	GlobalStandard	1,000	1,000,000
gpt-5-nano	DataZoneStandard	2.000	2,000,000
gpt-5-nano	GlobalStandard	5,000	5,000,000
gpt-5-pro	GlobalStandard	1,600	160,000
gpt-5.1	DataZoneStandard	3,000	300,000
gpt-5.1	GlobalStandard	10.000	1,000,000
gpt-5.1-chat	GlobalStandard	10.000	1,000,000
gpt-5.1-codex	DataZoneStandard	3,000	300,000
gpt-5.1-codex	GlobalStandard	1,000	1,000,000
gpt-5.1-codex-max	GlobalStandard	10.000	1,000,000
gpt-5.1-codex-mini	GlobalStandard	1,000	1,000,000
gpt-5.2	DataZoneStandard	3,000	300,000
gpt-5.2	GlobalStandard	10.000	1,000,000
gpt-5.2-chat	GlobalStandard	10.000	1,000,000
gpt-5.3-chat	GlobalStandard	1,000	1,000,000
gpt-5.2-codex	GlobalStandard	10.000	1,000,000
gpt-5.3-codex	GlobalStandard	10.000	1,000,000
gpt-5.4	DataZoneStandard	300	300,000
gpt-5.4	GlobalStandard	10.000	1,000,000
gpt-5.4-pro	GlobalStandard	160	160,000
gpt-5.4-mini	GlobalStandard	1,000	1,000,000
gpt-5.4-nano	DataZoneStandard	2.000	2,000,000
gpt-5.4-nano	GlobalStandard	5,000	5,000,000
gpt-5.5	DataZoneStandard	0	0
gpt-5.5	GlobalStandard	0	0
gpt-chat-latest	GlobalStandard	10.000	1,000,000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	9	-
gpt-image-1-mini	GlobalStandard	12	-
gpt-image-1.5	DataZoneStandard	3	-
gpt-image-1.5	GlobalStandard	9	-
gpt-image-2	DataZoneStandard	3	-
gpt-image-2	GlobalStandard	9	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	150	150,000
o1	DataZoneStandard	100	600,000
o1	GlobalStandard	500	3,000,000
o3	DataZoneStandard	300	300,000
o3	GlobalStandard	1,000	1,000,000
o3-deep-research	GlobalStandard	3,000	3,000,000
o3-mini	DataZoneStandard	200	2,000,000
o3-mini	GlobalStandard	500	5,000,000
o3-pro	GlobalStandard	160	1,600,000
o4-mini	DataZoneStandard	300 / 10s	300,000
o4-mini	GlobalStandard	1,000	1,000,000
text-embedding-3-large	DataZoneStandard	1,000	1,000,000
text-embedding-3-large	GlobalStandard	1000 / 10s	1,000,000
text-embedding-3-small	DataZoneStandard	1,000	1,000,000
text-embedding-3-small	GlobalStandard	1000 / 10s	1,000,000

Livello 2

Nome del modello	Tipo di distribuzione	Richieste al minuto (RPM)	Token al minuto (TPM)
codex-mini	GlobalStandard	2.000	2,000,000
computer-use-preview	GlobalStandard	20,000	2,000,000
gpt-4.1	DataZoneStandard	1,000	1,000,000
gpt-4.1	GlobalStandard	3,000	3,000,000
gpt-4.1-mini	DataZoneStandard	6,000	6,000,000
gpt-4.1-mini	GlobalStandard	16,000	16,000,000
gpt-4.1-mini	Standard	12,000	12,000,000
gpt-4.1-nano	DataZoneStandard	6,000	6,000,000
gpt-4.1-nano	GlobalStandard	16,000	16,000,000
gpt-4o	DataZoneStandard	1000 / 10s	1,000,000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	30,000	3,000,000
gpt-4o-mini	GlobalStandard	90,000	9,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-anteprima-in-tempo-reale	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	10.000	1,000,000
gpt-5	GlobalStandard	30,000	3,000,000
gpt-5-chat	GlobalStandard	2.000	2,000,000
gpt-5-codex	GlobalStandard	2.000	2,000,000
gpt-5-mini	DataZoneStandard	670	670,000
gpt-5-mini	GlobalStandard	2.000	2,000,000
gpt-5-nano	DataZoneStandard	6,000	6,000,000
gpt-5-nano	GlobalStandard	16,000	16,000,000
gpt-5-pro	GlobalStandard	3,500	350,000
gpt-5.1	DataZoneStandard	6,700	670,000
gpt-5.1	GlobalStandard	20,000	2,000,000
gpt-5.1-chat	GlobalStandard	20,000	2,000,000
gpt-5.1-codex	DataZoneStandard	6,700	670,000
gpt-5.1-codex	GlobalStandard	2.000	2,000,000
gpt-5.1-codex-max	GlobalStandard	20,000	2,000,000
gpt-5.1-codex-mini	GlobalStandard	2.000	2,000,000
gpt-5.2	DataZoneStandard	6,700	670,000
gpt-5.2	GlobalStandard	20,000	2,000,000
gpt-5.2-chat	GlobalStandard	20,000	2,000,000
gpt-5.3-chat	GlobalStandard	2.000	2,000,000
gpt-5.2-codex	GlobalStandard	20,000	2,000,000
gpt-5.3-codex	GlobalStandard	20,000	2,000,000
gpt-5.4	DataZoneStandard	670	670,000
gpt-5.4	GlobalStandard	20,000	2,000,000
gpt-5.4-pro	GlobalStandard	350	350,000
gpt-5.4-mini	GlobalStandard	2.000	2,000,000
gpt-5.4-nano	DataZoneStandard	6,000	6,000,000
gpt-5.4-nano	GlobalStandard	16,000	16,000,000
gpt-5.5	DataZoneStandard	0	0
gpt-5.5	GlobalStandard	0	0
gpt-chat-latest	GlobalStandard	20,000	2,000,000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	18	-
gpt-image-1-mini	GlobalStandard	27	-
gpt-image-1.5	DataZoneStandard	5	-
gpt-image-1.5	GlobalStandard	15	-
gpt-image-2	DataZoneStandard	5	-
gpt-image-2	GlobalStandard	15	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	190	190,000
o1	DataZoneStandard	225	1,350,000
o1	GlobalStandard	1,000	6,000,000
o3	DataZoneStandard	670	670,000
o3	GlobalStandard	2.000	2,000,000
o3-deep-research	GlobalStandard	7,000	7,000,000
o3-mini	DataZoneStandard	350	3,500,000
o3-mini	GlobalStandard	1,000	10.000.000
o3-pro	GlobalStandard	350	3,500,000
o4-mini	DataZoneStandard	670 / 10s	670,000
o4-mini	GlobalStandard	2.000	2,000,000
text-embedding-3-large	DataZoneStandard	2.000	2,000,000
text-embedding-3-large	GlobalStandard	2000/10 s	2,000,000
text-embedding-3-small	DataZoneStandard	2.000	2,000,000
text-embedding-3-small	GlobalStandard	2000/10 s	2,000,000

Livello 3

Nome del modello	Tipo di distribuzione	Richieste al minuto (RPM)	Token al minuto (TPM)
codex-mini	GlobalStandard	4,000	4.000.000
computer-use-preview	GlobalStandard	70,000	7,000,000
gpt-4.1	DataZoneStandard	3,000	3,000,000
gpt-4.1	GlobalStandard	9,000	9,000,000
gpt-4.1-mini	DataZoneStandard	16,000	16,000,000
gpt-4.1-mini	GlobalStandard	46,000	46,000,000
gpt-4.1-mini	Standard	30,000	30,000,000
gpt-4.1-nano	DataZoneStandard	16,000	16,000,000
gpt-4.1-nano	GlobalStandard	46,000	46,000,000
gpt-4o	DataZoneStandard	3000 / 10s	3,000,000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	70,000	7,000,000
gpt-4o-mini	GlobalStandard	330,000	33.000.000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-anteprima-in-tempo-reale	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	30,000	3,000,000
gpt-5	GlobalStandard	90,000	9,000,000
gpt-5-chat	GlobalStandard	3,000	3,000,000
gpt-5-codex	GlobalStandard	4,000	4.000.000
gpt-5-mini	DataZoneStandard	1,000	1,000,000
gpt-5-mini	GlobalStandard	4,000	4.000.000
gpt-5-nano	DataZoneStandard	16,000	16,000,000
gpt-5-nano	GlobalStandard	46,000	46,000,000
gpt-5-pro	GlobalStandard	7,000	700,000
gpt-5.1	DataZoneStandard	10.000	1,000,000
gpt-5.1	GlobalStandard	40,000	4.000.000
gpt-5.1-chat	GlobalStandard	30,000	3,000,000
gpt-5.1-codex	DataZoneStandard	10.000	1,000,000
gpt-5.1-codex	GlobalStandard	4,000	4.000.000
gpt-5.1-codex-max	GlobalStandard	40,000	4.000.000
gpt-5.1-codex-mini	GlobalStandard	4,000	4.000.000
gpt-5.2	DataZoneStandard	10.000	1,000,000
gpt-5.2	GlobalStandard	40,000	4.000.000
gpt-5.2-chat	GlobalStandard	30,000	3,000,000
gpt-5.3-chat	GlobalStandard	3,000	3,000,000
gpt-5.2-codex	GlobalStandard	40,000	4.000.000
gpt-5.3-codex	GlobalStandard	40,000	4.000.000
gpt-5.4	DataZoneStandard	1,000	1,000,000
gpt-5.4	GlobalStandard	40,000	4.000.000
gpt-5.4-pro	GlobalStandard	700	700,000
gpt-5.4-mini	GlobalStandard	4,000	4.000.000
gpt-5.4-nano	DataZoneStandard	16,000	16,000,000
gpt-5.4-nano	GlobalStandard	46,000	46,000,000
gpt-5.5	DataZoneStandard	0	0
gpt-5.5	GlobalStandard	0	0
gpt-chat-latest	GlobalStandard	20,000	2,000,000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	30	-
gpt-image-1-mini	GlobalStandard	54	-
gpt-image-1.5	DataZoneStandard	10	-
gpt-image-1.5	GlobalStandard	30	-
gpt-image-2	DataZoneStandard	10	-
gpt-image-2	GlobalStandard	30	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	235	235,000
o1	DataZoneStandard	450	2,700,000
o1	GlobalStandard	2.000	12,000,000
o3	DataZoneStandard	1,000	1,000,000
o3	GlobalStandard	4,000	4.000.000
o3-deep-research	GlobalStandard	13,000	13.000.000
o3-mini	DataZoneStandard	900	9,000,000
o3-mini	GlobalStandard	2.000	20.000.000
o3-pro	GlobalStandard	715	7,150,000
o4-mini	DataZoneStandard	1000 / 10s	1,000,000
o4-mini	GlobalStandard	4,000	4.000.000
text-embedding-3-large	DataZoneStandard	4,000	4.000.000
text-embedding-3-large	GlobalStandard	4000 / 10s	4.000.000
text-embedding-3-small	DataZoneStandard	4,000	4.000.000
text-embedding-3-small	GlobalStandard	4000 / 10s	4.000.000

Livello 4

Nome del modello	Tipo di distribuzione	Richieste al minuto (RPM)	Token al minuto (TPM)
codex-mini	GlobalStandard	7,000	7,000,000
computer-use-preview	GlobalStandard	160,000	16,000,000
gpt-4.1	DataZoneStandard	6,000	6,000,000
gpt-4.1	GlobalStandard	18,000	18.000.000
gpt-4.1-mini	DataZoneStandard	31,000	31,000,000
gpt-4.1-mini	GlobalStandard	90,000	90,000,000
gpt-4.1-mini	Standard	75,000	75,000,000
gpt-4.1-nano	DataZoneStandard	31,000	31,000,000
gpt-4.1-nano	GlobalStandard	90,000	90,000,000
gpt-4o	DataZoneStandard	6000 / 10s	6,000,000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	130,000	13.000.000
gpt-4o-mini	GlobalStandard	780,000	78,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-anteprima-in-tempo-reale	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	60,000	6,000,000
gpt-5	GlobalStandard	180,000	18.000.000
gpt-5-chat	GlobalStandard	4,000	4.000.000
gpt-5-codex	GlobalStandard	7,000	7,000,000
gpt-5-mini	DataZoneStandard	2.000	2,000,000
gpt-5-mini	GlobalStandard	7,000	7,000,000
gpt-5-nano	DataZoneStandard	31,000	31,000,000
gpt-5-nano	GlobalStandard	90,000	90,000,000
gpt-5-pro	GlobalStandard	11,500	1,150,000
gpt-5.1	DataZoneStandard	20,000	2,000,000
gpt-5.1	GlobalStandard	70,000	7,000,000
gpt-5.1-chat	GlobalStandard	40,000	4.000.000
gpt-5.1-codex	DataZoneStandard	20,000	2,000,000
gpt-5.1-codex	GlobalStandard	7,000	7,000,000
gpt-5.1-codex-max	GlobalStandard	70,000	7,000,000
gpt-5.1-codex-mini	GlobalStandard	7,000	7,000,000
gpt-5.2	DataZoneStandard	20,000	2,000,000
gpt-5.2	GlobalStandard	70,000	7,000,000
gpt-5.2-chat	GlobalStandard	40,000	4.000.000
gpt-5.3-chat	GlobalStandard	4,000	4.000.000
gpt-5.2-codex	GlobalStandard	70,000	7,000,000
gpt-5.3-codex	GlobalStandard	70,000	7,000,000
gpt-5.4	DataZoneStandard	2.000	2,000,000
gpt-5.4	GlobalStandard	70,000	7,000,000
gpt-5.4-pro	GlobalStandard	1,150	1,150,000
gpt-5.4-mini	GlobalStandard	7,000	7,000,000
gpt-5.4-nano	DataZoneStandard	31,000	31,000,000
gpt-5.4-nano	GlobalStandard	90,000	90,000,000
gpt-5.5	DataZoneStandard	0	0
gpt-5.5	GlobalStandard	0	0
gpt-chat-latest	GlobalStandard	40,000	4.000.000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	45	-
gpt-image-1-mini	GlobalStandard	84	-
gpt-image-1.5	DataZoneStandard	15	-
gpt-image-1.5	GlobalStandard	45	-
gpt-image-2	DataZoneStandard	15	-
gpt-image-2	GlobalStandard	45	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	270	270,000
o1	DataZoneStandard	700	4,200,000
o1	GlobalStandard	4,000	24,000,000
o3	DataZoneStandard	2.000	2,000,000
o3	GlobalStandard	7,000	7,000,000
o3-deep-research	GlobalStandard	21,000	21,000,000
o3-mini	DataZoneStandard	1,000	10.000.000
o3-mini	GlobalStandard	4,000	40.000.000
o3-pro	GlobalStandard	1,150	11,500,000
o4-mini	DataZoneStandard	2000/10 s	2,000,000
o4-mini	GlobalStandard	7,000	7,000,000
text-embedding-3-large	DataZoneStandard	7,000	7,000,000
text-embedding-3-large	GlobalStandard	7000 / 10s	7,000,000
text-embedding-3-small	DataZoneStandard	7,000	7,000,000
text-embedding-3-small	GlobalStandard	7000 / 10s	7,000,000

Livello 5

Nome del modello	Tipo di distribuzione	Richieste al minuto (RPM)	Token al minuto (TPM)
codex-mini	GlobalStandard	10.000	10.000.000
computer-use-preview	GlobalStandard	300,000	30,000,000
gpt-4.1	DataZoneStandard	10.000	10.000.000
gpt-4.1	GlobalStandard	30,000	30,000,000
gpt-4.1-mini	DataZoneStandard	50,000	50.000.000
gpt-4.1-mini	GlobalStandard	150,000	150,000,000
gpt-4.1-mini	Standard	150,000	150,000,000
gpt-4.1-nano	DataZoneStandard	50,000	50.000.000
gpt-4.1-nano	GlobalStandard	150,000	150,000,000
gpt-4o	DataZoneStandard	10000 / 10 s	10.000.000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	200,000	20.000.000
gpt-4o-mini	GlobalStandard	1,500,000	150,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-anteprima-in-tempo-reale	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	100,000	10.000.000
gpt-5	GlobalStandard	300,000	30,000,000
gpt-5-chat	GlobalStandard	5,000	5,000,000
gpt-5-codex	GlobalStandard	10.000	10.000.000
gpt-5-mini	DataZoneStandard	3,000	3,000,000
gpt-5-mini	GlobalStandard	10.000	10.000.000
gpt-5-nano	DataZoneStandard	50,000	50.000.000
gpt-5-nano	GlobalStandard	150,000	150,000,000
gpt-5-pro	GlobalStandard	16,000	1,600,000
gpt-5.1	DataZoneStandard	30,000	3,000,000
gpt-5.1	GlobalStandard	100,000	10.000.000
gpt-5.1-chat	GlobalStandard	50,000	5,000,000
gpt-5.1-codex	DataZoneStandard	30,000	3,000,000
gpt-5.1-codex	GlobalStandard	10.000	10.000.000
gpt-5.1-codex-max	GlobalStandard	100,000	10.000.000
gpt-5.1-codex-mini	GlobalStandard	10.000	10.000.000
gpt-5.2	DataZoneStandard	30,000	3,000,000
gpt-5.2	GlobalStandard	100,000	10.000.000
gpt-5.2-chat	GlobalStandard	50,000	5,000,000
gpt-5.3-chat	GlobalStandard	5,000	5,000,000
gpt-5.2-codex	GlobalStandard	100,000	10.000.000
gpt-5.3-codex	GlobalStandard	100,000	10.000.000
gpt-5.4	DataZoneStandard	3,000	3,000,000
gpt-5.4	GlobalStandard	100,000	10.000.000
gpt-5.4-pro	GlobalStandard	1,600	1,600,000
gpt-5.4-mini	GlobalStandard	10.000	10.000.000
gpt-5.4-nano	DataZoneStandard	50,000	50.000.000
gpt-5.4-nano	GlobalStandard	150,000	150,000,000
gpt-5.5	DataZoneStandard	3,000	3,000,000
gpt-5.5	GlobalStandard	10.000	10.000.000
gpt-chat-latest	GlobalStandard	50,000	5,000,000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	60	-
gpt-image-1-mini	GlobalStandard	120	-
gpt-image-1.5	DataZoneStandard	20	-
gpt-image-1.5	GlobalStandard	60	-
gpt-image-2	DataZoneStandard	20	-
gpt-image-2	GlobalStandard	60	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	300	300,000
o1	DataZoneStandard	1,000	6,000,000
o1	GlobalStandard	5,000	30,000,000
o3	DataZoneStandard	3,000	3,000,000
o3	GlobalStandard	10.000	10.000.000
o3-deep-research	GlobalStandard	30,000	30,000,000
o3-mini	DataZoneStandard	2.000	20.000.000
o3-mini	GlobalStandard	5,000	50.000.000
o3-pro	GlobalStandard	1,600	16,000,000
o4-mini	DataZoneStandard	3000 / 10s	3,000,000
o4-mini	GlobalStandard	10.000	10.000.000
text-embedding-3-large	DataZoneStandard	10.000	10.000.000
text-embedding-3-large	GlobalStandard	10000 / 10 s	10.000.000
text-embedding-3-small	DataZoneStandard	10.000	10.000.000
text-embedding-3-small	GlobalStandard	10000 / 10 s	10.000.000

Livello 6

Nome del modello	Tipo di distribuzione	Richieste al minuto (RPM)	Token al minuto (TPM)
codex-mini	GlobalStandard	15,000	15.000.000
computer-use-preview	GlobalStandard	450.000	45,000,000
gpt-4.1	DataZoneStandard	15,000	15.000.000
gpt-4.1	GlobalStandard	45,000	45,000,000
gpt-4.1-mini	DataZoneStandard	75,000	75,000,000
gpt-4.1-mini	GlobalStandard	225,000	225,000,000
gpt-4.1-mini	Standard	225,000	225,000,000
gpt-4.1-nano	DataZoneStandard	75,000	75,000,000
gpt-4.1-nano	GlobalStandard	225,000	225,000,000
gpt-4o	DataZoneStandard	15000 / 10s	15.000.000
gpt-4o-audio-preview	GlobalStandard	45000 / 10 s	45,000,000
gpt-4o-mini	DataZoneStandard	300,000	30,000,000
gpt-4o-mini	GlobalStandard	2.250.000	225,000,000
gpt-4o-mini-audio-preview	GlobalStandard	45000 / 10 s	45,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	54	9,000
gpt-4o-anteprima-in-tempo-reale	GlobalStandard	54	9,000
gpt-5	DataZoneStandard	150,000	15.000.000
gpt-5	GlobalStandard	450.000	45,000,000
gpt-5-chat	GlobalStandard	8,000	8,000,000
gpt-5-codex	GlobalStandard	15,000	15.000.000
gpt-5-mini	DataZoneStandard	4,000	4.000.000
gpt-5-mini	GlobalStandard	15,000	15.000.000
gpt-5-nano	DataZoneStandard	75,000	75,000,000
gpt-5-nano	GlobalStandard	225,000	225,000,000
gpt-5-pro	GlobalStandard	24,000	2,400,000
gpt-5.1	DataZoneStandard	40,000	4.000.000
gpt-5.1	GlobalStandard	150,000	15.000.000
gpt-5.1-chat	GlobalStandard	80,000	8,000,000
gpt-5.1-codex	DataZoneStandard	40,000	4.000.000
gpt-5.1-codex	GlobalStandard	15,000	15.000.000
gpt-5.1-codex-max	GlobalStandard	150,000	15.000.000
gpt-5.1-codex-mini	GlobalStandard	15,000	15.000.000
gpt-5.2	DataZoneStandard	40,000	4.000.000
gpt-5.2	GlobalStandard	150,000	15.000.000
gpt-5.2-chat	GlobalStandard	80,000	8,000,000
gpt-5.3-chat	GlobalStandard	8,000	8,000,000
gpt-5.2-codex	GlobalStandard	150,000	15.000.000
gpt-5.3-codex	GlobalStandard	150,000	15.000.000
gpt-5.4	DataZoneStandard	4,000	4.000.000
gpt-5.4	GlobalStandard	150,000	15.000.000
gpt-5.4-pro	GlobalStandard	2,400	2,400,000
gpt-5.4-mini	GlobalStandard	15,000	15.000.000
gpt-5.4-nano	DataZoneStandard	75,000	75,000,000
gpt-5.4-nano	GlobalStandard	225,000	225,000,000
gpt-5.5	DataZoneStandard	4,000	4.000.000
gpt-5.5	GlobalStandard	15,000	15.000.000
gpt-chat-latest	GlobalStandard	80,000	8,000,000
gpt-audio	GlobalStandard	45000 / 10 s	45,000,000
gpt-image-1	GlobalStandard	90	-
gpt-image-1-mini	GlobalStandard	180	-
gpt-image-1.5	DataZoneStandard	30	-
gpt-image-1.5	GlobalStandard	90	-
gpt-image-2	DataZoneStandard	30	-
gpt-image-2	GlobalStandard	90	-
gpt-realtime	GlobalStandard	300	150,000
model-router	DataZoneStandard	450	450.000
o1	DataZoneStandard	2.000	12,000,000
o1	GlobalStandard	8,000	48,000,000
o3	DataZoneStandard	4,000	4.000.000
o3	GlobalStandard	15,000	15.000.000
o3-deep-research	GlobalStandard	45,000	45,000,000
o3-mini	DataZoneStandard	3,000	30,000,000
o3-mini	GlobalStandard	8,000	80,000,000
o3-pro	GlobalStandard	2,400	24,000,000
o4-mini	DataZoneStandard	4000 / 10s	4.000.000
o4-mini	GlobalStandard	15,000	15.000.000
text-embedding-3-large	DataZoneStandard	15,000	15.000.000
text-embedding-3-large	GlobalStandard	15000 / 10s	15.000.000
text-embedding-3-small	DataZoneStandard	15,000	15.000.000
text-embedding-3-small	GlobalStandard	15000 / 10s	15.000.000

Informazioni di riferimento su quote e limiti

La sezione seguente fornisce una guida rapida alle quote e ai limiti predefiniti applicabili a Azure OpenAI:

Nome del limite	Valore limite
Risorse di Azure OpenAI per regione, per sottoscrizione Azure	30.
Limiti di quota GPT-image-1 predefiniti	9 richieste al minuto
Limiti di quota GPT-image-1-mini predefiniti	12 richieste al minuto
Limiti di quota GPT-image-1.5 predefiniti	9 richieste al minuto
Limiti di quota GPT-image-2 predefiniti	9 richieste al minuto
Limiti di quota Sora predefiniti	60 richieste al minuto.
Limiti di quota di Sora 2 predefiniti	2 richieste di lavoro¹ al minuto
Limiti predefiniti di quota per l'API di conversione da voce a testo	3 richieste al minuto.
Numero massimo di token per richiesta	Varia per modello. Per altre informazioni, vedere Azure modelli OpenAI.
Numero massimo di distribuzioni standard per risorsa	32.
Implementazioni massime di modelli ottimizzati	10.
Numero totale di lavori di addestramento per risorsa	100.
Numero massimo di attività di addestramento simultanee per risorsa	Formazione standard e globale: 3; Formazione per sviluppatori: 5
Numero massimo di processi di training in coda	20.
Numero massimo di file per risorsa (ottimizzazione)	100.
Dimensioni totali di tutti i file per risorsa (ottimizzazione)	1 GB.
Tempo massimo per il job di training (il job viene considerato non riuscito se superato)	720 ore.
Dimensioni massime del processo di training `(tokens in training file) x (# of epochs)`	2 miliardi.
Dimensioni massime di tutti i file per caricare (Azure OpenAI sui tuoi dati)	16 MB.
Numero massimo di input nella matrice con `/embeddings`	2,048.
Numero massimo di `/chat/completions` messaggi	2,048.
Numero massimo di `/chat/completions` funzioni	128.
Numero massimo di `/chat/completions` strumenti	128.
Numero massimo di unità di throughput fornite per distribuzione	100,000.
Numero massimo di file per assistente o thread	10.000 quando si usa l'API o il portale Microsoft Foundry.
Dimensioni massime dei file per assistenti e ottimizzazione	512 MB tramite l'API 200 MB tramite il portale Foundry.
Numero massimo di richieste di caricamento file per risorsa	30 richieste al secondo.
Dimensioni massime per tutti i file caricati per gli assistenti	200 GB.
Limite di token degli assistenti	Limite di 2.000.000 token.
`GPT-4o` e `GPT-4.1` numero massimo di immagini per richiesta (numero di immagini nella matrice di messaggi o nella cronologia delle conversazioni)	50.
`GPT-4 vision-preview` e `GPT-4 turbo-2024-04-09` valori massimi predefiniti dei token	16. Aumentare il valore del `max_tokens` parametro per evitare risposte troncate. `GPT-4o` il numero massimo di token predefiniti è 4.096.
Numero massimo di intestazioni personalizzate nelle richieste API²	10.
Limite di caratteri del messaggio	1,048,576.
Dimensioni dei messaggi per i file audio	20 MB.

¹ La quota Sora 2 RPM conta solo le richieste di lavoro video. Altri tipi di richieste non sono soggetti a limitazioni di velocità.

² Le API correnti consentono fino a 10 intestazioni personalizzate, che vengono passate attraverso la pipeline e restituite. Attualmente, alcuni clienti superano questo numero di intestazioni, il che genera errori HTTP 431. Non esiste alcuna soluzione per questo errore, ad eccezione di ridurre il volume dell'intestazione. Nelle versioni future dell'API non verranno passate intestazioni personalizzate. È consigliabile che i clienti non dipendano dalle intestazioni personalizzate nelle future architetture di sistema.

Nota

I limiti di quota sono soggetti a modifiche.

limiti di frequenza del router modello

Modello	Tipo di distribuzione	RPM predefinito	TPM predefinito	Enterprise e MCA-E RPM	TPM aziendale e MCA-E
`model-router` `(2025-11-18)`	DataZoneStandard	150	150,000	300	300,000
`model-router` `(2025-11-18)`	GlobalStandard	250	250,000	400	400,000

Limiti relativi a Batch

Nome del limite	Valore limite
Numero massimo di file di input batch - (nessuna scadenza)	500
Numero massimo di file di input batch - (scadenza impostata)	10.000
Dimensioni massime del file di input	200 MB
Dimensioni massime del file di input - Bring Your Own Storage (BYOS)	1 GB
Numero massimo di richieste per file	100,000

Nota

I limiti dei file batch non si applicano ai file di output ( ad esempio , result.jsonle error.jsonl). Per rimuovere i limiti dei file di input batch, usare Batch con Archiviazione BLOB di Azure.

Quota di batch

La tabella mostra il limite di quota del batch. I valori delle quote per il batch globale sono rappresentati in termini di token accodati. Quando si invia un file per l'elaborazione batch, viene conteggiato il numero di token nel file. Fino a quando il processo batch non raggiunge uno stato terminale, questi token vengono conteggiati rispetto al limite totale di token accodati.

Batch globale

Modello	Enterprise e MCA-E	Predefinito	Sottoscrizioni mensili basate su carta di credito	Sottoscrizioni MSDN	Azure per studenti, versioni di valutazione gratuite
`gpt-4.1`	5B	200M	50M	90.000	N/D
`gpt-4.1 mini`	15B	1B	50M	90.000	N/D
`gpt-4.1-nano`	15B	1B	50M	90.000	N/D
`gpt-4o`	5B	200M	50M	90.000	N/D
`gpt-4o-mini`	15B	1B	50M	90.000	N/D
`gpt-4-turbo`	300M	80M	40M	90.000	N/D
`gpt-4`	150M	30 milioni	5M	100.000	N/D
`o3-mini`	15B	1B	50M	90.000	N/D
`o4-mini`	15B	1B	50M	90.000	N/D
`gpt-5`	5B	200M	50M	90.000	N/D
`gpt-5.1`	5B	200M	50M	90.000	N/D

B = miliardi | M = milioni | K = migliaia

Batch zona dati

Modello	Enterprise e MCA-E	Predefinito	Sottoscrizioni mensili basate su carta di credito	Sottoscrizioni MSDN	Azure per studenti, versioni di valutazione gratuite
`gpt-4.1`	500M	30 milioni	30 milioni	90.000	N/D
`gpt-4.1-mini`	1,5 miliardi	100 MB	50M	90.000	N/D
`gpt-4o`	500M	30 milioni	30 milioni	90.000	N/D
`gpt-4o-mini`	1,5 miliardi	100 MB	50M	90.000	N/D
`o3-mini`	1,5 miliardi	100 MB	50M	90.000	N/D
`gpt-5`	5B	200M	50M	90.000	N/D
`gpt-5.1`	5B	200M	50M	90.000	N/D

gpt-oss

Modello	Token al minuto (TPM)	Richieste al minuto (RPM)
`gpt-oss-120b`	5 milioni	5 K

Livelli di utilizzo

Le distribuzioni standard globali usano l'infrastruttura globale di Azure. Instradano dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Analogamente, le distribuzioni di Data Zone Standard consentono di usare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center all'interno della zona dati definita dall'Microsoft con la migliore disponibilità per ogni richiesta. Questa pratica consente una latenza più coerente per i clienti con livelli di traffico da basso a medio. I clienti con elevati livelli di utilizzo sostenuti potrebbero riscontrare una maggiore variabilità nella latenza di risposta.

Azure livelli di utilizzo OpenAI sono progettati per offrire prestazioni coerenti per la maggior parte dei clienti con livelli di traffico da basso a medio. Ogni livello di utilizzo definisce la velocità effettiva massima (token al minuto) che è possibile prevedere con una latenza prevedibile. Quando l'utilizzo rimane entro il livello assegnato, la latenza rimane stabile e i tempi di risposta sono coerenti.

Cosa accade se si supera il livello di utilizzo?

Se la velocità effettiva della richiesta supera il livello di utilizzo, soprattutto durante i periodi di domanda elevata, la latenza della risposta può aumentare significativamente.
La latenza può variare e, in alcuni casi, può essere più di due volte superiore rispetto a quando si opera all'interno del livello di utilizzo.
Questa variabilità è più evidente per i clienti con un utilizzo sostenuto o con schemi di traffico intermittenti.

Azioni consigliate se si supera il livello di utilizzo

Se si verificano errori 429 o si nota un aumento della variabilità della latenza, ecco le operazioni da eseguire:

Richiedere un aumento della quota: visitare il portale di Azure per richiedere una quota superiore per la sottoscrizione.
Considerate l'aggiornamento a un'offerta Premium (PTU): per i carichi di lavoro con latenza critica o con volumi elevati, effettuate l'aggiornamento alle Unità di Throughput Provisionate (PTU). PTU offre risorse dedicate, capacità garantita e latenza prevedibile, anche su larga scala. Questa è la scelta migliore per le applicazioni cruciali che richiedono prestazioni coerenti.
Monitorare l'utilizzo: esaminare regolarmente le metriche di utilizzo nel portale di Azure per assicurarsi di operare entro i limiti del livello. Modificare il carico di lavoro o la strategia di distribuzione in base alle esigenze.

È possibile ricevere risposte 429 (troppe richieste) anche quando le metriche di utilizzo dei token vengono visualizzate sotto la quota.

Questo problema può verificarsi negli scenari seguenti:

Richieste rifiutate a causa di limiti di lunghezza del contesto o di input (HTTP 400). Queste richieste non vengono fatturate e potrebbero non essere visualizzate nelle metriche di utilizzo dei token, ma possono comunque contare per limitare la frequenza.
Le richieste valutate in base al potenziale utilizzo dei token ( ad esempio , max_tokens), anche se non vengono generati token.
Comportamento di limitazione della frequenza distribuita, in cui l'applicazione potrebbe non essere perfettamente precisa o immediatamente riflessa nelle metriche aggregate.

Il limite di utilizzo determina il livello di utilizzo superiore al quale i clienti potrebbero riscontrare una maggiore variabilità nella latenza di risposta. L'utilizzo di un cliente è definito per modello. È il numero totale di token utilizzati in tutte le distribuzioni in tutte le sottoscrizioni in tutte le aree per un determinato tenant.

Nota

I livelli di utilizzo si applicano solo ai tipi di distribuzione Standard, Data Zone Standard e Standard globale. I livelli di utilizzo non si applicano alle distribuzioni globali in batch e con velocità effettiva con provisioning.

Standard globale, Standard della zona dati e Standard

Modello	Livelli di utilizzo al mese
`gpt-5`	32 miliardi di token
`gpt-5-mini`	160 miliardi di token
`gpt-5-nano`	800 miliardi di token
`gpt-5-chat`	32 miliardi di token
`gpt-4` + `gpt-4-32k` (tutte le versioni)	6 miliardi di token
`gpt-4o`	12 miliardi di token
`gpt-4o-mini`	85 miliardi di token
`o3-mini`	50 miliardi di token
`o1`	4 miliardi di token
`o4-mini`	50 miliardi di token
`o3`	5 miliardi di token
`gpt-4.1`	30 miliardi di token
`gpt-4.1-mini`	150 miliardi di token
`gpt-4.1-nano`	550 miliardi di token

Procedure consigliate generali per rimanere entro i limiti di velocità

Per ridurre al minimo i problemi relativi ai limiti di frequenza, è consigliabile usare le tecniche seguenti:

Implementare la logica di ripetizione dei tentativi nell'applicazione.
Evitare modifiche nitide nel carico di lavoro. Aumentare gradualmente il carico di lavoro.
Testare modelli di aumento del carico diversi.
Aumentare la quota assegnata alla distribuzione. Spostare la quota da un'altra distribuzione, se necessario.

Aumento della quota richiesta

Invia il modulo di richiesta di aumento di quota per i modelli Foundry venduti direttamente da Azure, i modelli Azure OpenAI e i modelli Anthropic. Ad eccezione dei modelli Anthropic, i modelli di partner e community non supportano gli aumenti di quota.

Le richieste di aumento della quota vengono elaborate nell'ordine in cui vengono ricevute e la priorità passa ai clienti che usano attivamente l'allocazione di quote esistente. Le richieste che non soddisfano questa condizione potrebbero essere negate.

Limiti di capacità della quota a livello di area

È possibile visualizzare la disponibilità della quota per regione per la sottoscrizione nel Portale Foundry.

Per visualizzare la capacità della quota per area per un modello o una versione specifica, è possibile eseguire una query sull'API di capacità per la sottoscrizione. Fornire un subscriptionId, un model_name e un model_version e l'API restituisce la capacità disponibile per quel modello in tutte le regioni e i tipi di distribuzione per la tua sottoscrizione.

Nota

Attualmente, sia il portale Foundry che l'API capacity restituiscono informazioni sulla quota/capacità per i modelli ritirati e non più disponibili.

Vedere le informazioni di riferimento sulle API.

Prima di eseguire l'esempio:

Installare le dipendenze: pip install azure-identity requests
Accedere con un'identità di Azure in grado di leggere le capacità del modello per la sottoscrizione.

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Informazioni su come gestisci quota per le distribuzioni OpenAI Azure.
Scopri di più sui modelli sottostante che alimentano Azure OpenAI.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-05-06

Azure OpenAI in Microsoft Foundry: quote e limiti dei modelli

Ambito della quota

Allocazione della quota a livello di area

Livelli di quota

Cosa cambia per me?

In che modo un cliente passerà automaticamente da un livello a un altro, ad esempio quali sono i criteri di modifica del livello?

È possibile rifiutare esplicitamente gli aggiornamenti automatici?

È possibile richiedere più quote?

Come è possibile controllare il livello di quota della sottoscrizione?

Riferimento al livello di quota

Livello 1

Informazioni di riferimento su quote e limiti

limiti di frequenza del router modello

Limiti relativi a Batch

Quota di batch

Batch globale

Batch zona dati

gpt-oss

Livelli di utilizzo

Cosa accade se si supera il livello di utilizzo?

Azioni consigliate se si supera il livello di utilizzo

Standard globale, Standard della zona dati e Standard

Procedure consigliate generali per rimanere entro i limiti di velocità

Aumento della quota richiesta

Limiti di capacità della quota a livello di area

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive

In che modo un cliente passerà automaticamente da un livello a un altro, ad esempio quali sono i criteri di modifica del livello?