Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo contiene un riferimento rapido e una descrizione dettagliata delle quote e dei limiti per Azure OpenAI.
Ambito della quota
Le quote e i limiti non vengono applicati a livello di tenant. Invece, il livello massimo di restrizioni di quota è definito al livello della sottoscrizione Azure.
Allocazione della quota a livello di area
I token al minuto (TPM) e le richieste al minuto (RPM) sono definiti per area, per sottoscrizione e per modello o tipo di distribuzione.
Ad esempio, se il modello gpt-4.1 Global Standard è elencato con una quota di 5 milioni di TPM e 5.000 RPM, ciascuna regione in cui è disponibile il modello o tipo di distribuzione ha un proprio pool di quote dedicato per ciascuna delle sottoscrizioni Azure. All'interno di una singola sottoscrizione Azure, è possibile usare una quantità maggiore di quote TPM e RPM totali per un determinato modello e tipo di distribuzione, purché si disponga di risorse e distribuzioni di modelli distribuite in più aree.
Livelli di quota
Sono stati introdotti modelli di quota per migliorare l'esperienza dei modelli Foundry e ridurre le difficoltà man mano che i carichi di lavoro aumentano. Le quote aumentano automaticamente con l'utilizzo, consentendo di evitare errori di limite di velocità, creando anche un ambiente più equo per tutti gli utenti. Verranno resi disponibili sette livelli: livello gratuito e livelli da 1 a 6, con il livello 6 che offre le quote più elevate. Il livello assegnato iniziale di un cliente si basa sull'utilizzo corrente di tale modello e sulla relazione corrente con Microsoft, ad esempio lo stato contratto Enterprise (EA o MCA-E).
Cosa cambia per me?
In precedenza, Foundry offriva solo livelli di quota Predefinita ed Enterprise per l'offerta 'pay as you go', con un grande divario tra i livelli e un processo più lungo per richiedere incrementi. Con i livelli di quota, a tutti gli utenti viene assegnato un livello con quote uguali o superiori ai livelli precedenti. Eventuali aumenti di quota approvati in precedenza vengono mantenuti e non verranno ridotti. Con l'aumentare dell'utilizzo, Foundry aumenta automaticamente le quote spostando gli utenti a livelli più elevati e la quota aggiuntiva può comunque essere richiesta tramite il modulo di quota.
In che modo un cliente passerà automaticamente da un livello a un altro, ad esempio quali sono i criteri di modifica del livello?
Gli aggiornamenti automatici dei livelli si basano principalmente sulle tendenze di consumo dei clienti nei modelli Foundry nel corso del tempo. Se l'utilizzo di un cliente aumenta in modo che il livello di quota corrente limiti la possibilità di usare i modelli Foundry, il sistema aggiornerà automaticamente il cliente al livello superiore successivo. Viene presa in considerazione anche la relazione di un cliente con Microsoft. Ai clienti con relazioni Enterprise (inclusi EA e MCA-E) con Microsoft vengono assegnati livelli di quota più elevati. Inoltre, Microsoft considererà anche la cronologia dei pagamenti di un cliente per determinare l'idoneità per gli aggiornamenti automatici.
È possibile rifiutare esplicitamente gli aggiornamenti automatici?
Sì, è possibile rifiutare esplicitamente gli aggiornamenti automatici e rimanere nel livello corrente indipendentemente dalle modifiche apportate all'utilizzo. Alcuni clienti usano la quota per gestire la fatturazione. Questa non è la Azure procedura consigliata, tuttavia, sappiamo che se il sistema è configurato in questo modo non vogliamo interromperlo. Per altre informazioni sulla gestione della fatturazione e sulle procedure consigliate, vedere Gestione costi.
Per rifiutare esplicitamente, è possibile impostare il flag seguente su NoAutoUpgrade:
curl -X PATCH \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
-H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
-H "Content-Type: application/json" \
-d '{
"properties": {
"tierUpgradePolicy": "NoAutoUpgrade"
}
}'
Nota
La funzionalità di rifiuto esplicito è in anteprima e potrebbe essere soggetta a modifiche/rimozione in futuro.
È possibile richiedere più quote?
Sì, usando il modulo di richiesta di quota è sempre possibile richiedere più quota. Se la richiesta viene approvata, il livello corrente rimarrà invariato, ma con più quote assegnate.
Come è possibile controllare il livello di quota della sottoscrizione?
È attualmente possibile controllare il livello di quota con l'API del piano di controllo:
curl -X GET \
"https://management.azure.com/subscriptions/9d295860-44e3-44bb-ade9-235cc45c68ba/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
-H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
-H "Content-Type: application/json"
Riferimento al livello di quota
Livello 1
| Nome del modello | Tipo di distribuzione | Richieste al minuto (RPM) | Token al minuto (TPM) |
|---|---|---|---|
| codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| computer-use-preview | GlobalStandard | 4,500 | 450.000 |
| gpt-4.1 | DataZoneStandard | 300 | 300,000 |
| gpt-4.1 | GlobalStandard | 1,000 | 1,000,000 |
| gpt-4.1-mini | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-4.1-mini | GlobalStandard | 5,000 | 5,000,000 |
| gpt-4.1-mini | Standard | 6,000 | 6,000,000 |
| gpt-4.1-nano | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-4.1-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-4o | DataZoneStandard | 300 / 10s | 300,000 |
| gpt-4o-audio-preview | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-4o-mini | DataZoneStandard | 10.000 | 1,000,000 |
| gpt-4o-mini | GlobalStandard | 20,000 | 2,000,000 |
| gpt-4o-mini-audio-preview | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-4o-mini-realtime-preview | GlobalStandard | 36 | 6,000 |
| gpt-4o-anteprima-in-tempo-reale | GlobalStandard | 36 | 6,000 |
| gpt-5 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-mini | DataZoneStandard | 300 | 300,000 |
| gpt-5-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-nano | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-5-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-5-pro | GlobalStandard | 1,600 | 160,000 |
| gpt-5.1 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.1 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-chat | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-codex | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.1-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.1-codex-max | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.2 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.2-chat | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.3-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2-codex | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.3-codex | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.4 | DataZoneStandard | 300 | 300,000 |
| gpt-5.4 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.4-pro | GlobalStandard | 160 | 160,000 |
| gpt-5.4-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.4-nano | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-5.4-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-5.5 | DataZoneStandard | 0 | 0 |
| gpt-5.5 | GlobalStandard | 0 | 0 |
| gpt-chat-latest | GlobalStandard | 10.000 | 1,000,000 |
| gpt-audio | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-image-1 | GlobalStandard | 9 | - |
| gpt-image-1-mini | GlobalStandard | 12 | - |
| gpt-image-1.5 | DataZoneStandard | 3 | - |
| gpt-image-1.5 | GlobalStandard | 9 | - |
| gpt-image-2 | DataZoneStandard | 3 | - |
| gpt-image-2 | GlobalStandard | 9 | - |
| gpt-realtime | GlobalStandard | 200 | 100,000 |
| model-router | DataZoneStandard | 150 | 150,000 |
| o1 | DataZoneStandard | 100 | 600,000 |
| o1 | GlobalStandard | 500 | 3,000,000 |
| o3 | DataZoneStandard | 300 | 300,000 |
| o3 | GlobalStandard | 1,000 | 1,000,000 |
| o3-deep-research | GlobalStandard | 3,000 | 3,000,000 |
| o3-mini | DataZoneStandard | 200 | 2,000,000 |
| o3-mini | GlobalStandard | 500 | 5,000,000 |
| o3-pro | GlobalStandard | 160 | 1,600,000 |
| o4-mini | DataZoneStandard | 300 / 10s | 300,000 |
| o4-mini | GlobalStandard | 1,000 | 1,000,000 |
| text-embedding-3-large | DataZoneStandard | 1,000 | 1,000,000 |
| text-embedding-3-large | GlobalStandard | 1000 / 10s | 1,000,000 |
| text-embedding-3-small | DataZoneStandard | 1,000 | 1,000,000 |
| text-embedding-3-small | GlobalStandard | 1000 / 10s | 1,000,000 |
Informazioni di riferimento su quote e limiti
La sezione seguente fornisce una guida rapida alle quote e ai limiti predefiniti applicabili a Azure OpenAI:
| Nome del limite | Valore limite |
|---|---|
| Risorse di Azure OpenAI per regione, per sottoscrizione Azure | 30. |
| Limiti di quota GPT-image-1 predefiniti | 9 richieste al minuto |
| Limiti di quota GPT-image-1-mini predefiniti | 12 richieste al minuto |
| Limiti di quota GPT-image-1.5 predefiniti | 9 richieste al minuto |
| Limiti di quota GPT-image-2 predefiniti | 9 richieste al minuto |
| Limiti di quota Sora predefiniti | 60 richieste al minuto. |
| Limiti di quota di Sora 2 predefiniti | 2 richieste di lavoro1 al minuto |
| Limiti predefiniti di quota per l'API di conversione da voce a testo | 3 richieste al minuto. |
| Numero massimo di token per richiesta | Varia per modello. Per altre informazioni, vedere Azure modelli OpenAI. |
| Numero massimo di distribuzioni standard per risorsa | 32. |
| Implementazioni massime di modelli ottimizzati | 10. |
| Numero totale di lavori di addestramento per risorsa | 100. |
| Numero massimo di attività di addestramento simultanee per risorsa | Formazione standard e globale: 3; Formazione per sviluppatori: 5 |
| Numero massimo di processi di training in coda | 20. |
| Numero massimo di file per risorsa (ottimizzazione) | 100. |
| Dimensioni totali di tutti i file per risorsa (ottimizzazione) | 1 GB. |
| Tempo massimo per il job di training (il job viene considerato non riuscito se superato) | 720 ore. |
Dimensioni massime del processo di training (tokens in training file) x (# of epochs) |
2 miliardi. |
| Dimensioni massime di tutti i file per caricare (Azure OpenAI sui tuoi dati) | 16 MB. |
Numero massimo di input nella matrice con /embeddings |
2,048. |
Numero massimo di /chat/completions messaggi |
2,048. |
Numero massimo di /chat/completions funzioni |
128. |
Numero massimo di /chat/completions strumenti |
128. |
| Numero massimo di unità di throughput fornite per distribuzione | 100,000. |
| Numero massimo di file per assistente o thread | 10.000 quando si usa l'API o il portale Microsoft Foundry. |
| Dimensioni massime dei file per assistenti e ottimizzazione | 512 MB tramite l'API 200 MB tramite il portale Foundry. |
| Numero massimo di richieste di caricamento file per risorsa | 30 richieste al secondo. |
| Dimensioni massime per tutti i file caricati per gli assistenti | 200 GB. |
| Limite di token degli assistenti | Limite di 2.000.000 token. |
GPT-4o e GPT-4.1 numero massimo di immagini per richiesta (numero di immagini nella matrice di messaggi o nella cronologia delle conversazioni) |
50. |
GPT-4 vision-preview e GPT-4 turbo-2024-04-09 valori massimi predefiniti dei token |
16. Aumentare il valore del max_tokens parametro per evitare risposte troncate.
GPT-4o il numero massimo di token predefiniti è 4.096. |
| Numero massimo di intestazioni personalizzate nelle richieste API2 | 10. |
| Limite di caratteri del messaggio | 1,048,576. |
| Dimensioni dei messaggi per i file audio | 20 MB. |
1 La quota Sora 2 RPM conta solo le richieste di lavoro video. Altri tipi di richieste non sono soggetti a limitazioni di velocità.
2 Le API correnti consentono fino a 10 intestazioni personalizzate, che vengono passate attraverso la pipeline e restituite. Attualmente, alcuni clienti superano questo numero di intestazioni, il che genera errori HTTP 431. Non esiste alcuna soluzione per questo errore, ad eccezione di ridurre il volume dell'intestazione. Nelle versioni future dell'API non verranno passate intestazioni personalizzate. È consigliabile che i clienti non dipendano dalle intestazioni personalizzate nelle future architetture di sistema.
Nota
I limiti di quota sono soggetti a modifiche.
limiti di frequenza del router modello
| Modello | Tipo di distribuzione | RPM predefinito | TPM predefinito | Enterprise e MCA-E RPM | TPM aziendale e MCA-E |
|---|---|---|---|---|---|
model-router (2025-11-18) |
DataZoneStandard | 150 | 150,000 | 300 | 300,000 |
model-router (2025-11-18) |
GlobalStandard | 250 | 250,000 | 400 | 400,000 |
Limiti relativi a Batch
| Nome del limite | Valore limite |
|---|---|
| Numero massimo di file di input batch - (nessuna scadenza) | 500 |
| Numero massimo di file di input batch - (scadenza impostata) | 10.000 |
| Dimensioni massime del file di input | 200 MB |
| Dimensioni massime del file di input - Bring Your Own Storage (BYOS) | 1 GB |
| Numero massimo di richieste per file | 100,000 |
Nota
I limiti dei file batch non si applicano ai file di output ( ad esempio , result.jsonle error.jsonl). Per rimuovere i limiti dei file di input batch, usare Batch con Archiviazione BLOB di Azure.
Quota di batch
La tabella mostra il limite di quota del batch. I valori delle quote per il batch globale sono rappresentati in termini di token accodati. Quando si invia un file per l'elaborazione batch, viene conteggiato il numero di token nel file. Fino a quando il processo batch non raggiunge uno stato terminale, questi token vengono conteggiati rispetto al limite totale di token accodati.
Batch globale
| Modello | Enterprise e MCA-E | Predefinito | Sottoscrizioni mensili basate su carta di credito | Sottoscrizioni MSDN | Azure per studenti, versioni di valutazione gratuite |
|---|---|---|---|---|---|
gpt-4.1 |
5B | 200M | 50M | 90.000 | N/D |
gpt-4.1 mini |
15B | 1B | 50M | 90.000 | N/D |
gpt-4.1-nano |
15B | 1B | 50M | 90.000 | N/D |
gpt-4o |
5B | 200M | 50M | 90.000 | N/D |
gpt-4o-mini |
15B | 1B | 50M | 90.000 | N/D |
gpt-4-turbo |
300M | 80M | 40M | 90.000 | N/D |
gpt-4 |
150M | 30 milioni | 5M | 100.000 | N/D |
o3-mini |
15B | 1B | 50M | 90.000 | N/D |
o4-mini |
15B | 1B | 50M | 90.000 | N/D |
gpt-5 |
5B | 200M | 50M | 90.000 | N/D |
gpt-5.1 |
5B | 200M | 50M | 90.000 | N/D |
B = miliardi | M = milioni | K = migliaia
Batch zona dati
| Modello | Enterprise e MCA-E | Predefinito | Sottoscrizioni mensili basate su carta di credito | Sottoscrizioni MSDN | Azure per studenti, versioni di valutazione gratuite |
|---|---|---|---|---|---|
gpt-4.1 |
500M | 30 milioni | 30 milioni | 90.000 | N/D |
gpt-4.1-mini |
1,5 miliardi | 100 MB | 50M | 90.000 | N/D |
gpt-4o |
500M | 30 milioni | 30 milioni | 90.000 | N/D |
gpt-4o-mini |
1,5 miliardi | 100 MB | 50M | 90.000 | N/D |
o3-mini |
1,5 miliardi | 100 MB | 50M | 90.000 | N/D |
gpt-5 |
5B | 200M | 50M | 90.000 | N/D |
gpt-5.1 |
5B | 200M | 50M | 90.000 | N/D |
gpt-oss
| Modello | Token al minuto (TPM) | Richieste al minuto (RPM) |
|---|---|---|
gpt-oss-120b |
5 milioni | 5 K |
Livelli di utilizzo
Le distribuzioni standard globali usano l'infrastruttura globale di Azure. Instradano dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Analogamente, le distribuzioni di Data Zone Standard consentono di usare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center all'interno della zona dati definita dall'Microsoft con la migliore disponibilità per ogni richiesta. Questa pratica consente una latenza più coerente per i clienti con livelli di traffico da basso a medio. I clienti con elevati livelli di utilizzo sostenuti potrebbero riscontrare una maggiore variabilità nella latenza di risposta.
Azure livelli di utilizzo OpenAI sono progettati per offrire prestazioni coerenti per la maggior parte dei clienti con livelli di traffico da basso a medio. Ogni livello di utilizzo definisce la velocità effettiva massima (token al minuto) che è possibile prevedere con una latenza prevedibile. Quando l'utilizzo rimane entro il livello assegnato, la latenza rimane stabile e i tempi di risposta sono coerenti.
Cosa accade se si supera il livello di utilizzo?
- Se la velocità effettiva della richiesta supera il livello di utilizzo, soprattutto durante i periodi di domanda elevata, la latenza della risposta può aumentare significativamente.
- La latenza può variare e, in alcuni casi, può essere più di due volte superiore rispetto a quando si opera all'interno del livello di utilizzo.
- Questa variabilità è più evidente per i clienti con un utilizzo sostenuto o con schemi di traffico intermittenti.
Azioni consigliate se si supera il livello di utilizzo
Se si verificano errori 429 o si nota un aumento della variabilità della latenza, ecco le operazioni da eseguire:
- Richiedere un aumento della quota: visitare il portale di Azure per richiedere una quota superiore per la sottoscrizione.
- Considerate l'aggiornamento a un'offerta Premium (PTU): per i carichi di lavoro con latenza critica o con volumi elevati, effettuate l'aggiornamento alle Unità di Throughput Provisionate (PTU). PTU offre risorse dedicate, capacità garantita e latenza prevedibile, anche su larga scala. Questa è la scelta migliore per le applicazioni cruciali che richiedono prestazioni coerenti.
- Monitorare l'utilizzo: esaminare regolarmente le metriche di utilizzo nel portale di Azure per assicurarsi di operare entro i limiti del livello. Modificare il carico di lavoro o la strategia di distribuzione in base alle esigenze.
È possibile ricevere risposte 429 (troppe richieste) anche quando le metriche di utilizzo dei token vengono visualizzate sotto la quota.
Questo problema può verificarsi negli scenari seguenti:
- Richieste rifiutate a causa di limiti di lunghezza del contesto o di input (HTTP 400). Queste richieste non vengono fatturate e potrebbero non essere visualizzate nelle metriche di utilizzo dei token, ma possono comunque contare per limitare la frequenza.
- Le richieste valutate in base al potenziale utilizzo dei token ( ad esempio ,
max_tokens), anche se non vengono generati token. - Comportamento di limitazione della frequenza distribuita, in cui l'applicazione potrebbe non essere perfettamente precisa o immediatamente riflessa nelle metriche aggregate.
Il limite di utilizzo determina il livello di utilizzo superiore al quale i clienti potrebbero riscontrare una maggiore variabilità nella latenza di risposta. L'utilizzo di un cliente è definito per modello. È il numero totale di token utilizzati in tutte le distribuzioni in tutte le sottoscrizioni in tutte le aree per un determinato tenant.
Nota
I livelli di utilizzo si applicano solo ai tipi di distribuzione Standard, Data Zone Standard e Standard globale. I livelli di utilizzo non si applicano alle distribuzioni globali in batch e con velocità effettiva con provisioning.
Standard globale, Standard della zona dati e Standard
| Modello | Livelli di utilizzo al mese |
|---|---|
gpt-5 |
32 miliardi di token |
gpt-5-mini |
160 miliardi di token |
gpt-5-nano |
800 miliardi di token |
gpt-5-chat |
32 miliardi di token |
gpt-4
+
gpt-4-32k (tutte le versioni) |
6 miliardi di token |
gpt-4o |
12 miliardi di token |
gpt-4o-mini |
85 miliardi di token |
o3-mini |
50 miliardi di token |
o1 |
4 miliardi di token |
o4-mini |
50 miliardi di token |
o3 |
5 miliardi di token |
gpt-4.1 |
30 miliardi di token |
gpt-4.1-mini |
150 miliardi di token |
gpt-4.1-nano |
550 miliardi di token |
Procedure consigliate generali per rimanere entro i limiti di velocità
Per ridurre al minimo i problemi relativi ai limiti di frequenza, è consigliabile usare le tecniche seguenti:
- Implementare la logica di ripetizione dei tentativi nell'applicazione.
- Evitare modifiche nitide nel carico di lavoro. Aumentare gradualmente il carico di lavoro.
- Testare modelli di aumento del carico diversi.
- Aumentare la quota assegnata alla distribuzione. Spostare la quota da un'altra distribuzione, se necessario.
Aumento della quota richiesta
Invia il modulo di richiesta di aumento di quota per i modelli Foundry venduti direttamente da Azure, i modelli Azure OpenAI e i modelli Anthropic. Ad eccezione dei modelli Anthropic, i modelli di partner e community non supportano gli aumenti di quota.
Le richieste di aumento della quota vengono elaborate nell'ordine in cui vengono ricevute e la priorità passa ai clienti che usano attivamente l'allocazione di quote esistente. Le richieste che non soddisfano questa condizione potrebbero essere negate.
Limiti di capacità della quota a livello di area
È possibile visualizzare la disponibilità della quota per regione per la sottoscrizione nel Portale Foundry.
Per visualizzare la capacità della quota per area per un modello o una versione specifica, è possibile eseguire una query sull'API di capacità per la sottoscrizione. Fornire un subscriptionId, un model_name e un model_version e l'API restituisce la capacità disponibile per quel modello in tutte le regioni e i tipi di distribuzione per la tua sottoscrizione.
Nota
Attualmente, sia il portale Foundry che l'API capacity restituiscono informazioni sulla quota/capacità per i modelli ritirati e non più disponibili.
Vedere le informazioni di riferimento sulle API.
Prima di eseguire l'esempio:
- Installare le dipendenze:
pip install azure-identity requests - Accedere con un'identità di Azure in grado di leggere le capacità del modello per la sottoscrizione.
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
Contenuto correlato
- Informazioni su come gestisci quota per le distribuzioni OpenAI Azure.
- Scopri di più sui modelli sottostante che alimentano Azure OpenAI.