Stimare e gestire la capacità di un servizio di ricerca

Azure AI Search offre due modelli tariffari che gestiscono la capacità in modo diverso:

Dedicato: Pianificare la capacità dimensionando le repliche e le partizioni e selezionando un livello di servizio.
- Preconfigurare la capacità direttamente utilizzando repliche e partizioni.
- Stimare l'archiviazione necessaria (partizioni) e la velocità effettiva richiesta (repliche).
- Scegliere un livello di servizio per effettuare il provisioning della capacità necessaria in base al picco previsto della domanda.
- Dopo aver configurato la capacità in anticipo, si paga una tariffa oraria calcolata in Unità di ricerca (SU), indipendentemente dall'utilizzo.
Serverless (anteprima): il servizio gestisce automaticamente la capacità in base ai limiti di utilizzo e di servizio. Non è necessario predisporre la capacità in anticipo. Ottimizzare invece l'efficienza del carico di lavoro per gestire i costi.
- La capacità viene ridimensionata automaticamente con la domanda (può essere ridimensionata a zero quando è inattiva).
- Vengono fatturati in base all'utilizzo effettivo misurato dalle unità di calcolo e dall'archiviazione.
- Anziché l'infrastruttura, la pianificazione è incentrata su questi driver di costo: modelli di query, dimensioni e crescita degli indici e modelli di inserimento dati. Vedere Ottimizzare i costi per il modello serverless.

Dimension	Dedicated	Serverless
Modello di capacità	Allocato (repliche × partizioni)	Basato sul consumo
Scaling	Manuale	Automatico
Controllo utente	Esplicita (configura repliche e partizioni)	Indiretto (influenzato dalle caratteristiche del carico di lavoro)
Billing	Tariffa oraria fissa per Unità di ricerca (SUs)	Pagamenti in base al consumo per unità di calcolo (UR) e archiviazione
Costo inattiva	Sempre addebitato (capacità minima allocata)	Si riduce a zero quando non è in uso
Focus sull'ottimizzazione	Dimensionamento dell'infrastruttura	Efficienza del carico di lavoro
Migliore per	Carichi di lavoro prevedibili e stabili	Carichi di lavoro variabili, discontinui o multitenant, inclusi scenari gestiti da agenti
Approccio alla pianificazione della capacità	Infrastruttura di dimensioni e scalabilità (repliche e partizioni)	Ottimizzare l'efficienza del carico di lavoro e i modelli di utilizzo
Impatto sull'inefficienza	Latenza e pressione sulla scalabilità	Aumento dei costi diretti

Importante

Il livello serverless per sviluppatori è attualmente in anteprima. Questa anteprima viene fornita senza un contratto di servizio e non è consigliata per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per ulteriori informazioni, vedere Condizioni supplementari per l'uso delle versioni di anteprima di Microsoft Azure.

La fatturazione per il tier Serverless Developer non è ancora abilitata durante la fase di anteprima. I costi stimati per l'utilizzo sono disponibili nel portale di Azure e i dati di telemetria, ma tale utilizzo non verrà visualizzato nella fattura Azure durante questo periodo iniziale. Microsoft fornirà almeno 30 giorni di preavviso prima dell'inizio della fatturazione. Il differire della fatturazione durante questa anteprima è temporaneo. Lo sviluppatore serverless è un livello a pagamento e sarà responsabile di eventuali addebiti accumulati dopo l'inizio della fatturazione.

Il livello Developer serverless non supporta la migrazione verso o da altri livelli tariffari e alcune funzionalità disponibili in altri livelli non sono disponibili durante l'anteprima pubblica. I limiti del servizio, le funzionalità supportate e i dettagli dei prezzi possono cambiare prima della disponibilità generale.

L'anteprima è attualmente disponibile solo in Stati Uniti centro-occidentali, Svizzera settentrionale e Giappone orientale.

Per altre informazioni, vedere come:

Pianificare la capacità per il modello dedicato

Nel modello Dedicato si effettua il provisioning della capacità usando unità di ricerca (SU):In the Dedicated model, you provision capacity by using Search Units (SU):

Unità di ricerca (SU) = repliche × partizioni
Replica: Copie del motore di ricerca. Fornisce velocità effettiva delle query e disponibilità elevata.
Partizione: unità di archiviazione. Fornisce la capacità effettiva di archiviazione e indicizzazione.

Ogni servizio parte con 1 replica × 1 partizione (1 SU). È possibile aggiungere o rimuovere repliche e partizioni in modo indipendente per supportare carichi di lavoro fluttuanti. L'aggiunta di capacità aumenta il costo dell'esecuzione di un servizio di ricerca.

Concetto	Definizione
Unità di ricerca	Un singolo incremento della capacità totale disponibile. Per eseguire il servizio è necessario almeno un'unità di ricerca. A seconda del piano tariffario, il numero massimo è compreso tra uno e 36 unità. Il numero di unità di ricerca è uguale al numero di repliche moltiplicate per il numero di partizioni: R × P = SU. Ogni servizio inizia con una replica e una partizione, che utilizza un'unità: 1 × 1 = 1 = 1. L'aggiunta di una seconda replica utilizza due unità: 2 × 1 = 2. Un'unità di ricerca è anche l'unità di fatturazione per un servizio di ricerca.
Replica	Istanze del servizio di ricerca, utilizzate principalmente per il bilanciamento del carico delle operazioni di interrogazione. Ogni replica ospita una copia di un indice. Se si allocano tre repliche, sono disponibili tre copie di un indice per le richieste di query di manutenzione.
Partizione	Archiviazione fisica degli indici e I/O per le operazioni di lettura e scrittura, ad esempio durante la compilazione o l'aggiornamento di un indice. Ogni partizione ha una sezione dell'indice totale. Se si allocano tre partizioni, l'indice viene diviso in terzi.

Esaminare la tabella partizioni e repliche per le possibili combinazioni che rimangono al di sotto del limite di 36 unità.

Le caratteristiche fisiche delle repliche e delle partizioni, ad esempio velocità di elaborazione e I/O del disco, variano in base al livello di servizio. In un servizio di ricerca standard, le repliche e le partizioni sono più veloci e più grandi di quelle di un servizio di base.

Quando aggiungere capacità per il modello dedicato

Prendere in considerazione l'aggiunta di repliche o partizioni quando:

La latenza delle query aumenta o i criteri del contratto di servizio non vengono soddisfatti.
La frequenza degli errori HTTP 503 (servizio non disponibile) aumenta.
La frequenza degli errori HTTP 429 (troppe richieste) aumenta, a indicare la limitazione delle richieste.
Sono previsti volumi di query di grandi dimensioni.
I processi di indicizzazione sono lenti o accumulano ritardi.
La velocità effettiva di archiviazione o indicizzazione non è sufficiente.

Linee guida per il ridimensionamento:

Aggiungi repliche per aumentare l'efficienza e la disponibilità delle query.
Aggiungere partizioni per aumentare le prestazioni di archiviazione e indicizzazione.
I carichi di lavoro con un elevato numero di query richiedono in genere più repliche.
Gli indici di grandi dimensioni potrebbero richiedere repliche aggiuntive per mantenere le prestazioni.

Importante

Il completamento delle operazioni di ridimensionamento può richiedere tempo e aumentare i costi. Convalidare sempre le modifiche usando i test delle prestazioni e le stime dei prezzi.

Il livello di servizio scelto determina le dimensioni e la velocità della partizione. Ogni livello è ottimizzato in base a un set di caratteristiche che rientrano in vari scenari. Se si sceglie un livello superiore, è possibile che siano necessarie meno partizioni rispetto all'uso di S1. Una delle domande che è necessario rispondere tramite test auto-diretti è se una partizione più grande e più costosa produce prestazioni migliori rispetto a due partizioni più economiche in un servizio di cui è stato effettuato il provisioning a un livello inferiore.

Un singolo servizio deve disporre di risorse sufficienti per gestire tutti i carichi di lavoro (indicizzazione e query). Nessuno dei due carichi di lavoro viene eseguito in background. È possibile pianificare l'indicizzazione per i tempi in cui le richieste di query sono naturalmente meno frequenti, ma il servizio non assegna in altro modo priorità a un'attività rispetto a un'altra. Inoltre, una certa quantità di ridondanza riduce le prestazioni delle query quando i servizi o i nodi vengono aggiornati internamente.

Come regola generale, le applicazioni di ricerca tendono a richiedere più repliche che partizioni, in particolare quando fra le operazioni del servizio prevalgono i carichi di lavoro di query. Ogni replica è una copia del proprio indice, in modo che il servizio possa distribuire il carico delle richieste su più copie. Azure AI Search gestisce tutto il bilanciamento del carico e la replica di un indice. È possibile modificare il numero di repliche allocate per il servizio in qualsiasi momento. È possibile allocare fino a 12 repliche in un servizio di ricerca Standard e 3 repliche in un servizio di ricerca Basic. È possibile eseguire l'allocazione delle repliche dal portale Azure o da una delle opzioni a livello di codice.

Le partizioni aggiuntive sono utili per carichi di lavoro di indicizzazione intensivi. Le partizioni aggiuntive distribuiscono le operazioni di lettura e scrittura in un numero maggiore di risorse di calcolo.

Infine, l'esecuzione di query su indici di dimensioni maggiori può richiedere tempi più lunghi. Di conseguenza, si noterà che ogni aumento incrementale delle partizioni richiede un aumento delle repliche proporzionale ma più limitato. La complessità e il volume delle query influiscono sulla rapidità di esecuzione delle stesse.

Per i limiti del servizio e gli intervalli di scalabilità validi, vedere:

Nota

L'aggiunta di più repliche o partizioni aumenta il costo dell'esecuzione del servizio e può introdurre lievi variazioni nella modalità di ordinamento dei risultati. Assicurarsi di controllare il calcolatore prezzi per comprendere le implicazioni di fatturazione dell'aggiunta di altri nodi. La tabella delle combinazioni di partizione e replica consente di fare riferimento incrociato al numero di unità di ricerca necessarie per una configurazione specifica. Per altre informazioni su come le repliche aggiuntive influiscono sull'elaborazione delle query, vedere Ordinamento dei risultati.

Come gestire e regolare la capacità

La modifica della capacità non è istantanea. A seconda del volume di dati e del tipo di operazione, il ridimensionamento può richiedere da pochi minuti a diverse ore.

Quando si ridimensiona un servizio di ricerca, è possibile scegliere tra gli strumenti e gli approcci seguenti:

Nota

Se il servizio di ricerca è stato creato prima di aprile o maggio 2024, potrebbe essere idoneo per un aggiornamento monouso all'infrastruttura più recente con dimensioni di partizione maggiori senza costi aggiuntivi. Questo aggiornamento può aumentare lo spazio di archiviazione disponibile per partizione e ridurre il numero di partizioni necessarie per il carico di lavoro. Per altre informazioni, vedere Aggiornare il servizio di ricerca.

Per aumentare o ridurre la capacità del servizio, sono disponibili due opzioni:

Aggiungere o rimuovere partizioni e repliche
Modificare il piano tariffario

Aggiungere o rimuovere partizioni e repliche

Passare al servizio di ricerca nel portale Azure.
Nel riquadro sinistro selezionare Impostazioni>Scala.

Lo screenshot seguente mostra un servizio Standard provisionato con una replica e una partizione. La formula nella parte inferiore indica il numero di unità di ricerca usate (1). Se il prezzo unitario era di $ 100 (solo come esempio), il costo mensile di esecuzione di questo servizio sarebbe di $ 100 in media.
Usare il dispositivo di scorrimento per aumentare o ridurre il numero di partizioni e quindi selezionare Salva.

In questo esempio vengono aggiunte una seconda replica e una seconda partizione. Si noti il numero di unità di ricerca; ora sono quattro perché la formula di fatturazione consiste nelle repliche moltiplicate per le partizioni (2 x 2). Il raddoppio della capacità supera il doppio del costo di esecuzione del servizio. Se il costo unitario di ricerca era di $ 100, la nuova fattura mensile sarebbe ora di $ 400.

Per i costi correnti per unità di ogni livello, visitare la pagina dei prezzi.
Controllare le notifiche per confermare l'avvio dell'operazione.

Il completamento di questa operazione può richiedere diverse ore. Si verifica in background, quindi il servizio di ricerca rimane completamente operativo e disponibile per le operazioni di lettura e scrittura.

Non è possibile annullare l'operazione o monitorarne lo stato. Tuttavia, il messaggio seguente viene visualizzato mentre sono in corso le modifiche.

Modificare il piano tariffario

Nota

Il portale di Azure e Services - Update (API REST) supportano le modifiche tra i livelli Basic e Standard (S1, S2 e S3). È possibile aggiornare o effettuare il downgrade dei livelli, purché la configurazione del servizio corrente non superi i limiti del livello di destinazione. La tua regione non può nemmeno avere vincoli di capacità nel livello di destinazione.

Il piano tariffario determina lo spazio di archiviazione massimo del servizio di ricerca per il modello tariffario dedicato. Se è necessaria più o meno capacità, è possibile passare a un piano tariffario diverso che soddisfi le esigenze di archiviazione. Questo vale solo per i piani tariffari dedicati. Non è possibile modificare il livello Sviluppatore del modello serverless dopo l'opzione selezionata.

Oltre alla capacità, i piani tariffari determinano i limiti relativi a indici, indicizzatori e altri oggetti di ricerca. Confrontare i limiti del servizio del livello corrente e il livello desiderato prima di procedere. In genere, il passaggio a un livello superiore aumenta il limite di archiviazione e il limite di vettori, aumenta la velocità effettiva delle richieste e riduce la latenza, mentre il passaggio a un livello inferiore ha l'effetto opposto.

Il passaggio a un piano tariffario superiore aumenta anche il costo dell'esecuzione del servizio di ricerca. Per ulteriori informazioni, vedere la pagina dei prezzi.

Per modificare il piano tariffario:

Passare al servizio di ricerca nel portale Azure.
Nel riquadro sinistro selezionare Impostazioni>Scala.
Nel piano corrente selezionare Cambia piano tariffario.
Nella pagina Selezionare un piano tariffario scegliere un livello diverso dall'elenco.

È possibile passare da Basic, S1, S2 e S3, ma non è possibile passare a o da Free, S3HD, L1 o L2. Questi livelli non sono selezionabili e vengono visualizzati in grigio.
Per avviare l'operazione di ridimensionamento, selezionare Salva.

Il completamento di questa operazione può richiedere diverse ore. Si verifica in background, quindi il servizio di ricerca rimane completamente operativo e disponibile per le operazioni di lettura e scrittura.

Non è possibile annullare l'operazione o monitorarne lo stato. Tuttavia, il messaggio seguente viene visualizzato mentre sono in corso le modifiche.

Modalità di gestione delle richieste di scalabilità per il modello dedicato

Quando il servizio di ricerca riceve una richiesta di scalabilità, è possibile:

Verifica se la richiesta è valida.
Avvia il backup dei dati e delle informazioni di sistema.
Verifica se il servizio è già in stato di provisioning (ossia se sta attualmente aggiungendo o eliminando repliche o partizioni).
Avvia il provisioning.

Il ridimensionamento di un servizio può richiedere diversi minuti a diverse ore, a seconda delle dimensioni del servizio e dell'ambito della richiesta. La durata del backup varia anche in base alla quantità di dati e al numero di partizioni e repliche.

I passaggi precedenti non sono completamente consecutivi. Ad esempio, il sistema avvia il provisioning quando può farlo in modo sicuro, il che potrebbe essere mentre il backup è inattivo.

Errori durante il ridimensionamento

Nella tabella seguente sono elencate le cause e le soluzioni per gli errori che possono verificarsi durante le operazioni di ridimensionamento.

Messaggio di errore	Motivo	Soluzione
"Le operazioni di aggiornamento del servizio non sono consentite in questo momento perché si sta elaborando una richiesta precedente."	È in corso un'altra operazione di ridimensionamento.	Controllare la pagina Overview nel portale di Azure oppure usare l'API REST Search Management, Azure PowerShell o interfaccia della riga di comando di Azure per ottenere lo stato del servizio di ricerca. Se lo stato è "Provisioning", attendere finché non diventa "Operazione completata" o "Operazione non riuscita" prima di riprovare. ^{1, 2}
Impossibile scalare il servizio di ricerca servicename. Errore: Numero di oggettiActualCount supera il limite consentito: MaximumCount."	La configurazione del servizio corrente supera i limiti del piano tariffario di destinazione.	Verificare che l'utilizzo dell'archiviazione, l'utilizzo del vettore, gli indici, gli indicizzatori e altri oggetti si adattino ai limiti del servizio del livello inferiore. Ad esempio, il livello Basic supporta fino a 15 indici, quindi non è possibile passare da S1 a Basic se sono presenti 16 indici. Modificare le risorse prima di riprovare.

¹ Non esiste uno stato per i backup, che sono operazioni interne che difficilmente interrompono un esercizio di ridimensionamento.

² Se il servizio di ricerca sembra bloccato in uno stato di provisioning, verificare la presenza di indici orfani inutilizzabili, senza volumi di query e nessun aggiornamento dell'indice. Un indice inutilizzabile può bloccare le modifiche apportate alla capacità del servizio. In particolare, cercare gli indici crittografati con chiave gestita dal cliente le cui chiavi non sono più valide. Eliminare l'indice o ripristinare le chiavi per riportare l'indice online e sbloccare l'operazione di ridimensionamento.

Combinazioni di partizioni e repliche

Il grafico seguente si applica al livello Standard e superiore. Mostra tutte le possibili combinazioni di partizioni e repliche, soggette al massimo di 36 unità di ricerca per servizio.

	1 partizione	2 partizioni	3 partizioni	4 partizioni	6 partizioni	12 partizioni
1 replica.	1 unità di ricerca	2 unità di archiviazione	3 unità di archiviazione	4 unità di archiviazione	6 unità di archiviazione	12 unità di archiviazione
2 repliche	2 unità di archiviazione	4 unità di archiviazione	6 unità di archiviazione	8 unità di archiviazione	12 unità di archiviazione	24 unità di archiviazione
3 repliche	3 unità di archiviazione	6 unità di archiviazione	9 unità di archiviazione	12 unità di archiviazione	18 unità di archiviazione	36 unità di archiviazione
4 repliche	4 unità di archiviazione	8 unità di archiviazione	12 unità di archiviazione	16 unità di archiviazione	24 unità di archiviazione	N/D
5 repliche	5 unità di archiviazione	10 unità di archiviazione	15 unità di archiviazione	20 unità di archiviazione	30 unità di archiviazione	N/D
6 repliche	6 unità di archiviazione	12 unità di archiviazione	18 unità di archiviazione	24 unità di archiviazione	36 unità di archiviazione	N/D
12 repliche	12 unità di archiviazione	24 unità di archiviazione	36 unità di archiviazione	N/D	N/D	N/D

I servizi di ricerca di base hanno un numero inferiore di unità di ricerca.

Nei servizi di ricerca creati prima del 3 aprile 2024, i servizi Basic possono avere esattamente una partizione e fino a tre repliche per un limite massimo di tre SU. Le repliche sono l'unica risorsa regolabile. Tuttavia, potrebbe essere possibile aumentare il numero di partizioni aggiornando il servizio.
Nei servizi di ricerca creati dopo il 3 aprile 2024 nelle aree supportate, i servizi di base possono avere fino a tre partizioni e tre repliche. Il limite massimo di SU è nove per supportare l'intero insieme di partizioni e repliche.

Per i servizi di ricerca in qualsiasi livello fatturabile, indipendentemente dalla data di creazione, sono necessarie almeno due repliche per la disponibilità elevata nelle query.

Per le tariffe di fatturazione per livello e valuta, vedere la pagina dei prezzi Azure AI Search.

Stimare la capacità usando un piano tariffario dedicato

Le esigenze di archiviazione dipendono dalle dimensioni degli indici che si prevede di compilare. Non ci sono linee guida euristiche o generali solide che aiutano con le stime. L'unico modo per determinare le dimensioni di un indice consiste nel crearne uno. Le dimensioni dipendono dalla tokenizzazione e dalle incorporazioni e dall'abilitazione di suggerimenti, filtri e ordinamento oppure possono sfruttare la compressione vettoriale.

Stima la capacità in base a un piano tariffario fatturabile, Basic o superiore. Il livello Gratuito viene eseguito su risorse fisiche condivise da più clienti ed è soggetto a fattori oltre il controllo dell'utente. Solo le risorse dedicate di un servizio di ricerca fatturabile possono supportare tempi di campionamento ed elaborazione maggiori per stime più realistiche della quantità, delle dimensioni e dei volumi di query dell'indice durante lo sviluppo.

Rivedere i limiti di servizio di ogni livello per determinare se livelli inferiori possono supportare la quantità di indici necessaria. Valutare se sono necessarie più copie di un indice per lo sviluppo, il test e la produzione attivi.

Un servizio di ricerca è soggetto ai limiti degli oggetti (numero massimo di indici, indicizzatori, set di competenze e così via) e limiti di archiviazione. Il limite raggiunto per primo è il limite effettivo.
Creare un servizio a un livello fatturabile. I livelli sono ottimizzati per determinati carichi di lavoro. Ad esempio, il livello Ottimizzato per l'archiviazione ha un limite di 10 indici perché è progettato per supportare un numero ridotto di indici di grandi dimensioni.
- Iniziare dal basso, dal livello Basic o S1, se non si è certi del caricamento proiettato.
- Iniziare dall'alto, ai livelli S2 o anche S3, se il test include caricamenti di query e indicizzazione su larga scala.
- Inizia con Archiviazione Ottimizzata, a L1 o L2, se stai indicizzando una grande quantità di dati e il carico di query è relativamente basso, come con un'applicazione aziendale interna.
Generare un indice iniziale per determinare il modo in cui i dati di origine vengono convertiti in un indice. Questo è l'unico modo per stimare le dimensioni di un indice. Gli attributi nelle definizioni dei campi influiscono sui requisiti di archiviazione fisica:
- Per la ricerca di parole chiave, contrassegnare i campi come filtrabili e ordinabili per aumentare le dimensioni dell'indice.
- Per la ricerca vettoriale, è possibile impostare parametri per ridurre le dimensioni del vettore.
Monitora l'archiviazione, i limiti del servizio, il volume di query e la latenza nel portale di Azure. Il portale di Azure mostra le query al secondo, le query soggette a limitazione e la latenza della ricerca. Questi valori consentono di decidere se è stato selezionato il livello corretto.
Aggiungere repliche per la disponibilità elevata o ridurre il numero di query lente.

Non sono disponibili linee guida sul numero di repliche necessarie per supportare i carichi di query. Le prestazioni delle query dipendono dalla complessità delle query e dai carichi di lavoro concorrenti. Sebbene l'aggiunta di repliche consenta certamente di migliorare le prestazioni, il risultato non è strettamente lineare. L'aggiunta di tre repliche, infatti, non garantisce una velocità effettiva triplicata. Per indicazioni sulla stima di QPS per la soluzione, vedere Analizzare le prestazioni e monitorare le query.

In un indice invertito le dimensioni e la complessità dipendono dal contenuto, non necessariamente dalla quantità di dati inseriti. Un'origine dati di grandi dimensioni con una ridondanza elevata può generare un indice più piccolo rispetto a un set di dati di dimensioni minori che include contenuto altamente variabile. Per questa ragione raramente è possibile dedurre le dimensioni dell'indice in base alle dimensioni del set di dati originale.

I requisiti di archiviazione possono aumentare se si includono dati che non vengono mai cercati. In teoria, i documenti contengono solo i dati necessari per l'esperienza di ricerca.

Considerazioni sul contratto di servizio

I contratti di servizio non coprono il livello gratuito e le funzionalità di anteprima. Per tutti i livelli fatturabili, i contratti di servizio diventano effettivi quando viene effettuato il provisioning di una ridondanza sufficiente per il servizio.

Due o più repliche soddisfano i contratti di servizio di query (lettura).
Tre o più repliche soddisfano i contratti di servizio di query e indicizzazione (lettura/scrittura).

Il numero di partizioni non influisce sui contratti di servizio.

Ottimizzare i costi per il modello serverless

Nel modello di determinazione prezzi serverless:

Il servizio gestisce automaticamente la capacità.
Non è necessario configurare repliche, partizioni o unità di ricerca.
Il calcolo viene ridimensionato in modo dinamico in base al carico di lavoro (query e domanda di indicizzazione) e può essere ridimensionato a zero in caso di inattività.

Per altre informazioni sulle limitazioni per il modello serverless, vedere Limiti del servizio.

La fatturazione si basa su due dimensioni:

Utilizzo delle risorse di calcolo :Compute usage (CU): Addebito in base alle operazioni di query e indicizzazione.
Archiviazione indicizzata: Addebito per GB al mese.

Poiché la fatturazione è basata sul consumo, il costo è direttamente associato all'utilizzo:

Le query complesse usano più calcolo.
La progettazione inefficiente dello schema aumenta sia l'indicizzazione che i costi delle query.
I modelli di query scarsi con indici di grandi dimensioni o aggiornati di frequente aumentano l'utilizzo di risorse di archiviazione e calcolo.

Ottimizzare l'efficienza del carico di lavoro

Poiché l'inefficienza viene visualizzata come costo nel modello serverless, si paga di più per lo stesso lavoro se non si pratica la progettazione compatibile con il carico di lavoro. Il modo migliore per controllare la spesa Serverless è progettare gli indici e le query in modo efficiente fin dall'inizio.

Per progettare carichi di lavoro in modo efficiente quando si utilizza il modello tariffario serverless, considera:

Progettazione dell'indice

Includere solo i campi usati nelle query.
Ridurre le dimensioni vettoriali, se possibile.
Evita di inserire attributi non necessari che consentono di filtrare, ordinare o applicare filtri.

Schemi di query

Usare $select per limitare i campi restituiti.
Applicare i filtri in anticipo per ridurre i set di risultati.
Evitare la paginazione profonda ($skip).
È preferibile effettuare ricerche mirate piuttosto che ricerche generiche nel testo completo.
Usare attentamente la ricerca ibrida a causa di un costo di calcolo più elevato.

Monitoring

Monitora il consumo di CU per identificare query onerose.
Tenere traccia della crescita dell'archiviazione e rimuovere i dati inutilizzati.

In Serverless, il miglioramento delle prestazioni (query più veloci e più mirate) riduce in genere i costi.

Per saperne di più, vedere Ottimizzare i costi con il modello tariffario serverless in Azure AI Search.

Considerazioni sulla capacità regionale

La capacità e la disponibilità possono variare in base all'area supportata. Alcune aree potrebbero avere vincoli per il provisioning di nuovi servizi o il ridimensionamento di quelli esistenti.

Nota

Durante l'anteprima pubblica, il modello di determinazione prezzi serverless è disponibile solo in un set limitato di aree. Vedere l'avviso di anteprima all'inizio di questo articolo.

Se l'area di Azure AI Search preferita non è disponibile a causa di vincoli di capacità, vedere Come gestire i vincoli di capacità a livello di area in Azure AI Search.

Passaggi successivi

Pianificare e gestire i costi

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-06-03

Stimare e gestire la capacità di un servizio di ricerca

Pianificare la capacità per il modello dedicato

Quando aggiungere capacità per il modello dedicato

Come gestire e regolare la capacità

Aggiungere o rimuovere partizioni e repliche

Modificare il piano tariffario

Modalità di gestione delle richieste di scalabilità per il modello dedicato

Errori durante il ridimensionamento

Combinazioni di partizioni e repliche

Stimare la capacità usando un piano tariffario dedicato

Considerazioni sul contratto di servizio

Ottimizzare i costi per il modello serverless

Ottimizzare l'efficienza del carico di lavoro

Considerazioni sulla capacità regionale

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive