Impostare lo sforzo di ragionamento per il recupero (anteprima)

Nota

Alcune funzionalità di recupero agentico sono disponibili a livello generale nell'API REST 2026-04-01. Questa funzionalità rimane tuttavia in anteprima e richiede un'API REST di anteprima. Le funzionalità di anteprima vengono fornite senza un contratto di servizio e non sono consigliate per i carichi di lavoro di produzione. Per ulteriori informazioni, consultare Condizioni aggiuntive per l'utilizzo di Microsoft Azure per le anteprime.

Importante

Queste funzionalità e funzionalità fanno parte dell'API REST 2026-05-01-preview. L'anteprima 2026-05-01-preview è concessa in licenza all'utente come parte della sottoscrizione Azure ed è soggetta ai termini applicabili alle "Anteprime" nei Microsoft Product Terms, nel Microsoft Products and Services Data Protection Addendum ("DPA") e nei Supplemental Terms of Use for Microsoft Azure Previews.

La versione 2026-05-01-preview supporta le connessioni ad altri servizi di servizi Microsoft e di terze parti. L'utilizzo di questi servizi è soggetto alle rispettive condizioni e potrebbe comportare l'elaborazione o l'archiviazione dei dati al di fuori del limite di conformità Azure, nonché il flusso dei dati nel limite di conformità Azure.

È tua responsabilità gestire l'eventuale trasferimento dei tuoi dati al di fuori dei confini di conformità e geografici della tua organizzazione e le relative implicazioni, nonché garantire che siano predisposte le autorizzazioni, i limiti e le approvazioni appropriati.

L'utente è responsabile di esaminare e testare attentamente le applicazioni compilate nel contesto dei casi d'uso specifici e di prendere tutte le decisioni e le personalizzazioni appropriate. Ciò include l'implementazione di mitigazioni di intelligenza artificiale responsabili, ad esempio metaprompt, filtri di contenuto o altri sistemi di sicurezza, e garantire che le applicazioni soddisfino gli standard di qualità, affidabilità, sicurezza e attendibilità appropriati. Per altre informazioni, vedere la nota sulla trasparenza Azure AI Search.

Nel recupero agentico è possibile specificare il livello di elaborazione LLM (Large Language Model) per la pianificazione delle query e la formulazione delle risposte. Usare il tentativo di ragionamento di recupero (anteprima) per impostare i livelli di elaborazione LLM che influiscono sui costi e sulla latenza. L'elaborazione LLM aggiuntiva migliora la pertinenza, ma richiede anche più tempo e usa risorse LLM fatturabili.

È possibile impostare questa proprietà in una Knowledge Base o in una richiesta di recupero. L'impostazione della base di conoscenza definisce il valore predefinito per tutte le query, mentre l'impostazione della richiesta di recupero sovrascrive tale valore predefinito per ogni singola query.

Prerequisiti

Scegliere un tipo di ragionamento

Scegliere uno sforzo di ragionamento basato sul compromesso desiderato tra latenza, costo e profondità di recupero.

Livelli di sforzo nel ragionamento

Livello Descrizione Raccomandazione Limiti
minimal Disabilita la pianificazione delle query basata su LLM per offrire il costo e la latenza più bassi per il recupero agentico. Esegue ricerche dirette di testo e vettori tra le origini delle informazioni elencate nella Knowledge Base e restituisce i passaggi corrispondenti migliori. Poiché tutte le origini delle informazioni nella Knowledge Base sono sempre oggetto di ricerca e non viene eseguita alcuna espansione delle query, il comportamento è prevedibile e facile da controllare. Significa anche che la alwaysQueryKnowledgeSource proprietà in una richiesta di recupero viene ignorata. Usare minimal per le migrazioni dall'API di ricerca o per gestire manualmente la pianificazione delle query.
low La modalità predefinita di recupero agentico, che esegue un singolo passaggio della pianificazione delle query basata su LLM e la selezione dell'origine delle informazioni. Il motore di recupero agentico genera query secondarie e le distribuisce alle fonti di conoscenza selezionate, quindi unisce i risultati. È possibile abilitare la sintesi delle risposte per produrre una risposta basata sul linguaggio naturale con citazioni inline. Usare low quando si vuole un equilibrio tra latenza minima ed elaborazione più approfondita.
  • 5.000 token di risposta.
  • Nell'anteprima 2026-05-01-preview, massimo 10 origini dati per ogni knowledge base nella maggior parte dei piani a pagamento.
  • Nelle versioni precedenti dell'API di anteprima, era consentito un massimo di tre sottoquery provenienti da tre fonti di conoscenza per ogni base di conoscenza.
  • Massimo 50 documenti per la classificazione semantica e 10 documenti se il ranker semantico usa la classificazione L3.
medium Aggiunge una ricerca più approfondita e uno stack di recupero avanzato al recupero agentico per ottimizzare la completezza. Dopo l'esecuzione della prima ricerca, un classificatore semantico ad alta precisione valuta i documenti recuperati per determinare se è necessaria un'ulteriore elaborazione e la classificazione L3. Se i risultati iniziali del primo passaggio non sono sufficientemente pertinenti alla query, viene eseguita un'iterazione successiva usando un piano di query modificato. Questo piano di query modificato tiene conto dei risultati precedenti ed esegue l'iterazione ottimizzando le query, ampliando i termini o aggiungendo altre origini delle informazioni, ad esempio il Web. Aumenta anche i limiti delle risorse rispetto allo sforzo minimo e basso. Questo livello di ragionamento ottimizza la pertinenza anziché il richiamo esaustivo. Usare medium per ottimizzare l'utilità del recupero delle informazioni assistito da LLM.

Ricerca iterativa per il recupero di supporti

Un tentativo di ragionamento medio di recupero fornisce una ricerca iterativa se i risultati iniziali non sono sufficientemente rilevanti. Viene chiamato un modello di classificatore semantico aggiuntivo per determinare se è necessaria una seconda iterazione.

Classificatore semantico:

  • Riconosce quando c'è un contesto sufficiente per rispondere alla domanda.

  • Ritenta quando i risultati sono insufficienti, utilizzando le informazioni esistenti come contesto. Le nuove query potrebbero eseguire il drill-down per ottenere dettagli più mirati o ampliare la ricerca. Il registro delle attività nella risposta mostra le query generate utilizzate per una risposta più completa.

  • Rivalutazioni utilizzando la classificazione L3. L'intervallo è identico alla classificazione L2, un intervallo assoluto compreso tra zero e 4,0.

C'è un solo tentativo. Ogni iterazione aggiunge latenza e costi, quindi il sistema vincola i tentativi a un solo passaggio. Una seconda iterazione aggiunge token di input alla pipeline di query, che aggiunge al conteggio complessivo dei token di input fatturabili.

L'iterazione può riutilizzare o scegliere origini diverse. Il secondo passaggio seleziona la risorsa di conoscenze più promettente per fornire le informazioni mancanti.

Supporto dell'area per il recupero medio

È possibile impostare un tentativo di recupero medio se il servizio di ricerca si trova in una delle aree seguenti:

  • Stati Uniti orientali 2
  • Stati Uniti orientali
  • Stati Uniti centro-meridionali
  • Stati Uniti occidentali 3
  • Stati Uniti occidentali 2
  • Stati Uniti occidentali
  • Germania centro-occidentale
  • Europa settentrionale
  • Svizzera settentrionale
  • Svezia centrale
  • Spagna centrale
  • Regno Unito meridionale
  • Corea centrale
  • Giappone orientale
  • Asia sud-orientale

Impostare lo sforzo di ragionamento in una Knowledge Base

In questa sezione viene illustrato come impostare lo sforzo di ragionamento del recupero in una knowledge base esistente. Sebbene sia possibile usare questa configurazione per le nuove knowledge base, la creazione della Knowledge Base non rientra nell'ambito di questo articolo.

Per stabilire il comportamento predefinito, impostare retrievalReasoningEffort nella definizione della Knowledge Base.

### Set retrieval reasoning effort in a knowledge base
PUT {{search-url}}/knowledgebases/{{knowledge-base-name}}?api-version=2026-05-01-preview
Content-Type: application/json
api-key: {{api-key}}

{
  "name": "{{knowledge-base-name}}",
  "knowledgeSources": [ ... // OMITTED FOR BREVITY ],
  "retrievalReasoningEffort": {
    "kind": "low"
  }
}

Reference:Knowledge Bases - Creare o aggiornare

Impostare lo sforzo di ragionamento in una richiesta di recupero

Per ignorare l'impostazione predefinita per ogni singola query, impostare retrievalReasoningEffort nel corpo della richiesta retrieve.

### Override retrieval reasoning effort in a retrieve request
POST {{search-url}}/knowledgebases/{{knowledge-base-name}}/retrieve?api-version=2026-05-01-preview
Content-Type: application/json
api-key: {{api-key}}

{
  "messages": [ ... // OMITTED FOR BREVITY ],
  "retrievalReasoningEffort": {
    "kind": "low"
  },
  "outputMode": "answerSynthesis",
  "maxRuntimeInSeconds": 30,
  "maxOutputSize": 6000
}

Riferimento:Recupero della Conoscenza - Recuperare