Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Le traduzioni non in inglese sono disponibili solo per praticità. Consultare la EN-US versione di questo documento per la versione definitiva.
Che cos'è una nota sulla trasparenza?
Un sistema di intelligenza artificiale include non solo la tecnologia, ma anche le persone che lo useranno, le persone che ne saranno interessate e l'ambiente in cui viene distribuito. La creazione di un sistema adatto allo scopo previsto richiede una comprensione del funzionamento della tecnologia, delle funzionalità e delle limitazioni e di come ottenere le migliori prestazioni. le note sulla trasparenza di Microsoft consentono di comprendere il funzionamento della tecnologia di intelligenza artificiale, le scelte che i proprietari del sistema possono fare che influenzano le prestazioni e il comportamento del sistema e l'importanza di pensare all'intero sistema, tra cui la tecnologia, le persone e l'ambiente. È possibile usare le note sulla trasparenza durante lo sviluppo o la distribuzione del proprio sistema o condividerle con le persone che useranno o saranno interessate dal sistema.
le note sulla trasparenza di Microsoft fanno parte di uno sforzo più ampio Microsoft per mettere in pratica i principi di IA. Per altre informazioni, vedere Microsoft principi di IA.
Nozioni di base di Azure AI Search
Introduzione
Azure AI Search offre agli sviluppatori strumenti, API e SDK per creare un'esperienza di ricerca avanzata su contenuti privati, eterogenei in applicazioni Web, per dispositivi mobili e aziendali. La ricerca è fondamentale per qualsiasi applicazione che presenta i dati agli utenti. Gli scenari comuni includono la ricerca nel catalogo o nei documenti, nei punti vendita al dettaglio online o nell'esplorazione dei dati su contenuti proprietari.
I dati ricercabili possono essere sotto forma di testo o vettori e inseriti as-is da un'origine dati o arricchiti usando l'intelligenza artificiale per migliorare l'esperienza di ricerca complessiva. Gli sviluppatori possono convertire i dati int in rappresentazioni numeriche (denominate vettori), scegliendo di chiamare modelli di Machine Learning esterni (noti come modelli di incorporamento). Gli indicizzatori possono facoltativamente includere set di competenze che supportano una potente suite di arricchimenti dei dati tramite diverse funzionalità di Azure Language in Foundry Tools, ad esempio Nome di riconoscimento delle entità (NER) e rilevamento delle informazioni personali e Azure Funzionalità di Visione in Foundry Tools, tra cui optical character recognition (OCR) e image analysis.
Per altre informazioni su come Azure AI Search migliora l'esperienza di ricerca, vedere le schede seguenti usando gli strumenti Foundry o altri sistemi di intelligenza artificiale per comprendere meglio la finalità, la semantica e la struttura implicita del contenuto di un cliente.
- Arricchimento tramite intelligenza artificiale
- Ricerca vettoriale
- Ranker semantico
- Riscrittura delle query
- Competenza Prompt GenAI
- Recupero agentico
L'arricchimento tramite intelligenza artificiale è l'applicazione di modelli di Machine Learning di Foundry Tools rispetto al contenuto che non è facilmente ricercabile nella sua forma non elaborata. Tramite l'arricchimento, l'analisi e l'inferenza vengono usate per creare contenuto ricercabile e struttura in cui non esistevano in precedenza.
L'arricchimento tramite intelligenza artificiale è un'estensione facoltativa della pipeline dell'indicizzatore Azure AI Search che si connette a Foundry Tools nella stessa area del servizio di ricerca di un cliente. Una pipeline di arricchimento ha gli stessi componenti principali di un indicizzatore tipico (indicizzatore, origine dati, indice), oltre a un set di competenze che specifica i passaggi di arricchimento atomico. Un set di competenze può essere assemblato usando competenze predefinite basate sulle API degli strumenti foundry, ad esempio Visione e linguaggio, o competenze personalizzate che eseguono codice esterno fornito.
La ricerca vettoriale è un metodo di recupero delle informazioni in cui i documenti e le query sono rappresentati in un indice come vettori anziché come testo normale. Nella ricerca vettoriale, i modelli di Machine Learning, ospitati esternamente da Azure AI Search, generano le rappresentazioni vettoriali degli input di origine, che possono essere testo, immagini, audio o contenuti video. Questa rappresentazione matematica e normalizzata del contenuto, denominata incorporamenti vettoriali, fornisce una base comune per gli scenari di ricerca.
Quando tutto è un vettore, una query può trovare una corrispondenza nello spazio vettoriale, anche se il contenuto originale associato si trova in un tipo di supporto diverso, ad esempio immagini o testo o lingua rispetto alla query. Il motore di ricerca analizza l'indice cercando contenuto vettoriale più simile, ovvero il più vicino, al vettore nella query. La corrispondenza su una rappresentazione di vettore matematico anziché parole chiave rende molto più probabile trovare corrispondenze che condividono significato semantico, ma sono testualmente distinte, ad esempio "car" e "auto", ad esempio. In questo modo viene fornita un'introduzione più dettagliata agli incorporamenti vettoriali e al funzionamento dell'algoritmo di somiglianza.
Termini chiave
| Termine | Definizione |
|---|---|
| Incorporamenti vettoriali | Un modo altamente ottimizzato per rappresentare i dati che riflettono il significato e la comprensione estratti da un modello di Machine Learning da immagini, audio, video o testo. Il contenuto viene convertito in incorporamenti vettoriali sia in fase di indicizzazione che in fase di query. La ricerca vettoriale prevede l'inserimento di incorporamenti forniti in una query e la ricerca degli incorporamenti più simili nell'indice. I risultati vengono quindi ordinati in base al grado di somiglianza. |
| Spazio di incorporamento | Tutti i vettori nel corpus per un singolo campo occupano lo stesso spazio di incorporamento in cui gli elementi simili si trovano vicini l'uno all'altro e gli elementi diversi sono più distanti. Una maggiore dimensionalità dello spazio di incorporamento può includere più informazioni in un singolo vettore e migliorare notevolmente l'esperienza di ricerca, ma a un costo significativo delle dimensioni dell'archiviazione degli indici e una latenza di query più elevata. |
Il ranker semantico usa il contesto o il significato semantico di una query per calcolare un nuovo punteggio di pertinenza che promuove i risultati semanticamente più vicini all'intento della query originale in cima. Il set di risultati iniziale può provenire da una ricerca di parole chiave con classificazione BM25 , ricerca vettoriale o una ricerca ibrida che include entrambi. Crea e restituisce anche "didascalie" estraendo contenuto verbatim trovato nel risultato e "evidenziazioni" per richiamare l'attenzione su contenuti importanti all'interno del risultato. Può anche restituire una "risposta" se la query presenta le caratteristiche di una domanda ("qual è il punto di congelamento dell'acqua") e il risultato contiene testo con le caratteristiche di una risposta ("l'acqua si blocca a 0°C o 32°F").
Termini chiave
| Termine | Definizione |
|---|---|
| Ranker semantico | Usa il contesto e il significato semantico di una query per migliorare la pertinenza della ricerca usando la comprensione del linguaggio per riassegnare nuovamente i risultati della ricerca. |
| Didascalie semantiche ed evidenziazioni | Estrae frasi e frasi da un documento che riepiloga meglio il contenuto, con evidenziazioni sui passaggi chiave per facilitare l'analisi. Le didascalie che riepilogano un risultato sono utili quando i singoli campi di contenuto sono troppo densi per la pagina dei risultati. Il testo evidenziato eleva i termini e le frasi più rilevanti in modo che gli utenti possano determinare rapidamente il motivo per cui una corrispondenza è stata considerata rilevante. |
| Risposte semantiche | Offre una sottostruttura opzionale e aggiuntiva che viene restituita da una query semantica. Fornisce una risposta diretta a una query che sembra una domanda. Richiede che un documento abbia testo con le caratteristiche di una risposta. |
La riscrittura delle query crea query sintetiche, ovvero quelle generate artificialmente partendo dall'input effettivo del cliente per migliorare il richiamo, cioè la frazione di documenti pertinenti recuperati rispetto al numero totale di documenti disponibili, nella classificazione BM25, nella ricerca vettoriale o in una ricerca ibrida. La query originale viene combinata con le query sintetiche per fornire un richiamo ottimale dal motore di ricerca.
La competenza Prompt genAI fa parte del catalogo di competenze di Azure AI Search, consentendo ai clienti di migliorare gli indici di ricerca con contenuti generati dall'intelligenza artificiale in base ai dati. Usando i dati e le preferenze dell'organizzazione del cliente, questa competenza consente di produrre riepiloghi personalizzati, risposte o informazioni dettagliate in linea con le proprie esigenze specifiche.
Ciò significa che quando l'utente finale cerca il contenuto dei clienti tramite la ricerca di intelligenza artificiale, il contenuto generato dall'intelligenza artificiale può fornire risultati più informativi e consapevoli del contesto, rendendo più semplice per gli utenti trovare le informazioni che stanno cercando.
Termini chiave
| Termine | Definizione |
|---|---|
| Abilità | Una competenza Azure AI Search è un componente di elaborazione modulare all'interno della pipeline di arricchimento Azure AI Search. Queste competenze applicano trasformazioni guidate dall'intelligenza artificiale a contenuti non elaborati, ad esempio testo, immagini o documenti, durante l'indicizzazione, consentendo l'estrazione di informazioni strutturate e ricercabili da dati non strutturati. |
| Prompt | Testo inviato al servizio nella chiamata API. Questo testo viene quindi inserito nel modello. Ad esempio, è possibile immettere il prompt seguente: Convertire le domande in un comando: D: Chiedi a Constance se abbiamo bisogno di un pane A: send-msg find constance Abbiamo bisogno di un po 'di pane? D: Inviare un messaggio a Greg per capire se le cose sono pronte per mercoledì. R: Invia messaggio find greg tutto pronto per mercoledì? |
| Indici di ricerca | In Azure AI Search, un indice è la struttura di dati che contiene il contenuto ricercabile, definisce la modalità di archiviazione e controlla il modo in cui il servizio lo interpreterà quando si esegue una query. |
Il recupero agentico è un'architettura di elaborazione di query parallela che usa un modello LLM (Conversational Large Language Model) come "Query Planner". LLM trasforma la cronologia delle conversazioni di un utente in una o più sottoquery incentrate, in base alle esigenze. Queste sottoquery vengono eseguite simultaneamente nell'indice Azure AI Search e il servizio unisce i risultati principali, restituendo:
- Una singola stringa di contenuto che contiene i passaggi più rilevanti (dati di base).
- Matrice di riferimenti (facoltativo) che espone i documenti o i blocchi di origine completi.
- Matrice di attività che elenca ogni operazione, numero di token e latenza per facilitare il rilevamento dei costi e il debug.
Termini chiave
| Termine | Definizione |
|---|---|
| Recupero agentic | Questo si riferisce a un agente di intelligenza artificiale che pianifica ed esegue una sequenza di passaggi per recuperare informazioni dalle fonti di riferimento. Ciò comporta attività come l'esecuzione di query e il perfezionamento delle ricerche per ottenere le informazioni più rilevanti per la query. |
| Dati di base | Set di documenti/informazioni restituiti dal recupero agentico. Funge da base fattuale che un LLM esterno può citare o trasformare in una risposta in linguaggio naturale, garantendo la tracciabilità e riducendo il rischio di allucinazioni. |
| Pianificatore di query | Suddivide la cronologia delle conversazioni in sottoquery per trovare i dati di base più rilevanti per la query di ricerca sottostante. |
| Sottoquery | Una singola query generata da un LLM. Le sottoquery si basano su domande utente, cronologia chat e parametri nella richiesta. Le sottoquery hanno come destinazione i documenti indicizzati (testo normale e vettori) in Azure AI Search. |
Funzionalità
- Arricchimento tramite intelligenza artificiale
- Ricerca vettoriale
- Ranker semantico
- Riscrittura delle query
- Competenza Prompt GenAI
- Recupero agentico
Comportamento del sistema
Diverse funzionalità "built-in" per l'arricchimento tramite intelligenza artificiale in Azure AI Search sfruttano gli strumenti Foundry. Per considerazioni sulla scelta di usare una competenza, vedere le note sulla trasparenza per ogni competenza predefinita collegata di seguito:
- Competenza estrazione frasi chiave: linguaggio - Estrazione frasi chiave
- Competenza di rilevamento della lingua: Lingua - Rilevamento della lingua
- Competenza Collegamento delle entità: Lingua - Collegamento delle entità
- Abilità di riconoscimento delle entità: Lingua - Riconoscimento di Entità Nominate (NER)
- Competenza di rilevamento delle informazioni personali: lingua - Rilevamento delle informazioni personali
- Competenza di Sentiment: Lingua - Analisi del sentiment
- Competenza di analisi delle immagini: Visione - Analisi delle immagini
- Competenza OCR: Visione artificiale - OCR
- Competenza nel layout dei documenti: Intelligenza dei documenti
Vedere la documentazione per ogni competenza per altre informazioni sulle rispettive funzionalità, limitazioni, prestazioni, valutazioni e metodi per l'integrazione e l'uso responsabile. Si noti che l'uso di queste abilità in combinazione può causare effetti cumulativi (ad esempio, gli errori introdotti quando si utilizza l'OCR persistono durante l'estrazione di frasi chiave).
Casi d'uso
Casi d'uso di esempio
Poiché Azure AI Search è una soluzione di ricerca full-text, lo scopo dell'arricchimento tramite intelligenza artificiale è migliorare l'utilità di ricerca di contenuto non strutturato. Ecco alcuni esempi di scenari di arricchimento del contenuto supportati dalle competenze predefinite:
- Il rilevamento della traduzione e della lingua abilita la ricerca multilingue.
- Il riconoscimento delle entità estrae persone , posizioni e altre entità da blocchi di testo di grandi dimensioni.
- L'estrazione di frasi chiave identifica e quindi restituisce termini importanti.
- OCR riconosce il testo stampato e scritto a mano nei file binari.
- L'analisi delle immagini descrive il contenuto dell'immagine e restituisce le descrizioni come campi di testo ricercabili.
- Integrated vectorization è una funzionalità di anteprima che chiama il modello di incorporamento Azure OpenAI per vettorizzare i dati e archiviare incorporamenti in Azure AI Search per la ricerca di somiglianza.
Comportamento del sistema
Nella ricerca vettoriale, il motore di ricerca cerca i vettori all'interno dello spazio di incorporamento nell'indice per trovare quelli vicini al vettore di query. Questa tecnica viene chiamata ricerca vicina più vicina. Ciò consente anche di quantificare il grado di somiglianza, o distanza, tra gli elementi. Un livello elevato di somiglianza del vettore indica che i dati originali sono simili. I due algoritmi di ricerca vettoriale supportati da Azure AI Search hanno approcci diversi a questo problema, scambiando caratteristiche diverse, ad esempio latenza, velocità effettiva, richiamo e memoria.
Per trovare il set reale di vicini più vicini "k" è necessario confrontare il vettore di input in modo esaustivo con tutti i vettori nel set di dati. Anche se ogni calcolo della somiglianza dei vettori è relativamente veloce, l'esecuzione di questi confronti completi tra set di dati di grandi dimensioni è dispendiosa e lenta a causa del numero maggiore di confronti necessari. Inoltre, maggiore sarà la dimensionalità di ogni vettore, più complessa e più lenta saranno i calcoli su ogni vettore.
Per affrontare questa sfida, si utilizzano i metodi di ricerca approssimativa del vicino più prossimo per scambiare richiamo con velocità. Questi metodi possono trovare in modo efficiente un piccolo set di vettori candidati che hanno maggiori probabilità di essere simili al vettore di query, riducendo il numero totale di confronti vettoriali. Azure AI Search usa l'algoritmo HNSW (Hierarchical Navigable Small World) per organizzare i punti dati high-dimensionali in una struttura di grafo gerarchica probabilistica che consente una ricerca rapida di somiglianza, consentendo al tempo stesso un compromesso tra accuratezza della ricerca e costi di calcolo.
Azure AI Search supporta anche più metriche di somiglianza per determinare il vicino e il punteggio di ogni risultato vettoriale. Queste includono il coseno, l'Euclideo (noto anche come "l2 norm") e il prodotto scalare. Il coseno calcola l'angolo tra due vettori. L'euclideo calcola la distanza euclidea tra due vettori, ovvero la norma l2 della differenza dei due vettori. Il prodotto punto è influenzato dalle dimensioni dei vettori e dall'angolo tra di essi. Per gli spazi di incorporamento normalizzati, il prodotto scalare equivale alla somiglianza del coseno, ma è più efficiente.
Casi d'uso
Casi d'uso di esempio
Esistono molti scenari in cui la ricerca vettoriale è utile e sono limitate solo dalle funzionalità del modello usato per generare incorporamenti vettoriali. Ecco alcuni casi d'uso generali in cui è possibile usare la ricerca vettoriale:
- Semantic search: Estrarre la comprensione semantica dal testo usando, ad esempio, i modelli di embedding del servizio Azure OpenAI.
- Eseguire ricerche in diversi tipi di dati (multiliqui) : codificare il contenuto proveniente da immagini, testo, audio e video o una combinazione ed eseguire una singola ricerca in tutti questi tipi.
- Ricerca multilingue: usare un modello di incorporamenti multilingue per rappresentare il documento in più lingue per trovare i risultati nelle lingue supportate.
- Ricerca ibrida: la ricerca vettoriale viene implementata a livello di campo, il che significa che è possibile compilare query che includono campi vettoriali e campi di testo ricercabili. Le query vengono eseguite in parallelo e i risultati vengono uniti in una singola risposta. I risultati della ricerca ibrida con classificazione semantica sono stati mostrati per fornire i migliori risultati qualitativi.
- Ricerca vettoriale filtrata: una query può includere una query vettoriale e un'espressione di filtro. I filtri applicati ad altri tipi di dati sono utili per includere o escludere documenti in base ad altri criteri.
- Database vettoriale: questo archivio vettoriale puro è destinato alla memoria a lungo termine o a una knowledge base esterna per modelli di linguaggio di grandi dimensioni. Ad esempio, utilizzare Azure AI Search come indice vettoriale nel flusso di prompt di Azure Machine Learning per le applicazioni di Generazione Aumentata dal Recupero (RAG, Retrieval Augmented Generation).
Considerazioni sulla scelta di un caso d'uso
Potrebbero esserci considerazioni e preoccupazioni associate al modello specifico scelto per generare incorporamenti vettoriali. Ogni modello potrebbe avere problemi con distorsioni e equità e deve essere valutato prima di essere usato nell'applicazione. Azure AI Search non fornisce modelli per vettorizzare il contenuto come parte del servizio. Vedere la nota sulla trasparenza Servizio Azure OpenAI per esempi di queste considerazioni. Altri modelli oss o di terze parti hanno considerazioni proprie da esaminare.
Comportamento del sistema
La classificazione dei risultati del primo livello del processo di recupero è un processo altamente intensivo in termini di risorse. Per completare l'elaborazione del ranker all'interno della latenza prevista di un'operazione di query, solo i primi 50 risultati del motore di recupero vengono inviati al ranker semantico come input. Se è troppo lungo, i 50 risultati vengono prima sottoposti a un passaggio di sintesi che estrae le informazioni più pertinenti da ogni risultato prima di avviare il ranker semantico.
Nel passaggio di riepilogo, il documento recuperato viene prima sottoposto a un processo di preparazione che concatena i diversi input del documento in una singola stringa lunga. Se la stringa è troppo lunga, viene eseguito un esercizio di taglio, con particolare enfasi posta sulla conservazione del contenuto contenuto contenuto all'interno dei campi aggiunti alla configurazione semantica. Dopo aver preparato le stringhe, vengono passate attraverso modelli di comprensione automatica del testo e rappresentazione del linguaggio per determinare quali frasi ed espressioni forniscono il riepilogo migliore, relativo alla query. Questa fase estrae contenuto dalla stringa che verrà passata alla fase di classificazione semantica e, facoltativamente, restituisce una didascalia semantica o una risposta semantica.
Il passaggio finale, la classificazione semantica, determina la pertinenza del contenuto estratto nel passaggio precedente alla query dell'utente e restituisce un punteggio di classificazione semantica compreso tra 4 (altamente rilevante) e 0 (irrilevante). Questo passaggio si basa sul testo della query e sul testo riepilogato e prevede calcoli più complessi rispetto a quelli del livello di recupero.
Casi d'uso
Casi d'uso di esempio
Il ranker semantico può essere usato in più scenari. I casi d'uso previsti dal sistema includono:
- Retrieval Augmented Generation (RAG): il ranker semantico consente di ancorare le risposte delle applicazioni di intelligenza artificiale generativa nei risultati di ricerca pertinenti che soddisfano la soglia del punteggio di pertinenza definito dall'utente. Ad esempio, il servizio Azure OpenAI sui tuoi dati utilizza Azure AI Search per potenziare i modelli Azure OpenAI con i tuoi dati. È possibile usare il ranker semantico all'interno di questo servizio per migliorare la pertinenza delle informazioni fornite al modello OpenAI Azure.
- Ricerca contenuto: il ranker semantico consente di cercare contenuto pertinente all'interno dei dati analizzando testo e metadati. Ad esempio, la ricerca sul sito web learn.microsoft.com usa il ranker semantico per migliorare la pertinenza della ricerca per gli sviluppatori di software che cercano la documentazione tecnica di Microsoft.
- Ricerca e-commerce: il ranker semantico consente alle aziende di e-commerce di migliorare l'esperienza di ricerca fornendo risultati di prodotto pertinenti in base alla rilevanza semantica. Ad esempio, i rivenditori online usano il rango semantico per ottimizzare l'esperienza di e-commerce fornendo risultati di ricerca pertinenti per gli acquirenti online.
- QnA: Azure AI Search consente alle organizzazioni di offrire agli utenti un'esperienza di conversazione rispondendo alle domande in base alle informazioni disponibili nei database. Ad esempio, un produttore può usare il ranker semantico per aumentare le informazioni disponibili per un chatbot. I tecnici possono usare questo chatbot per porre domande e recuperare documenti interni altamente rilevanti correlati alla query e risposte istantanee all'interno dei documenti recuperati.
Considerazioni sulla scelta di un caso d'uso
Invitiamo i clienti a usare il ranker semantico nelle soluzioni o nelle applicazioni innovative. Tuttavia, ecco alcune considerazioni quando si sceglie un caso d'uso:
- Informazioni riservate : i modelli di Machine Learning che consentono al classificazione semantica di elaborare i dati recuperati in una query di ricerca, incluse informazioni riservate, ad esempio i dettagli personali e le informazioni finanziarie. Prendere in considerazione eventuali implicazioni relative alla privacy e alla sicurezza prima di implementare il ranker semantico per tali casi d'uso.
- Distorsione e equità : il ranker semantico è basato su modelli di Deep Learning. Questi modelli di Deep Learning sono stati sottoposti a training usando contenuto pubblico. I dati dei clienti vengono valutati dai modelli di ranking semantico. Valutare l'output del classificatore semantico quando si selezionano i casi d'uso, in particolare quelli che hanno implicazioni per l'equità e l'imparzialità, come assunzione e reclutamento di personale.
- Conformità alle normative: alcuni settori, ad esempio il settore sanitario e finanziario, sono altamente regolamentati e possono avere restrizioni sull'uso dell'IA e del Machine Learning. Prima di usare il ranker semantico in tali settori, assicurarsi che la soluzione sia conforme alle normative e alle linee guida pertinenti.
Comportamento del sistema
La query originale viene inviata a un piccolo modello linguistico ottimizzato ospitato da Azure AI Search. Questo modello è stato sottoposto a training usando il contenuto pubblico. SLM trasforma la query originale in un insieme di query sintetiche. Queste query sintetiche sono semanticamente vicine alla finalità della query originale, ma includono un set diverso di termini per migliorare il richiamo dal motore di ricerca.
Le query sintetiche vengono quindi combinate con la query originale e inviate al motore di ricerca. Quando esegue la classificazione BM25, i termini chiave delle query sintetiche vengono combinati con la query originale. Quando esegue la ricerca vettoriale, la query originale viene concatenata con le query sintetiche prima del passaggio di incorporamento del vettore .
Casi d'uso
Casi d'uso di esempio
La riscrittura delle query può essere usata in più scenari. La riscrittura delle query richiede l'uso del ranker semantico.
- Interazione della chat con i dati: la riscrittura delle query consente di trovare risposte di base dalle applicazioni di intelligenza artificiale generative nei risultati di ricerca pertinenti che soddisfano la soglia del punteggio di pertinenza definita dall'utente. Ad esempio, Servizio Azure OpenAI On Your Data usa Azure AI Search per arricchire i modelli Azure OpenAI con i tuoi dati. È possibile usare la riscrittura delle query all'interno di questo servizio per migliorare la pertinenza dei risultati delle informazioni inserite nel modello OpenAI Azure.
- Domande e risposte (QnA): Azure AI Search consente alle organizzazioni di offrire agli utenti un'esperienza di conversazione rispondendo alle domande in base alle informazioni disponibili nei database. Ad esempio, un produttore può usare il ranker semantico per aumentare le informazioni disponibili per un chatbot. I tecnici possono usare questo chatbot per porre domande e recuperare documenti interni altamente rilevanti correlati alla query e risposte istantanee all'interno dei documenti recuperati.
Considerazioni sulla scelta di un caso d'uso
È consigliabile che i clienti usino la riscrittura delle query nelle soluzioni o nelle applicazioni innovative. Tuttavia, ecco alcune considerazioni quando si sceglie un caso d'uso:
- Informazioni riservate e informazioni personali: SLM ottimizzato, che consente la riscrittura delle query, elabora la query di ricerca, che può contenere informazioni riservate. Prendere in considerazione eventuali implicazioni relative alla privacy e alla sicurezza prima di implementare la riscrittura delle query per tali casi d'uso.
- Redigere le informazioni personali per ridurre i pregiudizi inconsci. Ad esempio, durante il processo di revisione del curriculum di un'azienda, potrebbe voler bloccare il nome, l'indirizzo o il numero di telefono di un candidato per ridurre il sesso inconscio o altri pregiudizi durante la ricerca.
- Considerazioni legali e normative. Le organizzazioni devono valutare potenziali obblighi legali e normativi specifici quando si usa una ricerca di intelligenza artificiale, che potrebbe non essere appropriata per l'uso in ogni settore o scenario. Le restrizioni possono variare in base ai requisiti normativi regionali o locali. Inoltre, la ricerca di intelligenza artificiale non è progettata per e non può essere usata in modi vietati in termini di servizio applicabili e codici di comportamento pertinenti.
La competenza Prompt GenAI consente ai clienti di passare il contenuto del documento esistente nelle origini dati e i prompt personalizzati a un modello linguistico di cui sono proprietari, ospitati in Microsoft Fonderia. Il modello linguistico elabora l'input e restituisce contenuto arricchito, che viene quindi inserito nell'indice di ricerca insieme al contenuto originale del documento. Questo processo consente l'aumento degli indici di ricerca con riepiloghi generati dall'intelligenza artificiale, didascalie di immagini ed estrazione di entità, tra gli altri, in base ai criteri definiti dal cliente.
Gli esempi seguenti illustrano il funzionamento dell'abilità Prompt GenAI.
Riepilogo del ticket zero-shot
Obiettivo: consentire agli agenti di support leggere rapidamente thread di email su più pagine in pochi secondi.
Come funziona:
- Durante l'indicizzazione, ogni conversazione con ticket lunghi è suddivisa in segmenti logici (richiesta iniziale, domande di completamento, log di diagnostica e così via).
- Per ogni segmento, il modello linguistico viene indicato di "riepilogare questa sezione in tre frasi nitide".
- I riassunti risultanti sostituiscono il testo non elaborato durante il recupero, in modo che gli agenti e le pipeline RAG a valle vedano solo l'essenza distillata.
Perché è utile: riepiloghi concisi a livello di segmento riducono le dimensioni delle richieste, accelerano la generazione di risposte e aiutano gli agenti a concentrarsi sul problema principale del cliente.
Estrazione di entità few-shot
Obiettivo: supportare query come "Mostra tutti i ticket in cui Product X è andato in crash con errore 500".
Come funziona
- Il testo completo del ticket viene inviato alla competenza insieme a un esempio lavorato che mostra il formato di output desiderato (un elenco di entità chiave, ad esempio nome prodotto, codice di errore, sistema operativo e gravità).
- Il modello estrae ogni occorrenza di 〈prodotto, codice_errore, piattaforma, gravità.
- Questo elenco strutturato viene archiviato insieme al documento, consentendo l'uso di filtri istantanei che mostrano, ad esempio, tutti gli arresti anomali con gravità elevata su iOS.
Perché è utile: le entità pre-calcolate trasformano i messaggi dei clienti in formato libero in dati filtrabili, consentendo il supporto di modelli spot potenziali e assegnando priorità alle correzioni senza l'analisi manuale.
Classificazione del routing dei ticket one-shot
Obiettivo: indirizzare automaticamente ogni ticket alla coda appropriata.
Come funziona:
- Ogni ticket viene analizzato con una richiesta che elenca cinque categorie di supporto: Fatturazione, Problema tecnico, Accesso all'account, Richiesta di funzionalità e Feedback generale, oltre a un esempio di riferimento ("Esempio di ticket → Fatturazione").
- Il modello assegna esattamente un'etichetta, in base alle cinque categorie di supporto precedenti, a ogni ticket che entra nel sistema di ricerca di intelligenza artificiale come input.
- Il sistema di help desk utilizza una etichetta per inviare le query di fatturazione agli specialisti finanziari, i problemi tecnici agli ingegneri, e così via.
Perché aiuta: l'etichettatura rapida e coerente riduce i ticket indirizzati in modo non corretto, riduce il tempo di risoluzione e migliora la soddisfazione dei clienti.
Suggerimento per la risoluzione attraverso la catena di pensiero
Obiettivo: fornire agli agenti di supporto il singolo passaggio successivo migliore per risolvere il problema.
Come funziona
- L'intero ticket, o il messaggio del cliente più recente, viene passato al modello linguistico.
- Dopo la richiesta di sistema, il messaggio dell'utente indica al modello: "Pensa passo per passo internamente, ma mostra solo l'azione successiva consigliata".
- Le indicazioni restituite potrebbero essere: "Chiedere al cliente di cancellare la cache e reinstallare la versione 3.2.1".
- Gli agenti possono copiare il suggerimento direttamente o perfezionarlo prima di rispondere.
Perché è utile: gli agenti ricevono una raccomandazione pratica senza la catena di ragionamenti privati del modello, risparmiando tempo mantenendo i passaggi di risoluzione dei problemi concisi e pertinenti. In alcuni casi, l'agente di supporto non viene inondato con informazioni non necessarie.
Casi d'uso
Casi d'uso di esempio
La competenza Prompt genAI migliora l'arricchimento dei dati all'interno di Azure AI Search, contribuendo alla pertinenza della risposta per allinearsi alle finalità e alle aspettative dell'utente. Integrando contenuto generato dall'intelligenza artificiale in indici di ricerca, questa competenza consente risultati di ricerca più accurati e contestualmente appropriati. Le applicazioni chiave includono:
- Generazione di riepiloghi concisi di documenti lunghi per facilitare il recupero più rapido delle informazioni: uno studio legale elabora contratti estesi e usa la competenza Prompt GenAI per creare brevi riepiloghi evidenziando le clausole chiave, rendendo più semplice per gli avvocati esaminare le informazioni essenziali senza leggere interi documenti.
- Creazione di descrizioni testuali per le immagini per migliorare la ricerca e l'accessibilità: un'azienda multimediale gestisce una vasta libreria di immagini. Applicando la competenza Prompt GenAI, genera didascalie descrittive per ogni immagine, consentendo una ricerca efficiente e un'organizzazione all'interno del proprio sistema di gestione delle risorse digitali.
- Identificazione ed estrazione di entità o fatti specifici da documenti basati su criteri personalizzati: un istituto di ricerca analizza i documenti scientifici per estrarre menzioni di composti chimici e le relative proprietà. La competenza Prompt GenAI automatizza questa estrazione, popolando rapidamente un database strutturato per i ricercatori per accedere rapidamente ai dati pertinenti.
- Classificazione dei documenti in categorie definite per una migliore organizzazione e recupero: una società assicurativa riceve numerosi tipi di documenti ogni giorno. Usando la competenza Prompt genAI, questi documenti vengono classificati automaticamente in categorie come attestazioni, aggiornamenti dei criteri e commenti e suggerimenti dei clienti. Questo semplifica il processo di gestione dei documenti e semplifica l'individuazione di documenti specifici quando necessario.
Anche se si tratta di applicazioni comuni, la competenza è flessibile, consentendo ai clienti di definire richieste personalizzate in base ai requisiti specifici.
Considerazioni sulla scelta di un caso d'uso
È importante notare che i contenuti, le richieste e le distribuzioni del modello linguistico sono risorse completamente gestite dal cliente. Foundry supporta i filtri di sicurezza dei contenuti per le distribuzioni di modelli e i clienti sono responsabili della configurazione di questi filtri in base alle esigenze. Oltre alle configurazioni disponibili in Foundry, Azure AI Search non applica filtri di sicurezza del contenuto aggiuntivi all'interno della competenza Prompt GenAI.
Quando si implementa l'abilità Prompt di GenAI, tenere presente quanto segue:
- Implementare processi per la revisione umana del contenuto generato dall'intelligenza artificiale, soprattutto quando si applicano trasformazioni richieste che potrebbero influire sull'affidabilità delle informazioni. Utilizzare lo strumento per il debug delle sessioni di Azure AI Search debug per testare le richieste su documenti di esempio prima della distribuzione su larga scala.
- Evitare scenari in cui l'uso o l'uso improprio del sistema potrebbe causare gravi lesioni fisiche o psicologiche a un individuo. Ad esempio, scenari che diagnosticano pazienti o prescrivono farmaci hanno il potenziale di causare danni significativi. L'incorporazione di revisioni umane significative e supervisione nello scenario può contribuire a ridurre il rischio di risultati dannosi.
- Considerare attentamente tutti i casi d'uso generativi. È possibile che gli scenari di generazione di contenuti producano output imprevisti e che questi scenari richiedano un'attenta considerazione e mitigazioni.
- Considerazioni legali e normative. Le organizzazioni devono valutare potenziali obblighi legali e normativi specifici quando si usa una ricerca di intelligenza artificiale, che potrebbe non essere appropriata per l'uso in ogni settore o scenario. Le restrizioni possono variare in base ai requisiti normativi regionali o locali. Inoltre, la ricerca di intelligenza artificiale non è progettata per e non può essere usata in modi vietati in termini di servizio applicabili e codici di comportamento pertinenti.
Comportamento del sistema
La conversazione o la query di ricerca originale viene inviata al modello di Azure OpenAI posseduto dal cliente per eseguire i passaggi di pianificazione delle query. La pianificazione delle query suddivide la conversazione in una serie di sottoquery ottimizzate che riflettono la finalità sottostante dell'utente con ortografia corretta e sinonimi espansi. Azure AI Search quindi elabora tutte le sottoquery contemporaneamente nel sistema di recupero completo della ricerca. Le sottoquery vengono prima elaborate da una combinazione ibrida di ricerca di parole chiave e ricerca vettoriale. La ricerca con parole chiave trova i documenti nell'indice di ricerca con parole chiave simili alle sottoquery. La ricerca vettoriale trova i documenti nell'indice di ricerca che possono avere parole chiave diverse, ma un significato sottostante simile alle sottoquery. I risultati di questa ricerca ibrida vengono quindi riclassati in base al rango semantico per trovare i documenti con la corrispondenza migliore con la finalità della sottoquery. Il servizio unisce e rimuove i duplicati dai risultati classificati, applicando limiti di risposta come la lunghezza massima di output prima di restituire la risposta finale.
Casi d'uso
Casi d'uso di esempio
- Dati di base per chatbot personalizzati. Collegare il chatbot ai criteri hr e al manuale ufficiale delle risorse umane dell'azienda in modo che, quando qualcuno chiede: "Quanti giorni di vacanza ottengo?" il chatbot tira la risposta direttamente da questi documenti invece di indovinare.
- Equipaggiare gli assistenti alle conoscenze aziendali per rispettare il contesto utente, i filtri e la cronologia delle chat. Ad esempio, quando un dipendente chiede gli obiettivi per un periodo specifico, l'assistente usa il proprio ruolo, i filtri correnti (ad esempio, area: Stati Uniti) e la conversazione in corso (ad esempio, l'ultimo argomento è "Pipeline Q2") per generare una risposta personalizzata.
- Affrontare attività complesse di ricerca di informazioni in cui una singola query con parole chiave ha un richiamo basso. Tali attività possono includere guide alla risoluzione dei problemi, ricerche di letteratura medica o confronti di prodotti. Ad esempio, se un tecnico cerca semplicemente "errore del dispositivo" e riceve risultati generici, un recuperatore agentico può prendere in considerazione l'intera cronologia delle conversazioni che può includere il modello di dispositivo, la versione del software, la cronologia di manutenzione e lo stato della rete per individuare articoli precisi e pertinenti.
- Garantire la massima trasparenza in ciò che è stato recuperato, perché e a quali costi. Ad esempio, quando si riepilogano i documenti normativi e i risultati di audit precedenti, è fondamentale conoscere le origini esatte (ad esempio, "archiviazione SEC dal secondo trimestre 2023"), la logica di selezione (ad esempio, "parole chiave corrispondenti: divulgazione dei rischi, derivati") e i costi associati (ad esempio, utilizzo dei token).
Considerazioni sulla scelta di un caso d'uso
- Latenza: l'aggiunta di una seconda chiamata LLM per la pianificazione delle query estende inevitabilmente il tempo di round trip della richiesta. Anche con modelli veloci, è consigliabile eseguire il benchmark del ritardo aggiuntivo in caso di picco del traffico e verificare che l'esperienza complessiva rimanga accettabile per gli utenti. Quando la latenza è fondamentale, prendere in considerazione la memorizzazione nella cache di query frequenti o l'uso di modelli di pianificazione più piccoli e veloci.
- Costo: gli addebiti si accumulano su due dimensioni: token del modello OpenAI e token di classificazione della ricerca. La chiamata planner query viene fatturata da Azure OpenAI per i token di input e di output, mentre ogni sottoquery viene fatturata da Azure AI Search per i token che deve classificare. I token di classificazione sono gratuiti nella fase iniziale dell'anteprima pubblica. Stimare in anticipo il numero di token necessari per il modello e per la classificazione del carico di lavoro.
- Input sensibili: l'intera cronologia delle conversazioni viene inoltrata al modello di planner, ovvero tutti i dati personali o sensibili all'azienda lasciano il limite di attendibilità immediato. Rimuovere, mascherare o correggere tali dati prima di richiamare l'LLM e documentare la mitigazione nel comportamento di protezione dei dati.
- Limiti di area e anteprima: il recupero agentico è disponibile solo nelle aree in cui è disponibile il ranker semantico. Un singolo agente può puntare a un solo indice di ricerca. Verificare che l'area che ospita i dati e il modello supporti il recupero agentico e pianificare agenti separati se è necessario estendersi su più indici o aree geografiche.
- Conformità: verificare che l'uso di uno strumento di pianificazione delle query basato su LLM sia conforme ai requisiti specifici del settore o a livello di area (ad esempio, residenza dei dati, privacy o regole decisionali automatizzate in ambito sanitario o finanziario). Garantire una supervisione e un controllo umani adeguati. Prendere in considerazione l'inclusione di controlli per aiutare gli sviluppatori a verificare, esaminare e/o approvare le azioni in modo tempestivo, che possono includere la revisione delle attività pianificate o le chiamate a origini dati esterne.
- Considerazioni legali e normative: gli utenti devono valutare potenziali obblighi legali e normativi specifici quando si usano strumenti e soluzioni Foundry, che potrebbero non essere appropriati per l'uso in ogni settore o scenario. Inoltre, gli strumenti o le soluzioni Foundry non sono progettati per e non possono essere usati in modi vietati in termini di servizio applicabili e codici di comportamento pertinenti.
Limitazioni
- Arricchimento tramite intelligenza artificiale
- Ricerca vettoriale
- Ranker semantico
- Riscrittura delle query
- Competenza Prompt GenAI
- Recupero agentico
L'arricchimento tramite intelligenza artificiale in Azure AI Search usa le funzionalità dell'indicizzatore e dell'origine dati del servizio per chiamare Foundry Tools per eseguire l'arricchimento del contenuto. Verranno applicate limitazioni degli indicizzatori e delle origini dati usate in questo processo. Per altre informazioni su queste limitazioni correlate, vedere la documentazione sull'indicizzatore e l'origine dati . Verranno applicate anche le limitazioni di ogni strumento Foundry usato dalla pipeline di arricchimento tramite intelligenza artificiale in Azure AI Search. Per altre informazioni su queste limitazioni, vedere le note sulla trasparenza per ogni servizio .
Limitazioni tecniche, fattori operativi e intervalli
Tutti i vettori caricati in Azure AI Search devono essere generati esternamente dal servizio usando un modello di propria scelta. È responsabilità dell'utente considerare le limitazioni tecniche e i fattori operativi di ogni modello e se gli incorporamenti creati sono ottimizzati o addirittura appropriati per il caso d'uso. Sono incluse le inferenze di significato estratte dal contenuto e la dimensionalità dello spazio di incorporamento del vettore.
Il modello di vettorializzazione crea uno spazio di incorporamento che definisce l'esperienza di ricerca dell'utente finale risultante di un'applicazione. Potrebbero verificarsi svantaggi a un modello che influisce negativamente sulle funzionalità e sulle prestazioni se un modello non è allineato correttamente a un caso d'uso desiderato o gli incorporamenti generati non sono ottimizzati correttamente.
Anche se molte limitazioni della ricerca vettoriale derivano dal modello usato per generare incorporamenti, esistono alcune opzioni aggiuntive da considerare in fase di query. È possibile scegliere tra due algoritmi per determinare la pertinenza per i risultati della ricerca vettoriale: k vicini più prossimi esaustivi o Hierarchical Navigable Small World. k vicini più prossimi esaustivi esegue una ricerca di forza bruta dell'intero spazio vettoriale per le corrispondenze più simili alla query calcolando le distanze tra tutte le coppie di punti dati e trovando i k vicini esatti di un punto di query. Anche se più preciso, questo algoritmo può essere lento. Se la bassa latenza è l'obiettivo principale, è consigliabile usare l'algoritmo HNSW (Hierarchical Navigable Small World). HNSW esegue una ricerca ANN (vicino più prossimo) approssimativa efficiente in spazi di incorporazione ad alta dimensione. Per altre informazioni su queste opzioni, vedere la documentazione sulla ricerca vettoriale .
Procedure consigliate per migliorare le prestazioni del sistema
- Dedicare tempo a test A/B dell'applicazione con i diversi tipi di contenuto e query che si prevede che l'applicazione supporti. Scopri quale esperienza di query è più adatta alle tue esigenze.
- Dedicare tempo a testare i modelli con un'ampia gamma di contenuti di input per comprendere il comportamento in molte situazioni. Questo contenuto può includere un input potenzialmente sensibile per comprendere se esiste una distorsione intrinseca nel modello. La panoramica Azure OpenAI Responsible AI fornisce indicazioni su come usare in modo responsabile l'IA.
- È consigliabile aggiungere Sicurezza dei contenuti di Azure AI all'architettura dell'applicazione. Include un'API per rilevare testo o immagini generati dall'utente dannosi e generati dall'intelligenza artificiale nelle applicazioni e nei servizi.
Valutazione e integrazione della ricerca vettoriale per il tuo uso
Per garantire prestazioni ottimali, eseguire valutazioni personalizzate delle soluzioni che si prevede di implementare usando la ricerca vettoriale. Seguire un processo di valutazione che: (1) usa alcuni stakeholder interni per valutare i risultati, (2) usa la sperimentazione A/B per implementare la ricerca vettoriale agli utenti, (3) incorpora gli indicatori di prestazioni chiave (KPI) e il monitoraggio delle metriche quando il servizio viene distribuito nelle esperienze per la prima volta e (4) test e modifica la configurazione del ranker semantico e/o la definizione dell'indice, incluse le esperienze circostanti, ad esempio il posizionamento dell'interfaccia utente o i processi aziendali.
Microsoft ha valutato rigorosamente la ricerca vettoriale in termini di latenza e richiamo e rilevanza usando set di dati diversi per misurare la velocità, la scalabilità e l'accuratezza dei risultati restituiti. L'obiettivo principale degli sforzi di valutazione deve essere quello di selezionare il modello appropriato per il caso d'uso specifico, comprendere le limitazioni e le distorsioni del modello e testare rigorosamente l'esperienza di ricerca del vettore end-to-end.
Limitazioni tecniche, fattori operativi e intervalli
In alcuni casi i risultati semantici, le didascalie e le risposte potrebbero non sembrare corretti. I modelli usati dal classificatore semantico vengono sottoposti a training su varie origini dati (inclusi open source e selezioni dal corpus di Microsoft Bing). Il ranker semantico supporta un'ampia gamma di lingue e tenta di associare le query utente al contenuto dai risultati della ricerca. Il ranker semantico è anche una funzionalità Premium a un costo aggiuntivo che deve essere considerato quando si proietta il costo complessivo della soluzione end-to-end.
Il ranker semantico è probabilmente in grado di migliorare la rilevanza sui contenuti semanticamente avanzati, ad esempio articoli e descrizioni. Cerca il contesto e la correlazione tra termini, elevando le corrispondenze che hanno più senso in base alla query. La comprensione del linguaggio "trova" riepiloghi, didascalie e risposte all'interno del tuo contenuto, ma, a differenza dei modelli generativi come i modelli di Servizio Azure OpenAI GPT-3.5 o GPT-4, non li crea. Nella risposta è incluso solo il testo verbatim dei documenti di origine, che può quindi essere eseguito in una pagina dei risultati della ricerca per un'esperienza di ricerca più produttiva.
I modelli all'avanguardia con training preliminare vengono usati per il riepilogo e la classificazione. Per mantenere le prestazioni veloci che gli utenti si aspettano dalla ricerca, il riepilogo semantico e la classificazione vengono applicati solo ai primi 50 risultati, in base al punteggio assegnato dall'algoritmo di assegnazione dei punteggi predefinito. Gli input derivano dal contenuto nel risultato della ricerca. Non è possibile tornare all'indice di ricerca per accedere ad altri campi nel documento di ricerca che non sono stati restituiti nella risposta della query. Gli input sono soggetti a una lunghezza del token di 8.960. Questi limiti sono necessari per mantenere i tempi di risposta in millisecondi.
L'algoritmo di assegnazione dei punteggi predefinito proviene da Bing e Microsoft Research e integrato nell'infrastruttura Azure AI Search come funzionalità di componente aggiuntivo. I modelli vengono usati internamente, non sono esposti allo sviluppatore e non sono configurabili. Per ulteriori informazioni sugli investimenti nella ricerca e nell'intelligenza artificiale che supportano il classificatore semantico, vedere Come l'intelligenza artificiale di Bing sta alimentando Azure AI Search (Microsoft Research Blog).
Il ranker semantico offre anche risposte, didascalie ed evidenziazioni all'interno della risposta. Ad esempio, se il modello classifica una query come domanda ed è 70% sicura nella risposta, il modello restituisce una risposta semantica. Inoltre, le didascalie semantiche forniscono il contenuto più pertinente all'interno dei risultati e forniscono un breve frammento di codice che evidenzia le parole o le frasi più rilevanti all'interno di tale frammento.
I risultati del ranker semantico si basano sui dati nell'indice di ricerca sottostante e i modelli forniscono classificazione, risposte e didascalie di pertinenza in base alle informazioni recuperate dall'indice. Prima di usare il ranker semantico in un ambiente di produzione, è importante eseguire ulteriori test e assicurarsi che il set di dati sia accurato e appropriato per il caso d'uso previsto. Per altre informazioni ed esempi su come valutare il ranker semantico, vedere il contenuto e l'appendice qui.
Prestazioni del sistema
In molti sistemi di intelligenza artificiale, le prestazioni vengono spesso definite in relazione all'accuratezza, ovvero la frequenza con cui il sistema di intelligenza artificiale offre una stima o un output corretti. Con i modelli di linguaggio naturale su larga scala, due utenti diversi possono esaminare lo stesso output e avere opinioni diverse su quanto sia utile o rilevante, il che significa che le prestazioni per questi sistemi devono essere definite in modo più flessibile. In questo contesto, consideriamo generalmente le prestazioni per indicare che l'applicazione funziona secondo le aspettative tue e degli utenti, evitando la generazione di output dannosi.
Il classificatore semantico è stato addestrato sul contenuto pubblico. Di conseguenza, la pertinenza semantica varia in base ai documenti nell'indice e alle query eseguite su di essa. È importante usare il proprio giudizio e la ricerca quando si usa questo contenuto per il processo decisionale.
Procedure consigliate per migliorare le prestazioni del sistema
- Dedicare tempo ai test A/B dell'applicazione con tipi di query diversi, ad esempio parole chiave e classificazione semantica e ibrida. Scopri quale esperienza di query è più adatta alle tue esigenze.
- Impegnarsi ragionevolmente per configurare l'impostazione semantica secondo la documentazione della funzionalità.
- Non considerare attendibili le risposte semantiche se non si ha fiducia nell'accuratezza delle informazioni all'interno dell'indice di ricerca.
- Non considerare sempre attendibili le didascalie semantiche perché vengono estratte dal contenuto del cliente tramite una serie di modelli che stimano le risposte più rilevanti in un breve frammento di codice.
Valutazione del classificatore semantico
Metodi di valutazione
Il ranker semantico è stato valutato tramite test interni, inclusi il giudizio automatizzato e umano su più set di dati e il feedback dei clienti interni. I test includono la classificazione dei documenti classificandoli come pertinenti o non pertinenti insieme ai documenti di classificazione in ordine di priorità di pertinenza. Analogamente, anche le funzionalità di sottotitoli e risposte sono state classificate tramite test interni.
Risultati della valutazione
Microsoft si impegna a distribuire tutti gli aggiornamenti del modello senza regressione, ovvero il modello aggiornato dovrebbe migliorare solo il modello di produzione corrente. Ogni candidato viene confrontato direttamente con il modello di produzione corrente usando le metriche adatte alla valutazione della funzionalità (ad esempio, Guadagno cumulativo scontato normalizzato per la classificazione e precisione/ricordo per le risposte). I modelli di classificazione semantica vengono sottoposti a training, ottimizzati e valutati usando un'ampia gamma di dati di training rappresentativi di documenti con proprietà diverse (lingua, lunghezza, formattazione, stili e toni) per supportare la matrice più ampia di scenari di ricerca. I dati di training e test vengono ricavati da:
Fonti di documenti:
- Benchmark accademici e di settore industriale
- Dati del cliente (solo test, eseguiti con l'autorizzazione del cliente)
- Dati sintetici
Origini delle query:
- Set di query per benchmark
- Set di query forniti dal cliente (solo test, eseguiti con l'autorizzazione del cliente)
- Set di query sintetiche
- Set di query generati dall'utente
Origini delle etichette per l'assegnazione dei punteggi alle coppie di query e documenti:
- Etichette di benchmark accademiche e del settore
- Etichette dei clienti (solo per test, eseguito con l'autorizzazione del cliente)
- Etichette dati sintetiche
- Etichette con punteggio umano
Valutazione e integrazione del ranker semantico per il tuo utilizzo.
Le prestazioni del ranker semantico variano a seconda degli usi reali e delle condizioni in cui le persone lo usano. La qualità della pertinenza fornita tramite i modelli di Deep Learning che alimentano le funzionalità di classificazione semantica è direttamente correlata alla qualità dei dati dell'indice di ricerca. Ad esempio, i modelli presentano attualmente limitazioni di token che considerano solo i primi 8.960 token per le risposte semantiche. Pertanto, se la risposta semantica a una query di ricerca viene trovata verso la fine di un documento lungo (oltre il limite di 8.960 token), la risposta non verrà fornita. La stessa regola si applica per le didascalie. Inoltre, la configurazione semantica elenca i campi di ricerca pertinenti in ordine di priorità. È possibile riordinare i campi in questo elenco per personalizzare la pertinenza in base alle proprie esigenze.
Per garantire prestazioni ottimali nei propri scenari, i clienti devono eseguire valutazioni personalizzate delle soluzioni implementate usando il ranker semantico. I clienti devono in genere seguire un processo di valutazione che: (1) usa alcuni stakeholder interni per valutare i risultati, (2) usa la sperimentazione A/B per implementare il rango semantico agli utenti, (3) incorpora indicatori KPI e metriche monitoraggio quando il servizio viene distribuito nelle esperienze per la prima volta e (4) test e modifica la configurazione del ranker semantico e/o la definizione dell'indice, incluse le esperienze circostanti, ad esempio il posizionamento dell'interfaccia utente o i processi aziendali.
Se si sviluppa un'applicazione in un dominio o in un settore di alto livello, ad esempio assistenza sanitaria, risorse umane, istruzione o campo legale, valutare il funzionamento dell'applicazione nello scenario, implementare una forte supervisione umana, valutare quanto bene gli utenti comprendano le limitazioni dell'applicazione e rispettare tutte le leggi pertinenti. Prendere in considerazione altre mitigazioni in base al proprio scenario.
Limitazioni tecniche, fattori operativi e intervalli
In alcuni casi le query sintetiche non sono corrette, presentano troppe restrizioni o sono troppo costose. La riscrittura delle query supporta un'ampia gamma di linguaggi e tenta di riscrivere le query utente per ottimizzare il richiamo, è necessario specificare il linguaggio di query come input. La riscrittura delle query fa parte di Semantic Ranker (funzionalità Azure AI Search per migliorare la pertinenza della ricerca), una funzionalità Premium con un costo aggiuntivo. Questo aspetto deve essere considerato quando si proiettano le spese complessive della soluzione end-to-end. La riscrittura delle query può essere usata solo se è abilitato il ranker semantico.
Prima di usare la riscrittura delle query in un ambiente di produzione (versione dinamica dell'applicazione), è importante eseguire ulteriori test e assicurarsi che le query sintetiche siano appropriate per il caso d'uso previsto. Per altre informazioni ed esempi su come valutare la riscrittura delle query, vedere il contenuto e l'appendice qui.
Prestazioni del sistema
Con i modelli di linguaggio naturale su larga scala, due utenti diversi possono esaminare lo stesso output e avere opinioni diverse su quanto sia utile o rilevante, il che significa che le prestazioni per questi sistemi devono essere definite in modo più flessibile. In questo contesto, consideriamo generalmente le prestazioni per indicare che l'applicazione funziona secondo le aspettative tue e degli utenti, evitando la generazione di output dannosi.
Le prestazioni della riscrittura delle query variano a seconda degli usi reali e delle condizioni in cui gli utenti lo usano. La qualità delle query sintetiche fornite dal modello di riscrittura delle query è direttamente correlata alla query di ricerca originale.
Per garantire prestazioni ottimali nei propri scenari, i clienti devono eseguire valutazioni personalizzate delle soluzioni implementate usando la riscrittura delle query. I clienti devono in genere seguire un processo di valutazione che:
- usa alcuni stakeholder interni per valutare i risultati,
- usa la sperimentazione A/B per implementare la riscrittura delle query agli utenti e
- incorpora indicatori KPI e monitoraggio delle metriche quando il servizio viene distribuito nelle esperienze per la prima volta
Procedure consigliate per migliorare le prestazioni del sistema
- Completare i test A/B per l'applicazione con tipi di query diversi (full-text, vector, ibrido o altro tipo di query). Scopri quale esperienza di query è più adatta alle tue esigenze.
- Non si supponga sempre che ogni query sintetica generata dalla riscrittura delle query rifletta la finalità esatta della query originale. Le query sintetiche vengono generate da un SLM ottimizzato, che genera query semanticamente simili alla finalità della query originale, ma potrebbero non corrispondere alla finalità esatta.
Valutazione della riscrittura delle query
Metodi di valutazione
La riscrittura delle query è stata valutata tramite test interni, inclusi il giudizio automatizzato e umano su più set di dati, nonché il feedback dei clienti interni. Il test includeva la valutazione della pertinenza dei risultati della classificazione semantica in combinazione con la riscrittura delle query rispetto alla pertinenza dei risultati solo con la classificazione semantica.
Risultati della valutazione
Ogni modello candidato viene confrontato direttamente con il modello attualmente distribuito usando le metriche adatte alla valutazione della funzionalità. I modelli di riscrittura delle query vengono ottimizzati e valutati usando un'ampia gamma di dati pubblici rappresentativi di query con proprietà diverse (linguaggio, lunghezza, formattazione, stili e toni) per supportare la matrice più ampia di scenari di ricerca. I dati di training e test vengono ricavati da:
Fonti di documenti:
- Benchmark accademici e di settore industriale
- Dati del cliente (solo test, eseguiti con l'autorizzazione del cliente)
Origini delle query:
- Set di query per benchmark
- Set di query forniti dal cliente (solo test, eseguiti con l'autorizzazione del cliente)
- Set di query sintetiche
- Set di query generati dall'utente
Origini delle etichette per l'assegnazione dei punteggi alle coppie di query e documenti:
- Etichette di benchmark accademiche e del settore
- Etichette dei clienti (solo per test, eseguito con l'autorizzazione del cliente)
- Etichette dati sintetiche
- Etichette con punteggio umano
Valutazione e integrazione della riscrittura delle query per il tuo utilizzo
Poiché la riscrittura delle query è stata sottoposta a training di contenuti pubblici, le query sintetiche varieranno in base alle query che verranno sottoposte. Quindi, è importante usare il proprio giudizio e la ricerca quando si usa questo contenuto per il processo decisionale.
Limitazioni tecniche, fattori operativi e intervalli
Sebbene l'abilità GenAI Prompt offra potenti funzionalità, è essenziale riconoscere determinate limitazioni.
- La competenza si basa sui filtri di contenuto configurati dal cliente all'interno di Foundry. Azure AI Search non fornisce meccanismi aggiuntivi di sicurezza dei contenuti per questa competenza.
- La qualità del contenuto generato dall'intelligenza artificiale dipende dall'efficacia dei prompt e dal modello linguistico sottostante. È necessario eseguire test approfonditi per garantire che l'output soddisfi gli standard desiderati.
- L'elaborazione di grandi volumi di dati con richieste complesse può richiedere risorse di calcolo significative e può causare latenza. Pianificare e allocare le risorse in modo saggio non solo per mantenere prestazioni ed efficienza dei costi, ma anche per evitare possibili ritardi nell'elaborazione dei dati.
Prestazioni del sistema
Procedure consigliate per migliorare le prestazioni del sistema
Per ottimizzare le prestazioni della skill Prompt GenAI:
- Utilizzare lo strumento di debug delle sessioni di Azure AI Search per testare i prompt su documenti campione, assicurandosi che il contenuto generato dall'IA sia in linea con le aspettative prima della piena distribuzione.
- Creare richieste chiare e dettagliate per guidare efficacemente il modello linguistico, riducendo la probabilità di output irrilevanti o imprecisi.
- Monitorare le prestazioni del sistema e ridimensionare le risorse in base alle esigenze per gestire le richieste di calcolo dell'elaborazione di intelligenza artificiale.
- Incoraggiare la supervisione umana degli output prima della pubblicazione o della diffusione. Con l'intelligenza artificiale generativa, è possibile generare contenuti che potrebbero essere offensivi o irrilevanti per l'attività.
Valutazione della competenza Prompt GenAI
Valutazione e integrazione dell'abilità Prompt GenAI per il tuo utilizzo
Per ottimizzare i vantaggi della competenza Prompt GenAI all'interno del contesto specifico, prendere in considerazione i passaggi seguenti:
- Determinare gli obiettivi di arricchimento specifici, ad esempio la generazione di riepiloghi concisi, l'estrazione di entità chiave o la creazione di metadati descrittivi, per allineare l'applicazione della competenza alle esigenze aziendali.
- Iniziare con un subset dei dati per valutare le prestazioni della competenza e apportare le modifiche necessarie. Questo approccio consente la sperimentazione controllata e il perfezionamento prima della distribuzione su larga scala.
- Stabilire meccanismi per monitorare la qualità e l'impatto del contenuto generato dall'intelligenza artificiale. Richiedere feedback agli utenti finali per identificare le aree di miglioramento e garantire che i dati arricchiti soddisfino le aspettative degli utenti.
Limitazioni tecniche, fattori operativi e intervalli
In alcuni casi le sottoquery generate da LLM potrebbero essere irrilevanti, eccessivamente restrittive o aumentare i costi dei token. Il recupero agentico supporta tutte le lingue gestite dalla famiglia GPT-4o, ma la qualità del piano di query generato dipende comunque dalla chiarezza dell'input dell'utente. Poiché il recupero agentico si basa sul classificatore semantico per ogni sottoquery, è necessario che il classificatore semantico sia abilitato nell'indice. Il ranker semantico è una funzionalità premium basata su token; anche se le spese di classificazione sono escluse durante la fase iniziale della preview pubblica, verranno applicate successivamente e devono essere considerati nel costo totale di proprietà.
Prima di spostare il recupero agentico in un ambiente di produzione, eseguire test aggiuntivi per verificare che le sottoquery e i passaggi restituiti siano appropriati per il caso d'uso previsto, che la latenza e i costi soddisfino gli obiettivi a livello di servizio e che i dati di base non espongono contenuti sensibili o non conformi.
Prestazioni del sistema
Come per qualsiasi sistema di modelli linguistici su larga scala, diversi utenti possono raggiungere giudizi diversi sull'utilità o la pertinenza dei passaggi restituiti, quindi le prestazioni devono essere definite in modo flessibile. Per il recupero agentico, buone prestazioni significano che l'applicazione end-to-end fornisce il contenuto che gli utenti si aspettano, senza latenza inaccettabile, costi elevati o output dannosi.
L'efficacia del recupero agentico dipende da molti fattori reali:
- Lunghezza prompt/cronologia delle chat
- Numero di sottoquery generate da LLM
- Dimensioni e schema dell'indice (parola chiave, vettore, ibrido)
- Scelta del modello di pianificazione (GPT-4o e GPT-4o-mini)
- Configurazioni della ricerca semantica e soglie di punteggio
Procedure consigliate per migliorare le prestazioni del sistema
- Riepilogare o tagliare le chat meno recenti per mantenere basso l'utilizzo dei token.
- Ottimizzare la soglia del ranker in modo che vengano restituiti solo passaggi altamente rilevanti
- Utilizzare i filtri ove possibile
Valutazione del recupero agentico
Il recupero agentico è stato valutato tramite test interni, tra cui il giudizio automatizzato e umano su più set di dati. Il test includeva la valutazione della pertinenza dei risultati del recupero agentico rispetto ai risultati con solo classificazione semantica.
Metodi di valutazione
Ciascuna configurazione di recupero agentico candidato, definita dal prompt del pianificatore, dalla variante del modello, dal numero di sottoquery e dalle soglie di classificazione, viene valutata direttamente confrontata rispetto alla baseline della produzione. Viene applicata una suite di metriche di rilevanza, sicurezza, latenza e costi scelte in modo specifico per scenari di recupero con più query. Per garantire l'affidabilità nei casi d'uso reali, l'ottimizzazione e il test vengono eseguiti su un'ampia combinazione di set di dati pubblici e approvati dal cliente che variano in linguaggio, lunghezza delle query, formattazione, stile e tono di conversazione. Il materiale di test viene originato da:
Fonti di documenti:
- Benchmark accademici e di settore industriale
- Dati del cliente (solo test, eseguiti con l'autorizzazione del cliente)
- Origini delle query:
- Set di query per benchmark
- Set di query forniti dal cliente (solo test, eseguiti con l'autorizzazione del cliente)
- Set di query sintetiche
- Set di query generati dall'utente
Origini delle etichette per l'assegnazione dei punteggi alle coppie di query e documenti:
- Etichette di benchmark accademiche e del settore
- Etichette dei clienti (solo per test, eseguito con l'autorizzazione del cliente)
- Etichette dati sintetiche
- Etichette con punteggio umano
Valutazione e integrazione del recupero agentico per il tuo utilizzo
Poiché lo strumento di pianificazione del recupero agentico viene addestrato in gran parte sui dati pubblici, la qualità e la pertinenza delle subquery generate variano in base al dominio e alle richieste specifiche degli utenti. Per ottimizzare i vantaggi del recupero agentico all'interno del contesto specifico, considerare i passaggi seguenti:
- Convalidare l'output prima di usarlo per prendere decisioni aziendali critiche: esaminare manualmente un campione di sottoquery generate e documenti restituiti per verificare che siano allineati ai requisiti di terminologia, accuratezza e conformità del dominio.
- Specificare informazioni specifiche del dominio per lo strumento di pianificazione. Fornisci mappe sinonimiche e cronologia completa della conversazione affinché l'LLM possa parafrasare e scomporre le interrogazioni nel linguaggio equivalente al tuo contenuto, migliorando il richiamo e la precisione.
- Implementare la logica di fallback o di guardrail: se il planner genera sottoquery con bassa attendibilità o fuori ambito, instradare la richiesta a una ricerca per parola chiave o vettoriale più semplice, o mostrare un prompt di chiarimento all'utente, impedendo la propagazione di risposte non affidabili a valle.
Altre informazioni sull'IA responsabile
- Microsoft principi di IA
- Risorse di IA responsabile Microsoft
- Microsoft Azure Corsi di apprendimento sull'IA responsabile
Altre informazioni sulle Azure AI Search
Commenti e suggerimenti
Questa pagina è stata utile?
No
Serve aiuto con questo argomento?
Provare a usare Ask Learn per chiarire o guidare l'utente in questo argomento?
Risorse aggiuntive
-
Last updated on
2026-04-30