Nota sulla trasparenza: Azure AI Search

Importante

Le traduzioni non in inglese sono disponibili solo per praticità. Consultare la EN-US versione di questo documento per la versione definitiva.

Che cos'è una nota sulla trasparenza?

Un sistema di intelligenza artificiale include non solo la tecnologia, ma anche le persone che lo useranno, le persone che ne saranno interessate e l'ambiente in cui viene distribuito. La creazione di un sistema adatto allo scopo previsto richiede una comprensione del funzionamento della tecnologia, delle funzionalità e delle limitazioni e di come ottenere le migliori prestazioni. le note sulla trasparenza di Microsoft consentono di comprendere il funzionamento della tecnologia di intelligenza artificiale, le scelte che i proprietari del sistema possono fare che influenzano le prestazioni e il comportamento del sistema e l'importanza di pensare all'intero sistema, tra cui la tecnologia, le persone e l'ambiente. È possibile usare le note sulla trasparenza durante lo sviluppo o la distribuzione del proprio sistema o condividerle con le persone che useranno o saranno interessate dal sistema.

le note sulla trasparenza di Microsoft fanno parte di uno sforzo più ampio Microsoft per mettere in pratica i principi di IA. Per altre informazioni, vedere Microsoft principi di IA.

Nozioni di base di Azure AI Search

Introduzione

Azure AI Search offre agli sviluppatori strumenti, API e SDK per creare un'esperienza di ricerca avanzata su contenuti privati, eterogenei in applicazioni Web, per dispositivi mobili e aziendali. La ricerca è fondamentale per qualsiasi applicazione che presenta i dati agli utenti. Gli scenari comuni includono la ricerca nel catalogo o nei documenti, nei punti vendita al dettaglio online o nell'esplorazione dei dati su contenuti proprietari.

I dati ricercabili possono essere sotto forma di testo o vettori e inseriti as-is da un'origine dati o arricchiti usando l'intelligenza artificiale per migliorare l'esperienza di ricerca complessiva. Gli sviluppatori possono convertire i dati int in rappresentazioni numeriche (denominate vettori), scegliendo di chiamare modelli di Machine Learning esterni (noti come modelli di incorporamento). Gli indicizzatori possono facoltativamente includere set di competenze che supportano una potente suite di arricchimenti dei dati tramite diverse funzionalità di Azure Language in Foundry Tools, ad esempio Nome di riconoscimento delle entità (NER) e rilevamento delle informazioni personali e Azure Funzionalità di Visione in Foundry Tools, tra cui optical character recognition (OCR) e image analysis.

Per altre informazioni su come Azure AI Search migliora l'esperienza di ricerca, vedere le schede seguenti usando gli strumenti Foundry o altri sistemi di intelligenza artificiale per comprendere meglio la finalità, la semantica e la struttura implicita del contenuto di un cliente.

L'arricchimento tramite intelligenza artificiale è l'applicazione di modelli di Machine Learning di Foundry Tools rispetto al contenuto che non è facilmente ricercabile nella sua forma non elaborata. Tramite l'arricchimento, l'analisi e l'inferenza vengono usate per creare contenuto ricercabile e struttura in cui non esistevano in precedenza.

L'arricchimento tramite intelligenza artificiale è un'estensione facoltativa della pipeline dell'indicizzatore Azure AI Search che si connette a Foundry Tools nella stessa area del servizio di ricerca di un cliente. Una pipeline di arricchimento ha gli stessi componenti principali di un indicizzatore tipico (indicizzatore, origine dati, indice), oltre a un set di competenze che specifica i passaggi di arricchimento atomico. Un set di competenze può essere assemblato usando competenze predefinite basate sulle API degli strumenti foundry, ad esempio Visione e linguaggio, o competenze personalizzate che eseguono codice esterno fornito.

La ricerca vettoriale è un metodo di recupero delle informazioni in cui i documenti e le query sono rappresentati in un indice come vettori anziché come testo normale. Nella ricerca vettoriale, i modelli di Machine Learning, ospitati esternamente da Azure AI Search, generano le rappresentazioni vettoriali degli input di origine, che possono essere testo, immagini, audio o contenuti video. Questa rappresentazione matematica e normalizzata del contenuto, denominata incorporamenti vettoriali, fornisce una base comune per gli scenari di ricerca.

Quando tutto è un vettore, una query può trovare una corrispondenza nello spazio vettoriale, anche se il contenuto originale associato si trova in un tipo di supporto diverso, ad esempio immagini o testo o lingua rispetto alla query. Il motore di ricerca analizza l'indice cercando contenuto vettoriale più simile, ovvero il più vicino, al vettore nella query. La corrispondenza su una rappresentazione di vettore matematico anziché parole chiave rende molto più probabile trovare corrispondenze che condividono significato semantico, ma sono testualmente distinte, ad esempio "car" e "auto", ad esempio. In questo modo viene fornita un'introduzione più dettagliata agli incorporamenti vettoriali e al funzionamento dell'algoritmo di somiglianza.

Termini chiave

Termine	Definizione
Incorporamenti vettoriali	Un modo altamente ottimizzato per rappresentare i dati che riflettono il significato e la comprensione estratti da un modello di Machine Learning da immagini, audio, video o testo. Il contenuto viene convertito in incorporamenti vettoriali sia in fase di indicizzazione che in fase di query. La ricerca vettoriale prevede l'inserimento di incorporamenti forniti in una query e la ricerca degli incorporamenti più simili nell'indice. I risultati vengono quindi ordinati in base al grado di somiglianza.
Spazio di incorporamento	Tutti i vettori nel corpus per un singolo campo occupano lo stesso spazio di incorporamento in cui gli elementi simili si trovano vicini l'uno all'altro e gli elementi diversi sono più distanti. Una maggiore dimensionalità dello spazio di incorporamento può includere più informazioni in un singolo vettore e migliorare notevolmente l'esperienza di ricerca, ma a un costo significativo delle dimensioni dell'archiviazione degli indici e una latenza di query più elevata.

Termine

Definizione

Incorporamenti vettoriali

Un modo altamente ottimizzato per rappresentare i dati che riflettono il significato e la comprensione estratti da un modello di Machine Learning da immagini, audio, video o testo. Il contenuto viene convertito in incorporamenti vettoriali sia in fase di indicizzazione che in fase di query. La ricerca vettoriale prevede l'inserimento di incorporamenti forniti in una query e la ricerca degli incorporamenti più simili nell'indice. I risultati vengono quindi ordinati in base al grado di somiglianza.

Spazio di incorporamento

Tutti i vettori nel corpus per un singolo campo occupano lo stesso spazio di incorporamento in cui gli elementi simili si trovano vicini l'uno all'altro e gli elementi diversi sono più distanti. Una maggiore dimensionalità dello spazio di incorporamento può includere più informazioni in un singolo vettore e migliorare notevolmente l'esperienza di ricerca, ma a un costo significativo delle dimensioni dell'archiviazione degli indici e una latenza di query più elevata.

Il ranker semantico usa il contesto o il significato semantico di una query per calcolare un nuovo punteggio di pertinenza che promuove i risultati semanticamente più vicini all'intento della query originale in cima. Il set di risultati iniziale può provenire da una ricerca di parole chiave con classificazione BM25 , ricerca vettoriale o una ricerca ibrida che include entrambi. Crea e restituisce anche "didascalie" estraendo contenuto verbatim trovato nel risultato e "evidenziazioni" per richiamare l'attenzione su contenuti importanti all'interno del risultato. Può anche restituire una "risposta" se la query presenta le caratteristiche di una domanda ("qual è il punto di congelamento dell'acqua") e il risultato contiene testo con le caratteristiche di una risposta ("l'acqua si blocca a 0°C o 32°F").

Termini chiave

Termine	Definizione
Ranker semantico	Usa il contesto e il significato semantico di una query per migliorare la pertinenza della ricerca usando la comprensione del linguaggio per riassegnare nuovamente i risultati della ricerca.
Didascalie semantiche ed evidenziazioni	Estrae frasi e frasi da un documento che riepiloga meglio il contenuto, con evidenziazioni sui passaggi chiave per facilitare l'analisi. Le didascalie che riepilogano un risultato sono utili quando i singoli campi di contenuto sono troppo densi per la pagina dei risultati. Il testo evidenziato eleva i termini e le frasi più rilevanti in modo che gli utenti possano determinare rapidamente il motivo per cui una corrispondenza è stata considerata rilevante.
Risposte semantiche	Offre una sottostruttura opzionale e aggiuntiva che viene restituita da una query semantica. Fornisce una risposta diretta a una query che sembra una domanda. Richiede che un documento abbia testo con le caratteristiche di una risposta.

La competenza Prompt genAI fa parte del catalogo di competenze di Azure AI Search, consentendo ai clienti di migliorare gli indici di ricerca con contenuti generati dall'intelligenza artificiale in base ai dati. Usando i dati e le preferenze dell'organizzazione del cliente, questa competenza consente di produrre riepiloghi personalizzati, risposte o informazioni dettagliate in linea con le proprie esigenze specifiche.

Ciò significa che quando l'utente finale cerca il contenuto dei clienti tramite la ricerca di intelligenza artificiale, il contenuto generato dall'intelligenza artificiale può fornire risultati più informativi e consapevoli del contesto, rendendo più semplice per gli utenti trovare le informazioni che stanno cercando.

Termini chiave

Termine	Definizione
Abilità	Una competenza Azure AI Search è un componente di elaborazione modulare all'interno della pipeline di arricchimento Azure AI Search. Queste competenze applicano trasformazioni guidate dall'intelligenza artificiale a contenuti non elaborati, ad esempio testo, immagini o documenti, durante l'indicizzazione, consentendo l'estrazione di informazioni strutturate e ricercabili da dati non strutturati.
Prompt	Testo inviato al servizio nella chiamata API. Questo testo viene quindi inserito nel modello. Ad esempio, è possibile immettere il prompt seguente: Convertire le domande in un comando: D: Chiedi a Constance se abbiamo bisogno di un pane A: send-msg `find constance` Abbiamo bisogno di un po 'di pane? D: Inviare un messaggio a Greg per capire se le cose sono pronte per mercoledì. R: Invia messaggio `find greg` tutto pronto per mercoledì?
Indici di ricerca	In Azure AI Search, un indice è la struttura di dati che contiene il contenuto ricercabile, definisce la modalità di archiviazione e controlla il modo in cui il servizio lo interpreterà quando si esegue una query.

Il recupero agentico è un'architettura di elaborazione di query parallela che usa un modello LLM (Conversational Large Language Model) come "Query Planner". LLM trasforma la cronologia delle conversazioni di un utente in una o più sottoquery incentrate, in base alle esigenze. Queste sottoquery vengono eseguite simultaneamente nell'indice Azure AI Search e il servizio unisce i risultati principali, restituendo:

Una singola stringa di contenuto che contiene i passaggi più rilevanti (dati di base).
Matrice di riferimenti (facoltativo) che espone i documenti o i blocchi di origine completi.
Matrice di attività che elenca ogni operazione, numero di token e latenza per facilitare il rilevamento dei costi e il debug.

Termini chiave

Termine	Definizione

Recupero agentic	Questo si riferisce a un agente di intelligenza artificiale che pianifica ed esegue una sequenza di passaggi per recuperare informazioni dalle fonti di riferimento. Ciò comporta attività come l'esecuzione di query e il perfezionamento delle ricerche per ottenere le informazioni più rilevanti per la query.
Dati di base	Set di documenti/informazioni restituiti dal recupero agentico. Funge da base fattuale che un LLM esterno può citare o trasformare in una risposta in linguaggio naturale, garantendo la tracciabilità e riducendo il rischio di allucinazioni.
Pianificatore di query	Suddivide la cronologia delle conversazioni in sottoquery per trovare i dati di base più rilevanti per la query di ricerca sottostante.
Sottoquery	Una singola query generata da un LLM. Le sottoquery si basano su domande utente, cronologia chat e parametri nella richiesta. Le sottoquery hanno come destinazione i documenti indicizzati (testo normale e vettori) in Azure AI Search.

Funzionalità

Comportamento del sistema

Diverse funzionalità "built-in" per l'arricchimento tramite intelligenza artificiale in Azure AI Search sfruttano gli strumenti Foundry. Per considerazioni sulla scelta di usare una competenza, vedere le note sulla trasparenza per ogni competenza predefinita collegata di seguito:

Competenza estrazione frasi chiave: linguaggio - Estrazione frasi chiave
Competenza di rilevamento della lingua: Lingua - Rilevamento della lingua
Competenza Collegamento delle entità: Lingua - Collegamento delle entità
Abilità di riconoscimento delle entità: Lingua - Riconoscimento di Entità Nominate (NER)
Competenza di rilevamento delle informazioni personali: lingua - Rilevamento delle informazioni personali
Competenza di Sentiment: Lingua - Analisi del sentiment
Competenza di analisi delle immagini: Visione - Analisi delle immagini
Competenza OCR: Visione artificiale - OCR
Competenza nel layout dei documenti: Intelligenza dei documenti

Vedere la documentazione per ogni competenza per altre informazioni sulle rispettive funzionalità, limitazioni, prestazioni, valutazioni e metodi per l'integrazione e l'uso responsabile. Si noti che l'uso di queste abilità in combinazione può causare effetti cumulativi (ad esempio, gli errori introdotti quando si utilizza l'OCR persistono durante l'estrazione di frasi chiave).

Casi d'uso

Casi d'uso di esempio

Poiché Azure AI Search è una soluzione di ricerca full-text, lo scopo dell'arricchimento tramite intelligenza artificiale è migliorare l'utilità di ricerca di contenuto non strutturato. Ecco alcuni esempi di scenari di arricchimento del contenuto supportati dalle competenze predefinite:

Il rilevamento della traduzione e della lingua abilita la ricerca multilingue.
Il riconoscimento delle entità estrae persone , posizioni e altre entità da blocchi di testo di grandi dimensioni.
L'estrazione di frasi chiave identifica e quindi restituisce termini importanti.
OCR riconosce il testo stampato e scritto a mano nei file binari.
L'analisi delle immagini descrive il contenuto dell'immagine e restituisce le descrizioni come campi di testo ricercabili.
Integrated vectorization è una funzionalità di anteprima che chiama il modello di incorporamento Azure OpenAI per vettorizzare i dati e archiviare incorporamenti in Azure AI Search per la ricerca di somiglianza.

Limitazioni

L'arricchimento tramite intelligenza artificiale in Azure AI Search usa le funzionalità dell'indicizzatore e dell'origine dati del servizio per chiamare Foundry Tools per eseguire l'arricchimento del contenuto. Verranno applicate limitazioni degli indicizzatori e delle origini dati usate in questo processo. Per altre informazioni su queste limitazioni correlate, vedere la documentazione sull'indicizzatore e l'origine dati . Verranno applicate anche le limitazioni di ogni strumento Foundry usato dalla pipeline di arricchimento tramite intelligenza artificiale in Azure AI Search. Per altre informazioni su queste limitazioni, vedere le note sulla trasparenza per ogni servizio .

Nota sulla trasparenza: Azure AI Search

Che cos'è una nota sulla trasparenza?

Nozioni di base di Azure AI Search

Introduzione

Funzionalità

Comportamento del sistema

Casi d'uso

Casi d'uso di esempio

Limitazioni

Altre informazioni sull'IA responsabile

Altre informazioni sulle Azure AI Search

Commenti e suggerimenti

Risorse aggiuntive