Condividi tramite


Osservabilità nell'intelligenza artificiale generativa

Annotazioni

Questo documento fa riferimento al portale Microsoft Foundry (versione classica).

🔄 Passa alla nuova documentazione di Microsoft Foundry se si usa il nuovo portale.

Annotazioni

Questo documento fa riferimento al portale Microsoft Foundry (nuovo).

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Nel mondo odierno basato sull'intelligenza artificiale, Generative AI Operations (GenAIOps) sta rivoluzionando il modo in cui le organizzazioni creano e distribuiscono sistemi intelligenti. Man mano che le aziende usano sempre più agenti di intelligenza artificiale e applicazioni per trasformare il processo decisionale, migliorare le esperienze dei clienti e alimentare l'innovazione, un elemento è fondamentale: framework di valutazione affidabili. La valutazione non è solo un checkpoint. È la base della qualità e della fiducia nelle applicazioni di intelligenza artificiale. Senza una rigorosa valutazione e monitoraggio, i sistemi di intelligenza artificiale possono produrre contenuti:

  • Fabbricato o privo di basi nella realtà
  • Irrilevante o incoerente
  • Dannoso in perpetuare rischi e stereotipi di contenuto
  • Pericoloso nella diffusione di disinformazioni
  • Vulnerabile agli exploit di sicurezza

Questa è la posizione in cui l'osservabilità diventa essenziale. Queste funzionalità misurano sia la frequenza che la gravità dei rischi negli output di intelligenza artificiale, consentendo ai team di affrontare sistematicamente problemi di qualità, sicurezza e sicurezza nell'intero percorso di sviluppo dell'IA, dalla selezione del modello corretto al monitoraggio delle prestazioni di produzione, della qualità e della sicurezza.

Che cos'è l'osservabilità?

L'osservabilità dell'intelligenza artificiale si riferisce alla possibilità di monitorare, comprendere e risolvere i problemi dei sistemi di intelligenza artificiale durante il ciclo di vita. Implica la raccolta e l'analisi dei segnali, ad esempio metriche di valutazione, log, tracce e output di modelli e agenti, per ottenere visibilità su prestazioni, qualità, sicurezza e integrità operativa.

Che cosa sono gli analizzatori?

Gli analizzatori sono strumenti specializzati che misurano la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale. Implementando valutazioni sistematiche durante il ciclo di vita dello sviluppo di intelligenza artificiale, i team possono identificare e risolvere potenziali problemi prima di influire sugli utenti. Gli analizzatori supportati seguenti offrono funzionalità di valutazione complete in diversi tipi di applicazioni di intelligenza artificiale e problematiche:

Utilizzo generico

Valutatore Scopo Input
Coerenza Misura la coerenza logica e il flusso delle risposte. Query, risposta
Scorrevolezza Misura la qualità e la leggibilità del linguaggio naturale. Risposta
Garanzia di Qualità Misura in modo completo vari aspetti di qualità nella risposta alle domande. Query, contesto, risposta, verità di riferimento

Per altre informazioni, vedere Analizzatori per utilizzo generico.

Somiglianza testuale

Valutatore Scopo Input
Similarity Misurazione della somiglianza testuale assistita dall'intelligenza artificiale. Query, contesto, verità di base
Punteggio F1 Media armonica di precisione e richiamo nelle sovrapposizioni di token tra risposta e verità di base. Risposta, verità sul terreno
BLEU Il punteggio Understudy della valutazione bilingue per la qualità della traduzione misura le sovrapposizioni in n-grammi tra risposta e verità di base. Risposta, verità sul terreno
GLEU La variante Google-BLEU per la valutazione a livello di frase misura le sovrapposizioni in n-grammi tra la risposta e la verità di base. Risposta, verità sul terreno
ROUGE L'Understudy orientato al richiamo per la valutazione del compendio misura le sovrapposizioni in n-grammi tra risposta e verità di base. Risposta, verità sul terreno
METEOR La metrica per la valutazione della traduzione con Ordinamento Esplicito misura le sovrapposizioni in n-grammi tra la risposta e la verità di riferimento. Risposta, verità sul terreno

Per altre informazioni, vedere Analizzatori di somiglianza testuale

RAG (Retrieval Augmented Generation)

Valutatore Scopo Input
Recupero Misura il modo in cui il sistema recupera le informazioni pertinenti. Query, contesto
Recupero di documenti (anteprima) Misura l'accuratezza nei risultati del recupero in base alla verità del terreno. Verità sul terreno, documenti recuperati
Radicamento Misura la coerenza della risposta rispetto al contesto recuperato. Query (facoltativo), contesto, risposta
Groundedness Pro (anteprima) Misura se la risposta è coerente rispetto al contesto recuperato. Query, contesto, risposta
Pertinenza Misura la rilevanza della risposta rispetto alla query. Query, risposta
Completamento risposta (anteprima) Misura in quale misura la risposta è completa (non mancano informazioni critiche) rispetto alla verità sul terreno. Risposta, verità sul terreno

Per altre informazioni, vedere Analizzatori di generazione aumentata (RAG, Retrieval-Augmented Generation).

Sicurezza e sicurezza (anteprima)

Valutatore Scopo Input
Odio e ingiustità Identifica contenuti distorti, discriminatori o odiosi. Query, risposta
Contenuto sessuale Identifica contenuti sessuali inappropriati. Query, risposta
Violenza Rileva contenuti violenti o incitamenti. Query, risposta
Autolesionismo Rileva contenuti che promuovono o descrivono l'autolesionismo. Query, risposta
Sicurezza dei contenuti Valutazione completa dei vari problemi di sicurezza. Query, risposta
Materiali protetti Rileva l'uso non autorizzato di contenuti protetti o protetti da copyright. Query, risposta
Vulnerabilità del codice Identifica i problemi di sicurezza nel codice generato. Query, risposta
Attributi non basati Rileva le informazioni fabbricate o allucinate dedotte dalle interazioni dell'utente. Query, contesto, risposta

Per altre informazioni, vedere Analizzatori di rischi e sicurezza.

Agenti (anteprima)

Valutatore Scopo Input
Risoluzione delle intenzioni Misura quanto accuratamente l'agente identifica e indirizza le intenzioni dell'utente. Query, risposta
Conformità delle attività Misura il modo in cui l'agente segue nelle attività identificate. Query, risposta, definizioni degli strumenti (facoltativo)
Accuratezza della chiamata dello strumento Misura il modo in cui l'agente seleziona e chiama gli strumenti corretti a. Query, risposte o chiamate di strumenti, definizioni di strumenti
Valutatore Scopo Input
Conformità delle attività Misura se l'agente segue le attività identificate in base alle istruzioni di sistema. Query, risposta, definizioni di strumenti (facoltativo)
Il completamento dell'attività Misura se l'agente ha completato correttamente l'attività richiesta dall'inizio alla fine. Query, risposta, definizioni di strumenti (facoltativo)
Risoluzione delle intenzioni Misura quanto accuratamente l'agente identifica e indirizza le intenzioni dell'utente. Query, risposta, definizioni di strumenti (facoltativo)
Efficienza della navigazione delle attività Determina se la sequenza di passaggi dell'agente corrisponde a un percorso ottimale o previsto per misurare l'efficienza. Risposta, verità fondata
Accuratezza della chiamata dello strumento Misura la qualità complessiva delle chiamate degli strumenti, tra cui la selezione, la correttezza dei parametri e l'efficienza. Query, definizioni di strumenti, chiamate di strumenti (facoltativo), risposta
Selezione degli strumenti Misura se l'agente ha selezionato gli strumenti più appropriati ed efficienti per un'attività. Query, definizioni di strumenti, chiamate di strumenti (facoltativo), risposta
Accuratezza dello strumento di input Verifica che tutti i parametri di chiamata dello strumento siano corretti in base a criteri rigorosi, tra cui messa a terra, tipo, formato, completezza e appropriatezza. Query, risposta, definizioni di strumenti
Utilizzo dell'output degli strumenti Misura se l'agente interpreta correttamente e usa gli output degli strumenti contestualmente nelle risposte e nelle chiamate successive. Query, risposta, definizioni di strumenti (facoltativo)
Chiamata strumento riuscita Valuta se tutte le chiamate degli strumenti vengono eseguite correttamente senza errori tecnici. Risposta, definizioni di strumenti (facoltativo)

Per altre informazioni, vedere Valutatori dell'agente.

Classificatori di Azure OpenAI (anteprima)

Valutatore Scopo Input
Etichettatrice di Modelli Classifica il contenuto usando linee guida ed etichette personalizzate. Query, risposta, verità di base
Controllo stringhe Esegue convalide di testo flessibili e corrispondenza di modelli. Risposta
Somiglianza del testo Valuta la qualità del testo o determina la prossimità semantica. Risposta, verità sul terreno
Scorer del modello Genera punteggi numerici (intervallo personalizzato) per il contenuto in base alle linee guida personalizzate. Query, risposta, verità di base

Per altre informazioni, vedere Azure OpenAI Graders.

Valutatori nel ciclo di vita di sviluppo

Usando questi analizzatori in modo strategico durante tutto il ciclo di vita di sviluppo, i team possono creare applicazioni di intelligenza artificiale più affidabili, sicure ed efficaci che soddisfano le esigenze degli utenti riducendo al minimo i potenziali rischi.

Diagramma del ciclo di vita di GenAIOps aziendale, che mostra la selezione del modello, la creazione di un'applicazione di intelligenza artificiale e l'operazionalizzazione.

Le tre fasi della valutazione GenAIOps

GenAIOps usa le tre fasi seguenti.

Selezione del modello di base

Prima di compilare l'applicazione, è necessario selezionare le basi corrette. Questa valutazione iniziale consente di confrontare modelli diversi in base a:

  • Qualità e accuratezza: quanto sono rilevanti e coerenti le risposte del modello?
  • Prestazioni delle attività: il modello gestisce in modo efficiente i casi d'uso specifici?
  • Considerazioni etiche: il modello è libero da pregiudizi dannosi?
  • Profilo di sicurezza: qual è il rischio di generare contenuti non sicuri?

Strumenti disponibili: Benchmark di Microsoft Foundry per il confronto di modelli su set di dati pubblici o dati personalizzati e Azure AI Evaluation SDK per il test di endpoint di modello specifici.

Valutazione della preproduzione

Dopo aver selezionato un modello di base, il passaggio successivo consiste nello sviluppare un agente o un'applicazione di intelligenza artificiale. Prima di eseguire la distribuzione in un ambiente di produzione, è essenziale eseguire test approfonditi per assicurarsi che l'agente di intelligenza artificiale o l'applicazione sia pronto per l'uso reale.

La valutazione della preproduzione prevede:

  • Test con dataset di valutazione: questi dataset simulano interazioni utente realistiche per garantire che l'agente di intelligenza artificiale operi come previsto.
  • Identificazione dei casi perimetrali: trovare scenari in cui la qualità della risposta dell'agente di intelligenza artificiale potrebbe degradare o produrre output indesiderati.
  • Valutazione dell'affidabilità: garantire che l'agente di intelligenza artificiale possa gestire una serie di variazioni di input senza cali significativi di qualità o sicurezza.
  • Misurazione delle metriche chiave: le metriche, ad esempio la conformità delle attività, la necessità di risposta, la pertinenza e la sicurezza, vengono valutate per confermare l'idoneità per la produzione.

Diagramma della valutazione della preproduzione per modelli e applicazioni con i sei passaggi.

La fase di preproduzione funge da controllo di qualità finale, riducendo il rischio di distribuire un agente o un'applicazione di intelligenza artificiale che non soddisfa gli standard di sicurezza o prestazioni desiderati.

Strumenti e approcci di valutazione:

  • Bring Your Own Data: È possibile valutare gli agenti di intelligenza artificiale e le applicazioni in pre-produzione utilizzando i propri dati di valutazione con valutatori supportati, tra cui qualità, sicurezza o valutatori personalizzati, e visualizzare i risultati tramite il portale Foundry. Usare la procedura guidata di valutazione di Foundry o i valutatori degli SDK di valutazione Azure AI supportati, tra cui qualità di generazione, sicurezza o valutatori personalizzati. Visualizzare i risultati usando il portale Foundry.

  • Simulatori e agente di red teaming dell'intelligenza artificiale: se non si dispone di dati di valutazione (dati di test), i simulatori di Azure AI Evaluation SDK possono essere utili generando query correlate a determinati argomenti o di tipo antagonista. Questi simulatori testano la risposta del modello alle query appropriate alla situazione o simili agli attacchi (casi limite).

    • L'agente di red teaming di intelligenza artificiale simula attacchi avversari complessi contro il tuo sistema di intelligenza artificiale usando un'ampia gamma di attacchi di sicurezza e protezione utilizzando il framework aperto Microsoft per il Python Risk Identification Tool (PyRIT).
    • I simulatori antagonisti inseriscono query statiche che simulano potenziali rischi di sicurezza o attacchi di sicurezza, ad esempio i tentativi di jailbreak, aiutando a identificare le limitazioni e a preparare il modello per condizioni impreviste.
    • I simulatori appropriati al contesto generano conversazioni tipiche e rilevanti che ci si aspetta dagli utenti per testare la qualità delle risposte. Con i simulatori appropriati per il contesto è possibile valutare metriche come base, pertinenza, coerenza e fluenza delle risposte generate.

    Le analisi automatizzate che utilizzano l'agente di red teaming di intelligenza artificiale ottimizzano la valutazione dei rischi nella fase di pre-produzione, testando sistematicamente le applicazioni di intelligenza artificiale per individuare potenziali rischi. Questo processo prevede scenari di attacco simulati per identificare i punti deboli nelle risposte del modello prima della distribuzione reale. Eseguendo analisi di red teaming di intelligenza artificiale, è possibile rilevare e attenuare potenziali problemi di sicurezza prima della distribuzione. Questo strumento è consigliato per essere usato con processi che prevedono l'intervento umano, come le esplorazioni red teaming dell'intelligenza artificiale, per accelerare l'identificazione dei rischi e facilitare la valutazione da parte di un esperto umano.

In alternativa, è anche possibile usare il portale Foundry per testare le applicazioni di intelligenza artificiale generative.

  • Bring Your Own Data (Bring Your Own Data): è possibile valutare le applicazioni di intelligenza artificiale in preproduzione usando i propri dati di valutazione con analizzatori supportati, tra cui qualità di generazione, sicurezza o analizzatori personalizzati e visualizzare i risultati tramite il portale Foundry. Usare la procedura guidata di valutazione di Foundry o i valutatori supportati di Azure AI Evaluation SDK, tra cui qualità della generazione, sicurezza o valutatori personalizzati e visualizzare i risultati tramite il portale Foundry.

  • Simulatori e agente di red teaming per intelligenza artificiale: se non si dispone di dati di valutazione (dati di test), i simulatori possono essere utili tramite la generazione di query correlate all'argomento o antagoniste. Questi simulatori testano la risposta del modello alle query appropriate alla situazione o simili agli attacchi (casi limite).

    L'agente di red teaming di intelligenza artificiale simula attacchi avversari complessi contro il tuo sistema di intelligenza artificiale usando un'ampia gamma di attacchi di sicurezza e protezione utilizzando il framework aperto Microsoft per il Python Risk Identification Tool (PyRIT).

    Le analisi automatizzate che usano l'agente di red teaming per intelligenza artificiale migliorano la valutazione dei rischi pre-produzione testando sistematicamente le applicazioni IA per i rischi. Questo processo prevede scenari di attacco simulati per identificare i punti deboli nelle risposte del modello prima della distribuzione reale. Eseguendo analisi di red teaming di intelligenza artificiale, è possibile rilevare e attenuare potenziali problemi di sicurezza prima della distribuzione. Questo strumento è consigliato per essere usato con processi che prevedono l'intervento umano, come le esplorazioni red teaming dell'intelligenza artificiale, per accelerare l'identificazione dei rischi e facilitare la valutazione da parte di un esperto umano.

In alternativa, è anche possibile usare il portale Foundry per testare le applicazioni di intelligenza artificiale generative.

Dopo aver ottenuti risultati soddisfacenti, è possibile distribuire l'applicazione di intelligenza artificiale nell'ambiente di produzione.

Monitoraggio post-produzione

Dopo la distribuzione, il monitoraggio continuo garantisce che l'applicazione di intelligenza artificiale mantenga la qualità in condizioni reali.

Dopo la distribuzione, il monitoraggio continuo garantisce che l'applicazione di intelligenza artificiale mantenga la qualità in condizioni reali.

  • Metriche operative: misurazione regolare delle metriche operative dell'agente di intelligenza artificiale chiave.
  • Valutazione continua: abilita la valutazione della qualità e della sicurezza del traffico di produzione a una velocità campionata.
  • Valutazione pianificata: consente la valutazione pianificata della qualità e della sicurezza usando un set di dati di test per rilevare la deriva nei sistemi sottostanti.
  • Red Teaming pianificato: fornisce capacità di test antagonisti programmati per verificare le vulnerabilità di sicurezza e protezione.
  • Avvisi di Monitoraggio di Azure: azione Swift quando si verificano output dannosi o inappropriati. Impostare avvisi per la valutazione continua per ricevere una notifica quando i risultati diminuiscono al di sotto della soglia di superamento in produzione.

Un monitoraggio efficace consente di mantenere la fiducia degli utenti e consente una rapida risoluzione dei problemi.

L'osservabilità offre funzionalità di monitoraggio complete essenziali per il panorama di IA complesso e in rapida evoluzione. Perfettamente integrato con Application Insights di Monitoraggio di Azure, questa soluzione consente il monitoraggio continuo delle applicazioni di intelligenza artificiale distribuite per garantire prestazioni, sicurezza e qualità ottimali negli ambienti di produzione.

Il dashboard Foundry Observability offre informazioni dettagliate in tempo reale sulle metriche critiche. Consente ai team di identificare e risolvere rapidamente problemi di prestazioni, problemi di sicurezza o riduzione della qualità.

Per le applicazioni basate su agent, Foundry offre funzionalità avanzate di valutazione continua. Queste funzionalità possono offrire visibilità più approfondita sulle metriche di qualità e sicurezza. Possono creare un solido ecosistema di monitoraggio che si adatta alla natura dinamica delle applicazioni di intelligenza artificiale mantenendo allo stesso tempo standard elevati di prestazioni e affidabilità.

Monitorando continuamente il comportamento dell'applicazione di intelligenza artificiale nell'ambiente di produzione, è possibile mantenere esperienze utente di alta qualità e risolvere rapidamente eventuali problemi che si verificano.

Creazione di una fiducia attraverso una valutazione sistematica

GenAIOps stabilisce un processo affidabile per la gestione delle applicazioni di intelligenza artificiale durante il ciclo di vita. Implementando una valutazione approfondita in ogni fase, dalla selezione dei modelli alla distribuzione e oltre, i team possono creare soluzioni di intelligenza artificiale non solo potenti ma affidabili e sicure.

Foglio informativo sulla valutazione

Scopo Processo Parametri, linee guida ed esempi
Che cosa stai valutando? Identificare o compilare analizzatori pertinenti - Notebook di esempio di qualità e prestazioni

- Qualità della risposta degli agenti

- Sicurezza e protezione (notebook di esempio di sicurezza e protezione)

- Personalizzato (notebook di esempio personalizzato)
Quali dati è necessario usare? Caricare o generare un set di dati pertinente - Simulatore generico per misurare qualità e prestazioni (notebook di esempio del simulatore generico)

- Simulatore antagonista per misurare sicurezza e sicurezza (notebook di esempio del simulatore antagonista)

- Agente di red teaming AI per eseguire analisi automatizzate e valutare le vulnerabilità di sicurezza (notebook di esempio dell'agente di red teaming AI)
Come eseguire valutazioni su un set di dati? Eseguire la valutazione - Sessioni di valutazione dell'agente

- Esecuzione del cloud remoto

- Esecuzione locale
Come ha eseguito il modello o l'app? Analizzare i risultati - Visualizza i punteggi aggregati, visualizza i dettagli, visualizza i dettagli dei punteggi, confronta le esecuzioni di valutazione
Come posso migliorare? Apportare modifiche a modelli, app o analizzatori - Se i risultati della valutazione non sono allineati al feedback umano, modificare l'analizzatore.

- Se i risultati della valutazione sono allineati al feedback umano ma non soddisfano le soglie di qualità/sicurezza, applicare mitigazioni mirate. Esempio di mitigazioni da applicare: Sicurezza dei contenuti di Azure per intelligenza artificiale
Scopo Processo Parametri, linee guida ed esempi
Che cosa stai valutando? Identificare o compilare analizzatori pertinenti - Qualità RAG

- Qualità degli agenti

- Sicurezza e protezione (notebook di esempio di sicurezza e protezione)

- Personalizzato (notebook di esempio personalizzato)
Quali dati è necessario usare? Caricare o generare un set di dati pertinente - Generazione di set di dati sintetici

- Agente di red teaming AI per eseguire analisi automatizzate e valutare le vulnerabilità di sicurezza (notebook di esempio dell'agente di red teaming AI)
Come eseguire valutazioni su un set di dati? Eseguire la valutazione - Sessioni di valutazione dell'agente

- Esecuzione del cloud remoto
Come ha eseguito il modello o l'app? Analizzare i risultati - Visualizza i punteggi aggregati, visualizza i dettagli, visualizza i dettagli dei punteggi, confronta le esecuzioni di valutazione
Come posso migliorare? Apportare modifiche a modelli, app o analizzatori - Se i risultati della valutazione non sono allineati al feedback umano, modificare l'analizzatore.

- Se i risultati della valutazione sono allineati al feedback umano ma non soddisfano le soglie di qualità/sicurezza, applicare mitigazioni mirate. Esempio di mitigazioni da applicare: Sicurezza dei contenuti di Azure per intelligenza artificiale

Portare una propria rete virtuale per la valutazione

Ai fini dell'isolamento della rete è possibile usare la propria rete virtuale per la valutazione. Per altre informazioni, vedere Come configurare un collegamento privato.

Annotazioni

I dati di valutazione vengono inviati ad Application Insights se Application Insights è connesso. Il supporto per la rete virtuale per Application Insights e il tracciamento non è disponibile.

Supporto dell'area di rete virtuale

La funzione "bring your own virtual network" per la valutazione è supportata in tutte le aree, ad eccezione dell'India Centrale, dell'Asia Orientale, dell'Europa Settentrionale e del Qatar Centrale.

Supporto di area

Attualmente alcuni analizzatori assistito da intelligenza artificiale sono disponibili solo nelle aree seguenti:

Area geografica Odio e ingiustizia, sessualità, violento, autolesionismo, attacco indiretto, vulnerabilità del codice, attributi non in primo piano Aderenza al contesto Pro Materiale protetto
Stati Uniti orientali 2 Sostenuto Sostenuto Sostenuto
Svezia centrale Sostenuto Sostenuto Non disponibile
Stati Uniti centro-settentrionali Sostenuto Non disponibile Non disponibile
Francia centrale Sostenuto Non disponibile Non disponibile
Svizzera occidentale Sostenuto Non disponibile Non disponibile

Supporto per l'area di valutazione del playground dell'agente

Area geografica Stato
East US Sostenuto
Stati Uniti orientali 2 Sostenuto
West US Sostenuto
West US 2 (Regione Ovest degli Stati Uniti 2) Sostenuto
Stati Uniti occidentali 3 Sostenuto
Francia centrale Sostenuto
Norway East Sostenuto
Svezia centrale Sostenuto

Tariffazione

Le funzionalità di osservabilità, ad esempio valutazioni di rischio e sicurezza e valutazioni continue, vengono fatturate in base al consumo, come indicato nella pagina dei prezzi di Azure.