Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Annotazioni
Questo documento fa riferimento al portale Microsoft Foundry (versione classica).
🔄 Passa alla nuova documentazione di Microsoft Foundry se si usa il nuovo portale.
Annotazioni
Questo documento fa riferimento al portale Microsoft Foundry (nuovo).
Importante
Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.
Nel mondo odierno basato sull'intelligenza artificiale, Generative AI Operations (GenAIOps) sta rivoluzionando il modo in cui le organizzazioni creano e distribuiscono sistemi intelligenti. Man mano che le aziende usano sempre più agenti di intelligenza artificiale e applicazioni per trasformare il processo decisionale, migliorare le esperienze dei clienti e alimentare l'innovazione, un elemento è fondamentale: framework di valutazione affidabili. La valutazione non è solo un checkpoint. È la base della qualità e della fiducia nelle applicazioni di intelligenza artificiale. Senza una rigorosa valutazione e monitoraggio, i sistemi di intelligenza artificiale possono produrre contenuti:
- Fabbricato o privo di basi nella realtà
- Irrilevante o incoerente
- Dannoso in perpetuare rischi e stereotipi di contenuto
- Pericoloso nella diffusione di disinformazioni
- Vulnerabile agli exploit di sicurezza
Questa è la posizione in cui l'osservabilità diventa essenziale. Queste funzionalità misurano sia la frequenza che la gravità dei rischi negli output di intelligenza artificiale, consentendo ai team di affrontare sistematicamente problemi di qualità, sicurezza e sicurezza nell'intero percorso di sviluppo dell'IA, dalla selezione del modello corretto al monitoraggio delle prestazioni di produzione, della qualità e della sicurezza.
Che cos'è l'osservabilità?
L'osservabilità dell'intelligenza artificiale si riferisce alla possibilità di monitorare, comprendere e risolvere i problemi dei sistemi di intelligenza artificiale durante il ciclo di vita. Implica la raccolta e l'analisi dei segnali, ad esempio metriche di valutazione, log, tracce e output di modelli e agenti, per ottenere visibilità su prestazioni, qualità, sicurezza e integrità operativa.
Che cosa sono gli analizzatori?
Gli analizzatori sono strumenti specializzati che misurano la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale. Implementando valutazioni sistematiche durante il ciclo di vita dello sviluppo di intelligenza artificiale, i team possono identificare e risolvere potenziali problemi prima di influire sugli utenti. Gli analizzatori supportati seguenti offrono funzionalità di valutazione complete in diversi tipi di applicazioni di intelligenza artificiale e problematiche:
Utilizzo generico
| Valutatore | Scopo | Input |
|---|---|---|
| Coerenza | Misura la coerenza logica e il flusso delle risposte. | Query, risposta |
| Scorrevolezza | Misura la qualità e la leggibilità del linguaggio naturale. | Risposta |
| Garanzia di Qualità | Misura in modo completo vari aspetti di qualità nella risposta alle domande. | Query, contesto, risposta, verità di riferimento |
Per altre informazioni, vedere Analizzatori per utilizzo generico.
Somiglianza testuale
| Valutatore | Scopo | Input |
|---|---|---|
| Similarity | Misurazione della somiglianza testuale assistita dall'intelligenza artificiale. | Query, contesto, verità di base |
| Punteggio F1 | Media armonica di precisione e richiamo nelle sovrapposizioni di token tra risposta e verità di base. | Risposta, verità sul terreno |
| BLEU | Il punteggio Understudy della valutazione bilingue per la qualità della traduzione misura le sovrapposizioni in n-grammi tra risposta e verità di base. | Risposta, verità sul terreno |
| GLEU | La variante Google-BLEU per la valutazione a livello di frase misura le sovrapposizioni in n-grammi tra la risposta e la verità di base. | Risposta, verità sul terreno |
| ROUGE | L'Understudy orientato al richiamo per la valutazione del compendio misura le sovrapposizioni in n-grammi tra risposta e verità di base. | Risposta, verità sul terreno |
| METEOR | La metrica per la valutazione della traduzione con Ordinamento Esplicito misura le sovrapposizioni in n-grammi tra la risposta e la verità di riferimento. | Risposta, verità sul terreno |
Per altre informazioni, vedere Analizzatori di somiglianza testuale
RAG (Retrieval Augmented Generation)
| Valutatore | Scopo | Input |
|---|---|---|
| Recupero | Misura il modo in cui il sistema recupera le informazioni pertinenti. | Query, contesto |
| Recupero di documenti (anteprima) | Misura l'accuratezza nei risultati del recupero in base alla verità del terreno. | Verità sul terreno, documenti recuperati |
| Radicamento | Misura la coerenza della risposta rispetto al contesto recuperato. | Query (facoltativo), contesto, risposta |
| Groundedness Pro (anteprima) | Misura se la risposta è coerente rispetto al contesto recuperato. | Query, contesto, risposta |
| Pertinenza | Misura la rilevanza della risposta rispetto alla query. | Query, risposta |
| Completamento risposta (anteprima) | Misura in quale misura la risposta è completa (non mancano informazioni critiche) rispetto alla verità sul terreno. | Risposta, verità sul terreno |
Per altre informazioni, vedere Analizzatori di generazione aumentata (RAG, Retrieval-Augmented Generation).
Sicurezza e sicurezza (anteprima)
| Valutatore | Scopo | Input |
|---|---|---|
| Odio e ingiustità | Identifica contenuti distorti, discriminatori o odiosi. | Query, risposta |
| Contenuto sessuale | Identifica contenuti sessuali inappropriati. | Query, risposta |
| Violenza | Rileva contenuti violenti o incitamenti. | Query, risposta |
| Autolesionismo | Rileva contenuti che promuovono o descrivono l'autolesionismo. | Query, risposta |
| Sicurezza dei contenuti | Valutazione completa dei vari problemi di sicurezza. | Query, risposta |
| Materiali protetti | Rileva l'uso non autorizzato di contenuti protetti o protetti da copyright. | Query, risposta |
| Vulnerabilità del codice | Identifica i problemi di sicurezza nel codice generato. | Query, risposta |
| Attributi non basati | Rileva le informazioni fabbricate o allucinate dedotte dalle interazioni dell'utente. | Query, contesto, risposta |
Per altre informazioni, vedere Analizzatori di rischi e sicurezza.
Agenti (anteprima)
| Valutatore | Scopo | Input |
|---|---|---|
| Risoluzione delle intenzioni | Misura quanto accuratamente l'agente identifica e indirizza le intenzioni dell'utente. | Query, risposta |
| Conformità delle attività | Misura il modo in cui l'agente segue nelle attività identificate. | Query, risposta, definizioni degli strumenti (facoltativo) |
| Accuratezza della chiamata dello strumento | Misura il modo in cui l'agente seleziona e chiama gli strumenti corretti a. | Query, risposte o chiamate di strumenti, definizioni di strumenti |
| Valutatore | Scopo | Input |
|---|---|---|
| Conformità delle attività | Misura se l'agente segue le attività identificate in base alle istruzioni di sistema. | Query, risposta, definizioni di strumenti (facoltativo) |
| Il completamento dell'attività | Misura se l'agente ha completato correttamente l'attività richiesta dall'inizio alla fine. | Query, risposta, definizioni di strumenti (facoltativo) |
| Risoluzione delle intenzioni | Misura quanto accuratamente l'agente identifica e indirizza le intenzioni dell'utente. | Query, risposta, definizioni di strumenti (facoltativo) |
| Efficienza della navigazione delle attività | Determina se la sequenza di passaggi dell'agente corrisponde a un percorso ottimale o previsto per misurare l'efficienza. | Risposta, verità fondata |
| Accuratezza della chiamata dello strumento | Misura la qualità complessiva delle chiamate degli strumenti, tra cui la selezione, la correttezza dei parametri e l'efficienza. | Query, definizioni di strumenti, chiamate di strumenti (facoltativo), risposta |
| Selezione degli strumenti | Misura se l'agente ha selezionato gli strumenti più appropriati ed efficienti per un'attività. | Query, definizioni di strumenti, chiamate di strumenti (facoltativo), risposta |
| Accuratezza dello strumento di input | Verifica che tutti i parametri di chiamata dello strumento siano corretti in base a criteri rigorosi, tra cui messa a terra, tipo, formato, completezza e appropriatezza. | Query, risposta, definizioni di strumenti |
| Utilizzo dell'output degli strumenti | Misura se l'agente interpreta correttamente e usa gli output degli strumenti contestualmente nelle risposte e nelle chiamate successive. | Query, risposta, definizioni di strumenti (facoltativo) |
| Chiamata strumento riuscita | Valuta se tutte le chiamate degli strumenti vengono eseguite correttamente senza errori tecnici. | Risposta, definizioni di strumenti (facoltativo) |
Per altre informazioni, vedere Valutatori dell'agente.
Classificatori di Azure OpenAI (anteprima)
| Valutatore | Scopo | Input |
|---|---|---|
| Etichettatrice di Modelli | Classifica il contenuto usando linee guida ed etichette personalizzate. | Query, risposta, verità di base |
| Controllo stringhe | Esegue convalide di testo flessibili e corrispondenza di modelli. | Risposta |
| Somiglianza del testo | Valuta la qualità del testo o determina la prossimità semantica. | Risposta, verità sul terreno |
| Scorer del modello | Genera punteggi numerici (intervallo personalizzato) per il contenuto in base alle linee guida personalizzate. | Query, risposta, verità di base |
Per altre informazioni, vedere Azure OpenAI Graders.
Valutatori nel ciclo di vita di sviluppo
Usando questi analizzatori in modo strategico durante tutto il ciclo di vita di sviluppo, i team possono creare applicazioni di intelligenza artificiale più affidabili, sicure ed efficaci che soddisfano le esigenze degli utenti riducendo al minimo i potenziali rischi.
Le tre fasi della valutazione GenAIOps
GenAIOps usa le tre fasi seguenti.
Selezione del modello di base
Prima di compilare l'applicazione, è necessario selezionare le basi corrette. Questa valutazione iniziale consente di confrontare modelli diversi in base a:
- Qualità e accuratezza: quanto sono rilevanti e coerenti le risposte del modello?
- Prestazioni delle attività: il modello gestisce in modo efficiente i casi d'uso specifici?
- Considerazioni etiche: il modello è libero da pregiudizi dannosi?
- Profilo di sicurezza: qual è il rischio di generare contenuti non sicuri?
Strumenti disponibili: Benchmark di Microsoft Foundry per il confronto di modelli su set di dati pubblici o dati personalizzati e Azure AI Evaluation SDK per il test di endpoint di modello specifici.
Valutazione della preproduzione
Dopo aver selezionato un modello di base, il passaggio successivo consiste nello sviluppare un agente o un'applicazione di intelligenza artificiale. Prima di eseguire la distribuzione in un ambiente di produzione, è essenziale eseguire test approfonditi per assicurarsi che l'agente di intelligenza artificiale o l'applicazione sia pronto per l'uso reale.
La valutazione della preproduzione prevede:
- Test con dataset di valutazione: questi dataset simulano interazioni utente realistiche per garantire che l'agente di intelligenza artificiale operi come previsto.
- Identificazione dei casi perimetrali: trovare scenari in cui la qualità della risposta dell'agente di intelligenza artificiale potrebbe degradare o produrre output indesiderati.
- Valutazione dell'affidabilità: garantire che l'agente di intelligenza artificiale possa gestire una serie di variazioni di input senza cali significativi di qualità o sicurezza.
- Misurazione delle metriche chiave: le metriche, ad esempio la conformità delle attività, la necessità di risposta, la pertinenza e la sicurezza, vengono valutate per confermare l'idoneità per la produzione.
La fase di preproduzione funge da controllo di qualità finale, riducendo il rischio di distribuire un agente o un'applicazione di intelligenza artificiale che non soddisfa gli standard di sicurezza o prestazioni desiderati.
Strumenti e approcci di valutazione:
Bring Your Own Data: È possibile valutare gli agenti di intelligenza artificiale e le applicazioni in pre-produzione utilizzando i propri dati di valutazione con valutatori supportati, tra cui qualità, sicurezza o valutatori personalizzati, e visualizzare i risultati tramite il portale Foundry. Usare la procedura guidata di valutazione di Foundry o i valutatori degli SDK di valutazione Azure AI supportati, tra cui qualità di generazione, sicurezza o valutatori personalizzati. Visualizzare i risultati usando il portale Foundry.
Simulatori e agente di red teaming dell'intelligenza artificiale: se non si dispone di dati di valutazione (dati di test), i simulatori di Azure AI Evaluation SDK possono essere utili generando query correlate a determinati argomenti o di tipo antagonista. Questi simulatori testano la risposta del modello alle query appropriate alla situazione o simili agli attacchi (casi limite).
- L'agente di red teaming di intelligenza artificiale simula attacchi avversari complessi contro il tuo sistema di intelligenza artificiale usando un'ampia gamma di attacchi di sicurezza e protezione utilizzando il framework aperto Microsoft per il Python Risk Identification Tool (PyRIT).
- I simulatori antagonisti inseriscono query statiche che simulano potenziali rischi di sicurezza o attacchi di sicurezza, ad esempio i tentativi di jailbreak, aiutando a identificare le limitazioni e a preparare il modello per condizioni impreviste.
- I simulatori appropriati al contesto generano conversazioni tipiche e rilevanti che ci si aspetta dagli utenti per testare la qualità delle risposte. Con i simulatori appropriati per il contesto è possibile valutare metriche come base, pertinenza, coerenza e fluenza delle risposte generate.
Le analisi automatizzate che utilizzano l'agente di red teaming di intelligenza artificiale ottimizzano la valutazione dei rischi nella fase di pre-produzione, testando sistematicamente le applicazioni di intelligenza artificiale per individuare potenziali rischi. Questo processo prevede scenari di attacco simulati per identificare i punti deboli nelle risposte del modello prima della distribuzione reale. Eseguendo analisi di red teaming di intelligenza artificiale, è possibile rilevare e attenuare potenziali problemi di sicurezza prima della distribuzione. Questo strumento è consigliato per essere usato con processi che prevedono l'intervento umano, come le esplorazioni red teaming dell'intelligenza artificiale, per accelerare l'identificazione dei rischi e facilitare la valutazione da parte di un esperto umano.
In alternativa, è anche possibile usare il portale Foundry per testare le applicazioni di intelligenza artificiale generative.
Bring Your Own Data (Bring Your Own Data): è possibile valutare le applicazioni di intelligenza artificiale in preproduzione usando i propri dati di valutazione con analizzatori supportati, tra cui qualità di generazione, sicurezza o analizzatori personalizzati e visualizzare i risultati tramite il portale Foundry. Usare la procedura guidata di valutazione di Foundry o i valutatori supportati di Azure AI Evaluation SDK, tra cui qualità della generazione, sicurezza o valutatori personalizzati e visualizzare i risultati tramite il portale Foundry.
Simulatori e agente di red teaming per intelligenza artificiale: se non si dispone di dati di valutazione (dati di test), i simulatori possono essere utili tramite la generazione di query correlate all'argomento o antagoniste. Questi simulatori testano la risposta del modello alle query appropriate alla situazione o simili agli attacchi (casi limite).
L'agente di red teaming di intelligenza artificiale simula attacchi avversari complessi contro il tuo sistema di intelligenza artificiale usando un'ampia gamma di attacchi di sicurezza e protezione utilizzando il framework aperto Microsoft per il Python Risk Identification Tool (PyRIT).
Le analisi automatizzate che usano l'agente di red teaming per intelligenza artificiale migliorano la valutazione dei rischi pre-produzione testando sistematicamente le applicazioni IA per i rischi. Questo processo prevede scenari di attacco simulati per identificare i punti deboli nelle risposte del modello prima della distribuzione reale. Eseguendo analisi di red teaming di intelligenza artificiale, è possibile rilevare e attenuare potenziali problemi di sicurezza prima della distribuzione. Questo strumento è consigliato per essere usato con processi che prevedono l'intervento umano, come le esplorazioni red teaming dell'intelligenza artificiale, per accelerare l'identificazione dei rischi e facilitare la valutazione da parte di un esperto umano.
In alternativa, è anche possibile usare il portale Foundry per testare le applicazioni di intelligenza artificiale generative.
Dopo aver ottenuti risultati soddisfacenti, è possibile distribuire l'applicazione di intelligenza artificiale nell'ambiente di produzione.
Monitoraggio post-produzione
Dopo la distribuzione, il monitoraggio continuo garantisce che l'applicazione di intelligenza artificiale mantenga la qualità in condizioni reali.
Dopo la distribuzione, il monitoraggio continuo garantisce che l'applicazione di intelligenza artificiale mantenga la qualità in condizioni reali.
- Metriche operative: misurazione regolare delle metriche operative dell'agente di intelligenza artificiale chiave.
- Valutazione continua: abilita la valutazione della qualità e della sicurezza del traffico di produzione a una velocità campionata.
- Valutazione pianificata: consente la valutazione pianificata della qualità e della sicurezza usando un set di dati di test per rilevare la deriva nei sistemi sottostanti.
- Red Teaming pianificato: fornisce capacità di test antagonisti programmati per verificare le vulnerabilità di sicurezza e protezione.
- Avvisi di Monitoraggio di Azure: azione Swift quando si verificano output dannosi o inappropriati. Impostare avvisi per la valutazione continua per ricevere una notifica quando i risultati diminuiscono al di sotto della soglia di superamento in produzione.
Un monitoraggio efficace consente di mantenere la fiducia degli utenti e consente una rapida risoluzione dei problemi.
L'osservabilità offre funzionalità di monitoraggio complete essenziali per il panorama di IA complesso e in rapida evoluzione. Perfettamente integrato con Application Insights di Monitoraggio di Azure, questa soluzione consente il monitoraggio continuo delle applicazioni di intelligenza artificiale distribuite per garantire prestazioni, sicurezza e qualità ottimali negli ambienti di produzione.
Il dashboard Foundry Observability offre informazioni dettagliate in tempo reale sulle metriche critiche. Consente ai team di identificare e risolvere rapidamente problemi di prestazioni, problemi di sicurezza o riduzione della qualità.
Per le applicazioni basate su agent, Foundry offre funzionalità avanzate di valutazione continua. Queste funzionalità possono offrire visibilità più approfondita sulle metriche di qualità e sicurezza. Possono creare un solido ecosistema di monitoraggio che si adatta alla natura dinamica delle applicazioni di intelligenza artificiale mantenendo allo stesso tempo standard elevati di prestazioni e affidabilità.
Monitorando continuamente il comportamento dell'applicazione di intelligenza artificiale nell'ambiente di produzione, è possibile mantenere esperienze utente di alta qualità e risolvere rapidamente eventuali problemi che si verificano.
Creazione di una fiducia attraverso una valutazione sistematica
GenAIOps stabilisce un processo affidabile per la gestione delle applicazioni di intelligenza artificiale durante il ciclo di vita. Implementando una valutazione approfondita in ogni fase, dalla selezione dei modelli alla distribuzione e oltre, i team possono creare soluzioni di intelligenza artificiale non solo potenti ma affidabili e sicure.
Foglio informativo sulla valutazione
| Scopo | Processo | Parametri, linee guida ed esempi |
|---|---|---|
| Che cosa stai valutando? | Identificare o compilare analizzatori pertinenti |
-
Notebook di esempio di qualità e prestazioni - Qualità della risposta degli agenti - Sicurezza e protezione (notebook di esempio di sicurezza e protezione) - Personalizzato (notebook di esempio personalizzato) |
| Quali dati è necessario usare? | Caricare o generare un set di dati pertinente |
-
Simulatore generico per misurare qualità e prestazioni (notebook di esempio del simulatore generico) - Simulatore antagonista per misurare sicurezza e sicurezza (notebook di esempio del simulatore antagonista) - Agente di red teaming AI per eseguire analisi automatizzate e valutare le vulnerabilità di sicurezza (notebook di esempio dell'agente di red teaming AI) |
| Come eseguire valutazioni su un set di dati? | Eseguire la valutazione |
-
Sessioni di valutazione dell'agente - Esecuzione del cloud remoto - Esecuzione locale |
| Come ha eseguito il modello o l'app? | Analizzare i risultati | - Visualizza i punteggi aggregati, visualizza i dettagli, visualizza i dettagli dei punteggi, confronta le esecuzioni di valutazione |
| Come posso migliorare? | Apportare modifiche a modelli, app o analizzatori | - Se i risultati della valutazione non sono allineati al feedback umano, modificare l'analizzatore. - Se i risultati della valutazione sono allineati al feedback umano ma non soddisfano le soglie di qualità/sicurezza, applicare mitigazioni mirate. Esempio di mitigazioni da applicare: Sicurezza dei contenuti di Azure per intelligenza artificiale |
| Scopo | Processo | Parametri, linee guida ed esempi |
|---|---|---|
| Che cosa stai valutando? | Identificare o compilare analizzatori pertinenti |
-
Qualità RAG - Qualità degli agenti - Sicurezza e protezione (notebook di esempio di sicurezza e protezione) - Personalizzato (notebook di esempio personalizzato) |
| Quali dati è necessario usare? | Caricare o generare un set di dati pertinente |
-
Generazione di set di dati sintetici - Agente di red teaming AI per eseguire analisi automatizzate e valutare le vulnerabilità di sicurezza (notebook di esempio dell'agente di red teaming AI) |
| Come eseguire valutazioni su un set di dati? | Eseguire la valutazione |
-
Sessioni di valutazione dell'agente - Esecuzione del cloud remoto |
| Come ha eseguito il modello o l'app? | Analizzare i risultati | - Visualizza i punteggi aggregati, visualizza i dettagli, visualizza i dettagli dei punteggi, confronta le esecuzioni di valutazione |
| Come posso migliorare? | Apportare modifiche a modelli, app o analizzatori | - Se i risultati della valutazione non sono allineati al feedback umano, modificare l'analizzatore. - Se i risultati della valutazione sono allineati al feedback umano ma non soddisfano le soglie di qualità/sicurezza, applicare mitigazioni mirate. Esempio di mitigazioni da applicare: Sicurezza dei contenuti di Azure per intelligenza artificiale |
Portare una propria rete virtuale per la valutazione
Ai fini dell'isolamento della rete è possibile usare la propria rete virtuale per la valutazione. Per altre informazioni, vedere Come configurare un collegamento privato.
Annotazioni
I dati di valutazione vengono inviati ad Application Insights se Application Insights è connesso. Il supporto per la rete virtuale per Application Insights e il tracciamento non è disponibile.
Supporto dell'area di rete virtuale
La funzione "bring your own virtual network" per la valutazione è supportata in tutte le aree, ad eccezione dell'India Centrale, dell'Asia Orientale, dell'Europa Settentrionale e del Qatar Centrale.
Supporto di area
Attualmente alcuni analizzatori assistito da intelligenza artificiale sono disponibili solo nelle aree seguenti:
| Area geografica | Odio e ingiustizia, sessualità, violento, autolesionismo, attacco indiretto, vulnerabilità del codice, attributi non in primo piano | Aderenza al contesto Pro | Materiale protetto |
|---|---|---|---|
| Stati Uniti orientali 2 | Sostenuto | Sostenuto | Sostenuto |
| Svezia centrale | Sostenuto | Sostenuto | Non disponibile |
| Stati Uniti centro-settentrionali | Sostenuto | Non disponibile | Non disponibile |
| Francia centrale | Sostenuto | Non disponibile | Non disponibile |
| Svizzera occidentale | Sostenuto | Non disponibile | Non disponibile |
Supporto per l'area di valutazione del playground dell'agente
| Area geografica | Stato |
|---|---|
| East US | Sostenuto |
| Stati Uniti orientali 2 | Sostenuto |
| West US | Sostenuto |
| West US 2 (Regione Ovest degli Stati Uniti 2) | Sostenuto |
| Stati Uniti occidentali 3 | Sostenuto |
| Francia centrale | Sostenuto |
| Norway East | Sostenuto |
| Svezia centrale | Sostenuto |
Tariffazione
Le funzionalità di osservabilità, ad esempio valutazioni di rischio e sicurezza e valutazioni continue, vengono fatturate in base al consumo, come indicato nella pagina dei prezzi di Azure.