Condividi tramite


Visualizzare i risultati della valutazione nel portale di Microsoft Foundry

Annotazioni

Questo documento fa riferimento al portale di Microsoft Foundry (versione classica).

🔄 Passa alla nuova documentazione di Microsoft Foundry se si usa il nuovo portale.

Annotazioni

Questo documento fa riferimento al portale di Microsoft Foundry (nuovo).

Informazioni su come visualizzare i risultati della valutazione nel portale di Microsoft Foundry. Visualizzare e interpretare i dati di valutazione del modello di intelligenza artificiale, le metriche delle prestazioni e le valutazioni della qualità. Accedere ai risultati dai flussi, dalle sessioni del playground e dall'SDK per prendere decisioni basate sui dati.

Dopo aver visualizzato i risultati della valutazione, esaminarli accuratamente. Visualizzare i singoli risultati, confrontarli tra più esecuzioni di valutazione e identificare tendenze, modelli e discrepanze per ottenere informazioni dettagliate sulle prestazioni del sistema di intelligenza artificiale in diverse condizioni.

In questo articolo si apprenderà come:

  • Trova e apri le sessioni di valutazione.
  • Visualizzare le metriche aggregate e a livello di esempio.
  • Confrontare i risultati tra le esecuzioni.
  • Interpretare le categorie e i calcoli delle metriche.
  • Risolvere i problemi relativi alle metriche mancanti o parziali.

Visualizzare i risultati della valutazione

Dopo aver inviato una valutazione, individuare l'esecuzione nella pagina Valutazione. Filtrare o adattare le colonne per concentrarsi sulle sessioni di interesse. Esaminare a colpo d'occhio le metriche di alto livello prima di eseguire il drill-in.

Suggerimento

È possibile visualizzare un'esecuzione di valutazione con qualsiasi versione dell'SDK promptflow-evals o azure-ai-evaluation delle versioni 1.0.0b1, 1.0.0b2, 1.0.0b3. Abilitare l'interruttore Mostra tutte le esecuzioni per individuare l'esecuzione.

Selezionare Altre informazioni sulle metriche per definizioni e formule.

Screenshot che mostra i dettagli delle metriche di valutazione.

Selezionare un'esecuzione per aprire i dettagli (set di dati, tipo di compito, richiesta, parametri) oltre alle metriche per campione. Il dashboard delle metriche visualizza la frequenza di passaggio o il punteggio di aggregazione per metrica.

Attenzione

Gli utenti che in precedenza hanno gestito le distribuzioni del modello ed eseguito valutazioni usando oai.azure.com e che poi hanno effettuato l'onboarding sulla piattaforma per sviluppatori Microsoft Foundry, hanno queste limitazioni quando usano ai.azure.com:

  • Questi utenti non possono visualizzare le valutazioni create tramite l'API OpenAI di Azure. Per visualizzare queste valutazioni, è necessario tornare a oai.azure.com.
  • Questi utenti non possono usare l'API OpenAI di Azure per eseguire valutazioni all'interno di Foundry. Devono invece continuare a usare oai.azure.com per questa attività. Tuttavia, possono usare gli analizzatori OpenAI di Azure disponibili direttamente in Foundry (ai.azure.com) nell'opzione per la creazione della valutazione del set di dati. L'opzione per la valutazione del modello ottimizzata non è supportata se la distribuzione è una migrazione da Azure OpenAI a Foundry.

Per lo scenario di caricamento del set di dati e bring your own storage, esistono alcuni requisiti di configurazione:

  • L'autenticazione dell'account deve essere Microsoft Entra ID.
  • L'archiviazione deve essere aggiunta all'account. L'aggiunta al progetto causa errori del servizio.
  • Gli utenti devono aggiungere il progetto al proprio account di archiviazione tramite il controllo di accesso nel portale di Azure.

Per altre informazioni sulla creazione di valutazioni con i classificatori di valutazione OpenAI nell'hub OpenAI di Azure, vedere Come usare Azure OpenAI nella valutazione dei modelli Foundry.

In una fonderia viene introdotto il concetto di esecuzioni di gruppo. È possibile creare più esecuzioni all'interno di un gruppo che condividono caratteristiche comuni, ad esempio metriche e set di dati, per semplificare il confronto. Dopo aver eseguito una valutazione, individuare il gruppo nella pagina Valutazione , che contiene un elenco di valutazioni di gruppo e metadati associati, ad esempio il numero di destinazioni e la data dell'ultima modifica.

Selezionare un'esecuzione di gruppo per esaminare i dettagli del gruppo, inclusa ogni esecuzione e metriche di livello superiore, ad esempio durata dell'esecuzione, token e punteggi delle valutazioni, per ogni esecuzione all'interno di tale gruppo.

Selezionando un'esecuzione all'interno di questo gruppo, è anche possibile eseguire l'analisi per visualizzare i dati dettagliati della riga per tale esecuzione specifica.

Selezionare Altre informazioni sulle metriche per definizioni e formule.

Dashboard delle metriche

Nella sezione Dashboard metrica le visualizzazioni aggregate vengono suddivise in base alle metriche che includono la qualità dell'intelligenza artificiale (intelligenza artificiale assistita), i rischi e la sicurezza (anteprima), la qualità dell'intelligenza artificiale (NLP) e personalizzata (se applicabile). I risultati vengono misurati come percentuali di superamento/esito negativo in base ai criteri selezionati al momento della creazione della valutazione. Per informazioni più approfondite sulle definizioni delle metriche e su come vengono calcolate, vedere Che cosa sono gli analizzatori?.

  • Per le metriche di qualità dell'intelligenza artificiale (AI Assisted), i risultati vengono aggregati mediando tutti i punteggi per metrica. Se si usa Groundedness Pro, l'output è binario e il punteggio aggregato è la percentuale di superamento: (#trues / #instances) × 100. Screenshot che mostra la scheda Dashboard delle metriche di qualità dell'intelligenza artificiale (AI Assisted).
  • Per le metriche rischio e sicurezza (anteprima), i risultati vengono aggregati in base alla percentuale di difetti.
    • Danno al contenuto: percentuale di istanze che superano la soglia di gravità (impostazione predefinita Medium).
    • Per il materiale protetto e l'attacco indiretto, la percentuale di difetti viene calcolata come percentuale di istanze in cui l'output è true tramite la formula (Defect Rate = (#trues / #instances) × 100). Screenshot che mostra la scheda dashboard delle metriche di rischio e sicurezza.
  • Per le metriche di qualità dell'intelligenza artificiale (NLP), i risultati vengono aggregati in base alla media dei punteggi per metrica. Screenshot che mostra la scheda Dashboard di qualità dell'intelligenza artificiale (NLP).

Risultati delle esecuzioni delle valutazioni e tasso di superamento

È possibile visualizzare ogni esecuzione all'interno di un gruppo nella pagina dedicata alle esecuzioni delle valutazioni e al tasso di superamento dei risultati. Questa visualizzazione mostra l'esecuzione, la destinazione, lo stato, la durata dell'esecuzione, i token e la frequenza di passaggio per ogni analizzatore scelto.

Se si desidera annullare le esecuzioni, è possibile farlo selezionando ogni esecuzione e facendo clic su "Annulla esecuzioni" nella parte superiore della tabella.

Tabella dei risultati delle metriche dettagliata

Usare la tabella sotto il dashboard per esaminare ogni esempio di dati. Ordinare in base a una metrica per visualizzare campioni con prestazioni peggiori e identificare lacune sistematiche (risultati non corretti, errori di sicurezza, latenza). Utilizzare la funzione di ricerca per raggruppare gli argomenti relativi ai guasti correlati. Applicare la personalizzazione delle colonne per concentrarsi sulle metriche chiave.

Azioni tipiche:

  • Filtrare i punteggi bassi per rilevare modelli ricorrenti.
  • Regolare le richieste o ottimizzarle quando si manifestano lacune sistemiche.
  • Esportazione per l'analisi offline.

Ecco alcuni esempi dei risultati delle metriche per lo scenario di risposta alle domande:

Screenshot che mostra i risultati delle metriche per lo scenario di risposta alle domande.

Alcune valutazioni hanno sottovalutatori, che consentono di visualizzare il codice JSON dei risultati delle sottovalutazioni. Per visualizzare i risultati, selezionare Visualizza in JSON.

Screenshot che mostra i risultati dettagliati delle metriche con JSON selezionato.

Visualizzare il codice JSON nell'anteprima JSON:

Screenshot che mostra l'anteprima JSON.

Ecco alcuni esempi dei risultati delle metriche per lo scenario di conversazione. Per esaminare i risultati in una conversazione a più turni, selezionare Visualizza i risultati di valutazione a turno nella colonna Conversazione .

Screenshot che mostra i risultati delle metriche per lo scenario di conversazione.

Quando si seleziona Visualizza risultati di valutazione a turno, viene visualizzata la schermata seguente:

Screenshot che mostra i risultati della valutazione per turno.

Per una valutazione della sicurezza in uno scenario multi modale (testo e immagini), è possibile comprendere meglio il risultato della valutazione esaminando le immagini sia dall'input che dall'output nella tabella dei risultati delle metriche dettagliate. Poiché la valutazione multi modale è attualmente supportata solo per gli scenari di conversazione, è possibile selezionare Visualizza risultati di valutazione a turno per esaminare l'input e l'output per ogni turno.

Screenshot che mostra la finestra di dialogo immagini presente nella colonna di conversazione.

Selezionare l'immagine per espanderla e visualizzarla. Per impostazione predefinita, tutte le immagini sono sfocate per la protezione da contenuti potenzialmente dannosi. Per visualizzare chiaramente l'immagine, attivare l'opzione Controllo sfocatura immagine.

Screenshot che mostra un'immagine sfocata e l'interruttore Controlla sfocatura immagine.

I risultati della valutazione possono avere significati diversi per gruppi di destinatari diversi. Ad esempio, le valutazioni di sicurezza potrebbero generare un'etichetta per gravità bassa del contenuto violento che potrebbe non essere allineato alla definizione di un revisore umano del livello di gravità di tale contenuto violento specifico. Il punteggio di passaggio grado impostato durante la creazione della valutazione determina se viene assegnato un esito positivo o negativo. È disponibile una colonna Feedback umano in cui è possibile selezionare un'icona a forma di pollice verso l'alto o verso il basso mentre si esaminano i risultati della valutazione. È possibile usare questa colonna per registrare le istanze approvate o contrassegnate come non corrette da un revisore umano.

Screenshot che mostra i risultati delle metriche di rischio e sicurezza con feedback umano.

Per comprendere ogni metrica del rischio di contenuto, visualizzare le definizioni delle metriche nella sezione Report o esaminare il test nella sezione Dashboard metrica .

In caso di problemi con l'esecuzione, è anche possibile usare i log per eseguire il debug dell'esecuzione della valutazione. Ecco alcuni esempi di log che è possibile usare per eseguire il debug dell'esecuzione della valutazione:

Schermata che mostra i log che è possibile utilizzare per effettuare il debug di un'esecuzione di valutazione.

Se si sta valutando un flusso di richiesta, è possibile selezionare il pulsante Visualizza nel flusso per passare alla pagina del flusso valutato e aggiornare il flusso. Ad esempio, è possibile aggiungere istruzioni aggiuntive per il prompt dei metadati o modificare alcuni parametri e rivalutare.

Dati di esecuzione della valutazione

Per visualizzare i dati turn by turn per singole esecuzioni, selezionare il nome dell'esecuzione. In questo modo viene fornita una visualizzazione che consente di visualizzare i risultati della valutazione per volta rispetto a ogni analizzatore usato.

Confrontare i risultati della valutazione

Per confrontare due o più esecuzioni, selezionare le esecuzioni desiderate e avviare il processo. Selezionare il pulsante Confronta o il pulsante Passa alla visualizzazione dashboard per una visualizzazione dashboard dettagliata. Analizzare e confrontare le prestazioni e i risultati di più esecuzioni per prendere decisioni informate e miglioramenti mirati.

Screenshot che mostra l'opzione per confrontare le valutazioni.

Nella visualizzazione dashboard è possibile accedere a due componenti importanti: il grafico di confronto della distribuzione delle metriche e la tabella di confronto. È possibile usare questi strumenti per eseguire un'analisi side-by-side delle esecuzioni di valutazione selezionate. È possibile confrontare vari aspetti di ogni campione di dati con facilità e precisione.

Annotazioni

Per impostazione predefinita, le esecuzioni di valutazione precedenti hanno righe corrispondenti tra le colonne. Tuttavia, le valutazioni appena eseguite devono essere configurate intenzionalmente per avere colonne corrispondenti durante la creazione della valutazione. Verificare che lo stesso nome venga usato come valore Nome criteri in tutte le valutazioni da confrontare.

Lo screenshot seguente mostra i risultati quando i campi sono uguali:

Screenshot che mostra valutazioni automatizzate quando i campi sono uguali.

Quando un utente non usa lo stesso nome criteri nella creazione della valutazione, i campi non corrispondono, il che fa sì che la piattaforma non sia in grado di confrontare direttamente i risultati:

Screenshot che mostra valutazioni automatizzate quando i campi non sono uguali.

Nella tabella di confronto, passare il puntatore del mouse sull'esecuzione che si vuole usare come punto di riferimento e impostarla come baseline. Attivare l'interruttore Mostra delta per visualizzare le differenze tra la linea di base e altre esecuzioni per i valori numerici. Selezionare l'interruttore Mostra solo differenza per visualizzare solo le righe che differiscono tra le esecuzioni selezionate, consentendo di identificare le varianti.

Usando queste funzionalità di confronto, è possibile prendere una decisione informata per selezionare la versione migliore:

  • Confronto tra baseline: impostando un'esecuzione di base, è possibile identificare un punto di riferimento in base al quale confrontare le altre esecuzioni. È possibile vedere come ogni esecuzione devia dallo standard scelto.
  • Valutazione numerica dei valori: l'abilitazione dell'opzione Mostra delta consente di comprendere l'entità delle differenze tra la baseline e altre esecuzioni. Queste informazioni possono aiutarti a valutare come si comportano le diverse esecuzioni in termini di metriche di valutazione specifiche.
  • Isolamento differenza: la funzionalità Mostra solo differenza semplifica l'analisi evidenziando solo le aree in cui sono presenti discrepanze tra le esecuzioni. Queste informazioni possono essere fondamentali per individuare dove sono necessari miglioramenti o regolazioni.

Usare gli strumenti di confronto per scegliere la configurazione con prestazioni migliori ed evitare regressioni in sicurezza o a terra.

Screenshot che mostra i risultati della valutazione fianco a fianco.

Per semplificare un confronto completo tra due o più esecuzioni, è possibile selezionare le esecuzioni desiderate e avviare il processo.

  1. Selezionare due o più esecuzioni nella pagina dei dettagli di valutazione.
  2. Selezionare Confronta.

Genera una visualizzazione di confronto affiancata per tutte le esecuzioni selezionate.

Il confronto viene calcolato in base al test t statistica, che offre risultati più sensibili e affidabili per prendere decisioni. È possibile usare diverse funzionalità di questa funzionalità:

  • Confronto tra baseline: impostando un'esecuzione di base, è possibile identificare un punto di riferimento in base al quale confrontare le altre esecuzioni. È possibile vedere come ogni esecuzione devia dallo standard scelto.
  • Valutazione t-testing statistica: ogni cella fornisce i risultati stat-sig con codici di colore diversi. È anche possibile passare il puntatore del mouse sulla cella per ottenere le dimensioni del campione e il valore p.
Leggenda Definition
ImprovedStrong Statisticamente altamente significativo (p<=0,001) e nella direzione desiderata
ImprovedWeak Stat-sig (0.001<p<=0.05) e spostato nella direzione desiderata
DegradedStrong Statisticamente altamente significativo (p<=0,001) e nella direzione errata
DegradedWeak Stat-sig (0.001<p<=0.05) e spostato nella direzione sbagliata
ChangedStrong Altamente significativa dal punto di vista statistico (p<=0.001) e la direzione desiderata è neutra
ChangedWeak Stat-sig (0.001<p<=0.05) e la direzione desiderata è neutra
Senza risultati Troppi pochi esempi o p>=0.05

Annotazioni

La visualizzazione di confronto non verrà salvata. Se si lascia la pagina, è possibile deselezionare nuovamente le esecuzioni e selezionare Confronta per rigenerare la visualizzazione.

Misurare la vulnerabilità di jailbreak

La valutazione della vulnerabilità di jailbreak è una misurazione comparativa, non una metrica assistita dall'intelligenza artificiale. Eseguire valutazioni su due set di dati diversi e con red team: un set di dati di test antagonista di base rispetto allo stesso set di dati di test antagonista con iniezioni di jailbreak nel primo turno. È possibile usare il simulatore di dati antagonisti per generare il set di dati con o senza iniezioni di jailbreak. Assicurarsi che il valore Nome criteri sia lo stesso per ogni metrica di valutazione quando si configurano le esecuzioni.

Per verificare se l'applicazione è vulnerabile al jailbreak, specificare la linea di base e attivare l'opzione Tassi di difetto del jailbreak nella tabella di confronto. La percentuale di difetti di jailbreak è la percentuale di istanze nel set di dati di test in cui un'iniezione di jailbreak genera un punteggio di gravità superiore per qualsiasi metrica di rischio del contenuto rispetto a una baseline nell'intero set di dati. Selezionare più valutazioni nel dashboard Confronta per visualizzare la differenza nei tassi di difetto.

Screenshot dei risultati affiancati della valutazione con il difetto di jailbreak attivato.

Suggerimento

Il tasso di difetto di jailbreak viene calcolato solo per i set di dati delle stesse dimensioni e quando tutte le esecuzioni includono metriche di rischio e sicurezza del contenuto.

Ottenere informazioni sulle metriche di valutazione integrate

Comprendere le metriche predefinite è essenziale per valutare le prestazioni e l'efficacia dell'applicazione di intelligenza artificiale. Apprendendo questi strumenti di misurazione chiave, è possibile interpretare i risultati, prendere decisioni informate e ottimizzare l'applicazione per ottenere risultati ottimali.

Per altre informazioni, vedere Che cosa sono gli analizzatori?

Risoluzione dei problemi

Sintomo Possibile causa Action
Il processo rimane in sospeso Carichi elevati di servizi o processi in coda Aggiornare, verificare la quota e inviare di nuovo se prolungato
Metriche mancanti Non selezionato al momento della creazione Rieseguire e selezionare le metriche necessarie
Tutte le metriche di sicurezza zero Categoria disabilitata o modello non supportata Confermare la matrice di supporto per modelli e metriche
Il radicamento è inaspettatamente basso Recupero/contesto incompleto Verificare la latenza di costruzione/recupero del contesto

Informazioni su come valutare le applicazioni di intelligenza artificiale generative: