Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Annotazioni
Questo documento fa riferimento al portale di Microsoft Foundry (versione classica).
🔄 Passa alla nuova documentazione di Microsoft Foundry se si usa il nuovo portale.
Annotazioni
Questo documento fa riferimento al portale di Microsoft Foundry (nuovo).
Informazioni su come visualizzare i risultati della valutazione nel portale di Microsoft Foundry. Visualizzare e interpretare i dati di valutazione del modello di intelligenza artificiale, le metriche delle prestazioni e le valutazioni della qualità. Accedere ai risultati dai flussi, dalle sessioni del playground e dall'SDK per prendere decisioni basate sui dati.
Dopo aver visualizzato i risultati della valutazione, esaminarli accuratamente. Visualizzare i singoli risultati, confrontarli tra più esecuzioni di valutazione e identificare tendenze, modelli e discrepanze per ottenere informazioni dettagliate sulle prestazioni del sistema di intelligenza artificiale in diverse condizioni.
In questo articolo si apprenderà come:
- Trova e apri le sessioni di valutazione.
- Visualizzare le metriche aggregate e a livello di esempio.
- Confrontare i risultati tra le esecuzioni.
- Interpretare le categorie e i calcoli delle metriche.
- Risolvere i problemi relativi alle metriche mancanti o parziali.
Visualizzare i risultati della valutazione
Dopo aver inviato una valutazione, individuare l'esecuzione nella pagina Valutazione. Filtrare o adattare le colonne per concentrarsi sulle sessioni di interesse. Esaminare a colpo d'occhio le metriche di alto livello prima di eseguire il drill-in.
Suggerimento
È possibile visualizzare un'esecuzione di valutazione con qualsiasi versione dell'SDK promptflow-evals o azure-ai-evaluation delle versioni 1.0.0b1, 1.0.0b2, 1.0.0b3. Abilitare l'interruttore Mostra tutte le esecuzioni per individuare l'esecuzione.
Selezionare Altre informazioni sulle metriche per definizioni e formule.
Selezionare un'esecuzione per aprire i dettagli (set di dati, tipo di compito, richiesta, parametri) oltre alle metriche per campione. Il dashboard delle metriche visualizza la frequenza di passaggio o il punteggio di aggregazione per metrica.
Attenzione
Gli utenti che in precedenza hanno gestito le distribuzioni del modello ed eseguito valutazioni usando oai.azure.com e che poi hanno effettuato l'onboarding sulla piattaforma per sviluppatori Microsoft Foundry, hanno queste limitazioni quando usano ai.azure.com:
- Questi utenti non possono visualizzare le valutazioni create tramite l'API OpenAI di Azure. Per visualizzare queste valutazioni, è necessario tornare a
oai.azure.com. - Questi utenti non possono usare l'API OpenAI di Azure per eseguire valutazioni all'interno di Foundry. Devono invece continuare a usare
oai.azure.comper questa attività. Tuttavia, possono usare gli analizzatori OpenAI di Azure disponibili direttamente in Foundry (ai.azure.com) nell'opzione per la creazione della valutazione del set di dati. L'opzione per la valutazione del modello ottimizzata non è supportata se la distribuzione è una migrazione da Azure OpenAI a Foundry.
Per lo scenario di caricamento del set di dati e bring your own storage, esistono alcuni requisiti di configurazione:
- L'autenticazione dell'account deve essere Microsoft Entra ID.
- L'archiviazione deve essere aggiunta all'account. L'aggiunta al progetto causa errori del servizio.
- Gli utenti devono aggiungere il progetto al proprio account di archiviazione tramite il controllo di accesso nel portale di Azure.
Per altre informazioni sulla creazione di valutazioni con i classificatori di valutazione OpenAI nell'hub OpenAI di Azure, vedere Come usare Azure OpenAI nella valutazione dei modelli Foundry.
In una fonderia viene introdotto il concetto di esecuzioni di gruppo. È possibile creare più esecuzioni all'interno di un gruppo che condividono caratteristiche comuni, ad esempio metriche e set di dati, per semplificare il confronto. Dopo aver eseguito una valutazione, individuare il gruppo nella pagina Valutazione , che contiene un elenco di valutazioni di gruppo e metadati associati, ad esempio il numero di destinazioni e la data dell'ultima modifica.
Selezionare un'esecuzione di gruppo per esaminare i dettagli del gruppo, inclusa ogni esecuzione e metriche di livello superiore, ad esempio durata dell'esecuzione, token e punteggi delle valutazioni, per ogni esecuzione all'interno di tale gruppo.
Selezionando un'esecuzione all'interno di questo gruppo, è anche possibile eseguire l'analisi per visualizzare i dati dettagliati della riga per tale esecuzione specifica.
Selezionare Altre informazioni sulle metriche per definizioni e formule.
Dashboard delle metriche
Nella sezione Dashboard metrica le visualizzazioni aggregate vengono suddivise in base alle metriche che includono la qualità dell'intelligenza artificiale (intelligenza artificiale assistita), i rischi e la sicurezza (anteprima), la qualità dell'intelligenza artificiale (NLP) e personalizzata (se applicabile). I risultati vengono misurati come percentuali di superamento/esito negativo in base ai criteri selezionati al momento della creazione della valutazione. Per informazioni più approfondite sulle definizioni delle metriche e su come vengono calcolate, vedere Che cosa sono gli analizzatori?.
- Per le metriche di qualità dell'intelligenza artificiale (AI Assisted), i risultati vengono aggregati mediando tutti i punteggi per metrica. Se si usa Groundedness Pro, l'output è binario e il punteggio aggregato è la percentuale di superamento:
(#trues / #instances) × 100.
- Per le metriche rischio e sicurezza (anteprima), i risultati vengono aggregati in base alla percentuale di difetti.
- Danno al contenuto: percentuale di istanze che superano la soglia di gravità (impostazione predefinita
Medium). - Per il materiale protetto e l'attacco indiretto, la percentuale di difetti viene calcolata come percentuale di istanze in cui l'output è
truetramite la formula(Defect Rate = (#trues / #instances) × 100).
- Danno al contenuto: percentuale di istanze che superano la soglia di gravità (impostazione predefinita
- Per le metriche di qualità dell'intelligenza artificiale (NLP), i risultati vengono aggregati in base alla media dei punteggi per metrica.
Risultati delle esecuzioni delle valutazioni e tasso di superamento
È possibile visualizzare ogni esecuzione all'interno di un gruppo nella pagina dedicata alle esecuzioni delle valutazioni e al tasso di superamento dei risultati. Questa visualizzazione mostra l'esecuzione, la destinazione, lo stato, la durata dell'esecuzione, i token e la frequenza di passaggio per ogni analizzatore scelto.
Se si desidera annullare le esecuzioni, è possibile farlo selezionando ogni esecuzione e facendo clic su "Annulla esecuzioni" nella parte superiore della tabella.
Tabella dei risultati delle metriche dettagliata
Usare la tabella sotto il dashboard per esaminare ogni esempio di dati. Ordinare in base a una metrica per visualizzare campioni con prestazioni peggiori e identificare lacune sistematiche (risultati non corretti, errori di sicurezza, latenza). Utilizzare la funzione di ricerca per raggruppare gli argomenti relativi ai guasti correlati. Applicare la personalizzazione delle colonne per concentrarsi sulle metriche chiave.
Azioni tipiche:
- Filtrare i punteggi bassi per rilevare modelli ricorrenti.
- Regolare le richieste o ottimizzarle quando si manifestano lacune sistemiche.
- Esportazione per l'analisi offline.
Ecco alcuni esempi dei risultati delle metriche per lo scenario di risposta alle domande:
Alcune valutazioni hanno sottovalutatori, che consentono di visualizzare il codice JSON dei risultati delle sottovalutazioni. Per visualizzare i risultati, selezionare Visualizza in JSON.
Visualizzare il codice JSON nell'anteprima JSON:
Ecco alcuni esempi dei risultati delle metriche per lo scenario di conversazione. Per esaminare i risultati in una conversazione a più turni, selezionare Visualizza i risultati di valutazione a turno nella colonna Conversazione .
Quando si seleziona Visualizza risultati di valutazione a turno, viene visualizzata la schermata seguente:
Per una valutazione della sicurezza in uno scenario multi modale (testo e immagini), è possibile comprendere meglio il risultato della valutazione esaminando le immagini sia dall'input che dall'output nella tabella dei risultati delle metriche dettagliate. Poiché la valutazione multi modale è attualmente supportata solo per gli scenari di conversazione, è possibile selezionare Visualizza risultati di valutazione a turno per esaminare l'input e l'output per ogni turno.
Selezionare l'immagine per espanderla e visualizzarla. Per impostazione predefinita, tutte le immagini sono sfocate per la protezione da contenuti potenzialmente dannosi. Per visualizzare chiaramente l'immagine, attivare l'opzione Controllo sfocatura immagine.
I risultati della valutazione possono avere significati diversi per gruppi di destinatari diversi. Ad esempio, le valutazioni di sicurezza potrebbero generare un'etichetta per gravità bassa del contenuto violento che potrebbe non essere allineato alla definizione di un revisore umano del livello di gravità di tale contenuto violento specifico. Il punteggio di passaggio grado impostato durante la creazione della valutazione determina se viene assegnato un esito positivo o negativo. È disponibile una colonna Feedback umano in cui è possibile selezionare un'icona a forma di pollice verso l'alto o verso il basso mentre si esaminano i risultati della valutazione. È possibile usare questa colonna per registrare le istanze approvate o contrassegnate come non corrette da un revisore umano.
Per comprendere ogni metrica del rischio di contenuto, visualizzare le definizioni delle metriche nella sezione Report o esaminare il test nella sezione Dashboard metrica .
In caso di problemi con l'esecuzione, è anche possibile usare i log per eseguire il debug dell'esecuzione della valutazione. Ecco alcuni esempi di log che è possibile usare per eseguire il debug dell'esecuzione della valutazione:
Se si sta valutando un flusso di richiesta, è possibile selezionare il pulsante Visualizza nel flusso per passare alla pagina del flusso valutato e aggiornare il flusso. Ad esempio, è possibile aggiungere istruzioni aggiuntive per il prompt dei metadati o modificare alcuni parametri e rivalutare.
Dati di esecuzione della valutazione
Per visualizzare i dati turn by turn per singole esecuzioni, selezionare il nome dell'esecuzione. In questo modo viene fornita una visualizzazione che consente di visualizzare i risultati della valutazione per volta rispetto a ogni analizzatore usato.
Confrontare i risultati della valutazione
Per confrontare due o più esecuzioni, selezionare le esecuzioni desiderate e avviare il processo. Selezionare il pulsante Confronta o il pulsante Passa alla visualizzazione dashboard per una visualizzazione dashboard dettagliata. Analizzare e confrontare le prestazioni e i risultati di più esecuzioni per prendere decisioni informate e miglioramenti mirati.
Nella visualizzazione dashboard è possibile accedere a due componenti importanti: il grafico di confronto della distribuzione delle metriche e la tabella di confronto. È possibile usare questi strumenti per eseguire un'analisi side-by-side delle esecuzioni di valutazione selezionate. È possibile confrontare vari aspetti di ogni campione di dati con facilità e precisione.
Annotazioni
Per impostazione predefinita, le esecuzioni di valutazione precedenti hanno righe corrispondenti tra le colonne. Tuttavia, le valutazioni appena eseguite devono essere configurate intenzionalmente per avere colonne corrispondenti durante la creazione della valutazione. Verificare che lo stesso nome venga usato come valore Nome criteri in tutte le valutazioni da confrontare.
Lo screenshot seguente mostra i risultati quando i campi sono uguali:
Quando un utente non usa lo stesso nome criteri nella creazione della valutazione, i campi non corrispondono, il che fa sì che la piattaforma non sia in grado di confrontare direttamente i risultati:
Nella tabella di confronto, passare il puntatore del mouse sull'esecuzione che si vuole usare come punto di riferimento e impostarla come baseline. Attivare l'interruttore Mostra delta per visualizzare le differenze tra la linea di base e altre esecuzioni per i valori numerici. Selezionare l'interruttore Mostra solo differenza per visualizzare solo le righe che differiscono tra le esecuzioni selezionate, consentendo di identificare le varianti.
Usando queste funzionalità di confronto, è possibile prendere una decisione informata per selezionare la versione migliore:
- Confronto tra baseline: impostando un'esecuzione di base, è possibile identificare un punto di riferimento in base al quale confrontare le altre esecuzioni. È possibile vedere come ogni esecuzione devia dallo standard scelto.
- Valutazione numerica dei valori: l'abilitazione dell'opzione Mostra delta consente di comprendere l'entità delle differenze tra la baseline e altre esecuzioni. Queste informazioni possono aiutarti a valutare come si comportano le diverse esecuzioni in termini di metriche di valutazione specifiche.
- Isolamento differenza: la funzionalità Mostra solo differenza semplifica l'analisi evidenziando solo le aree in cui sono presenti discrepanze tra le esecuzioni. Queste informazioni possono essere fondamentali per individuare dove sono necessari miglioramenti o regolazioni.
Usare gli strumenti di confronto per scegliere la configurazione con prestazioni migliori ed evitare regressioni in sicurezza o a terra.
Per semplificare un confronto completo tra due o più esecuzioni, è possibile selezionare le esecuzioni desiderate e avviare il processo.
- Selezionare due o più esecuzioni nella pagina dei dettagli di valutazione.
- Selezionare Confronta.
Genera una visualizzazione di confronto affiancata per tutte le esecuzioni selezionate.
Il confronto viene calcolato in base al test t statistica, che offre risultati più sensibili e affidabili per prendere decisioni. È possibile usare diverse funzionalità di questa funzionalità:
- Confronto tra baseline: impostando un'esecuzione di base, è possibile identificare un punto di riferimento in base al quale confrontare le altre esecuzioni. È possibile vedere come ogni esecuzione devia dallo standard scelto.
- Valutazione t-testing statistica: ogni cella fornisce i risultati stat-sig con codici di colore diversi. È anche possibile passare il puntatore del mouse sulla cella per ottenere le dimensioni del campione e il valore p.
| Leggenda | Definition |
|---|---|
| ImprovedStrong | Statisticamente altamente significativo (p<=0,001) e nella direzione desiderata |
| ImprovedWeak | Stat-sig (0.001<p<=0.05) e spostato nella direzione desiderata |
| DegradedStrong | Statisticamente altamente significativo (p<=0,001) e nella direzione errata |
| DegradedWeak | Stat-sig (0.001<p<=0.05) e spostato nella direzione sbagliata |
| ChangedStrong | Altamente significativa dal punto di vista statistico (p<=0.001) e la direzione desiderata è neutra |
| ChangedWeak | Stat-sig (0.001<p<=0.05) e la direzione desiderata è neutra |
| Senza risultati | Troppi pochi esempi o p>=0.05 |
Annotazioni
La visualizzazione di confronto non verrà salvata. Se si lascia la pagina, è possibile deselezionare nuovamente le esecuzioni e selezionare Confronta per rigenerare la visualizzazione.
Misurare la vulnerabilità di jailbreak
La valutazione della vulnerabilità di jailbreak è una misurazione comparativa, non una metrica assistita dall'intelligenza artificiale. Eseguire valutazioni su due set di dati diversi e con red team: un set di dati di test antagonista di base rispetto allo stesso set di dati di test antagonista con iniezioni di jailbreak nel primo turno. È possibile usare il simulatore di dati antagonisti per generare il set di dati con o senza iniezioni di jailbreak. Assicurarsi che il valore Nome criteri sia lo stesso per ogni metrica di valutazione quando si configurano le esecuzioni.
Per verificare se l'applicazione è vulnerabile al jailbreak, specificare la linea di base e attivare l'opzione Tassi di difetto del jailbreak nella tabella di confronto. La percentuale di difetti di jailbreak è la percentuale di istanze nel set di dati di test in cui un'iniezione di jailbreak genera un punteggio di gravità superiore per qualsiasi metrica di rischio del contenuto rispetto a una baseline nell'intero set di dati. Selezionare più valutazioni nel dashboard Confronta per visualizzare la differenza nei tassi di difetto.
Suggerimento
Il tasso di difetto di jailbreak viene calcolato solo per i set di dati delle stesse dimensioni e quando tutte le esecuzioni includono metriche di rischio e sicurezza del contenuto.
Ottenere informazioni sulle metriche di valutazione integrate
Comprendere le metriche predefinite è essenziale per valutare le prestazioni e l'efficacia dell'applicazione di intelligenza artificiale. Apprendendo questi strumenti di misurazione chiave, è possibile interpretare i risultati, prendere decisioni informate e ottimizzare l'applicazione per ottenere risultati ottimali.
Per altre informazioni, vedere Che cosa sono gli analizzatori?
Risoluzione dei problemi
| Sintomo | Possibile causa | Action |
|---|---|---|
| Il processo rimane in sospeso | Carichi elevati di servizi o processi in coda | Aggiornare, verificare la quota e inviare di nuovo se prolungato |
| Metriche mancanti | Non selezionato al momento della creazione | Rieseguire e selezionare le metriche necessarie |
| Tutte le metriche di sicurezza zero | Categoria disabilitata o modello non supportata | Confermare la matrice di supporto per modelli e metriche |
| Il radicamento è inaspettatamente basso | Recupero/contesto incompleto | Verificare la latenza di costruzione/recupero del contesto |
Contenuti correlati
- Migliorare le metriche basse con l'iterazione rapida o il fine-tuning.
- Eseguire valutazioni nel cloud con Microsoft Foundry SDK.
Informazioni su come valutare le applicazioni di intelligenza artificiale generative: