Sicurezza dei contenuti nel portale di Azure AI Foundry

Articolo
2025-05-02

Sicurezza dei contenuti di Azure AI e un servizio di intelligenza artificiale che rileva contenuti dannosi generati dagli utenti e dall'intelligenza artificiale nelle applicazioni e nei servizi. La sicurezza dei contenuti di Intelligenza artificiale di Azure include API che consentono di rilevare e impedire l'output di contenuto dannoso. La pagina interattiva Content Safety provala nel portale di Azure AI Foundry consente di visualizzare, esplorare e provare il codice di esempio per rilevare contenuto dannoso in diverse modalità.

Funzionalità

È possibile usare La sicurezza dei contenuti di Intelligenza artificiale di Azure per gli scenari seguenti:

Contenuto del testo:

Moderare il contenuto del testo: questa funzionalità analizza e modera il contenuto del testo, identificandolo e classificandolo in base a diversi livelli di gravità per garantire risposte appropriate.
Rilevamento a terra: questo filtro determina se le risposte dell'intelligenza artificiale sono basate su origini attendibili fornite dall'utente, assicurandosi che le risposte siano "messe a terra" nel materiale previsto. Il rilevamento della terra è utile per migliorare l'affidabilità e l'accuratezza effettiva delle risposte.
Rilevamento del materiale protetto per il testo: questa funzionalità identifica il materiale di testo protetto, ad esempio testi di canzoni note, articoli o altri contenuti, assicurandosi che l'intelligenza artificiale non restituisca questo contenuto senza autorizzazione.
Rilevamento del materiale protetto per il codice: rileva i segmenti di codice nell'output del modello che corrispondono al codice noto dai repository pubblici, consentendo di impedire la riproduzione non accreditata o non autorizzata del codice sorgente.
Schermate prompt: questa funzionalità fornisce un'API unificata per affrontare "Jailbreak" e "Attacchi indiretti":
- Attacchi jailbreak: tenta di manipolare l'IA per ignorare i protocolli di sicurezza o le linee guida etiche. Alcuni esempi includono richieste progettate per ingannare l'IA a fornire risposte inappropriate o eseguire attività programmate per evitare.
- Attacchi indiretti: noti anche come attacchi cross-domain prompt injection, gli attacchi indiretti implicano l'incorporamento di richieste dannose all'interno di documenti che potrebbero essere elaborati dall'intelligenza artificiale. Ad esempio, se un documento contiene istruzioni nascoste, l'intelligenza artificiale potrebbe seguirle inavvertitamente, causando output imprevisti o non sicuri.

Contenuto immagine:

Moderare il contenuto dell'immagine: analogamente alla moderazione del testo, questa funzionalità filtra e valuta il contenuto dell'immagine per rilevare oggetti visivi non appropriati o dannosi.
Moderare il contenuto moderare: questo è progettato per gestire una combinazione di testo e immagini, valutando il contesto complessivo e eventuali rischi potenziali in più tipi di contenuto.

Personalizzare le proprie categorie:

Categorie personalizzate: consente agli utenti di definire categorie specifiche per moderare e filtrare il contenuto, adattando i protocolli di sicurezza alle esigenze specifiche.
Messaggio del sistema di sicurezza: fornisce un metodo per configurare un "Messaggio di sistema" per indicare all'intelligenza artificiale il comportamento e le limitazioni desiderate, rafforzare i limiti di sicurezza e prevenire gli output indesiderati.

Comprendere le categorie di danni

Categorie di danni

Categoria	Descrizione	Termine API
Odio ed equità	I danni all'odio e all'equità si riferiscono a qualsiasi contenuto che attacca o usa un linguaggio discriminatorio con riferimento a una persona o a un gruppo di identità basato su determinati attributi diversi di questi gruppi. incluso, ma non limitato a: Razza, etnia, nazionalità Gruppi ed espressione dell’identità di genere Orientamento sessuale Religione Aspetto personale e dimensioni del corpo Stato di disabilità Molestie e bullismo	`Hate`
Sessuale	Il linguaggio sessuale descrive il linguaggio correlato a organi anatomici e genitali, relazioni romantiche e atti sessuali, atti rappresentati in termini erotici o affettuosi, inclusi quelli rappresentati come un assalto o un atto violento sessuale forzato contro la volontà di uno. Ciò include, ma non è limitato a: Contenuto volgare Prostituzione Nudità e pornografia Uso improprio Sfruttamento minorile, abuso di minori, adescamento di minori	`Sexual`
Violenza	La violenza descrive il linguaggio relativo alle azioni fisiche destinate a colpire, ferire, danneggiare o uccidere qualcuno o qualcosa; descrive armi, armi da fuoco ed entità correlate. Questi miglioramenti includono, tra l'altro: Armi Bullismo e intimidazione Estremismo terroristico e violento Atti persecutori	`Violence`
Autolesionismo	L'autolesionismo descrive il linguaggio relativo ad azioni fisiche volte a ferire o danneggiare intenzionalmente il proprio corpo o a uccidersi. Questi miglioramenti includono, tra l'altro: Disturbi alimentari Bullismo e intimidazione	`SelfHarm`

Livelli di gravità

Livello	Descrizione
Sicuro	Il contenuto potrebbe essere correlato a violenza, autolesionismo, sesso o categorie di odio. Tuttavia, i termini sono utilizzati in generale, giornalistica, scientifica, medica e simili contesti professionali, che sono appropriati per la maggior parte dei destinatari.
Basso livello	Contenuti che esprimono opinioni pregiudiziose, giudicazionali o opinioni, includono l'uso offensivo del linguaggio, la stereotipazione, i casi d'uso che esplorano un mondo fittizio (ad esempio, giochi, letteratura) e rappresentazioni a bassa intensità.
Intermedio	Contenuti che usano linguaggio offensivo, derisorio, insultante, intimidatorio o sminuente verso gruppi di identità specifici, incluse rappresentazioni volte a cercare e seguire istruzioni, fantasie e glorificazioni dannose e promozione di violenza a media intensità.
Alto	Contenuti che mostrano istruzioni esplicite e pericolose, azioni, danni o abusi; include l'approvazione, la glorificazione o la promozione di gravi atti pericolosi, forme estreme o illegali di pericolo, radicalizzazione oppure scambi e abusi di potere non consensuali.

Limitazioni

Per le aree supportate, i limiti di frequenza e i requisiti di input per tutte le funzionalità, vedere Panoramica sulla sicurezza del contenuto. Vedere la pagina Supporto lingua per le lingue supportate.

Passo successivo

Per iniziare a usare La sicurezza dei contenuti di Intelligenza artificiale di Azure nel portale di Azure AI Foundry, seguire la guida pratica.

Condividi tramite