Che cos'è il modello Whisper?

Il modello Whisper è un modello di riconoscimento vocale di OpenAI che è possibile usare per trascrivere file audio in inglese o tradurre audio da altre lingue in inglese.

I modelli Whisper sono disponibili tramite Azure OpenAI in Microsoft Foundry Models o tramite Azure Speech in Foundry Tools. Le funzionalità differiscono per queste offerte. In Azure Speech (trascrizione in batch), Whisper è solo uno dei vari modelli che è possibile usare per il riconoscimento vocale.

Per iniziare subito:

Modello Whisper o modelli di Riconoscimento vocale di Azure

Scegliere in base allo scenario: la tabella seguente riepiloga le raccomandazioni. Se si usa Azure Voce, è possibile scegliere tra diversi modelli, tra cui Whisper.

Sceneggiatura Modello Whisper Modelli di Riconoscimento vocale di Azure
Trascrizioni, didascalie e sottotitoli in tempo reale per audio e video. Non disponibile Consigliato
Trascrizioni, didascalie e sottotitoli per audio e video preregistrati. Il modello Whisper tramite Azure OpenAI è consigliato per l'elaborazione rapida di singoli file audio. Il modello Whisper tramite Riconoscimento vocale di Azure (trascrizione batch) è consigliato per l'elaborazione batch di file di grandi dimensioni. Per ulteriori informazioni, vedere Il modello Whisper tramite la trascrizione batch con Azure Speech o tramite Azure OpenAI? Consigliato per l'elaborazione batch di file di grandi dimensioni, la diarizzazione e i timestamp a livello di parola.
Trascrizione delle registrazioni delle chiamate telefoniche e analisi, ad esempio riepilogo delle chiamate, sentiment, argomenti chiave e informazioni dettagliate personalizzate. Disponibile Consigliato
Trascrizione e analisi in tempo reale per assistere gli agenti del call center con domande dei clienti. Non disponibile Consigliato
Trascrizione di registrazioni e analisi delle riunioni, ad esempio riepilogo delle riunioni, capitoli delle riunioni ed estrazione degli elementi di azione. Disponibile Consigliato
Immissione di testo in tempo reale e generazione di documenti tramite dettatura vocale. Non disponibile Consigliato
Agente vocale del Centro contatti: routing delle chiamate e risposta vocale interattiva per i call center. Disponibile Consigliato
Assistente vocale: assistente vocale specifico per un set-top box, un'app per dispositivi mobili, un'auto e altri scenari. Disponibile Consigliato
Valutazione della pronuncia: valutare la pronuncia della voce di un parlante. Non disponibile Consigliato
Tradurre l'audio live da una lingua a un'altra. Non disponibile Consigliato tramite l'API di traduzione vocale.
Tradurre l'audio preregistrato da altre lingue in inglese. Consigliato Disponibile anche tramite l'API traduzione vocale.
Tradurre l'audio preregistrato in lingue diverse dall'inglese. Non disponibile Consigliato tramite l'API di traduzione vocale.

Sussurrare il modello tramite Riconoscimento vocale di Azure o tramite Azure OpenAI?

Se si decide di utilizzare il modello Whisper, sono disponibili due opzioni. È possibile scegliere se usare il modello Whisper tramite Azure OpenAI o tramite Riconoscimento vocale di Azure (trascrizione batch). In entrambi i casi, la leggibilità del testo trascritto è la stessa.

Il modello Whisper tramite Azure OpenAI potrebbe essere ideale per:

  • Trascrizione rapida dei file audio uno alla volta.
  • Tradurre audio da altre lingue in inglese. È possibile immettere audio in lingua mista e l'output è in inglese.
  • Fornire un prompt al modello per orientare l'output.
  • Formati di file supportati: mp3, mp4, mpeg, mpega, m4a, wav e webm.
  • Solo il carattere ASCII supportato per il nome file.

Il modello Whisper tramite la trascrizione batch di Azure Speech potrebbe essere ideale per:

  • Trascrizione di file di dimensioni superiori a 25 MB (fino a 1 GB). Il limite di dimensioni del file per il modello Azure OpenAI Whisper è di 25 MB.
  • Trascrizione di grandi batch di file audio.
  • Diarizzazione per distinguere tra i diversi relatori che partecipano alla conversazione. Il servizio Voce fornisce informazioni sull’oratore che ha pronunciato una particolare parte del discorso trascritto. Il modello Whisper tramite Azure OpenAI non supporta la diarizzazione.
  • Timestamp a livello di parola
  • Formati di file supportati: MP3, WAV e OGG.

Il supporto regionale è un'altra considerazione.