Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Il modello Whisper è un modello di riconoscimento vocale di OpenAI che è possibile usare per trascrivere file audio in inglese o tradurre audio da altre lingue in inglese.
I modelli Whisper sono disponibili tramite Azure OpenAI in Microsoft Foundry Models o tramite Azure Speech in Foundry Tools. Le funzionalità differiscono per queste offerte. In Azure Speech (trascrizione in batch), Whisper è solo uno dei vari modelli che è possibile usare per il riconoscimento vocale.
Per iniziare subito:
- Guida introduttiva a Whisper tramite Azure OpenAI
- Avvio rapido per la sintesi vocale in tempo reale tramite Azure Voce
- Trascrizione in batch con Whisper tramite Azure Speech
Modello Whisper o modelli di Riconoscimento vocale di Azure
Scegliere in base allo scenario: la tabella seguente riepiloga le raccomandazioni. Se si usa Azure Voce, è possibile scegliere tra diversi modelli, tra cui Whisper.
| Sceneggiatura | Modello Whisper | Modelli di Riconoscimento vocale di Azure |
|---|---|---|
| Trascrizioni, didascalie e sottotitoli in tempo reale per audio e video. | Non disponibile | Consigliato |
| Trascrizioni, didascalie e sottotitoli per audio e video preregistrati. | Il modello Whisper tramite Azure OpenAI è consigliato per l'elaborazione rapida di singoli file audio. Il modello Whisper tramite Riconoscimento vocale di Azure (trascrizione batch) è consigliato per l'elaborazione batch di file di grandi dimensioni. Per ulteriori informazioni, vedere Il modello Whisper tramite la trascrizione batch con Azure Speech o tramite Azure OpenAI? | Consigliato per l'elaborazione batch di file di grandi dimensioni, la diarizzazione e i timestamp a livello di parola. |
| Trascrizione delle registrazioni delle chiamate telefoniche e analisi, ad esempio riepilogo delle chiamate, sentiment, argomenti chiave e informazioni dettagliate personalizzate. | Disponibile | Consigliato |
| Trascrizione e analisi in tempo reale per assistere gli agenti del call center con domande dei clienti. | Non disponibile | Consigliato |
| Trascrizione di registrazioni e analisi delle riunioni, ad esempio riepilogo delle riunioni, capitoli delle riunioni ed estrazione degli elementi di azione. | Disponibile | Consigliato |
| Immissione di testo in tempo reale e generazione di documenti tramite dettatura vocale. | Non disponibile | Consigliato |
| Agente vocale del Centro contatti: routing delle chiamate e risposta vocale interattiva per i call center. | Disponibile | Consigliato |
| Assistente vocale: assistente vocale specifico per un set-top box, un'app per dispositivi mobili, un'auto e altri scenari. | Disponibile | Consigliato |
| Valutazione della pronuncia: valutare la pronuncia della voce di un parlante. | Non disponibile | Consigliato |
| Tradurre l'audio live da una lingua a un'altra. | Non disponibile | Consigliato tramite l'API di traduzione vocale. |
| Tradurre l'audio preregistrato da altre lingue in inglese. | Consigliato | Disponibile anche tramite l'API traduzione vocale. |
| Tradurre l'audio preregistrato in lingue diverse dall'inglese. | Non disponibile | Consigliato tramite l'API di traduzione vocale. |
Sussurrare il modello tramite Riconoscimento vocale di Azure o tramite Azure OpenAI?
Se si decide di utilizzare il modello Whisper, sono disponibili due opzioni. È possibile scegliere se usare il modello Whisper tramite Azure OpenAI o tramite Riconoscimento vocale di Azure (trascrizione batch). In entrambi i casi, la leggibilità del testo trascritto è la stessa.
Il modello Whisper tramite Azure OpenAI potrebbe essere ideale per:
- Trascrizione rapida dei file audio uno alla volta.
- Tradurre audio da altre lingue in inglese. È possibile immettere audio in lingua mista e l'output è in inglese.
- Fornire un prompt al modello per orientare l'output.
- Formati di file supportati: mp3, mp4, mpeg, mpega, m4a, wav e webm.
- Solo il carattere ASCII supportato per il nome file.
Il modello Whisper tramite la trascrizione batch di Azure Speech potrebbe essere ideale per:
- Trascrizione di file di dimensioni superiori a 25 MB (fino a 1 GB). Il limite di dimensioni del file per il modello Azure OpenAI Whisper è di 25 MB.
- Trascrizione di grandi batch di file audio.
- Diarizzazione per distinguere tra i diversi relatori che partecipano alla conversazione. Il servizio Voce fornisce informazioni sull’oratore che ha pronunciato una particolare parte del discorso trascritto. Il modello Whisper tramite Azure OpenAI non supporta la diarizzazione.
- Timestamp a livello di parola
- Formati di file supportati: MP3, WAV e OGG.
Il supporto regionale è un'altra considerazione.
- Per l'elenco corrente delle aree in cui è disponibile il modello Whisper, vedere la tabella delle aree del servizio Voce.