Scegliere una tecnologia di riconoscimento vocale e generazione di intelligenza artificiale di Azure

Articolo
2025-04-17

I servizi di intelligenza artificiale di Azure aiutano i progettisti e gli sviluppatori di carichi di lavoro a creare applicazioni intelligenti, all'avanguardia, pronte per il mercato e responsabili con API e modelli predefiniti e personalizzabili.

Questo articolo illustra i servizi di intelligenza artificiale di Azure che offrono funzionalità di riconoscimento vocale e generazione, ad esempio conversioni vocali e sintesi vocale, traduzione audio, riconoscimento del parlante e supporto per la lettura per le persone con differenze di apprendimento.

Nota

Per raccogliere informazioni dettagliate su termini o frasi o ottenere un'analisi contestuale dettagliata della lingua parlata o scritta, vedere Scegliere una tecnologia di elaborazione del linguaggio di destinazione dell'intelligenza artificiale di Azure.

Servizi

I servizi di intelligenza artificiale di Azure seguenti possono fornire funzionalità di riconoscimento vocale e generazione per il carico di lavoro.

Azure AI Speech offre elaborazione del linguaggio naturale per l'analisi del testo.
- Usa il servizio di riconoscimento vocale quando è necessario trascrivere o tradurre un discorso parlato, identificare i parlanti in una conversazione. È anche possibile usare il servizio come alternativa a costi più bassi per la generazione di voce naturale rispetto alla qualità superiore di "Whisper" nei modelli OpenAI.
- Non usare il servizio Voce per chat, riepilogo del contenuto, moderazione o guida degli utenti tramite script. Usare invece altri modelli per tali elementi.
La lettura immersiva è uno strumento che implementa tecniche comprovate per migliorare la comprensione della lettura per lettori emergenti, studenti di lingue e persone con differenze nell'apprendimento.
- Usare Strumento di lettura immersiva per offrire un'esperienza di leggibilità migliorata adattata agli studenti di lingue o alle persone con differenze di apprendimento.
- Non usare Strumento di lettura immersiva per i casi d'uso tradizionali di sintesi vocale.

Voce di Azure AI

Azure AI Speech offre capacità di conversione da voce a testo e da testo a voce con una risorsa Voce. È possibile convertire la voce in testo scritto con elevata precisione, produrre sintesi vocale che abbia un suono naturale, tradurre audio parlato e usare il riconoscimento del parlante durante le conversazioni. Crea voci personalizzate, aggiungi parole specifiche al vocabolario di base o crea modelli personalizzati. Esegui il servizio Voce ovunque, sul cloud o nella rete perimetrale in contenitori.

Il servizio vocale è disponibile per molte lingue e regioni.

Funzionalità

La tabella seguente fornisce un elenco delle funzionalità disponibili nel servizio Voce di Intelligenza artificiale di Azure.

Capacità	Descrizione
Trascrizione in batch	Trascrivere una grande quantità di dati audio memorizzati. Sia l'API REST Speech to text che l'interfaccia della riga di comando (CLI) supportano la trascrizione batch.
Riconoscimento delle finalità	Una finalità è qualcosa che l'utente desidera fare: prenotare un volo, controllare il meteo o effettuare una chiamata. Con il riconoscimento delle finalità, le applicazioni, gli strumenti e i dispositivi possono determinare ciò che l'utente vuole avviare o eseguire in base alle opzioni. Tu definisci la finalità dell'utente nel modello Intent Recognizer o Conversational Language Understanding (CLU).
Valutazione della pronuncia	Valuta la pronuncia vocale e fornisce ai parlanti un feedback sull'accuratezza e sulla fluenza dell'audio parlato.
Riconoscimento del parlante	Il riconoscimento del parlante consente di determinare chi sta parlando in un clip audio. Il servizio è in grado di verificare e identificare i parlanti in base alle loro caratteristiche vocali univoche, tramite la biometria vocale.
Trascrizione vocale	Converte i flussi audio in testo in tempo reale o in batch.
Sintesi vocale	Abilitare le applicazioni, gli strumenti o i dispositivi per convertire il testo in un parlato sintetizzato simile a quello umano
Traduzione vocale	Fornisce la traduzione vocale in più lingue e la trascrizione del parlato nei flussi audio.
Traduzione video	Tradurre e generare video in più lingue automaticamente.

Casi d'uso

La tabella seguente descrive alcuni dei modi in cui è possibile usare Riconoscimento vocale di Intelligenza artificiale di Azure.

Caso d'uso	Capacità di utilizzo	Descrizione
Creazione di contenuti audio	Trascrizione da voce a testo	Le voci neurali possono essere usate per rendere più naturali e coinvolgenti le interazioni con chatbot e assistenti vocali, per convertire testo digitale, come gli e-book, in audiolibri e per migliorare i sistemi dei navigatori per le automobili.
Trascrizione del call center	Conversione vocale in testo	Trascrivere le chiamate in tempo reale o elaborare un batch di chiamate, redigere informazioni personali ed estrarre approfondimenti, come il sentiment, per supportare il caso d'uso del call center.
Sottotitolaggio	Trascrizione automatica di parlato	Sincronizza i sottotitoli con l'audio di input, applica filtri volgari, ottieni risultati parziali, applica personalizzazioni e identifica le lingue parlate per scenari multilingue.
Apprendimento linguistico	Trascrizione vocale	Fornisci feedback sulla valutazione della pronuncia agli studenti di lingue, supporta la trascrizione in tempo reale per le conversazioni di apprendimento a distanza e leggi ad alta voce materiali didattici con voci neurali.
Assistenti vocali	Sintesi vocale	Crea interfacce conversazionali naturali, simili a quelle umane, per le loro applicazioni ed esperienze. La funzione di assistente vocale fornisce un'interazione rapida e affidabile tra un dispositivo e un'implementazione dell'assistente.

Strumento di lettura immersiva

La lettura immersiva, parte dei servizi Azure AI, è stata progettata per l'inclusività e implementa tecniche comprovate per migliorare la comprensione della lettura per nuovi lettori, studenti di lingue e persone con differenze di apprendimento, come la dislessia. Con la libreria client dello strumento di lettura immersiva, è possibile usare la stessa tecnologia usata in Microsoft Word e Microsoft OneNote per offrire un'esperienza ottimale agli utenti del carico di lavoro.

Funzionalità

Di seguito è riportato un elenco delle funzionalità che il carico di lavoro può usare per aiutare gli utenti a raggiungere gli obiettivi di comprensione della lettura.

Isolare il contenuto per migliorare la leggibilità
Visualizzare immagini per le parole e i termini comuni
Aiuta a comprendere le parti del discorso e la grammatica evidenziando verbi, nomi, pronomi e altro ancora
Leggere ad alta voce il contenuto, ad esempio il testo selezionato dall'utente nell'interfaccia utente del carico di lavoro
Traduci i contenuti in molte lingue in tempo reale, il che aiuta a migliorare la comprensione per i lettori che imparano una nuova lingua
Le parole possono essere scomposte in sillabe per migliorare la leggibilità o per scandire le parole nuove

Condividi tramite

Scegliere una tecnologia di riconoscimento vocale e generazione di intelligenza artificiale di Azure

Servizi

Voce di Azure AI

Funzionalità

Casi d'uso

Strumento di lettura immersiva

Funzionalità

Passaggi successivi

Risorse correlate

Commenti e suggerimenti

Risorse aggiuntive