Condividi tramite


Scegliere una tecnologia di riconoscimento vocale e generazione di intelligenza artificiale di Azure

I servizi di intelligenza artificiale di Azure aiutano i progettisti e gli sviluppatori di carichi di lavoro a creare applicazioni intelligenti, all'avanguardia, pronte per il mercato e responsabili con API e modelli predefiniti e personalizzabili.

Questo articolo illustra i servizi di intelligenza artificiale di Azure che offrono funzionalità di riconoscimento vocale e generazione, ad esempio conversioni vocali e sintesi vocale, traduzione audio, riconoscimento del parlante e supporto per la lettura per le persone con differenze di apprendimento.

Nota

Per raccogliere informazioni dettagliate su termini o frasi o ottenere un'analisi contestuale dettagliata della lingua parlata o scritta, vedere Scegliere una tecnologia di elaborazione del linguaggio di destinazione dell'intelligenza artificiale di Azure.

Servizi

I servizi di intelligenza artificiale di Azure seguenti possono fornire funzionalità di riconoscimento vocale e generazione per il carico di lavoro.

  • Azure AI Speech offre elaborazione del linguaggio naturale per l'analisi del testo.

    • Usa il servizio di riconoscimento vocale quando è necessario trascrivere o tradurre un discorso parlato, identificare i parlanti in una conversazione. È anche possibile usare il servizio come alternativa a costi più bassi per la generazione di voce naturale rispetto alla qualità superiore di "Whisper" nei modelli OpenAI.
    • Non usare il servizio Voce per chat, riepilogo del contenuto, moderazione o guida degli utenti tramite script. Usare invece altri modelli per tali elementi.
  • La lettura immersiva è uno strumento che implementa tecniche comprovate per migliorare la comprensione della lettura per lettori emergenti, studenti di lingue e persone con differenze nell'apprendimento.

    • Usare Strumento di lettura immersiva per offrire un'esperienza di leggibilità migliorata adattata agli studenti di lingue o alle persone con differenze di apprendimento.
    • Non usare Strumento di lettura immersiva per i casi d'uso tradizionali di sintesi vocale.

Voce di Azure AI

Azure AI Speech offre capacità di conversione da voce a testo e da testo a voce con una risorsa Voce. È possibile convertire la voce in testo scritto con elevata precisione, produrre sintesi vocale che abbia un suono naturale, tradurre audio parlato e usare il riconoscimento del parlante durante le conversazioni. Crea voci personalizzate, aggiungi parole specifiche al vocabolario di base o crea modelli personalizzati. Esegui il servizio Voce ovunque, sul cloud o nella rete perimetrale in contenitori.

Il servizio vocale è disponibile per molte lingue e regioni.

Funzionalità

La tabella seguente fornisce un elenco delle funzionalità disponibili nel servizio Voce di Intelligenza artificiale di Azure.

Capacità Descrizione
Trascrizione in batch Trascrivere una grande quantità di dati audio memorizzati. Sia l'API REST Speech to text che l'interfaccia della riga di comando (CLI) supportano la trascrizione batch.
Riconoscimento delle finalità Una finalità è qualcosa che l'utente desidera fare: prenotare un volo, controllare il meteo o effettuare una chiamata. Con il riconoscimento delle finalità, le applicazioni, gli strumenti e i dispositivi possono determinare ciò che l'utente vuole avviare o eseguire in base alle opzioni. Tu definisci la finalità dell'utente nel modello Intent Recognizer o Conversational Language Understanding (CLU).
Valutazione della pronuncia Valuta la pronuncia vocale e fornisce ai parlanti un feedback sull'accuratezza e sulla fluenza dell'audio parlato.
Riconoscimento del parlante Il riconoscimento del parlante consente di determinare chi sta parlando in un clip audio. Il servizio è in grado di verificare e identificare i parlanti in base alle loro caratteristiche vocali univoche, tramite la biometria vocale.
Trascrizione vocale Converte i flussi audio in testo in tempo reale o in batch.
Sintesi vocale Abilitare le applicazioni, gli strumenti o i dispositivi per convertire il testo in un parlato sintetizzato simile a quello umano
Traduzione vocale Fornisce la traduzione vocale in più lingue e la trascrizione del parlato nei flussi audio.
Traduzione video Tradurre e generare video in più lingue automaticamente.

Casi d'uso

La tabella seguente descrive alcuni dei modi in cui è possibile usare Riconoscimento vocale di Intelligenza artificiale di Azure.

Caso d'uso Capacità di utilizzo Descrizione
Creazione di contenuti audio Trascrizione da voce a testo Le voci neurali possono essere usate per rendere più naturali e coinvolgenti le interazioni con chatbot e assistenti vocali, per convertire testo digitale, come gli e-book, in audiolibri e per migliorare i sistemi dei navigatori per le automobili.
Trascrizione del call center Conversione vocale in testo Trascrivere le chiamate in tempo reale o elaborare un batch di chiamate, redigere informazioni personali ed estrarre approfondimenti, come il sentiment, per supportare il caso d'uso del call center.
Sottotitolaggio Trascrizione automatica di parlato Sincronizza i sottotitoli con l'audio di input, applica filtri volgari, ottieni risultati parziali, applica personalizzazioni e identifica le lingue parlate per scenari multilingue.
Apprendimento linguistico Trascrizione vocale Fornisci feedback sulla valutazione della pronuncia agli studenti di lingue, supporta la trascrizione in tempo reale per le conversazioni di apprendimento a distanza e leggi ad alta voce materiali didattici con voci neurali.
Assistenti vocali Sintesi vocale Crea interfacce conversazionali naturali, simili a quelle umane, per le loro applicazioni ed esperienze. La funzione di assistente vocale fornisce un'interazione rapida e affidabile tra un dispositivo e un'implementazione dell'assistente.

Strumento di lettura immersiva

La lettura immersiva, parte dei servizi Azure AI, è stata progettata per l'inclusività e implementa tecniche comprovate per migliorare la comprensione della lettura per nuovi lettori, studenti di lingue e persone con differenze di apprendimento, come la dislessia. Con la libreria client dello strumento di lettura immersiva, è possibile usare la stessa tecnologia usata in Microsoft Word e Microsoft OneNote per offrire un'esperienza ottimale agli utenti del carico di lavoro.

Funzionalità

Di seguito è riportato un elenco delle funzionalità che il carico di lavoro può usare per aiutare gli utenti a raggiungere gli obiettivi di comprensione della lettura.

  • Isolare il contenuto per migliorare la leggibilità
  • Visualizzare immagini per le parole e i termini comuni
  • Aiuta a comprendere le parti del discorso e la grammatica evidenziando verbi, nomi, pronomi e altro ancora
  • Leggere ad alta voce il contenuto, ad esempio il testo selezionato dall'utente nell'interfaccia utente del carico di lavoro
  • Traduci i contenuti in molte lingue in tempo reale, il che aiuta a migliorare la comprensione per i lettori che imparano una nuova lingua
  • Le parole possono essere scomposte in sillabe per migliorare la leggibilità o per scandire le parole nuove

Passaggi successivi