Воспроизведение звука в вызове

Статья
11/09/2024

Действие воспроизведения, предоставленное с помощью пакета SDK службы автоматизации вызовов Службы коммуникации Azure, позволяет воспроизводить звуковые запросы участникам звонка. К этому действию можно обращаться через реализацию приложения на стороне сервера. Вы можете воспроизводить звук для вызова участников с помощью одного из двух методов;

Предоставление Службы коммуникации Azure доступа к предварительно подготовленным аудиофайлам формата WAV, к которым Службы коммуникации Azure можно получить доступ с поддержкой проверки подлинности.
Обычный текст, который можно преобразовать в выходные данные речи с помощью интеграции со службами ИИ Azure.

Вы можете использовать только что объявленную интеграцию между Службы коммуникации Azure и службами искусственного интеллекта Azure для воспроизведения персонализированных ответов с помощью azure Text-To-Speech. Вы можете использовать человеческие, такие как предварительно созданные нейронные голоса из коробки или создавать пользовательские нейронные голоса, уникальные для вашего продукта или бренда. Дополнительные сведения о поддерживаемых голосах, языках и языковых стандартах см. в разделе "Язык" и "Поддержка голосовой связи" службы "Речь".

Примечание.

Службы коммуникации Azure в настоящее время поддерживает два формата файлов, MP3-файлы с ID3V2TAG и WAV-файлами, отформатированными как 16-разрядный аудиоканал PCM mono channel, записанный в 16 КБГц. Вы можете создать собственные звуковые файлы с помощью средства синтеза речи с помощью средства создания аудиоконтентов.

Предварительно созданные нейронные тексты для голосов речи

Корпорация Майкрософт использует глубокие нейронные сети для преодоления ограничений традиционного синтеза речи в отношении стресса и интонации на разговорном языке. Прогноз prosody и синтез голоса происходят одновременно, что приводит к более плавному и естественному выходу звука. Вы можете использовать эти нейронные голоса, чтобы сделать взаимодействие с чат-ботами и голосовыми помощниками более естественными и привлекательными. Есть более 100 предварительно созданных голосов для выбора. Дополнительные сведения о голосовых голосах в службе "Текст в речь Azure".

Распространенные варианты использования

Действие воспроизведения можно использовать различными способами, некоторые примеры того, как разработчики могут использовать действие воспроизведения в своих приложениях, перечислены здесь.

Объявления

Ваше приложение может потребоваться воспроизвести какое-то объявление, когда участник присоединяется или покидает звонок, чтобы уведомить других пользователей.

Самообслуживание клиентов

В сценариях с IVRs и виртуальными помощниками вы можете использовать приложение или боты для воспроизведения звуковых запросов вызывающим абонентам, этот запрос может быть в виде меню, чтобы управлять вызывающим посредством их взаимодействия.

Удержание музыки

Действие игры также можно использовать для воспроизведения музыки для абонентов. Это действие можно настроить в цикле, чтобы музыка не играла до тех пор, пока агент не будет доступен для помощи вызывающей.

Воспроизведение сообщений о соответствии

В рамках требований соответствия требованиям в различных отраслях, поставщики, как ожидается, будут воспроизводить юридические сообщения или сообщения о соответствии вызывающим абонентам, например "Этот вызов записывается в целях качества".

Пример архитектуры для воспроизведения звука в вызове с помощью преобразования текста в речь

Схема, показывающая пример архитектуры для воспроизведения с помощью ИИ.

Пример архитектуры воспроизведения звука в вызове

Снимок экрана: поток для воспроизведения действия.

Известные ограничения

Текстовые запросы на речь поддерживают не более 400 символов, если ваш запрос больше, чем это мы рекомендуем использовать SSML для действий воспроизведения на основе текста в речь.
В сценариях, когда превышено ограничение квоты службы "Речь", можно запросить увеличение этого ограничения, выполнив описанные здесь действия.

Next Steps

Ознакомьтесь с нашим руководством, чтобы узнать , как воспроизводить пользовательские голосовые запросы пользователям.
Узнайте об использовании и операционных журналах, опубликованных автоматизацией вызовов .
Узнайте о сборе входных данных клиента.

Поделиться через