Поделиться через


Воспроизведение звука в вызове

Действие воспроизведения, предоставленное с помощью пакета SDK службы автоматизации вызовов Службы коммуникации Azure, позволяет воспроизводить звуковые запросы участникам звонка. К этому действию можно обращаться через реализацию приложения на стороне сервера. Вы можете воспроизводить звук для вызова участников с помощью одного из двух методов;

  • Предоставление Службы коммуникации Azure доступа к предварительно подготовленным аудиофайлам формата WAV, к которым Службы коммуникации Azure можно получить доступ с поддержкой проверки подлинности.
  • Обычный текст, который можно преобразовать в выходные данные речи с помощью интеграции со службами ИИ Azure.

Вы можете использовать только что объявленную интеграцию между Службы коммуникации Azure и службами искусственного интеллекта Azure для воспроизведения персонализированных ответов с помощью azure Text-To-Speech. Вы можете использовать человеческие, такие как предварительно созданные нейронные голоса из коробки или создавать пользовательские нейронные голоса, уникальные для вашего продукта или бренда. Дополнительные сведения о поддерживаемых голосах, языках и языковых стандартах см. в разделе "Язык" и "Поддержка голосовой связи" службы "Речь".

Примечание.

Службы коммуникации Azure в настоящее время поддерживает два формата файлов, MP3-файлы с ID3V2TAG и WAV-файлами, отформатированными как 16-разрядный аудиоканал PCM mono channel, записанный в 16 КБГц. Вы можете создать собственные звуковые файлы с помощью средства синтеза речи с помощью средства создания аудиоконтентов.

Предварительно созданные нейронные тексты для голосов речи

Корпорация Майкрософт использует глубокие нейронные сети для преодоления ограничений традиционного синтеза речи в отношении стресса и интонации на разговорном языке. Прогноз prosody и синтез голоса происходят одновременно, что приводит к более плавному и естественному выходу звука. Вы можете использовать эти нейронные голоса, чтобы сделать взаимодействие с чат-ботами и голосовыми помощниками более естественными и привлекательными. Есть более 100 предварительно созданных голосов для выбора. Дополнительные сведения о голосовых голосах в службе "Текст в речь Azure".

Распространенные варианты использования

Действие воспроизведения можно использовать различными способами, некоторые примеры того, как разработчики могут использовать действие воспроизведения в своих приложениях, перечислены здесь.

Объявления

Ваше приложение может потребоваться воспроизвести какое-то объявление, когда участник присоединяется или покидает звонок, чтобы уведомить других пользователей.

Самообслуживание клиентов

В сценариях с IVRs и виртуальными помощниками вы можете использовать приложение или боты для воспроизведения звуковых запросов вызывающим абонентам, этот запрос может быть в виде меню, чтобы управлять вызывающим посредством их взаимодействия.

Удержание музыки

Действие игры также можно использовать для воспроизведения музыки для абонентов. Это действие можно настроить в цикле, чтобы музыка не играла до тех пор, пока агент не будет доступен для помощи вызывающей.

Воспроизведение сообщений о соответствии

В рамках требований соответствия требованиям в различных отраслях, поставщики, как ожидается, будут воспроизводить юридические сообщения или сообщения о соответствии вызывающим абонентам, например "Этот вызов записывается в целях качества".

Пример архитектуры для воспроизведения звука в вызове с помощью преобразования текста в речь

Схема, показывающая пример архитектуры для воспроизведения с помощью ИИ.

Пример архитектуры воспроизведения звука в вызове

Снимок экрана: поток для воспроизведения действия.

Известные ограничения

  • Текстовые запросы на речь поддерживают не более 400 символов, если ваш запрос больше, чем это мы рекомендуем использовать SSML для действий воспроизведения на основе текста в речь.
  • В сценариях, когда превышено ограничение квоты службы "Речь", можно запросить увеличение этого ограничения, выполнив описанные здесь действия.

Next Steps