Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Замечание
Эта функция сейчас доступна в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания и не рекомендуется для использования в рабочей среде. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Для получения дополнительной информации см. Дополнительные условия использования для предварительных версий Microsoft Azure.
Преобразование голоса — это процесс преобразования характеристик голоса заданной аудиозаписи в целевой голос. После преобразования голоса результирующий звук сохраняет лингвистическое содержимое и просодию исходного аудио, в то время как тембр голоса похож на целевой.
Существует три причины, по которым пользователям нужна функция преобразования голосовой связи:
- Преобразование голоса может реплицировать содержимое с помощью другой голосовой идентичности при сохранении оригинальной просодии и эмоций. Например, в образовании учителя могут записывать себя, читая истории, и преобразование голоса может передать эти истории с помощью голоса заранее созданного персонажа мультфильма. Этот метод сохраняет экспрессивность чтения учителя при включении уникального тембра голоса персонажа мультфильма.
- Другое приложение — многоязычное дублирование. Если локализованное содержимое считывается различными голосами, преобразование голоса может преобразовать их в единый голос, обеспечивая согласованный интерфейс для всех языков при сохранении наиболее локализованных голосовых символов.
- Преобразование голоса повышает контроль над экспрессивностью голоса. Преобразовав различные стили речи, такие как принятие уникального тона или передачи преувеличенных эмоций, голос получает большую универсальность в выражении и может быть более динамичным в различных сценариях.
Ключевые возможности
Преобразование голоса (или изменение голоса или преобразование речи в речь) построено на основе генеративных моделей и обеспечивает высококачественное преобразование голоса. Он предоставляет следующие основные возможности:
| Способность | Описание |
|---|---|
| Высокое сходство говорящих | Захватывает тембр и вокальную идентичность целевого говорящего. Создает звук, который точно соответствует целевому голосу. |
| Сохранение просодии | Поддерживает ритм, стресс и интонацию исходного звука. Сохраняет экспрессивные и эмоциональные качества. |
| Высокая точность звука | Создает реалистичный, естественный звук. Сводит к минимуму артефакты. |
| Поддержка многоязычных языков | Обеспечивает преобразование голосов с поддержкой нескольких языков. Поддерживает 91 региональный вариант (так же, как и поддержка языковых регионов в стандартной системе озвучивания текста). См. поддерживаемые голосовые преобразования для полного списка. |
Используйте преобразование голоса
Служба Azure Speech может использоваться для преобразования голоса в средствах Foundry Tools с помощью пакета SDK для распознавания речи или API REST для синтеза речи.
<mstts:voiceconversion> Используйте тег с помощью языка разметки синтеза речи (SSML), чтобы указать исходный звуковой URL-адрес и целевой голос для преобразования. Полный список поддерживаемых целевых голосов см. в разделе о поддерживаемых голосах для преобразования речи.
Пример SSML
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice xml:lang="en-US" xml:gender="Female" name="en-US-AvaMultilingualNeural">
<mstts:voiceconversion url="https://your.blob.core.windows.net/sourceaudio.wav"/>
</voice>
</speak>
Дополнительные сведения о структуре и использовании SSML см. в справочной документации по языку разметки синтеза речи (SSML ).