Что такое преобразование голоса? (Предварительная версия)

Замечание

Эта функция сейчас доступна в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания и не рекомендуется для использования в рабочей среде. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Для получения дополнительной информации см. Дополнительные условия использования для предварительных версий Microsoft Azure.

Преобразование голоса — это процесс преобразования характеристик голоса заданной аудиозаписи в целевой голос. После преобразования голоса результирующий звук сохраняет лингвистическое содержимое и просодию исходного аудио, в то время как тембр голоса похож на целевой.

Существует три причины, по которым пользователям нужна функция преобразования голосовой связи:

  • Преобразование голоса может реплицировать содержимое с помощью другой голосовой идентичности при сохранении оригинальной просодии и эмоций. Например, в образовании учителя могут записывать себя, читая истории, и преобразование голоса может передать эти истории с помощью голоса заранее созданного персонажа мультфильма. Этот метод сохраняет экспрессивность чтения учителя при включении уникального тембра голоса персонажа мультфильма.
  • Другое приложение — многоязычное дублирование. Если локализованное содержимое считывается различными голосами, преобразование голоса может преобразовать их в единый голос, обеспечивая согласованный интерфейс для всех языков при сохранении наиболее локализованных голосовых символов.
  • Преобразование голоса повышает контроль над экспрессивностью голоса. Преобразовав различные стили речи, такие как принятие уникального тона или передачи преувеличенных эмоций, голос получает большую универсальность в выражении и может быть более динамичным в различных сценариях.

Ключевые возможности

Преобразование голоса (или изменение голоса или преобразование речи в речь) построено на основе генеративных моделей и обеспечивает высококачественное преобразование голоса. Он предоставляет следующие основные возможности:

Способность Описание
Высокое сходство говорящих Захватывает тембр и вокальную идентичность целевого говорящего.
Создает звук, который точно соответствует целевому голосу.
Сохранение просодии Поддерживает ритм, стресс и интонацию исходного звука.
Сохраняет экспрессивные и эмоциональные качества.
Высокая точность звука Создает реалистичный, естественный звук.
Сводит к минимуму артефакты.
Поддержка многоязычных языков Обеспечивает преобразование голосов с поддержкой нескольких языков.
Поддерживает 91 региональный вариант (так же, как и поддержка языковых регионов в стандартной системе озвучивания текста).
См. поддерживаемые голосовые преобразования для полного списка.

Используйте преобразование голоса

Служба Azure Speech может использоваться для преобразования голоса в средствах Foundry Tools с помощью пакета SDK для распознавания речи или API REST для синтеза речи.

<mstts:voiceconversion> Используйте тег с помощью языка разметки синтеза речи (SSML), чтобы указать исходный звуковой URL-адрес и целевой голос для преобразования. Полный список поддерживаемых целевых голосов см. в разделе о поддерживаемых голосах для преобразования речи.

Пример SSML

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice xml:lang="en-US" xml:gender="Female" name="en-US-AvaMultilingualNeural">
        <mstts:voiceconversion url="https://your.blob.core.windows.net/sourceaudio.wav"/>
    </voice>
</speak>

Дополнительные сведения о структуре и использовании SSML см. в справочной документации по языку разметки синтеза речи (SSML ).