Что такое преобразование голоса? (Предварительная версия)

Замечание

Эта функция сейчас доступна в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания и не рекомендуется для использования в рабочей среде. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Для получения дополнительной информации см. Дополнительные условия использования для предварительных версий Microsoft Azure.

Преобразование голоса — это процесс преобразования характеристик голоса заданной аудиозаписи в целевой голос. После преобразования голоса результирующий звук сохраняет лингвистическое содержимое и просодию исходного аудио, в то время как тембр голоса похож на целевой.

Существует три причины, по которым пользователям нужна функция преобразования голосовой связи:

Преобразование голоса может реплицировать содержимое с помощью другой голосовой идентичности при сохранении оригинальной просодии и эмоций. Например, в образовании учителя могут записывать себя, читая истории, и преобразование голоса может передать эти истории с помощью голоса заранее созданного персонажа мультфильма. Этот метод сохраняет экспрессивность чтения учителя при включении уникального тембра голоса персонажа мультфильма.
Другое приложение — многоязычное дублирование. Если локализованное содержимое считывается различными голосами, преобразование голоса может преобразовать их в единый голос, обеспечивая согласованный интерфейс для всех языков при сохранении наиболее локализованных голосовых символов.
Преобразование голоса повышает контроль над экспрессивностью голоса. Преобразовав различные стили речи, такие как принятие уникального тона или передачи преувеличенных эмоций, голос получает большую универсальность в выражении и может быть более динамичным в различных сценариях.

Ключевые возможности

Преобразование голоса (или изменение голоса или преобразование речи в речь) построено на основе генеративных моделей и обеспечивает высококачественное преобразование голоса. Он предоставляет следующие основные возможности:

Способность	Описание
Высокое сходство говорящих	Захватывает тембр и вокальную идентичность целевого говорящего. Создает звук, который точно соответствует целевому голосу.
Сохранение просодии	Поддерживает ритм, стресс и интонацию исходного звука. Сохраняет экспрессивные и эмоциональные качества.
Высокая точность звука	Создает реалистичный, естественный звук. Сводит к минимуму артефакты.
Поддержка многоязычных языков	Обеспечивает преобразование голосов с поддержкой нескольких языков. Поддерживает 91 региональный вариант (так же, как и поддержка языковых регионов в стандартной системе озвучивания текста). См. поддерживаемые голосовые преобразования для полного списка.

Используйте преобразование голоса

Служба Azure Speech может использоваться для преобразования голоса в средствах Foundry Tools с помощью пакета SDK для распознавания речи или API REST для синтеза речи.

<mstts:voiceconversion> Используйте тег с помощью языка разметки синтеза речи (SSML), чтобы указать исходный звуковой URL-адрес и целевой голос для преобразования. Полный список поддерживаемых целевых голосов см. в разделе о поддерживаемых голосах для преобразования речи.

Пример SSML

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice xml:lang="en-US" xml:gender="Female" name="en-US-AvaMultilingualNeural">
        <mstts:voiceconversion url="https://your.blob.core.windows.net/sourceaudio.wav"/>
    </voice>
</speak>

Дополнительные сведения о структуре и использовании SSML см. в справочной документации по языку разметки синтеза речи (SSML ).

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-01-31