Что такое настраиваемый текст для аватара речи?

Настраиваемый текст для аватара речи позволяет создавать настраиваемый искусственный аватар для вашего приложения. С помощью пользовательского текстового аватара для озвучивания вы можете создать уникальный и естественно выглядящий аватар для вашего продукта или бренда. Аватар еще более реалистичный, если вы также используете профессиональный голос или голосовую синхронизацию для аватара для того же актера.

Существуют два типа пользовательских аватаров текст-в-речь:

Пользовательский видеоаватар: создается на основе предоставленных данных видеозаписи выбранных актеров.
Настраиваемый аватар фотографии: создается предоставленным изображением.

Внимание

Доступ к пользовательскому тексту для аватара речи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.

Внимание

Аватары фото (предварительная версия) и настраиваемые аватары фото (предварительная версия) лицензируются для вас в рамках вашей подписки на Azure и подлежат условиям, применимым к "предварительным версиям" в Условиях продукта Microsoft и в Дополнении к защите данных продуктов и услуг Microsoft ("DPA"), а также условиям предварительных версий для служб Microsoft Generative AI Services в дополнительных условиях использования для предварительных версий Microsoft Azure.

Доступ к пользовательскому фотоаватару (предварительный просмотр), который является частью пользовательского аватара текста в голос, ограничен на основе критериев соответствия и использования. Узнайте больше здесь и запросите доступ, используя форму заявки.

Как это работает?

Для создания пользовательского видеоаватара требуется не менее 10 минут записи видео актера в качестве обучающих данных, и необходимо сначала получить согласие от актера.

Для создания настраиваемого фото-аватара требуется только фотография персонажа. Если на фотографии изображён реальный человек, необходимо сначала получить их согласие.

Пользовательская модель аватара может поддерживать:

Создание видео с помощью API пакетного синтеза.
Динамический чат через API синтеза потоковой передачи.

Прежде чем приступить к работе, ниже приведены некоторые рекомендации.

Вариант использования: Вы хотите использовать аватар для создания видеоматериалов, таких как учебный материал или введение продукта? Вы хотите использовать аватар в качестве виртуального продавца в режиме реального времени беседы с клиентами? Существуют некоторые требования к записи для различных вариантов использования.

Внешний вид аватара: настраиваемый текст для речи аватар выглядит так же, как и талант аватара в обучающих данных, и мы не поддерживаем настройку внешнего вида модели аватара, таких как одежда, прическа и т. д. Поэтому если приложению требуется несколько стилей одного аватара, следует подготовить обучающие данные для каждого стиля, так как каждый стиль аватара считается одной моделью аватара.

Голос аватара: Настраиваемый текст в речь для аватара может использоваться со стандартным голосом, профессиональным голосом или с синхронизацией голоса аватара.

Синхронизация голосов для аватара: искусственный голос, имитирующий голос аватара, обучен вместе с пользовательским аватаром, используя аудио из учебного видео. Синхронизация голосовой связи для аватара в настоящее время поддерживается только для пользовательского аватара видео.
Профессиональный голос: дополнительно настройте профессиональный голос с помощью большего количества данных для обучения, предоставляя премиум голосовой опыт для вашего аватара, включая естественные беседы, многостильную и многоязычную поддержку.

Общие сведения о действиях по созданию пользовательского аватара видео:

Получение видео согласия. Получите видеозапись, на которой талант зачитывает заявление о согласии. Они должны согласиться на использование своих образов и голосовых данных для обучения пользовательской модели преобразования текста в речь. Если предполагается, что синхронизация голоса для аватара будет обучаться с использованием специально созданной модели видеоаватара, пользователи также должны дать согласие на использование своих голосовых данных для обучения искусственной версии ихнего голоса.
Подготовка обучающих данных. Убедитесь, что запись видео находится в правильном формате. Рекомендуется снимать запись видео в профессиональном видеосъемочной студии, чтобы получить чистое фоновое изображение. Качество полученного аватара сильно зависит от записанного видео, используемого для обучения. Факторы, такие как скорость речи, положение тела, выражение лица, жесты рук, согласованность в положении субъекта и освещение записи видео, необходимы для создания привлекательного пользовательского текста для аватара речи. Узнайте , как подготовить обучающие данные для получения дополнительных сведений.
Обучение модели аватара. После подготовки данных отправьте данные на пользовательский портал аватара и начните обучать модель. Проверка согласия проводится во время обучения. Прежде чем создать проект, убедитесь, что у вас есть доступ к пользовательскому тексту для аватара речи.
Разверните и используйте модель аватара в приложениях.

Общие сведения о действиях по созданию пользовательского аватара фотографии:

В настоящее время обучение пользовательского фото-аватара требует выполнения вручную в автономном режиме. Пользователи могут ознакомиться с краткими шагами по обучению ниже:

Подготовка обучающих данных. Настраиваемый фотоаватар можно обучить либо с помощью фотографии реального человека, либо изображения виртуального человека. Дополнительные сведения см. в разделе "Создание пользовательского аватара фотографии ".
Получение видео согласия. Получите видео с талантом, читающим заявление о согласии. Это необходимо при создании фото-аватара на основе фотографии реального человека. Они должны дать согласие на использование их изображения для обучения пользовательской фото-аватарной модели.
Настройте модель аватара. Обучение и развертывание пользовательского фотоаватара выполняются вручную.

Последовательность компонентов

Пользовательская модель аватара для речи содержит три компонента: текстовый анализатор, текст для синтезатора речи и текст для отрисовщика видео аватара.

Чтобы создать видеофайл аватара или потоковую передачу с помощью модели аватара, текст сначала вводится в текстовый анализатор, который предоставляет выходные данные в виде последовательности фонемы.
Аудиосинтезатор синтезирует речь для входного текста, и эти два компонента предоставляются стандартными или пользовательскими голосовыми моделями.
Наконец, модель преобразования текста в речь предсказывает изображение синхронизации губ с аудио речи, в результате чего создается синтетическое видео.

Модели аватаров для преобразования текста в речь обучены с помощью глубоких нейронных сетей на основе примеров видеозаписей с участием людей на разных языках. Поддерживаются все языки стандартных голосов и пользовательских голосов.

Доступные расположения

Текущий список регионов, поддерживающих обучение и использование пользовательского аватара, см. в таблице регионов службы 'Преобразование речи в текст'.

Настраиваемый голос и настраиваемый текст для аватара речи

Настраиваемый голос и настраиваемый текст для аватара речи являются отдельными функциями. Их можно использовать независимо или вместе. Если вы также создаете профессиональный голос для актера, аватар может быть очень реалистичным.

Пользовательский текстово-речевой аватар может работать со стандартным голосом или собственным голосом в качестве голоса аватара. Дополнительные сведения см. в разделе "Голос аватара" и "Язык".

Существует два типа пользовательского голоса для пользовательского аватара:

Синхронизация голоса для аватара: если включить синхронизацию голоса для аватара во время обучения пользовательского видео-аватара, синтетическая голосовая модель, использующая внешность аватара, обучается одновременно с аватаром. Этот голос связан исключительно с пользовательским аватаром видео и не может использоваться независимо. Сведения о поддерживаемых регионах см. в таблице регионов службы "Речь".
Профессиональный голос: Вы можете точно настроить профессиональный голос. Тонкая настройка профессионального голоса и пользовательский текст в аватар речи — это отдельные функции. Их можно использовать независимо или вместе. Если вы решили использовать их вместе, необходимо подать заявку на профессиональную тонкую настройку голоса и создание настраиваемого аватара для преобразования текста в речь отдельно, и с вас взимается плата отдельно за профессиональную тонкую настройку голоса и настраиваемый аватар для преобразования текста в речь. Дополнительные сведения см. на странице цен. Кроме того, если вы планируете использовать профессиональную настройку голоса с голосовым аватаром, необходимо развернуть или скопировать вашу пользовательскую модель голоса в один из регионов, где поддерживается аватар.

Если вы точно настраиваете профессиональный голос и хотите использовать его вместе с пользовательским аватаром, обратите внимание на следующие моменты:

Убедитесь, что пользовательская конечная точка голосовой связи создана в том же ресурсе Microsoft Foundry, что и пользовательская конечная точка аватара. При необходимости обратитесь к разделу тренировке вашей профессиональной голосовой модели, чтобы скопировать пользовательскую голосовую модель в тот же ресурс Microsoft Foundry, что и пользовательская конечная точка аватара.
Вы можете просмотреть настраиваемый параметр голоса в списке голосов страницы создания содержимого аватара и параметров голосового чата.
Если вы используете пакетный синтез для API аватара, добавьте "customVoices" свойство для связывания идентификатора развертывания пользовательской голосовой модели с именем голоса в запросе. Дополнительные сведения см. в разделе "Текст для речевых свойств".
Если вы используете синтез в режиме реального времени для API аватара, ознакомьтесь с нашим примером кода на GitHub , чтобы задать пользовательский голос.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-12-10