Что такое аватар для преобразования текста в речь?

Аватар преобразования текста в речь превращает текст в цифровое видео фотореалистичного человека (либо стандартного аватара, либо пользовательского аватара преобразования текста в речь), говорящего естественно звучащим голосом. Видео-аватар для текстовой озвучки может быть синтезирован асинхронно или в режиме реального времени. Разработчики могут создавать приложения с интеграцией аватара, используя технологию преобразования текста в речь через API, или использовать аватар для синтеза речи в Foundry для создания видеоконтента без программирования.

С помощью сложных моделей текст-в-речь аватара функция позволяет пользователям создавать реалистичные и высококачественные видео с синтетическим говорящим аватаром для различных приложений в соответствии с ответственными методиками искусственного интеллекта.

Совет

Чтобы преобразовать текст в речь без кода, попробуйте использовать средство аватара речи в Speech Studio.

Возможности аватара

Возможности аватара системы синтеза речи включают:

  • Преобразует текст в цифровое видео фотореалистичного человека, говорящего с естественно звучащими голосами, поддерживаемыми технологией преобразования текста в речь от Azure AI.
  • Предоставляет коллекцию стандартных аватаров, см. полный список поддерживаемых стандартных аватаров .
  • Искусственный интеллект Azure преобразования текста в речь создает голос аватара. Дополнительные сведения см. в разделе "Голос аватара" и "Язык".
  • Синтезируйте текст в видео-аватар асинхронно с API пакетного синтеза или в режиме реального времени.
  • Используйте средство аватара текста для речи в Microsoft Foundry или в Speech Studio для создания видеоконтента без написания кода.
  • Позволяет вести беседы аватара в режиме реального времени с помощью инструмента живого чата аватара в Speech Studio.
  • Создание голосового агента с аватаром в Voice Live

С передовыми моделями нейронных сетей аватара текст-в-речь и моделями аватара Photo VASA-1, функция позволяет вам создавать живые и высококачественные синтетические видео с говорящими аватарами для различных приложений, с соблюдением принципов ответственного использования ИИ.

Голос аватара и язык

Вы можете выбрать из диапазона стандартных голосов для аватара. Поддержка языка для аватара, преобразующего текст в речь, совпадает с поддержкой языка для преобразования текста в речь. Дополнительные сведения см. в разделе "Язык" и "Голосовая поддержка" службы "Речь". Стандартный текст для аватаров речи можно получить через портал Speech Studio или ЧЕРЕЗ API.

Голос в искусственном видео может быть стандартным голосом Azure Speech в инструментах Foundry Tools или пользовательским голосом таланта озвучивания, выбранного вами.

Тип аватара

  • Видео аватар: аватар создается с помощью модели, точно настроенной с использованием видеозаписи для настройки. Он поддерживает представления половины тела и полного тела.
  • Фото Аватар (предварительная версия): Аватар создается из одного входного изображения и ограничен отображением только головы.

Выход видео аватара

Для видеоаватара разрешение как пакетного, так и синтеза в режиме реального времени составляет 1920 x 1080 по умолчанию. Пользователь может выбрать обучение пользовательских аватаров с разрешением 4K, а частота кадров в секунду (FPS) составляет 25. Для пакетного синтеза кодек может быть h264, hevc или av1, если формат mp4, и может быть vp9 или av1, если формат webm; только vp9 может содержать альфа-канал. Для синтеза в режиме реального времени кодек — h264. Скорость видео может быть настроена в запросе как для пакетного синтеза, так и для синтеза в режиме реального времени; значение по умолчанию — 2 000 000; Более подробные конфигурации можно найти в примере кода. Разрешение фотоаватара составляет 512x512 как для пакетного синтеза, так и для синтеза в реальном времени.

Видеоаватар

Пакетный синтез Синтез в режиме реального времени
Решение 1920 x 1080/3840 x 2160 1920 x 1080/3840 x 2160
FPS двадцать пять двадцать пять
Кодек h264/hevc/vp9/av1 h264

Фото Аватар (предварительная версия)

Пакетный синтез Синтез в режиме реального времени
Решение 512x512 512x512
FPS двадцать пять двадцать пять
Кодек h264/hevc/vp9 h264

Настраиваемый аватар для преобразования текста в речь

Вы можете создать пользовательские аватары на основе технологии преобразования текста в речь, уникальные для вашего продукта или бренда. Для создания пользовательского видеоаватара требуется 10 минут видеозаписей, а для пользовательского фотоаватара требуется только одна фотография. Если вы настраиваете профессиональный голос для актера, аватар может быть очень реалистичным.

Синхронизация голоса для аватара обучается вместе с пользовательским аватаром с использованием звука из видео для обучения. Голос связан исключительно с пользовательским аватаром и не может использоваться независимо.

Тонкая настройка голоса и пользовательский текст в речь с использованием аватара — это отдельные функции. Их можно использовать независимо или вместе. Если вы планируете также использовать профессиональную настройку голоса с текстом для аватара речи, необходимо развернуть или скопировать настроенную профессиональную голосовую модель в один из поддерживаемых регионов аватара.

Дополнительные сведения см. в разделе Что такое пользовательский аватар для преобразования текста в речь.

Пример кода

Пример кода для текстового аватара для речи доступен на сайте GitHub. Эти примеры охватывают самые популярные сценарии:

Цены

  • На протяжении сеанса аватара в реальном времени или пакетного создания контента, преобразование текста в речь, речи в текст, Azure OpenAI или другие службы Azure оплачиваются отдельно.
  • Синхронизация голоса для аватара (с помощью пользовательской подготовки аватара) тарифицируется так же, как и создание и синтез персонального голоса. Хранение голосовых данных бесплатно.
  • Обратитесь к заметке о ценах на аватар текст-в-рэч, чтобы узнать, как происходит выставление счетов за функцию аватара преобразования текста в речь.
  • Подробную информацию о тарифах см. в разделе Цены на службу речи. Цены на аватар отображаются только для регионов служб, где доступна функция. Текущий список поддерживаемых регионов см. в таблице регионов службы "Речь".

Доступные расположения

Чтобы ознакомиться с текущим списком регионов, поддерживающих аватары с функцией преобразования текста в речь, см. таблицу регионов службы «Речь».

Ответственное применение ИИ

Мы заботимся о людях, которые используют ИИ и людей, которые будут затронуты им столько, сколько мы заботимся о технологии. Дополнительные сведения см. в заметках о прозрачности ответственного ИИ и раскрытии информации о голосовых и аватарных талантах.

Следующие шаги