Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Аватар преобразования текста в речь превращает текст в цифровое видео фотореалистичного человека (либо стандартного аватара, либо пользовательского аватара преобразования текста в речь), говорящего естественно звучащим голосом. Видео-аватар для текстовой озвучки может быть синтезирован асинхронно или в режиме реального времени. Разработчики могут создавать приложения с интеграцией аватара, используя технологию преобразования текста в речь через API, или использовать аватар для синтеза речи в Foundry для создания видеоконтента без программирования.
С помощью сложных моделей текст-в-речь аватара функция позволяет пользователям создавать реалистичные и высококачественные видео с синтетическим говорящим аватаром для различных приложений в соответствии с ответственными методиками искусственного интеллекта.
Совет
Чтобы преобразовать текст в речь без кода, попробуйте использовать средство аватара речи в Speech Studio.
Возможности аватара
Возможности аватара системы синтеза речи включают:
- Преобразует текст в цифровое видео фотореалистичного человека, говорящего с естественно звучащими голосами, поддерживаемыми технологией преобразования текста в речь от Azure AI.
- Предоставляет коллекцию стандартных аватаров, см. полный список поддерживаемых стандартных аватаров .
- Искусственный интеллект Azure преобразования текста в речь создает голос аватара. Дополнительные сведения см. в разделе "Голос аватара" и "Язык".
- Синтезируйте текст в видео-аватар асинхронно с API пакетного синтеза или в режиме реального времени.
- Используйте средство аватара текста для речи в Microsoft Foundry или в Speech Studio для создания видеоконтента без написания кода.
- Позволяет вести беседы аватара в режиме реального времени с помощью инструмента живого чата аватара в Speech Studio.
- Создание голосового агента с аватаром в Voice Live
С передовыми моделями нейронных сетей аватара текст-в-речь и моделями аватара Photo VASA-1, функция позволяет вам создавать живые и высококачественные синтетические видео с говорящими аватарами для различных приложений, с соблюдением принципов ответственного использования ИИ.
Голос аватара и язык
Вы можете выбрать из диапазона стандартных голосов для аватара. Поддержка языка для аватара, преобразующего текст в речь, совпадает с поддержкой языка для преобразования текста в речь. Дополнительные сведения см. в разделе "Язык" и "Голосовая поддержка" службы "Речь". Стандартный текст для аватаров речи можно получить через портал Speech Studio или ЧЕРЕЗ API.
Голос в искусственном видео может быть стандартным голосом Azure Speech в инструментах Foundry Tools или пользовательским голосом таланта озвучивания, выбранного вами.
Тип аватара
- Видео аватар: аватар создается с помощью модели, точно настроенной с использованием видеозаписи для настройки. Он поддерживает представления половины тела и полного тела.
- Фото Аватар (предварительная версия): Аватар создается из одного входного изображения и ограничен отображением только головы.
Выход видео аватара
Для видеоаватара разрешение как пакетного, так и синтеза в режиме реального времени составляет 1920 x 1080 по умолчанию. Пользователь может выбрать обучение пользовательских аватаров с разрешением 4K, а частота кадров в секунду (FPS) составляет 25. Для пакетного синтеза кодек может быть h264, hevc или av1, если формат mp4, и может быть vp9 или av1, если формат webm; только vp9 может содержать альфа-канал. Для синтеза в режиме реального времени кодек — h264. Скорость видео может быть настроена в запросе как для пакетного синтеза, так и для синтеза в режиме реального времени; значение по умолчанию — 2 000 000; Более подробные конфигурации можно найти в примере кода.
Разрешение фотоаватара составляет 512x512 как для пакетного синтеза, так и для синтеза в реальном времени.
Видеоаватар
| Пакетный синтез | Синтез в режиме реального времени | |
|---|---|---|
| Решение | 1920 x 1080/3840 x 2160 | 1920 x 1080/3840 x 2160 |
| FPS | двадцать пять | двадцать пять |
| Кодек | h264/hevc/vp9/av1 | h264 |
Фото Аватар (предварительная версия)
| Пакетный синтез | Синтез в режиме реального времени | |
|---|---|---|
| Решение | 512x512 | 512x512 |
| FPS | двадцать пять | двадцать пять |
| Кодек | h264/hevc/vp9 | h264 |
Настраиваемый аватар для преобразования текста в речь
Вы можете создать пользовательские аватары на основе технологии преобразования текста в речь, уникальные для вашего продукта или бренда. Для создания пользовательского видеоаватара требуется 10 минут видеозаписей, а для пользовательского фотоаватара требуется только одна фотография. Если вы настраиваете профессиональный голос для актера, аватар может быть очень реалистичным.
Синхронизация голоса для аватара обучается вместе с пользовательским аватаром с использованием звука из видео для обучения. Голос связан исключительно с пользовательским аватаром и не может использоваться независимо.
Тонкая настройка голоса и пользовательский текст в речь с использованием аватара — это отдельные функции. Их можно использовать независимо или вместе. Если вы планируете также использовать профессиональную настройку голоса с текстом для аватара речи, необходимо развернуть или скопировать настроенную профессиональную голосовую модель в один из поддерживаемых регионов аватара.
Дополнительные сведения см. в разделе Что такое пользовательский аватар для преобразования текста в речь.
Пример кода
Пример кода для текстового аватара для речи доступен на сайте GitHub. Эти примеры охватывают самые популярные сценарии:
- Пакетный синтез (REST)
- Синтез в режиме реального времени (SDK)
- Чат в реальном времени с Azure OpenAI в фоновом режиме (SDK)
- Использование аватара в API голосовой трансляции
Цены
- На протяжении сеанса аватара в реальном времени или пакетного создания контента, преобразование текста в речь, речи в текст, Azure OpenAI или другие службы Azure оплачиваются отдельно.
- Синхронизация голоса для аватара (с помощью пользовательской подготовки аватара) тарифицируется так же, как и создание и синтез персонального голоса. Хранение голосовых данных бесплатно.
- Обратитесь к заметке о ценах на аватар текст-в-рэч, чтобы узнать, как происходит выставление счетов за функцию аватара преобразования текста в речь.
- Подробную информацию о тарифах см. в разделе Цены на службу речи. Цены на аватар отображаются только для регионов служб, где доступна функция. Текущий список поддерживаемых регионов см. в таблице регионов службы "Речь".
Доступные расположения
Чтобы ознакомиться с текущим списком регионов, поддерживающих аватары с функцией преобразования текста в речь, см. таблицу регионов службы «Речь».
Ответственное применение ИИ
Мы заботимся о людях, которые используют ИИ и людей, которые будут затронуты им столько, сколько мы заботимся о технологии. Дополнительные сведения см. в заметках о прозрачности ответственного ИИ и раскрытии информации о голосовых и аватарных талантах.