Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Примечание
Эта функция сейчас доступна в общедоступной предварительной версии. Эта предварительная версия предоставляется без гарантий по обслуживанию и не рекомендуется для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.
MAI-Voice-1 — это нейронная модель преобразования текста в речь, доступная через Azure Speech в инструментах Foundry в общественном предварительном просмотре. Он основан на внутренних моделях речи Microsoft и производит экспрессивную и естественную речь с согласованным качеством голоса и интонации.
Как и голоса Azure Neural HD, MAI-Voice-1 понимает входной текст целостно и автоматически адаптирует тон, эмоции и стиль речи. Это обеспечивает более человеческую и разговорную речь, не требуя обширной настройки вручную.
Система Speech предлагает MAI-Voice-1 в качестве продвинутой модели нейронного голоса, оптимизированной для экспрессивных, диалоговых и долгих сценариев.
| Модель | Количество голосов | Ключевые характеристики | Оптимально для |
|---|---|---|---|
| MAI-Voice-1 | шесть заранее подготовленных голосов для английского (США) | Эмоционально богатый, высокоэкспрессивный, согласованное качество персонажа, управление стилем SSML | Диалоговый ИИ, творческие приложения, длинное речевое повествование |
Ключевые функции
| Ключевые функции | Описание |
|---|---|
| Создание речи, подобной человеку | MAI-Voice-1 создает очень естественную и эмоционально богатую речь. Модель интерпретирует входной текст целостно и автоматически настраивает эмоции, темп и ритм без ручной настройки. |
| Экспрессивность общения | MAI-Voice-1 оптимизирован для диалоговых сценариев, создавая интересную и контекстную речь, подходящую для помощников и интерактивных интерфейсов. |
| Управление эмоциими и стилем | Разработчики могут влиять на стиль речи с помощью SSML mstts:express-as, позволяя контролировать эмоции, такие как радость, волнение, сочувствие и многое другое. |
| Согласованное голосовое лицо | MAI-Voice-1 поддерживает стабильный и согласованный голос в материалах большого объема, сохраняя возможность выразительных вариаций. |
| Звук высокой точности | Модель создает высококачественную нейронную речь с естественной просодией и ясностью, подходящей для приложений производственного класса. |
| Синтез в режиме реального времени | MAI-Voice-1 поддерживает синтез речи в режиме реального времени с использованием Speech SDK и API. |
Необходимые условия
- Учетная запись Azure. Создайте его бесплатно.
- Создайте ресурс службы "Речь" в регионе, который поддерживает MAI-Voice-1 (поддержка региона).
Используйте MAI-Voice-1
MAI-Voice-1 использует те же пакеты SDK и API Azure для службы "Речь", что и другие Azure нейронные и HD-голоса. Следуйте быстрому старту по синтезу речи на выбранной платформе.
Используйте метод синтеза речи, включающий спецификацию SSML, и введите один из доступных предварительно созданных голосовых элементов MAI-Voice-1 в name атрибуте <voice> элемента.
Например, следующий код Python синтезирует речь с помощью en-us-Teo:MAI-Voice-1 и сохраняет его в output.mp3. Замените <key> ключом ресурса распознавания речи.
import azure.cognitiveservices.speech as speechsdk
speech_config = speechsdk.SpeechConfig(
subscription="<key>",
region="eastus"
)
audio_config = speechsdk.audio.AudioOutputConfig(
filename="output.mp3"
)
speech_config.set_speech_synthesis_output_format(
speechsdk.SpeechSynthesisOutputFormat.Audio24Khz160KBitRateMonoMp3
)
synthesizer = speechsdk.SpeechSynthesizer(
speech_config=speech_config,
audio_config=audio_config
)
ssml = """
<speak version='1.0'
xmlns='http://www.w3.org/2001/10/synthesis'
xml:lang='en-US'>
<voice name='en-us-Jasper:MAI-Voice-1'>
<mstts:express-as style="excitement">hello world.</mstts:express-as>
</voice>
</speak>
"""
synthesizer.speak_ssml_async(ssml).get()
При успешном выполнении файл output.mp3, содержащий синтезированную речь, сохраняется в текущем каталоге.
Справочные материалы: SpeechConfig | AudioOutputConfig | SpeechSynthesizer | speak_ssml_async
Примеры SSML
Базовый SSML
Следующий SSML синтезирует приветствие с использованием голоса en-us-Noa:MAI-Voice-1.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Jasper:MAI-Voice-1'>
<mstts:express-as style="excitement">hello world.</mstts:express-as>
</voice>
</speak>
Отправьте этот SSML в REST API или SDK службы синтеза речи, чтобы получить синтезированный звук.
Справочник. Элемент языка разметки синтеза речи (SSML) | <voice>
Персональный голос (режим запроса MAI-voice-1)
Действия по доступу:
- Чтобы получить доступ к личной голосовой связи (клонирование голосовой связи) с помощью MAI-Voice-1:
- Подайте заявку на закрытый доступ через Azure AI Custom Neural Voice и Custom Avatar Limited Access Review.
- После утверждения доступ к личным API голосовой связи по адресу cognitive-services-speech-sdk/samples/custom-voice.
- Отправка согласия на звук и запрос на создание личного голоса
- Синтезировать текст, используя созданный голос и модель MAI-Voice-1, с использованием следующего SSML.
<speak version='1.0'
xmlns='http://www.w3.org/2001/10/synthesis'
xmlns:mstts='http://www.w3.org/2001/mstts'
xml:lang='en-US'>
<voice name='MAI-voice-1'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
</mstts:ttsembedding>
</voice>
</speak>
Предварительно созданные голоса
| Идентификатор голоса | Гендер | Рекомендуемый вариант использования |
|---|---|---|
en-us-Jasper:MAI-Voice-1 |
Мужской | Общие беседы, продажи, эмоциональные стили |
en-us-June:MAI-Voice-1 |
Женский | Общие беседы, обслуживание клиентов, профессиональные, эмоциональные стили |
en-us-Grant:MAI-Voice-1 |
Мужской | Общие разговоры, профессиональные, эмоциональные стили |
en-us-Iris:MAI-Voice-1 |
Женский | Общая беседа, повествование, эмоциональные стили |
en-us-Reed:MAI-Voice-1 |
Мужской | Общая беседа |
en-us-Joy:MAI-Voice-1 |
Женский | Общая беседа |
Использование: доступно для сторонних разработчиков. Microsoft имеет полные права лицензирования для коммерческого использования.