MAI-Voice-1 в Azure Speech (предварительный просмотр)

Примечание

Эта функция сейчас доступна в общедоступной предварительной версии. Эта предварительная версия предоставляется без гарантий по обслуживанию и не рекомендуется для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

MAI-Voice-1 — это нейронная модель преобразования текста в речь, доступная через Azure Speech в инструментах Foundry в общественном предварительном просмотре. Он основан на внутренних моделях речи Microsoft и производит экспрессивную и естественную речь с согласованным качеством голоса и интонации.

Как и голоса Azure Neural HD, MAI-Voice-1 понимает входной текст целостно и автоматически адаптирует тон, эмоции и стиль речи. Это обеспечивает более человеческую и разговорную речь, не требуя обширной настройки вручную.

Система Speech предлагает MAI-Voice-1 в качестве продвинутой модели нейронного голоса, оптимизированной для экспрессивных, диалоговых и долгих сценариев.

Модель Количество голосов Ключевые характеристики Оптимально для
MAI-Voice-1 шесть заранее подготовленных голосов для английского (США) Эмоционально богатый, высокоэкспрессивный, согласованное качество персонажа, управление стилем SSML Диалоговый ИИ, творческие приложения, длинное речевое повествование

Ключевые функции

Ключевые функции Описание
Создание речи, подобной человеку MAI-Voice-1 создает очень естественную и эмоционально богатую речь. Модель интерпретирует входной текст целостно и автоматически настраивает эмоции, темп и ритм без ручной настройки.
Экспрессивность общения MAI-Voice-1 оптимизирован для диалоговых сценариев, создавая интересную и контекстную речь, подходящую для помощников и интерактивных интерфейсов.
Управление эмоциими и стилем Разработчики могут влиять на стиль речи с помощью SSML mstts:express-as, позволяя контролировать эмоции, такие как радость, волнение, сочувствие и многое другое.
Согласованное голосовое лицо MAI-Voice-1 поддерживает стабильный и согласованный голос в материалах большого объема, сохраняя возможность выразительных вариаций.
Звук высокой точности Модель создает высококачественную нейронную речь с естественной просодией и ясностью, подходящей для приложений производственного класса.
Синтез в режиме реального времени MAI-Voice-1 поддерживает синтез речи в режиме реального времени с использованием Speech SDK и API.

Необходимые условия

Используйте MAI-Voice-1

MAI-Voice-1 использует те же пакеты SDK и API Azure для службы "Речь", что и другие Azure нейронные и HD-голоса. Следуйте быстрому старту по синтезу речи на выбранной платформе.

Используйте метод синтеза речи, включающий спецификацию SSML, и введите один из доступных предварительно созданных голосовых элементов MAI-Voice-1 в name атрибуте <voice> элемента.

Например, следующий код Python синтезирует речь с помощью en-us-Teo:MAI-Voice-1 и сохраняет его в output.mp3. Замените <key> ключом ресурса распознавания речи.

import azure.cognitiveservices.speech as speechsdk

speech_config = speechsdk.SpeechConfig(
    subscription="<key>",
    region="eastus"
)

audio_config = speechsdk.audio.AudioOutputConfig(
    filename="output.mp3"
)

speech_config.set_speech_synthesis_output_format(
    speechsdk.SpeechSynthesisOutputFormat.Audio24Khz160KBitRateMonoMp3
)

synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config,
    audio_config=audio_config
)

ssml = """
<speak version='1.0'
       xmlns='http://www.w3.org/2001/10/synthesis'
       xml:lang='en-US'>
  <voice name='en-us-Jasper:MAI-Voice-1'>
  <mstts:express-as style="excitement">hello world.</mstts:express-as> 
  </voice>
</speak>
"""

synthesizer.speak_ssml_async(ssml).get()

При успешном выполнении файл output.mp3, содержащий синтезированную речь, сохраняется в текущем каталоге.

Справочные материалы: SpeechConfig | AudioOutputConfig | SpeechSynthesizer | speak_ssml_async

Примеры SSML

Базовый SSML

Следующий SSML синтезирует приветствие с использованием голоса en-us-Noa:MAI-Voice-1.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='en-US-Jasper:MAI-Voice-1'>
        <mstts:express-as style="excitement">hello world.</mstts:express-as>   
    </voice>
</speak>

Отправьте этот SSML в REST API или SDK службы синтеза речи, чтобы получить синтезированный звук.

Справочник. Элемент языка разметки синтеза речи (SSML) | <voice>

Персональный голос (режим запроса MAI-voice-1)

Действия по доступу:

  1. Чтобы получить доступ к личной голосовой связи (клонирование голосовой связи) с помощью MAI-Voice-1:
  2. Подайте заявку на закрытый доступ через Azure AI Custom Neural Voice и Custom Avatar Limited Access Review.
  3. После утверждения доступ к личным API голосовой связи по адресу cognitive-services-speech-sdk/samples/custom-voice.
  4. Отправка согласия на звук и запрос на создание личного голоса
  5. Синтезировать текст, используя созданный голос и модель MAI-Voice-1, с использованием следующего SSML.
<speak version='1.0'
       xmlns='http://www.w3.org/2001/10/synthesis'
       xmlns:mstts='http://www.w3.org/2001/mstts'
       xml:lang='en-US'> 
       <voice name='MAI-voice-1'> 
          <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
          I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.  
          </mstts:ttsembedding> 
       </voice>
</speak>  

Предварительно созданные голоса

Идентификатор голоса Гендер Рекомендуемый вариант использования
en-us-Jasper:MAI-Voice-1 Мужской Общие беседы, продажи, эмоциональные стили
en-us-June:MAI-Voice-1 Женский Общие беседы, обслуживание клиентов, профессиональные, эмоциональные стили
en-us-Grant:MAI-Voice-1 Мужской Общие разговоры, профессиональные, эмоциональные стили
en-us-Iris:MAI-Voice-1 Женский Общая беседа, повествование, эмоциональные стили
en-us-Reed:MAI-Voice-1 Мужской Общая беседа
en-us-Joy:MAI-Voice-1 Женский Общая беседа

Использование: доступно для сторонних разработчиков. Microsoft имеет полные права лицензирования для коммерческого использования.

Дальнейшие действия