Голоса высокого разрешения в службе Azure Speech

Azure Speech в инструментах Foundry продолжает продвигать технологию преобразования текста в речь с нейронными голосами высокого качества (HD). Наши голоса HD понимают содержимое, автоматически обнаруживают эмоции во входном тексте и корректируют тон речи в режиме реального времени, чтобы соответствовать тону. Они поддерживают согласованные голосовые персоны, обеспечивая повышенную экспрессивность, естественность и контроль.

Обзор голосовой связи HD

Служба "Речь Azure" предлагает две расширенные модели голосовой связи HD, оптимизированные для различных вариантов использования:

Модель Количество голосов Ключевые характеристики Лучше всего для
DragonHD 30+ тонко настроенные голоса Профессиональное качество, точное произношение, поддержка нескольких говорящих Корпоративные приложения, требующие высокого качества выходных данных
DragonHDOmni 700+ голосов (все выпущенные голоса и новые, созданные ИИ) Поддержка стилей, многоязычный, гибкий для добавления новых голосов и стилей. Разнообразные приложения, создание контента, разнообразие персонажей

Ключевые функции голосов HD

Ниже приведены основные функции голосовых функций Azure Speech HD.

Ключевые особенности Описание
Создание речи, подобной человеку Нейронные HD-голоса синтеза речи могут создавать очень естественную и человеко-подобную речь. Модель обучена на миллионах часов многоязычных данных, что позволяет ей точно интерпретировать вводимый текст и генерировать речь с соответствующими эмоциями, темпом и ритмом без необходимости ручной корректировки.
Разговорный Нейронный синтез речи в формате HD может воспроизводить естественные интонации речи, включая спонтанные паузы и акцент. При предоставлении разговорного текста модель может воспроизводить общие фонемы, такие как паузы и слова-паразиты. Созданный голос звучит, как если бы кто-то говорил с вами напрямую.
Вариации просодии Голоса HD с нейронным преобразованием текста в речь вводят небольшие вариации в каждом воспроизведении, чтобы повысить реалистичность. Эти вариации делают речь более естественной, так как человеческие голоса естественно демонстрируют вариативность.
Высокая точность Основная цель нейронных высококачественных голосов для синтеза речи заключается в создании высококачественного звука. Синтетическая речь, созданная нашей системой, может очень точно имитировать человеческую речь как по качеству, так и по естественности.

Сравнение голосов Azure Speech HD с другими голосами Azure для преобразования текста в речь

Чем отличаются голоса Azure Speech HD от других голосов Azure? Ниже приведено подробное сравнение:

Функция Голоса HD службы Azure Speech Azure OpenAI голоса высокой четкости Голоса Azure Speech (не HD)
Регион См. раздел "Регионы службы "Речь" См. раздел "Регионы службы "Речь" Доступно в десятках регионов. См. регионы службы «Речь».
Количество голосов 30 6 Более 500
Многоязычный Да Да Да (применимо только к многоязычным голосам)
Поддержка SSML Поддержка подмножества элементов SSML. Поддержка подмножества элементов SSML. Поддержка полного набора SSML в Azure Speech.
Варианты разработки Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API
Варианты развертывания Только облако Только облако Облако, встроенные системы, гибридные технологии и контейнеры.
Синтез в реальном времени или пакетный синтез Только в режиме реального времени Синтез в режиме реального времени и пакетный синтез Синтез в режиме реального времени и пакетный синтез
Задержка Меньше 300 мс Больше 500 мс Меньше 300 мс
Частота дискретизации синтезированного аудио 8, 16, 24 и 48 кГц 8, 16, 24 и 48 кГц 8, 16, 24 и 48 кГц
Аудиоформат вывода речи opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Поддерживаемые HD-голоса Azure Speech

Служба "Речь Azure" предоставляет два набора голосов HD с различными архитектурами моделей:

Голосы Dragon HD

Значения голосовой связи Azure Speech HD находятся в формате voicename:DragonHD:version. Имя перед двоеточием, как en-US-Ava, представляет собой имя голосовой персоны и его исходный языковой стандарт.

Чтобы убедиться, что вы используете последнюю версию базовой модели, которую мы предоставляем, используйте версию LatestNeural .

Например, для пользователя en-US-Ava можно указать следующее:

  • en-US-Ava:DragonHDLatestNeural: всегда использует последнюю версию базовой модели DragonHD.

В следующей таблице перечислены доступные голоса DragonHD:

Имя голоса Пол Состояние Примечание
de-de-Florian:DragonHDLatestNeural Мужской Генеральная Ассамблея
de-de-Seraphina:DragonHDLatestNeural Женщина Генеральная Ассамблея
en-us-Adam:DragonHDLatestNeural Мужской Генеральная Ассамблея
en-us-Alloy:DragonHDLatestNeural Мужской Генеральная Ассамблея
en-us-Andrew:DragonHDLatestNeural Мужской Генеральная Ассамблея
en-us-Andrew2:DragonHDLatestNeural Мужской Генеральная Ассамблея Оптимизировано для содержимого беседы
en-us-Andrew3:DragonHDLatestNeural Мужской Предварительный просмотр Оптимизировано для содержимого podcast
en-us-Aria:DragonHDLatestNeural Женщина Генеральная Ассамблея
en-us-Ava:DragonHDLatestNeural Женщина Генеральная Ассамблея
en-us-Ava3:DragonHDLatestNeural Женщина Предварительный просмотр Оптимизировано для содержимого podcast
en-us-Brian:DragonHDLatestNeural Мужской Генеральная Ассамблея
en-us-Davis:DragonHDLatestNeural Мужской Генеральная Ассамблея
en-us-Emma:DragonHDLatestNeural Женщина Генеральная Ассамблея
en-us-Emma2:DragonHDLatestNeural Женщина Генеральная Ассамблея Оптимизировано для содержимого беседы
en-us-Jenny:DragonHDLatestNeural Женщина Генеральная Ассамблея
en-us-MultiTalker-Ava-Andrew:DragonHDLatestNeural Мужской Предварительный просмотр
en-us-Nova:DragonHDLatestNeural Женщина Генеральная Ассамблея
en-us-Phoebe:DragonHDLatestNeural Женщина Генеральная Ассамблея
en-us-Serena:DragonHDLatestNeural Женщина Генеральная Ассамблея
en-us-Steffan:DragonHDLatestNeural Мужской Генеральная Ассамблея
es-es-Tristan:DragonHDLatestNeural Мужской Генеральная Ассамблея
es-es-Ximena:DragonHDLatestNeural Женщина Генеральная Ассамблея
fr-fr-Remy:DragonHDLatestNeural Мужской Генеральная Ассамблея
fr-fr-Vivienne:DragonHDLatestNeural Женщина Генеральная Ассамблея
ja-jp-Masaru:DragonHDLatestNeural Мужской Генеральная Ассамблея
ja-jp-Nanami:DragonHDLatestNeural Женщина Генеральная Ассамблея
zh-cn-Xiaochen:DragonHDLatestNeural Женщина Генеральная Ассамблея
zh-cn-Yunfan:DragonHDLatestNeural Мужской Генеральная Ассамблея

Поддерживаются следующие стили и теги паралингвистики в HD-голосах.

Тип Тег
Стили amazed amused angry annoyed anxious appreciative calm cautious concerned confident confused curious defeated defensive defiant determined disappointed disgusted doubtful ecstatic encouraging excited fast fearful frustrated happy hesitant hurt impatient impressed intrigued joking laughing optimistic painful panicked panting pleading proud quiet reassuring reflective relieved remorseful resigned sad sarcastic secretive serious shocked shouting shy skeptical slow struggling surprised suspicious sympathetic terrified upset urgent whispering
Паралингвистики laughter coughing throat_clearing breathing sighing yawning

Примечание

Стили доступны на всех английских языках для всех голосов. Результаты стиля очень важны для входного содержимого: модель адаптирует приложение стиля на основе семантического значения текста. Паралингвистика доступна для всех голосов и для всех языков.

Дракон HD Omni голоса

Dragon HD Omni — это единая модель следующего поколения Azure Speech, которая объединяет предварительно созданные и созданные ИИ голосов в единую гибкую платформу. Он включает более 700 голосов с повышенной экспрессивностью, многоязычной поддержкой, расширенным элементом управления стилем и автоматическим прогнозированием стиля.

Ключевые возможности Dragon HD Omni

  • 700+ Голоса: включает большинство предыдущих голосов с улучшенным качеством и 300+ ИИ созданных голосов с различными характеристиками
  • Расширенный элемент управления стилем: автоматическое прогнозирование стиля с помощью описаний естественного языка (изначально доступно для en-US-Ava и en-US-Andrew)
  • Многоязычная поддержка: все голоса Dragon HD Omni поддерживают несколько языков с поддержкой автоматического обнаружения языков и поддержки тегов SSML <lang>
  • Расширенная просодия: улучшенная естественность с автоматической контекстной адаптацией
  • Поддержка событий на границах слов: обеспечивает точную синхронизацию на уровне слов для синхронизированных приложений

Поддерживаемые стили для Dragon HD Omni

Следующие стили и паралингвистические теги поддерживаются в голосах HDOmni

Тип Тег
Стили amazed, amused, angry, annoyed, anxious, appreciative, calm, cautious, concerned, confident, confused, curious, defeated, defensive, defiant, determined, disappointed, disgusted, doubtful, ecstatic, encouraging, excited, fast, fearful, frustrated, happy, hesitant, hurt, impatient, impressed, intrigued, joking, laughing, optimistic, painful, panicked, panting, pleading, proud, quiet, reassuring, reflective, relieved, remorseful, resigned, sad, sarcastic, secretive, serious, shocked, shouting, shy, skeptical, slow, struggling, surprised, suspicious, sympathetic, terrified, upset, urgent
Паралингвистики laughter coughing throat_clearing breathing sighing yawning

Примечание

Стили доступны на всех английских языках для всех голосов. Результаты стиля очень важны для входного содержимого: модель адаптирует приложение стиля на основе семантического значения текста. Паралингвистика доступна для всех голосов и для всех языков.

Соглашение об именовании голоса Dragon HD Omni

Дракон HD Omni голоса следуют шаблону именования: languagelocale-voicename:DragonHDOmniLatestNeural Этот формат голосового имени можно использовать, добавив суффикс :DragonHDOmniLatestNeural , чтобы быстро найти версию Omni:

Пример:

Предыдущий нейронный голос Голосовое название версии Omni
de-DE-ConradNeural de-DE-Conrad:DragonHDOmniLatestNeural

Ознакомьтесь с полным списком голосов Dragon HD Omni.

Голоса Dragon HD Flash

Голоса HD Flash — это оптимизированные варианты некоторых голосов DragonHD, которые в настоящее время поддерживают текст на китайском (zh-CN) и английском (en-US) языках. Эти голоса обеспечивают повышенную естественность и доступны в стандартных регионах Azure (eastus, westeurope, ), southeastasiaа также в регионах Китая (chinaeast2, chinanorth2, ). chinanorth3

Ниже приведен полный список доступных голосов HD Flash и поддерживаемых стилей

Имя голоса Поддерживаемые стили
zh-CN-Xiaoxiao:DragonHDFlashLatestNeural angry, chat, cheerfulcustomer-serviceexcitedfearfulsadvoice-assistant
zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural affectionate, angry, anxiouscheerfulcuriousdisappointedempatheticencouragingexcitedfearfulguiltylonelypoetry-readingsadsentimentalsorrystorysurprisedtiredwhispering
zh-CN-Xiaochen:DragonHDFlashLatestNeural cheerful, debating, empatheticlive-commercialpoetry-readingsadsorry
zh-CN-Xiaoyi:DragonHDFlashLatestNeural angry, complaining, cutegentlenervoussadshystrict
zh-CN-Xiaoyu:DragonHDFlashLatestNeural angry debating cheerful comforting sad sorry
zh-CN-Xiaohan:DragonHDFlashLatestNeural affectionate, angrycheerfulcomplainingfearfulgentlesadshystrict
zh-CN-Xiaoshuang:DragonHDFlashLatestNeural chat
zh-CN-Xiaoyou:DragonHDFlashLatestNeural chat, angry, cheerfulpoetry-readingsadstorycute
zh-CN-Yunxi:DragonHDFlashLatestNeural angry, chat, cheerfulcomplainingdepressedfearfulnewssadshystrictvoice-assistant
zh-CN-Yunyi:DragonHDFlashLatestNeural assassin, captain, cavalierprincegame-narratorgeomancerpoet
zh-CN-Yunxiao:DragonHDFlashLatestNeural
zh-CN-Yunhan:DragonHDFlashLatestNeural angry, cheerfulcuriousempatheticencouragingexcitedguiltylonelysadserioussorrywhisperingsurprisedtired
zh-CN-Yunxia:DragonHDFlashLatestNeural affectionate, angrycheerfulcomfortingencouragingexcitedfearfulsadsurprised
zh-CN-Yunye:DragonHDFlashLatestNeural
en-US-Tiana:DragonHDFlashLatestNeural
en-US-Tyler:DragonHDFlashLatestNeural
en-US-Jimmie:DragonHDFlashLatestNeural

Примечание

HD Flash поддерживает только текст в zh-CN и en-US.

Использование голосовых функций Azure Speech HD

Вы можете использовать HD-голоса с той же службой SDK "Речь" и REST API, что и для обычных голосов.

Ниже приведены некоторые ключевые моменты, которые следует учитывать при использовании голосовых функций Azure Speech HD:

  • Языковой локаль голоса: Локаль в названии голоса указывает его исходный язык и регион.
  • Базовые модели:
    • Голоса HD поставляются с базовой моделью, которая понимает вводимый текст и соответственно прогнозирует манеру речи. Вы можете указать требуемую модель (например, DragonHDLatestNeural) в зависимости от доступности каждого голоса.
  • Использование SSML: Чтобы указать голос в SSML, используйте формат voicename:basemodel:version. Имя перед двоеточием, как de-DE-Seraphina, представляет собой имя голосовой персоны и его исходный языковой стандарт. Базовая модель отслеживается версиями в последующих обновлениях.
  • Параметр температуры:
    • Значение температуры — это плавающее значение от 0 до 1, влияющее на случайность выходных данных. Вы также можете регулировать параметр температуры, чтобы контролировать изменение результатов. Меньше случайности дает более стабильные результаты, в то время как более случайность предлагает разнообразие, но меньше согласованности.
    • Низкая температура приводит к меньшей случайности, что ведет к более предсказуемым результатам. Более высокая температура увеличивает случайность, что позволяет получить более разнообразные выходные данные. Температура по умолчанию установлена на 1.0.

Ниже приведен пример использования голосов Azure Speech HD в SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Расширенные функции Dragon HD Omni

Управление стилем с помощью Express-As

Dragon HD Omni поддерживает расширенное управление стилем, используя элемент mstts:express-as и описания на естественном языке. Ниже приведен пример:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-us-ava:DragonHDOmniLatestNeural">
    <mstts:express-as style="sick">
      Ugh… I'm not feeling so great today. My head's pounding, and even my voice sounds like it's been through a blender. I think I need to lie down for a bit… maybe some soup would help.
    </mstts:express-as>
  </voice>
</speak>

Поддержка нескольких языков

Все голоса Dragon HD Omni поддерживают несколько языков с автоматическим обнаружением языка. Вы также можете использовать <lang xml:lang> тег для явного указания языка и акцента:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" 
        xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-us-ava:DragonHDOmniLatestNeural">
    <lang xml:lang="fr-FR">
      Bonjour ! Ce matin, j'ai pris un café au jardin du Luxembourg. Il faisait frais, mais très agréable. Ensuite, j'ai acheté une baguette et quelques macarons. Paris est vraiment charmant.
    </lang>
  </voice>
</speak>

События границы слова

Dragon HD Omni поддерживает события границ слов, обеспечивая точное определение времени на уровне слов для синхронизированных приложений, таких как караоке, субтитры в режиме реального времени и интерактивные голосовые взаимодействия.

При срабатывании события границы слова он предоставляет:

  • Текст: слово, произнесенное
  • AudioOffset: смещение времени в аудиопотоке (миллисекундах)
  • TextOffset: позиция слова в входном тексте

Пример на Python с событиями границ слов

import azure.cognitiveservices.speech as speechsdk

def word_boundary_cb(evt):
    print(f"Word: '{evt.text}', AudioOffset: {evt.audio_offset / 10000}ms, TextOffset: {evt.text_offset}")

speech_config = speechsdk.SpeechConfig(subscription="YourSubscriptionKey", region="YourServiceRegion")
synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config)

synthesizer.synthesis_word_boundary.connect(word_boundary_cb)

ssml = """
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis'
       xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
  <voice name='en-us-ava:DragonHDOmniLatestNeural'>
    Hello Azure, welcome to Dragon HD Omni!
  </voice>
</speak>
"""

result = synthesizer.speak_ssml_async(ssml).get()

Образец вывода:

Word: 'Hello', AudioOffset: 110.0ms, TextOffset: 182
Word: 'Azure', AudioOffset: 590.0ms, TextOffset: 188
Word: ',', AudioOffset: 1110.0ms, TextOffset: 193
Word: 'welcome', AudioOffset: 1270.0ms, TextOffset: 195
Word: 'to', AudioOffset: 1750.0ms, TextOffset: 203
Word: 'Dragon HD Omni', AudioOffset: 1910.0ms, TextOffset: 206
Word: '!', AudioOffset: 2750.0ms, TextOffset: 216

Расширенная настройка параметров для Dragon HD Omni

Dragon HD Omni поддерживает расширенную настройку параметров для настройки выходных данных голоса для различных сценариев.

Справочник параметров

Параметр По умолчанию Диапазон Цель
temperature 0.7 0.3–1.0 Управляет творчеством и стабильностью
top_p 0.7 0.3–1.0 Фильтрует выходные данные для разнообразия
top_k двадцать два 1–50 Ограничение количества параметров, которые рассматриваются
cfg_scale 1.4 1.0–2.0 Корректирует релевантность и скорость речи

Стратегии настройки

Для экспрессивности и стабильности:

  • Более высокие значения для temperature, top_pи top_k приводит к более экспрессивной, эмоционально разнообразной речи
  • Более низкие значения создают более стабильные и прогнозируемые выходные данные
  • Рекомендация: Оставляйте top_p равным temperature для наилучших результатов

Для скорости и контекстной релевантности:

  • cfg_scale влияет на то, как быстро голос говорит и насколько хорошо он соответствует контексту
    • Более высокие значения (1.8–2.0): более быстрая речь с более строгой контекстной релевантностью
    • Более низкие значения (1.0–1.2): медленная речь с меньшим контекстным выравниванием

Рекомендуемая таблица настройки

Цель Предлагаемая корректировка
Более экспрессивный Увеличьте temperature, top_p и top_k вместе
Более стабильный Сперва опустите temperature, затем при необходимости настройте top_p
Быстрый и релевантный Увеличить cfg_scale
Медленнее и нейтрально Уменьшить cfg_scale

Примеры использования параметров

Корректировка одного параметра:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" 
        xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-us-ava:DragonHDOmniLatestNeural" parameters="top_p=0.8">
    Hello Azure!
  </voice>
</speak>

Настройка нескольких параметров:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" 
        xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-us-ava:DragonHDOmniLatestNeural" parameters="top_p=0.8;top_k=22;temperature=0.7;cfg_scale=1.2">
    Hello Azure! Welcome to Dragon HD Omni!
  </voice>
</speak>

Поддерживаемые и неподдерживаемые элементы SSML для голосовых элементов Azure Speech HD

Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, вы можете использовать SSML, чтобы определить абзац, предложение, паузу или перерыв, или тишину. Вы можете обернуть текст тегами событий, такими как закладка или визема, которые ваше приложение обрабатывает позже.

Голоса HD в Azure Speech поддерживают различные элементы SSML, в зависимости от модели.

  • Голоса DragonHD: поддержка подмножества элементов SSML (см. таблицу ниже)
  • Голоса Dragon HD Omni: поддержка дополнительных элементов, включая управление стилем и события на границах слов

Подробные сведения о поддерживаемых и неподдерживаемых элементах SSML для голосовых элементов Azure Speech HD см. в следующей таблице. Для получения инструкций по использованию элементов SSML обратитесь к документации Языка разметки синтеза речи (SSML).

Элемент SSML Описание DragonHD Дракон HD Omni
<voice> Указывает голос и необязательные эффекты (eq_car и eq_telecomhp8k). Да Да
<mstts:express-as> Указывает стили и роли выступлений. Нет Да
<mstts:ttsembedding> Указывает свойство speakerProfileId для личного голоса. Нет Нет
<lang xml:lang> Задает язык речи. Да Да
<prosody> Регулирует высоту тона, контур, диапазон, скорость и громкость. Нет Нет
<emphasis> Добавляет или удаляет стресс на уровне слова для текста. Нет Нет
<audio> Встраивает предварительно записанный аудио в документ SSML. Нет Нет
<mstts:audioduration> Указывает продолжительность выходного аудио. Нет Нет
<mstts:backgroundaudio> Добавляет фоновое аудио в ваши документы SSML или смешивает звуковой файл с текстом при синтезе речи. Нет Нет
<phoneme> Указывает фонетическое произношение в документах SSML. Да Нет
<lexicon> Определяет, как несколько сущностей читаются в SSML. Да (поддерживает только псевдоним) Да (поддерживает только псевдоним)
<say-as> Указывает тип содержимого, например, число или дата, текста элемента. Да Да
<sub> Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента. Да Да
<math> Использует MathML в качестве входного текста для правильного произношения математических нотации в выходном звуке. Нет Нет
<bookmark> Получает смещение каждого маркера в звуковом потоке. Нет Нет
<break> Переопределяет стандартное поведение разрывов или пауз между словами. Да Нет
<mstts:silence> Вставляет паузу до или после текста или между двумя смежными предложениями. Нет Нет
<mstts:viseme> Определяет положение лица и рта во время выступления человека. Нет Нет
<p> Обозначает абзацы в документах SSML. Да Да
<s> Обозначает предложения в документах SSML. Да Да

Примечание

Хотя предыдущий раздел в этом руководстве также сравнивал голоса Azure Speech HD с голосами Azure OpenAI HD, элементы SSML, поддерживаемые службой "Речь Azure", не применимы к голосам Azure OpenAI.

Параметр улучшения произношения

Параметр enhancedPronunciation обеспечивает улучшенную обработку произношения во время синтеза речи. Когда установлено значение true, голоса NeuralHD применяют дополнительные оптимизации произношения, чтобы улучшить четкость и правильность произношения, особенно для сложных, неоднозначных или нестандартных текстов.

Если включена функция улучшения произношения, служба придаёт приоритет точности произношения путем применения расширенной лингвистической обработки во время синтеза. Это может помочь улучшить то, как система интерпретирует данные:

  • Правильные существительные, имена и необычные слова
  • Акронимы, аббревиатуры и текст смешанного регистра
  • Слова с несколькими возможными произношениями в зависимости от контекста Этот параметр предназначен для дополнения существующих элементов управления произношением, таких как теги произношения на основе SSML и лексиконы, и не заменяет их. функция enhancePronunciation по умолчанию отключена для сохранения прогнозируемых, обратно совместимых с речью выходных данных и может быть включена, если разработчики хотят, чтобы служба применяла дополнительные оптимизации произношения для улучшения ясности и естественности.

Включите улучшение произношения в сценариях со структурированным или техническим содержимым для конкретного домена.

Примечание

Параметр влияет только на обработку произношения; он не изменяет выбор голоса, стиль речи или элементы управления просодией. Результаты могут отличаться в зависимости от языка, голоса и входного текста. Для детерминированного управления произношением элементы произношения SSML остаются рекомендуемыми.

Выбор между DragonHD и Dragon HD HD Omni

Обе модели голосовой связи HD обеспечивают высококачественный синтез, но они служат разным вариантам использования:

Рассмотрение DragonHD Дракон HD Omni
Количество голосов 30+ тонко настроенных голосов 700+ голоса (включая предыдущие голоса и новые голоса, созданные ИИ)
Разнообразие голоса Ограничено предопределенными лицами Обширное разнообразие с различными характеристиками всех голосов библиотеки
Элемент управления стилем Только температурные и расширенные параметры Автоматическое прогнозирование стилей и управление более чем 100 стилями на Ava и Эндрю
Варианты использования Служба клиентов, специальные возможности, приложения, ориентированные на согласованность Создание контента, аудиокниги, подкасты, разнообразные требования к человеку

Когда следует использовать каждую модель

Выберите Dragon HD, если вы:

  • Требуется определенный голосовой образ для конкретных языков для обеспечения высокого качества.
  • Создание корпоративных приложений службы клиентов
  • Требуется точно настроенное управление с помощью температуры и расширенных параметров

Выберите Dragon HD Omni, если вы:

  • Требуется гибкость с множеством вариантов голосовой связи
  • Создают разнообразные материалы (аудиокниги, подкасты, рассказы)
  • Хотите улучшить текущее качество нейронных голосов, но для ваших локалей пока не поддерживается HD модель.
  • Требуется широкий спектр лиц для различных вариантов использования