Голоса высокого разрешения в службе Azure Speech

Azure Speech в инструментах Foundry продолжает продвигать технологию преобразования текста в речь с нейронными голосами высокого качества (HD). Наши голоса HD понимают содержимое, автоматически обнаруживают эмоции во входном тексте и корректируют тон речи в режиме реального времени, чтобы соответствовать тону. Они поддерживают согласованные голосовые персоны, обеспечивая повышенную экспрессивность, естественность и контроль.

Обзор голосовой связи HD

Служба "Речь Azure" предлагает две расширенные модели голосовой связи HD, оптимизированные для различных вариантов использования:

Модель	Количество голосов	Ключевые характеристики	Лучше всего для
DragonHD	30+ тонко настроенные голоса	Профессиональное качество, точное произношение, поддержка нескольких говорящих	Корпоративные приложения, требующие высокого качества выходных данных
DragonHDOmni	700+ голосов (все выпущенные голоса и новые, созданные ИИ)	Поддержка стилей, многоязычный, гибкий для добавления новых голосов и стилей.	Разнообразные приложения, создание контента, разнообразие персонажей

Ключевые функции голосов HD

Ниже приведены основные функции голосовых функций Azure Speech HD.

Ключевые особенности	Описание
Создание речи, подобной человеку	Нейронные HD-голоса синтеза речи могут создавать очень естественную и человеко-подобную речь. Модель обучена на миллионах часов многоязычных данных, что позволяет ей точно интерпретировать вводимый текст и генерировать речь с соответствующими эмоциями, темпом и ритмом без необходимости ручной корректировки.
Разговорный	Нейронный синтез речи в формате HD может воспроизводить естественные интонации речи, включая спонтанные паузы и акцент. При предоставлении разговорного текста модель может воспроизводить общие фонемы, такие как паузы и слова-паразиты. Созданный голос звучит, как если бы кто-то говорил с вами напрямую.
Вариации просодии	Голоса HD с нейронным преобразованием текста в речь вводят небольшие вариации в каждом воспроизведении, чтобы повысить реалистичность. Эти вариации делают речь более естественной, так как человеческие голоса естественно демонстрируют вариативность.
Высокая точность	Основная цель нейронных высококачественных голосов для синтеза речи заключается в создании высококачественного звука. Синтетическая речь, созданная нашей системой, может очень точно имитировать человеческую речь как по качеству, так и по естественности.

Сравнение голосов Azure Speech HD с другими голосами Azure для преобразования текста в речь

Чем отличаются голоса Azure Speech HD от других голосов Azure? Ниже приведено подробное сравнение:

Функция	Голоса HD службы Azure Speech	Azure OpenAI голоса высокой четкости	Голоса Azure Speech (не HD)
Регион	См. раздел "Регионы службы "Речь"	См. раздел "Регионы службы "Речь"	Доступно в десятках регионов. См. регионы службы «Речь».
Количество голосов	30	6	Более 500
Многоязычный	Да	Да	Да (применимо только к многоязычным голосам)
Поддержка SSML	Поддержка подмножества элементов SSML.	Поддержка подмножества элементов SSML.	Поддержка полного набора SSML в Azure Speech.
Варианты разработки	Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API	Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API	Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API
Варианты развертывания	Только облако	Только облако	Облако, встроенные системы, гибридные технологии и контейнеры.
Синтез в реальном времени или пакетный синтез	Только в режиме реального времени	Синтез в режиме реального времени и пакетный синтез	Синтез в режиме реального времени и пакетный синтез
Задержка	Меньше 300 мс	Больше 500 мс	Меньше 300 мс
Частота дискретизации синтезированного аудио	8, 16, 24 и 48 кГц	8, 16, 24 и 48 кГц	8, 16, 24 и 48 кГц
Аудиоформат вывода речи	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Поддерживаемые HD-голоса Azure Speech

Служба "Речь Azure" предоставляет два набора голосов HD с различными архитектурами моделей:

Голосы Dragon HD

Значения голосовой связи Azure Speech HD находятся в формате voicename:DragonHD:version. Имя перед двоеточием, как en-US-Ava, представляет собой имя голосовой персоны и его исходный языковой стандарт.

Чтобы убедиться, что вы используете последнюю версию базовой модели, которую мы предоставляем, используйте версию LatestNeural .

Например, для пользователя en-US-Ava можно указать следующее:

en-US-Ava:DragonHDLatestNeural: всегда использует последнюю версию базовой модели DragonHD.

В следующей таблице перечислены доступные голоса DragonHD:

Имя голоса	Пол	Состояние	Примечание
`de-de-Florian:DragonHDLatestNeural`	Мужской	Генеральная Ассамблея
`de-de-Seraphina:DragonHDLatestNeural`	Женщина	Генеральная Ассамблея
`en-us-Adam:DragonHDLatestNeural`	Мужской	Генеральная Ассамблея
`en-us-Alloy:DragonHDLatestNeural`	Мужской	Генеральная Ассамблея
`en-us-Andrew:DragonHDLatestNeural`	Мужской	Генеральная Ассамблея
`en-us-Andrew2:DragonHDLatestNeural`	Мужской	Генеральная Ассамблея	Оптимизировано для содержимого беседы
`en-us-Andrew3:DragonHDLatestNeural`	Мужской	Предварительный просмотр	Оптимизировано для содержимого podcast
`en-us-Aria:DragonHDLatestNeural`	Женщина	Генеральная Ассамблея
`en-us-Ava:DragonHDLatestNeural`	Женщина	Генеральная Ассамблея
`en-us-Ava3:DragonHDLatestNeural`	Женщина	Предварительный просмотр	Оптимизировано для содержимого podcast
`en-us-Brian:DragonHDLatestNeural`	Мужской	Генеральная Ассамблея
`en-us-Davis:DragonHDLatestNeural`	Мужской	Генеральная Ассамблея
`en-us-Emma:DragonHDLatestNeural`	Женщина	Генеральная Ассамблея
`en-us-Emma2:DragonHDLatestNeural`	Женщина	Генеральная Ассамблея	Оптимизировано для содержимого беседы
`en-us-Jenny:DragonHDLatestNeural`	Женщина	Генеральная Ассамблея
`en-us-MultiTalker-Ava-Andrew:DragonHDLatestNeural`	Мужской	Предварительный просмотр
`en-us-Nova:DragonHDLatestNeural`	Женщина	Генеральная Ассамблея
`en-us-Phoebe:DragonHDLatestNeural`	Женщина	Генеральная Ассамблея
`en-us-Serena:DragonHDLatestNeural`	Женщина	Генеральная Ассамблея
`en-us-Steffan:DragonHDLatestNeural`	Мужской	Генеральная Ассамблея
`es-es-Tristan:DragonHDLatestNeural`	Мужской	Генеральная Ассамблея
`es-es-Ximena:DragonHDLatestNeural`	Женщина	Генеральная Ассамблея
`fr-fr-Remy:DragonHDLatestNeural`	Мужской	Генеральная Ассамблея
`fr-fr-Vivienne:DragonHDLatestNeural`	Женщина	Генеральная Ассамблея
`ja-jp-Masaru:DragonHDLatestNeural`	Мужской	Генеральная Ассамблея
`ja-jp-Nanami:DragonHDLatestNeural`	Женщина	Генеральная Ассамблея
`zh-cn-Xiaochen:DragonHDLatestNeural`	Женщина	Генеральная Ассамблея
`zh-cn-Yunfan:DragonHDLatestNeural`	Мужской	Генеральная Ассамблея

Поддерживаются следующие стили и теги паралингвистики в HD-голосах.

Тип Тег

Стили amazed amused angry annoyed anxious appreciative calm cautious concerned confident confused curious defeated defensive defiant determined disappointed disgusted doubtful ecstatic encouraging excited fast fearful frustrated happy hesitant hurt impatient impressed intrigued joking laughing optimistic painful panicked panting pleading proud quiet reassuring reflective relieved remorseful resigned sad sarcastic secretive serious shocked shouting shy skeptical slow struggling surprised suspicious sympathetic terrified upset urgent whispering

Паралингвистики laughter coughing throat_clearing breathing sighing yawning

Тип	Тег
Стили	`amazed` `amused` `angry` `annoyed` `anxious` `appreciative` `calm` `cautious` `concerned` `confident` `confused` `curious` `defeated` `defensive` `defiant` `determined` `disappointed` `disgusted` `doubtful` `ecstatic` `encouraging` `excited` `fast` `fearful` `frustrated` `happy` `hesitant` `hurt` `impatient` `impressed` `intrigued` `joking` `laughing` `optimistic` `painful` `panicked` `panting` `pleading` `proud` `quiet` `reassuring` `reflective` `relieved` `remorseful` `resigned` `sad` `sarcastic` `secretive` `serious` `shocked` `shouting` `shy` `skeptical` `slow` `struggling` `surprised` `suspicious` `sympathetic` `terrified` `upset` `urgent` `whispering`
Паралингвистики	`laughter` `coughing` `throat_clearing` `breathing` `sighing` `yawning`

Примечание

Стили доступны на всех английских языках для всех голосов. Результаты стиля очень важны для входного содержимого: модель адаптирует приложение стиля на основе семантического значения текста. Паралингвистика доступна для всех голосов и для всех языков.

Дракон HD Omni голоса

Dragon HD Omni — это единая модель следующего поколения Azure Speech, которая объединяет предварительно созданные и созданные ИИ голосов в единую гибкую платформу. Он включает более 700 голосов с повышенной экспрессивностью, многоязычной поддержкой, расширенным элементом управления стилем и автоматическим прогнозированием стиля.

Ключевые возможности Dragon HD Omni

700+ Голоса: включает большинство предыдущих голосов с улучшенным качеством и 300+ ИИ созданных голосов с различными характеристиками
Расширенный элемент управления стилем: автоматическое прогнозирование стиля с помощью описаний естественного языка (изначально доступно для en-US-Ava и en-US-Andrew)
Многоязычная поддержка: все голоса Dragon HD Omni поддерживают несколько языков с поддержкой автоматического обнаружения языков и поддержки тегов SSML <lang>
Расширенная просодия: улучшенная естественность с автоматической контекстной адаптацией
Поддержка событий на границах слов: обеспечивает точную синхронизацию на уровне слов для синхронизированных приложений

Поддерживаемые стили для Dragon HD Omni

Следующие стили и паралингвистические теги поддерживаются в голосах HDOmni

Тип Тег

Стили amazed, amused, angry, annoyed, anxious, appreciative, calm, cautious, concerned, confident, confused, curious, defeated, defensive, defiant, determined, disappointed, disgusted, doubtful, ecstatic, encouraging, excited, fast, fearful, frustrated, happy, hesitant, hurt, impatient, impressed, intrigued, joking, laughing, optimistic, painful, panicked, panting, pleading, proud, quiet, reassuring, reflective, relieved, remorseful, resigned, sad, sarcastic, secretive, serious, shocked, shouting, shy, skeptical, slow, struggling, surprised, suspicious, sympathetic, terrified, upset, urgent

Паралингвистики laughter coughing throat_clearing breathing sighing yawning

Тип	Тег
Стили	`amazed`, `amused`, `angry`, `annoyed`, `anxious`, `appreciative`, `calm`, `cautious`, `concerned`, `confident`, `confused`, `curious`, `defeated`, `defensive`, `defiant`, `determined`, `disappointed`, `disgusted`, `doubtful`, `ecstatic`, `encouraging`, `excited`, `fast`, `fearful`, `frustrated`, `happy`, `hesitant`, `hurt`, `impatient`, `impressed`, `intrigued`, `joking`, `laughing`, `optimistic`, `painful`, `panicked`, `panting`, `pleading`, `proud`, `quiet`, `reassuring`, `reflective`, `relieved`, `remorseful`, `resigned`, `sad`, `sarcastic`, `secretive`, `serious`, `shocked`, `shouting`, `shy`, `skeptical`, `slow`, `struggling`, `surprised`, `suspicious`, `sympathetic`, `terrified`, `upset`, `urgent`
Паралингвистики	`laughter` `coughing` `throat_clearing` `breathing` `sighing` `yawning`

Примечание

Соглашение об именовании голоса Dragon HD Omni

Дракон HD Omni голоса следуют шаблону именования: languagelocale-voicename:DragonHDOmniLatestNeural Этот формат голосового имени можно использовать, добавив суффикс :DragonHDOmniLatestNeural , чтобы быстро найти версию Omni:

Пример:

Предыдущий нейронный голос	Голосовое название версии Omni
de-DE-ConradNeural	de-DE-Conrad:DragonHDOmniLatestNeural

Ознакомьтесь с полным списком голосов Dragon HD Omni.

Голоса Dragon HD Flash

Голоса HD Flash — это оптимизированные варианты некоторых голосов DragonHD, которые в настоящее время поддерживают текст на китайском (zh-CN) и английском (en-US) языках. Эти голоса обеспечивают повышенную естественность и доступны в стандартных регионах Azure (eastus, westeurope, ), southeastasiaа также в регионах Китая (chinaeast2, chinanorth2, ). chinanorth3

Ниже приведен полный список доступных голосов HD Flash и поддерживаемых стилей

Имя голоса	Поддерживаемые стили
`zh-CN-Xiaoxiao:DragonHDFlashLatestNeural`	`angry`, `chat`, `cheerfulcustomer-serviceexcitedfearfulsadvoice-assistant`
`zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural`	`affectionate`, `angry`, `anxiouscheerfulcuriousdisappointedempatheticencouragingexcitedfearfulguiltylonelypoetry-readingsadsentimentalsorrystorysurprisedtiredwhispering`
`zh-CN-Xiaochen:DragonHDFlashLatestNeural`	`cheerful`, `debating`, `empatheticlive-commercialpoetry-readingsadsorry`
`zh-CN-Xiaoyi:DragonHDFlashLatestNeural`	`angry`, `complaining`, `cutegentlenervoussadshystrict`
`zh-CN-Xiaoyu:DragonHDFlashLatestNeural`	`angry` `debating` `cheerful` `comforting` `sad` `sorry`
`zh-CN-Xiaohan:DragonHDFlashLatestNeural`	`affectionate`, `angrycheerfulcomplainingfearfulgentlesadshystrict`
`zh-CN-Xiaoshuang:DragonHDFlashLatestNeural`	`chat`
`zh-CN-Xiaoyou:DragonHDFlashLatestNeural`	`chat`, `angry`, `cheerfulpoetry-readingsadstorycute`
`zh-CN-Yunxi:DragonHDFlashLatestNeural`	`angry`, `chat`, `cheerfulcomplainingdepressedfearfulnewssadshystrictvoice-assistant`
`zh-CN-Yunyi:DragonHDFlashLatestNeural`	`assassin`, `captain`, `cavalierprincegame-narratorgeomancerpoet`
`zh-CN-Yunxiao:DragonHDFlashLatestNeural`	—
`zh-CN-Yunhan:DragonHDFlashLatestNeural`	`angry`, `cheerfulcuriousempatheticencouragingexcitedguiltylonelysadserioussorrywhisperingsurprisedtired`
`zh-CN-Yunxia:DragonHDFlashLatestNeural`	`affectionate`, `angrycheerfulcomfortingencouragingexcitedfearfulsadsurprised`
`zh-CN-Yunye:DragonHDFlashLatestNeural`	—
`en-US-Tiana:DragonHDFlashLatestNeural`	—
`en-US-Tyler:DragonHDFlashLatestNeural`	—
`en-US-Jimmie:DragonHDFlashLatestNeural`	—

Примечание

HD Flash поддерживает только текст в zh-CN и en-US.

Использование голосовых функций Azure Speech HD

Вы можете использовать HD-голоса с той же службой SDK "Речь" и REST API, что и для обычных голосов.

Ниже приведены некоторые ключевые моменты, которые следует учитывать при использовании голосовых функций Azure Speech HD:

Языковой локаль голоса: Локаль в названии голоса указывает его исходный язык и регион.
Базовые модели:
- Голоса HD поставляются с базовой моделью, которая понимает вводимый текст и соответственно прогнозирует манеру речи. Вы можете указать требуемую модель (например, DragonHDLatestNeural) в зависимости от доступности каждого голоса.
Использование SSML: Чтобы указать голос в SSML, используйте формат voicename:basemodel:version. Имя перед двоеточием, как de-DE-Seraphina, представляет собой имя голосовой персоны и его исходный языковой стандарт. Базовая модель отслеживается версиями в последующих обновлениях.
Параметр температуры:
- Значение температуры — это плавающее значение от 0 до 1, влияющее на случайность выходных данных. Вы также можете регулировать параметр температуры, чтобы контролировать изменение результатов. Меньше случайности дает более стабильные результаты, в то время как более случайность предлагает разнообразие, но меньше согласованности.
- Низкая температура приводит к меньшей случайности, что ведет к более предсказуемым результатам. Более высокая температура увеличивает случайность, что позволяет получить более разнообразные выходные данные. Температура по умолчанию установлена на 1.0.

Ниже приведен пример использования голосов Azure Speech HD в SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Расширенные функции Dragon HD Omni

Управление стилем с помощью Express-As

Dragon HD Omni поддерживает расширенное управление стилем, используя элемент mstts:express-as и описания на естественном языке. Ниже приведен пример:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-us-ava:DragonHDOmniLatestNeural">
    <mstts:express-as style="sick">
      Ugh… I'm not feeling so great today. My head's pounding, and even my voice sounds like it's been through a blender. I think I need to lie down for a bit… maybe some soup would help.
    </mstts:express-as>
  </voice>
</speak>

Поддержка нескольких языков

Все голоса Dragon HD Omni поддерживают несколько языков с автоматическим обнаружением языка. Вы также можете использовать <lang xml:lang> тег для явного указания языка и акцента:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" 
        xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-us-ava:DragonHDOmniLatestNeural">
    <lang xml:lang="fr-FR">
      Bonjour ! Ce matin, j'ai pris un café au jardin du Luxembourg. Il faisait frais, mais très agréable. Ensuite, j'ai acheté une baguette et quelques macarons. Paris est vraiment charmant.
    </lang>
  </voice>
</speak>

События границы слова

Dragon HD Omni поддерживает события границ слов, обеспечивая точное определение времени на уровне слов для синхронизированных приложений, таких как караоке, субтитры в режиме реального времени и интерактивные голосовые взаимодействия.

При срабатывании события границы слова он предоставляет:

Текст: слово, произнесенное
AudioOffset: смещение времени в аудиопотоке (миллисекундах)
TextOffset: позиция слова в входном тексте

Пример на Python с событиями границ слов

import azure.cognitiveservices.speech as speechsdk

def word_boundary_cb(evt):
    print(f"Word: '{evt.text}', AudioOffset: {evt.audio_offset / 10000}ms, TextOffset: {evt.text_offset}")

speech_config = speechsdk.SpeechConfig(subscription="YourSubscriptionKey", region="YourServiceRegion")
synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config)

synthesizer.synthesis_word_boundary.connect(word_boundary_cb)

ssml = """
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis'
       xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
  <voice name='en-us-ava:DragonHDOmniLatestNeural'>
    Hello Azure, welcome to Dragon HD Omni!
  </voice>
</speak>
"""

result = synthesizer.speak_ssml_async(ssml).get()

Образец вывода:

Word: 'Hello', AudioOffset: 110.0ms, TextOffset: 182
Word: 'Azure', AudioOffset: 590.0ms, TextOffset: 188
Word: ',', AudioOffset: 1110.0ms, TextOffset: 193
Word: 'welcome', AudioOffset: 1270.0ms, TextOffset: 195
Word: 'to', AudioOffset: 1750.0ms, TextOffset: 203
Word: 'Dragon HD Omni', AudioOffset: 1910.0ms, TextOffset: 206
Word: '!', AudioOffset: 2750.0ms, TextOffset: 216

Расширенная настройка параметров для Dragon HD Omni

Dragon HD Omni поддерживает расширенную настройку параметров для настройки выходных данных голоса для различных сценариев.

Справочник параметров

Параметр	По умолчанию	Диапазон	Цель
`temperature`	0.7	0.3–1.0	Управляет творчеством и стабильностью
`top_p`	0.7	0.3–1.0	Фильтрует выходные данные для разнообразия
`top_k`	двадцать два	1–50	Ограничение количества параметров, которые рассматриваются
`cfg_scale`	1.4	1.0–2.0	Корректирует релевантность и скорость речи

Стратегии настройки

Для экспрессивности и стабильности:

Более высокие значения для temperature, top_pи top_k приводит к более экспрессивной, эмоционально разнообразной речи
Более низкие значения создают более стабильные и прогнозируемые выходные данные
Рекомендация: Оставляйте top_p равным temperature для наилучших результатов

Для скорости и контекстной релевантности:

cfg_scale влияет на то, как быстро голос говорит и насколько хорошо он соответствует контексту
- Более высокие значения (1.8–2.0): более быстрая речь с более строгой контекстной релевантностью
- Более низкие значения (1.0–1.2): медленная речь с меньшим контекстным выравниванием

Цель	Предлагаемая корректировка
Более экспрессивный	Увеличьте `temperature`, `top_p` и `top_k` вместе
Более стабильный	Сперва опустите `temperature`, затем при необходимости настройте `top_p`
Быстрый и релевантный	Увеличить `cfg_scale`
Медленнее и нейтрально	Уменьшить `cfg_scale`

Примеры использования параметров

Корректировка одного параметра:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" 
        xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-us-ava:DragonHDOmniLatestNeural" parameters="top_p=0.8">
    Hello Azure!
  </voice>
</speak>

Настройка нескольких параметров:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" 
        xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-us-ava:DragonHDOmniLatestNeural" parameters="top_p=0.8;top_k=22;temperature=0.7;cfg_scale=1.2">
    Hello Azure! Welcome to Dragon HD Omni!
  </voice>
</speak>

Поддерживаемые и неподдерживаемые элементы SSML для голосовых элементов Azure Speech HD

Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, вы можете использовать SSML, чтобы определить абзац, предложение, паузу или перерыв, или тишину. Вы можете обернуть текст тегами событий, такими как закладка или визема, которые ваше приложение обрабатывает позже.

Голоса HD в Azure Speech поддерживают различные элементы SSML, в зависимости от модели.

Голоса DragonHD: поддержка подмножества элементов SSML (см. таблицу ниже)
Голоса Dragon HD Omni: поддержка дополнительных элементов, включая управление стилем и события на границах слов

Подробные сведения о поддерживаемых и неподдерживаемых элементах SSML для голосовых элементов Azure Speech HD см. в следующей таблице. Для получения инструкций по использованию элементов SSML обратитесь к документации Языка разметки синтеза речи (SSML).

Элемент SSML	Описание	DragonHD	Дракон HD Omni
`<voice>`	Указывает голос и необязательные эффекты (`eq_car` и `eq_telecomhp8k`).	Да	Да
`<mstts:express-as>`	Указывает стили и роли выступлений.	Нет	Да
`<mstts:ttsembedding>`	Указывает свойство `speakerProfileId` для личного голоса.	Нет	Нет
`<lang xml:lang>`	Задает язык речи.	Да	Да
`<prosody>`	Регулирует высоту тона, контур, диапазон, скорость и громкость.	Нет	Нет
`<emphasis>`	Добавляет или удаляет стресс на уровне слова для текста.	Нет	Нет
`<audio>`	Встраивает предварительно записанный аудио в документ SSML.	Нет	Нет
`<mstts:audioduration>`	Указывает продолжительность выходного аудио.	Нет	Нет
`<mstts:backgroundaudio>`	Добавляет фоновое аудио в ваши документы SSML или смешивает звуковой файл с текстом при синтезе речи.	Нет	Нет
`<phoneme>`	Указывает фонетическое произношение в документах SSML.	Да	Нет
`<lexicon>`	Определяет, как несколько сущностей читаются в SSML.	Да (поддерживает только псевдоним)	Да (поддерживает только псевдоним)
`<say-as>`	Указывает тип содержимого, например, число или дата, текста элемента.	Да	Да
`<sub>`	Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента.	Да	Да
`<math>`	Использует MathML в качестве входного текста для правильного произношения математических нотации в выходном звуке.	Нет	Нет
`<bookmark>`	Получает смещение каждого маркера в звуковом потоке.	Нет	Нет
`<break>`	Переопределяет стандартное поведение разрывов или пауз между словами.	Да	Нет
`<mstts:silence>`	Вставляет паузу до или после текста или между двумя смежными предложениями.	Нет	Нет
`<mstts:viseme>`	Определяет положение лица и рта во время выступления человека.	Нет	Нет
`<p>`	Обозначает абзацы в документах SSML.	Да	Да
`<s>`	Обозначает предложения в документах SSML.	Да	Да

Примечание

Хотя предыдущий раздел в этом руководстве также сравнивал голоса Azure Speech HD с голосами Azure OpenAI HD, элементы SSML, поддерживаемые службой "Речь Azure", не применимы к голосам Azure OpenAI.

Параметр улучшения произношения

Параметр enhancedPronunciation обеспечивает улучшенную обработку произношения во время синтеза речи. Когда установлено значение true, голоса NeuralHD применяют дополнительные оптимизации произношения, чтобы улучшить четкость и правильность произношения, особенно для сложных, неоднозначных или нестандартных текстов.

Если включена функция улучшения произношения, служба придаёт приоритет точности произношения путем применения расширенной лингвистической обработки во время синтеза. Это может помочь улучшить то, как система интерпретирует данные:

Правильные существительные, имена и необычные слова
Акронимы, аббревиатуры и текст смешанного регистра
Слова с несколькими возможными произношениями в зависимости от контекста Этот параметр предназначен для дополнения существующих элементов управления произношением, таких как теги произношения на основе SSML и лексиконы, и не заменяет их. функция enhancePronunciation по умолчанию отключена для сохранения прогнозируемых, обратно совместимых с речью выходных данных и может быть включена, если разработчики хотят, чтобы служба применяла дополнительные оптимизации произношения для улучшения ясности и естественности.

Выбор между DragonHD и Dragon HD HD Omni

Обе модели голосовой связи HD обеспечивают высококачественный синтез, но они служат разным вариантам использования:

Рассмотрение	DragonHD	Дракон HD Omni
Количество голосов	30+ тонко настроенных голосов	700+ голоса (включая предыдущие голоса и новые голоса, созданные ИИ)
Разнообразие голоса	Ограничено предопределенными лицами	Обширное разнообразие с различными характеристиками всех голосов библиотеки
Элемент управления стилем	Только температурные и расширенные параметры	Автоматическое прогнозирование стилей и управление более чем 100 стилями на Ava и Эндрю
Варианты использования	Служба клиентов, специальные возможности, приложения, ориентированные на согласованность	Создание контента, аудиокниги, подкасты, разнообразные требования к человеку

Когда следует использовать каждую модель

Выберите Dragon HD, если вы:

Требуется определенный голосовой образ для конкретных языков для обеспечения высокого качества.
Создание корпоративных приложений службы клиентов
Требуется точно настроенное управление с помощью температуры и расширенных параметров

Выберите Dragon HD Omni, если вы:

Требуется гибкость с множеством вариантов голосовой связи
Создают разнообразные материалы (аудиокниги, подкасты, рассказы)
Хотите улучшить текущее качество нейронных голосов, но для ваших локалей пока не поддерживается HD модель.
Требуется широкий спектр лиц для различных вариантов использования

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-03-31

Голоса высокого разрешения в службе Azure Speech

Обзор голосовой связи HD

Ключевые функции голосов HD

Сравнение голосов Azure Speech HD с другими голосами Azure для преобразования текста в речь

Поддерживаемые HD-голоса Azure Speech

Голосы Dragon HD

Дракон HD Omni голоса

Ключевые возможности Dragon HD Omni

Поддерживаемые стили для Dragon HD Omni

Соглашение об именовании голоса Dragon HD Omni

Голоса Dragon HD Flash

Использование голосовых функций Azure Speech HD

Расширенные функции Dragon HD Omni

Управление стилем с помощью Express-As

Поддержка нескольких языков

События границы слова

Пример на Python с событиями границ слов

Расширенная настройка параметров для Dragon HD Omni

Справочник параметров

Стратегии настройки

Рекомендуемая таблица настройки

Примеры использования параметров

Поддерживаемые и неподдерживаемые элементы SSML для голосовых элементов Azure Speech HD

Параметр улучшения произношения

Рекомендуемые варианты использования

Выбор между DragonHD и Dragon HD HD Omni

Когда следует использовать каждую модель

Связанный контент

Обратная связь

Дополнительные ресурсы