Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Azure Speech в инструментах Foundry продолжает продвигать технологию преобразования текста в речь с нейронными голосами высокого качества (HD). Наши голоса HD понимают содержимое, автоматически обнаруживают эмоции во входном тексте и корректируют тон речи в режиме реального времени, чтобы соответствовать тону. Они поддерживают согласованные голосовые персоны, обеспечивая повышенную экспрессивность, естественность и контроль.
Обзор голосовой связи HD
Служба "Речь Azure" предлагает две расширенные модели голосовой связи HD, оптимизированные для различных вариантов использования:
| Модель | Количество голосов | Ключевые характеристики | Лучше всего для |
|---|---|---|---|
| DragonHD | 30+ тонко настроенные голоса | Профессиональное качество, точное произношение, поддержка нескольких говорящих | Корпоративные приложения, требующие высокого качества выходных данных |
| DragonHDOmni | 700+ голосов (все выпущенные голоса и новые, созданные ИИ) | Поддержка стилей, многоязычный, гибкий для добавления новых голосов и стилей. | Разнообразные приложения, создание контента, разнообразие персонажей |
Ключевые функции голосов HD
Ниже приведены основные функции голосовых функций Azure Speech HD.
| Ключевые особенности | Описание |
|---|---|
| Создание речи, подобной человеку | Нейронные HD-голоса синтеза речи могут создавать очень естественную и человеко-подобную речь. Модель обучена на миллионах часов многоязычных данных, что позволяет ей точно интерпретировать вводимый текст и генерировать речь с соответствующими эмоциями, темпом и ритмом без необходимости ручной корректировки. |
| Разговорный | Нейронный синтез речи в формате HD может воспроизводить естественные интонации речи, включая спонтанные паузы и акцент. При предоставлении разговорного текста модель может воспроизводить общие фонемы, такие как паузы и слова-паразиты. Созданный голос звучит, как если бы кто-то говорил с вами напрямую. |
| Вариации просодии | Голоса HD с нейронным преобразованием текста в речь вводят небольшие вариации в каждом воспроизведении, чтобы повысить реалистичность. Эти вариации делают речь более естественной, так как человеческие голоса естественно демонстрируют вариативность. |
| Высокая точность | Основная цель нейронных высококачественных голосов для синтеза речи заключается в создании высококачественного звука. Синтетическая речь, созданная нашей системой, может очень точно имитировать человеческую речь как по качеству, так и по естественности. |
Сравнение голосов Azure Speech HD с другими голосами Azure для преобразования текста в речь
Чем отличаются голоса Azure Speech HD от других голосов Azure? Ниже приведено подробное сравнение:
| Функция | Голоса HD службы Azure Speech | Azure OpenAI голоса высокой четкости | Голоса Azure Speech (не HD) |
|---|---|---|---|
| Регион | См. раздел "Регионы службы "Речь" | См. раздел "Регионы службы "Речь" | Доступно в десятках регионов. См. регионы службы «Речь». |
| Количество голосов | 30 | 6 | Более 500 |
| Многоязычный | Да | Да | Да (применимо только к многоязычным голосам) |
| Поддержка SSML | Поддержка подмножества элементов SSML. | Поддержка подмножества элементов SSML. | Поддержка полного набора SSML в Azure Speech. |
| Варианты разработки | Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API | Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API | Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API |
| Варианты развертывания | Только облако | Только облако | Облако, встроенные системы, гибридные технологии и контейнеры. |
| Синтез в реальном времени или пакетный синтез | Только в режиме реального времени | Синтез в режиме реального времени и пакетный синтез | Синтез в режиме реального времени и пакетный синтез |
| Задержка | Меньше 300 мс | Больше 500 мс | Меньше 300 мс |
| Частота дискретизации синтезированного аудио | 8, 16, 24 и 48 кГц | 8, 16, 24 и 48 кГц | 8, 16, 24 и 48 кГц |
| Аудиоформат вывода речи | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Поддерживаемые HD-голоса Azure Speech
Служба "Речь Azure" предоставляет два набора голосов HD с различными архитектурами моделей:
Голосы Dragon HD
Значения голосовой связи Azure Speech HD находятся в формате voicename:DragonHD:version. Имя перед двоеточием, как en-US-Ava, представляет собой имя голосовой персоны и его исходный языковой стандарт.
Чтобы убедиться, что вы используете последнюю версию базовой модели, которую мы предоставляем, используйте версию LatestNeural .
Например, для пользователя en-US-Ava можно указать следующее:
-
en-US-Ava:DragonHDLatestNeural: всегда использует последнюю версию базовой модели DragonHD.
В следующей таблице перечислены доступные голоса DragonHD:
| Имя голоса | Пол | Состояние | Примечание |
|---|---|---|---|
de-de-Florian:DragonHDLatestNeural |
Мужской | Генеральная Ассамблея | |
de-de-Seraphina:DragonHDLatestNeural |
Женщина | Генеральная Ассамблея | |
en-us-Adam:DragonHDLatestNeural |
Мужской | Генеральная Ассамблея | |
en-us-Alloy:DragonHDLatestNeural |
Мужской | Генеральная Ассамблея | |
en-us-Andrew:DragonHDLatestNeural |
Мужской | Генеральная Ассамблея | |
en-us-Andrew2:DragonHDLatestNeural |
Мужской | Генеральная Ассамблея | Оптимизировано для содержимого беседы |
en-us-Andrew3:DragonHDLatestNeural |
Мужской | Предварительный просмотр | Оптимизировано для содержимого podcast |
en-us-Aria:DragonHDLatestNeural |
Женщина | Генеральная Ассамблея | |
en-us-Ava:DragonHDLatestNeural |
Женщина | Генеральная Ассамблея | |
en-us-Ava3:DragonHDLatestNeural |
Женщина | Предварительный просмотр | Оптимизировано для содержимого podcast |
en-us-Brian:DragonHDLatestNeural |
Мужской | Генеральная Ассамблея | |
en-us-Davis:DragonHDLatestNeural |
Мужской | Генеральная Ассамблея | |
en-us-Emma:DragonHDLatestNeural |
Женщина | Генеральная Ассамблея | |
en-us-Emma2:DragonHDLatestNeural |
Женщина | Генеральная Ассамблея | Оптимизировано для содержимого беседы |
en-us-Jenny:DragonHDLatestNeural |
Женщина | Генеральная Ассамблея | |
en-us-MultiTalker-Ava-Andrew:DragonHDLatestNeural |
Мужской | Предварительный просмотр | |
en-us-Nova:DragonHDLatestNeural |
Женщина | Генеральная Ассамблея | |
en-us-Phoebe:DragonHDLatestNeural |
Женщина | Генеральная Ассамблея | |
en-us-Serena:DragonHDLatestNeural |
Женщина | Генеральная Ассамблея | |
en-us-Steffan:DragonHDLatestNeural |
Мужской | Генеральная Ассамблея | |
es-es-Tristan:DragonHDLatestNeural |
Мужской | Генеральная Ассамблея | |
es-es-Ximena:DragonHDLatestNeural |
Женщина | Генеральная Ассамблея | |
fr-fr-Remy:DragonHDLatestNeural |
Мужской | Генеральная Ассамблея | |
fr-fr-Vivienne:DragonHDLatestNeural |
Женщина | Генеральная Ассамблея | |
ja-jp-Masaru:DragonHDLatestNeural |
Мужской | Генеральная Ассамблея | |
ja-jp-Nanami:DragonHDLatestNeural |
Женщина | Генеральная Ассамблея | |
zh-cn-Xiaochen:DragonHDLatestNeural |
Женщина | Генеральная Ассамблея | |
zh-cn-Yunfan:DragonHDLatestNeural |
Мужской | Генеральная Ассамблея |
Поддерживаются следующие стили и теги паралингвистики в HD-голосах.
| Тип | Тег |
|---|---|
| Стили |
amazed
amused
angry
annoyed
anxious
appreciative
calm
cautious
concerned
confident
confused
curious
defeated
defensive
defiant
determined
disappointed
disgusted
doubtful
ecstatic
encouraging
excited
fast
fearful
frustrated
happy
hesitant
hurt
impatient
impressed
intrigued
joking
laughing
optimistic
painful
panicked
panting
pleading
proud
quiet
reassuring
reflective
relieved
remorseful
resigned
sad
sarcastic
secretive
serious
shocked
shouting
shy
skeptical
slow
struggling
surprised
suspicious
sympathetic
terrified
upset
urgent
whispering
|
| Паралингвистики |
laughter
coughing
throat_clearing
breathing
sighing
yawning
|
Примечание
Стили доступны на всех английских языках для всех голосов. Результаты стиля очень важны для входного содержимого: модель адаптирует приложение стиля на основе семантического значения текста. Паралингвистика доступна для всех голосов и для всех языков.
Дракон HD Omni голоса
Dragon HD Omni — это единая модель следующего поколения Azure Speech, которая объединяет предварительно созданные и созданные ИИ голосов в единую гибкую платформу. Он включает более 700 голосов с повышенной экспрессивностью, многоязычной поддержкой, расширенным элементом управления стилем и автоматическим прогнозированием стиля.
Ключевые возможности Dragon HD Omni
- 700+ Голоса: включает большинство предыдущих голосов с улучшенным качеством и 300+ ИИ созданных голосов с различными характеристиками
-
Расширенный элемент управления стилем: автоматическое прогнозирование стиля с помощью описаний естественного языка (изначально доступно для
en-US-Avaиen-US-Andrew) -
Многоязычная поддержка: все голоса Dragon HD Omni поддерживают несколько языков с поддержкой автоматического обнаружения языков и поддержки тегов SSML
<lang> - Расширенная просодия: улучшенная естественность с автоматической контекстной адаптацией
- Поддержка событий на границах слов: обеспечивает точную синхронизацию на уровне слов для синхронизированных приложений
Поддерживаемые стили для Dragon HD Omni
Следующие стили и паралингвистические теги поддерживаются в голосах HDOmni
| Тип | Тег |
|---|---|
| Стили |
amazed, amused, angry, annoyed, anxious, appreciative, calm, cautious, concerned, confident, confused, curious, defeated, defensive, defiant, determined, disappointed, disgusted, doubtful, ecstatic, encouraging, excited, fast, fearful, frustrated, happy, hesitant, hurt, impatient, impressed, intrigued, joking, laughing, optimistic, painful, panicked, panting, pleading, proud, quiet, reassuring, reflective, relieved, remorseful, resigned, sad, sarcastic, secretive, serious, shocked, shouting, shy, skeptical, slow, struggling, surprised, suspicious, sympathetic, terrified, upset, urgent |
| Паралингвистики |
laughter
coughing
throat_clearing
breathing
sighing
yawning
|
Примечание
Стили доступны на всех английских языках для всех голосов. Результаты стиля очень важны для входного содержимого: модель адаптирует приложение стиля на основе семантического значения текста. Паралингвистика доступна для всех голосов и для всех языков.
Соглашение об именовании голоса Dragon HD Omni
Дракон HD Omni голоса следуют шаблону именования: languagelocale-voicename:DragonHDOmniLatestNeural Этот формат голосового имени можно использовать, добавив суффикс :DragonHDOmniLatestNeural , чтобы быстро найти версию Omni:
Пример:
| Предыдущий нейронный голос | Голосовое название версии Omni |
|---|---|
| de-DE-ConradNeural | de-DE-Conrad:DragonHDOmniLatestNeural |
Ознакомьтесь с полным списком голосов Dragon HD Omni.
Голоса Dragon HD Flash
Голоса HD Flash — это оптимизированные варианты некоторых голосов DragonHD, которые в настоящее время поддерживают текст на китайском (zh-CN) и английском (en-US) языках. Эти голоса обеспечивают повышенную естественность и доступны в стандартных регионах Azure (eastus, westeurope, ), southeastasiaа также в регионах Китая (chinaeast2, chinanorth2, ). chinanorth3
Ниже приведен полный список доступных голосов HD Flash и поддерживаемых стилей
| Имя голоса | Поддерживаемые стили |
|---|---|
zh-CN-Xiaoxiao:DragonHDFlashLatestNeural |
angry, chat, cheerfulcustomer-serviceexcitedfearfulsadvoice-assistant |
zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural |
affectionate, angry, anxiouscheerfulcuriousdisappointedempatheticencouragingexcitedfearfulguiltylonelypoetry-readingsadsentimentalsorrystorysurprisedtiredwhispering |
zh-CN-Xiaochen:DragonHDFlashLatestNeural |
cheerful, debating, empatheticlive-commercialpoetry-readingsadsorry |
zh-CN-Xiaoyi:DragonHDFlashLatestNeural |
angry, complaining, cutegentlenervoussadshystrict |
zh-CN-Xiaoyu:DragonHDFlashLatestNeural |
angry
debating
cheerful
comforting
sad
sorry
|
zh-CN-Xiaohan:DragonHDFlashLatestNeural |
affectionate, angrycheerfulcomplainingfearfulgentlesadshystrict |
zh-CN-Xiaoshuang:DragonHDFlashLatestNeural |
chat |
zh-CN-Xiaoyou:DragonHDFlashLatestNeural |
chat, angry, cheerfulpoetry-readingsadstorycute |
zh-CN-Yunxi:DragonHDFlashLatestNeural |
angry, chat, cheerfulcomplainingdepressedfearfulnewssadshystrictvoice-assistant |
zh-CN-Yunyi:DragonHDFlashLatestNeural |
assassin, captain, cavalierprincegame-narratorgeomancerpoet |
zh-CN-Yunxiao:DragonHDFlashLatestNeural |
— |
zh-CN-Yunhan:DragonHDFlashLatestNeural |
angry, cheerfulcuriousempatheticencouragingexcitedguiltylonelysadserioussorrywhisperingsurprisedtired |
zh-CN-Yunxia:DragonHDFlashLatestNeural |
affectionate, angrycheerfulcomfortingencouragingexcitedfearfulsadsurprised |
zh-CN-Yunye:DragonHDFlashLatestNeural |
— |
en-US-Tiana:DragonHDFlashLatestNeural |
— |
en-US-Tyler:DragonHDFlashLatestNeural |
— |
en-US-Jimmie:DragonHDFlashLatestNeural |
— |
Примечание
HD Flash поддерживает только текст в zh-CN и en-US.
Использование голосовых функций Azure Speech HD
Вы можете использовать HD-голоса с той же службой SDK "Речь" и REST API, что и для обычных голосов.
Ниже приведены некоторые ключевые моменты, которые следует учитывать при использовании голосовых функций Azure Speech HD:
- Языковой локаль голоса: Локаль в названии голоса указывает его исходный язык и регион.
-
Базовые модели:
- Голоса HD поставляются с базовой моделью, которая понимает вводимый текст и соответственно прогнозирует манеру речи. Вы можете указать требуемую модель (например, DragonHDLatestNeural) в зависимости от доступности каждого голоса.
-
Использование SSML: Чтобы указать голос в SSML, используйте формат
voicename:basemodel:version. Имя перед двоеточием, какde-DE-Seraphina, представляет собой имя голосовой персоны и его исходный языковой стандарт. Базовая модель отслеживается версиями в последующих обновлениях. -
Параметр температуры:
- Значение температуры — это плавающее значение от 0 до 1, влияющее на случайность выходных данных. Вы также можете регулировать параметр температуры, чтобы контролировать изменение результатов. Меньше случайности дает более стабильные результаты, в то время как более случайность предлагает разнообразие, но меньше согласованности.
- Низкая температура приводит к меньшей случайности, что ведет к более предсказуемым результатам. Более высокая температура увеличивает случайность, что позволяет получить более разнообразные выходные данные. Температура по умолчанию установлена на 1.0.
Ниже приведен пример использования голосов Azure Speech HD в SSML:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Расширенные функции Dragon HD Omni
Управление стилем с помощью Express-As
Dragon HD Omni поддерживает расширенное управление стилем, используя элемент mstts:express-as и описания на естественном языке. Ниже приведен пример:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-us-ava:DragonHDOmniLatestNeural">
<mstts:express-as style="sick">
Ugh… I'm not feeling so great today. My head's pounding, and even my voice sounds like it's been through a blender. I think I need to lie down for a bit… maybe some soup would help.
</mstts:express-as>
</voice>
</speak>
Поддержка нескольких языков
Все голоса Dragon HD Omni поддерживают несколько языков с автоматическим обнаружением языка. Вы также можете использовать <lang xml:lang> тег для явного указания языка и акцента:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-us-ava:DragonHDOmniLatestNeural">
<lang xml:lang="fr-FR">
Bonjour ! Ce matin, j'ai pris un café au jardin du Luxembourg. Il faisait frais, mais très agréable. Ensuite, j'ai acheté une baguette et quelques macarons. Paris est vraiment charmant.
</lang>
</voice>
</speak>
События границы слова
Dragon HD Omni поддерживает события границ слов, обеспечивая точное определение времени на уровне слов для синхронизированных приложений, таких как караоке, субтитры в режиме реального времени и интерактивные голосовые взаимодействия.
При срабатывании события границы слова он предоставляет:
- Текст: слово, произнесенное
- AudioOffset: смещение времени в аудиопотоке (миллисекундах)
- TextOffset: позиция слова в входном тексте
Пример на Python с событиями границ слов
import azure.cognitiveservices.speech as speechsdk
def word_boundary_cb(evt):
print(f"Word: '{evt.text}', AudioOffset: {evt.audio_offset / 10000}ms, TextOffset: {evt.text_offset}")
speech_config = speechsdk.SpeechConfig(subscription="YourSubscriptionKey", region="YourServiceRegion")
synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config)
synthesizer.synthesis_word_boundary.connect(word_boundary_cb)
ssml = """
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis'
xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-us-ava:DragonHDOmniLatestNeural'>
Hello Azure, welcome to Dragon HD Omni!
</voice>
</speak>
"""
result = synthesizer.speak_ssml_async(ssml).get()
Образец вывода:
Word: 'Hello', AudioOffset: 110.0ms, TextOffset: 182
Word: 'Azure', AudioOffset: 590.0ms, TextOffset: 188
Word: ',', AudioOffset: 1110.0ms, TextOffset: 193
Word: 'welcome', AudioOffset: 1270.0ms, TextOffset: 195
Word: 'to', AudioOffset: 1750.0ms, TextOffset: 203
Word: 'Dragon HD Omni', AudioOffset: 1910.0ms, TextOffset: 206
Word: '!', AudioOffset: 2750.0ms, TextOffset: 216
Расширенная настройка параметров для Dragon HD Omni
Dragon HD Omni поддерживает расширенную настройку параметров для настройки выходных данных голоса для различных сценариев.
Справочник параметров
| Параметр | По умолчанию | Диапазон | Цель |
|---|---|---|---|
temperature |
0.7 | 0.3–1.0 | Управляет творчеством и стабильностью |
top_p |
0.7 | 0.3–1.0 | Фильтрует выходные данные для разнообразия |
top_k |
двадцать два | 1–50 | Ограничение количества параметров, которые рассматриваются |
cfg_scale |
1.4 | 1.0–2.0 | Корректирует релевантность и скорость речи |
Стратегии настройки
Для экспрессивности и стабильности:
- Более высокие значения для
temperature,top_pиtop_kприводит к более экспрессивной, эмоционально разнообразной речи - Более низкие значения создают более стабильные и прогнозируемые выходные данные
- Рекомендация: Оставляйте
top_pравнымtemperatureдля наилучших результатов
Для скорости и контекстной релевантности:
-
cfg_scaleвлияет на то, как быстро голос говорит и насколько хорошо он соответствует контексту- Более высокие значения (1.8–2.0): более быстрая речь с более строгой контекстной релевантностью
- Более низкие значения (1.0–1.2): медленная речь с меньшим контекстным выравниванием
Рекомендуемая таблица настройки
| Цель | Предлагаемая корректировка |
|---|---|
| Более экспрессивный | Увеличьте temperature, top_p и top_k вместе |
| Более стабильный | Сперва опустите temperature, затем при необходимости настройте top_p |
| Быстрый и релевантный | Увеличить cfg_scale |
| Медленнее и нейтрально | Уменьшить cfg_scale |
Примеры использования параметров
Корректировка одного параметра:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-us-ava:DragonHDOmniLatestNeural" parameters="top_p=0.8">
Hello Azure!
</voice>
</speak>
Настройка нескольких параметров:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-us-ava:DragonHDOmniLatestNeural" parameters="top_p=0.8;top_k=22;temperature=0.7;cfg_scale=1.2">
Hello Azure! Welcome to Dragon HD Omni!
</voice>
</speak>
Поддерживаемые и неподдерживаемые элементы SSML для голосовых элементов Azure Speech HD
Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, вы можете использовать SSML, чтобы определить абзац, предложение, паузу или перерыв, или тишину. Вы можете обернуть текст тегами событий, такими как закладка или визема, которые ваше приложение обрабатывает позже.
Голоса HD в Azure Speech поддерживают различные элементы SSML, в зависимости от модели.
- Голоса DragonHD: поддержка подмножества элементов SSML (см. таблицу ниже)
- Голоса Dragon HD Omni: поддержка дополнительных элементов, включая управление стилем и события на границах слов
Подробные сведения о поддерживаемых и неподдерживаемых элементах SSML для голосовых элементов Azure Speech HD см. в следующей таблице. Для получения инструкций по использованию элементов SSML обратитесь к документации Языка разметки синтеза речи (SSML).
| Элемент SSML | Описание | DragonHD | Дракон HD Omni |
|---|---|---|---|
<voice> |
Указывает голос и необязательные эффекты (eq_car и eq_telecomhp8k). |
Да | Да |
<mstts:express-as> |
Указывает стили и роли выступлений. | Нет | Да |
<mstts:ttsembedding> |
Указывает свойство speakerProfileId для личного голоса. |
Нет | Нет |
<lang xml:lang> |
Задает язык речи. | Да | Да |
<prosody> |
Регулирует высоту тона, контур, диапазон, скорость и громкость. | Нет | Нет |
<emphasis> |
Добавляет или удаляет стресс на уровне слова для текста. | Нет | Нет |
<audio> |
Встраивает предварительно записанный аудио в документ SSML. | Нет | Нет |
<mstts:audioduration> |
Указывает продолжительность выходного аудио. | Нет | Нет |
<mstts:backgroundaudio> |
Добавляет фоновое аудио в ваши документы SSML или смешивает звуковой файл с текстом при синтезе речи. | Нет | Нет |
<phoneme> |
Указывает фонетическое произношение в документах SSML. | Да | Нет |
<lexicon> |
Определяет, как несколько сущностей читаются в SSML. | Да (поддерживает только псевдоним) | Да (поддерживает только псевдоним) |
<say-as> |
Указывает тип содержимого, например, число или дата, текста элемента. | Да | Да |
<sub> |
Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента. | Да | Да |
<math> |
Использует MathML в качестве входного текста для правильного произношения математических нотации в выходном звуке. | Нет | Нет |
<bookmark> |
Получает смещение каждого маркера в звуковом потоке. | Нет | Нет |
<break> |
Переопределяет стандартное поведение разрывов или пауз между словами. | Да | Нет |
<mstts:silence> |
Вставляет паузу до или после текста или между двумя смежными предложениями. | Нет | Нет |
<mstts:viseme> |
Определяет положение лица и рта во время выступления человека. | Нет | Нет |
<p> |
Обозначает абзацы в документах SSML. | Да | Да |
<s> |
Обозначает предложения в документах SSML. | Да | Да |
Примечание
Хотя предыдущий раздел в этом руководстве также сравнивал голоса Azure Speech HD с голосами Azure OpenAI HD, элементы SSML, поддерживаемые службой "Речь Azure", не применимы к голосам Azure OpenAI.
Параметр улучшения произношения
Параметр enhancedPronunciation обеспечивает улучшенную обработку произношения во время синтеза речи. Когда установлено значение true, голоса NeuralHD применяют дополнительные оптимизации произношения, чтобы улучшить четкость и правильность произношения, особенно для сложных, неоднозначных или нестандартных текстов.
Если включена функция улучшения произношения, служба придаёт приоритет точности произношения путем применения расширенной лингвистической обработки во время синтеза. Это может помочь улучшить то, как система интерпретирует данные:
- Правильные существительные, имена и необычные слова
- Акронимы, аббревиатуры и текст смешанного регистра
- Слова с несколькими возможными произношениями в зависимости от контекста Этот параметр предназначен для дополнения существующих элементов управления произношением, таких как теги произношения на основе SSML и лексиконы, и не заменяет их. функция enhancePronunciation по умолчанию отключена для сохранения прогнозируемых, обратно совместимых с речью выходных данных и может быть включена, если разработчики хотят, чтобы служба применяла дополнительные оптимизации произношения для улучшения ясности и естественности.
Рекомендуемые варианты использования
Включите улучшение произношения в сценариях со структурированным или техническим содержимым для конкретного домена.
Примечание
Параметр влияет только на обработку произношения; он не изменяет выбор голоса, стиль речи или элементы управления просодией. Результаты могут отличаться в зависимости от языка, голоса и входного текста. Для детерминированного управления произношением элементы произношения SSML остаются рекомендуемыми.
Выбор между DragonHD и Dragon HD HD Omni
Обе модели голосовой связи HD обеспечивают высококачественный синтез, но они служат разным вариантам использования:
| Рассмотрение | DragonHD | Дракон HD Omni |
|---|---|---|
| Количество голосов | 30+ тонко настроенных голосов | 700+ голоса (включая предыдущие голоса и новые голоса, созданные ИИ) |
| Разнообразие голоса | Ограничено предопределенными лицами | Обширное разнообразие с различными характеристиками всех голосов библиотеки |
| Элемент управления стилем | Только температурные и расширенные параметры | Автоматическое прогнозирование стилей и управление более чем 100 стилями на Ava и Эндрю |
| Варианты использования | Служба клиентов, специальные возможности, приложения, ориентированные на согласованность | Создание контента, аудиокниги, подкасты, разнообразные требования к человеку |
Когда следует использовать каждую модель
Выберите Dragon HD, если вы:
- Требуется определенный голосовой образ для конкретных языков для обеспечения высокого качества.
- Создание корпоративных приложений службы клиентов
- Требуется точно настроенное управление с помощью температуры и расширенных параметров
Выберите Dragon HD Omni, если вы:
- Требуется гибкость с множеством вариантов голосовой связи
- Создают разнообразные материалы (аудиокниги, подкасты, рассказы)
- Хотите улучшить текущее качество нейронных голосов, но для ваших локалей пока не поддерживается HD модель.
- Требуется широкий спектр лиц для различных вариантов использования