Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Голосовая трансляция предоставляет несколько вариантов оптимизации производительности и качества с помощью пользовательских моделей. В настоящее время доступны следующие параметры настройки:
- Настройка входных данных речи:
- Список фраз: облегченная настройка в реальном времени (JIT) на основе списка слов или фраз, предоставляемых как часть конфигурации сеанса, чтобы повысить качество распознавания. Дополнительные сведения см. в разделе "Улучшение точности распознавания" со списком фраз.
- Настраиваемая речь. С помощью пользовательской речи вы можете оценить и повысить точность распознавания речи для приложений и продуктов и точно настроить качество распознавания для ваших бизнес-потребностей. Дополнительные сведения см. в статье "Что такое настраиваемая речь".
- Настройка выходных данных речи:
- Пользовательский лексикон: Пользовательский лексикон позволяет легко настраивать произношение как для стандартного текста Azure, так и для пользовательских голосов, чтобы повысить точность синтеза речи для вашего варианта использования. Дополнительные сведения см. в пользовательском лексиконе для речи .
- Пользовательский голос: Пользовательский голос поставляется в двух типах. Профессиональный настраиваемый голос даёт возможность создавать очень естественный звук для вашего бренда или персонажей, предоставляя образцы человеческой речи в качестве данных для тонкой настройки. Персональный голос позволяет пользователям получать ИИ-сгенерированную репликацию собственных голосов на основе краткого образца речи. Дополнительные сведения см. в разделе "Что такое пользовательский голос?" И что такое личный голос?
- Настраиваемый аватар: пользовательский аватар с синтезированным голосом позволяет создать уникальную виртуальную говорящую модель для вашего приложения. С помощью пользовательского текста в аватаре синтеза речи вы можете создать уникальный и естественно выглядящий аватар для вашего продукта или бренда, предоставив данные видеозаписей выбранных актёров. См. Что такое настраиваемый аватар с функцией преобразования текста в речь?, чтобы узнать больше.
Настройка ввода речи
Список фраз
Используйте список фраз для упрощенной JIT-настройки для ввода звука. Чтобы настроить список фраз, можно задать phrase_list в сообщении session.update .
{
"session": {
"input_audio_transcription": {
"model": "azure-speech",
"phrase_list": ["Neo QLED TV", "TUF Gaming", "AutoQuote Explorer"]
}
}
}
Замечание
Список фраз в настоящее время не поддерживает gpt-realtime, gpt-4o-mini-realtime и phi4-mm-realtime. Дополнительные сведения о списке фраз см. в списке фраз для преобразования речи в текст.
Настраиваемая конфигурация речи
Поле custom_speech можно использовать для указания пользовательских моделей речи. Это поле определяется как словарь, где каждый ключ представляет код языкового стандарта и каждое значение соответствует Model ID пользовательской модели речи. Дополнительные сведения о пользовательской речи см. в разделе "Что такое настраиваемая речь?".
Voice Live поддерживает использование сочетания базовых и пользовательских моделей, если для каждого языкового стандарта каждый тип модели уникален и общее количество языков не превышает 10.
Пример конфигурации сеанса с пользовательскими моделями речи. В этом примере при обнаруженном языке используется английский язык, используется базовая модель, а при обнаруженном языке — китайский, используется пользовательская модель речи.
{
"session": {
"input_audio_transcription": {
"model": "azure-speech",
"language": "en",
"custom_speech": {
"zh-CN": "847cb03d-7f22-4b11-444-e1be1d77bf17"
}
}
}
}
Замечание
Чтобы использовать пользовательскую модель распознавания речи с помощью API голосовой трансляции, модель должна быть доступна в том же ресурсе Microsoft Foundry, который вы используете для вызова API голосовой трансляции. Если вы обучили модель на другом ресурсе, например, в Microsoft Foundry или службе Azure Speech в инструментах Foundry, необходимо скопировать модель в тот ресурс, который вы используете для вызова Voice Live API. Вы оплачиваете отдельно обучение технологии распознавания речи и хостинг моделей.
Настройка вывода речи
Пользовательский лексикон
Используйте строковое custom_lexicon_url свойство, чтобы настроить произношение как для стандартного текста Azure, так и для речи и пользовательских голосов. Дополнительные сведения о форматировании пользовательского лексикона (аналогично языку разметки синтеза речи (SSML)) см. в разделе пользовательском лексиконе для преобразования текста в речь.
{
"voice": {
"name": "en-US-Ava:DragonHDLatestNeural",
"type": "azure-standard",
"temperature": 0.8, // optional
"custom_lexicon_url": "<custom lexicon url>"
}
}
Пользовательские голоса Azure
Вы можете использовать пользовательский голос для вывода звука. Пользовательский голос существует в двух типах: профессиональный пользовательский голос, обученный на студийных записях для вашего бренда или персонажей, и личный голос, который воспроизводит собственный голос пользователя из короткого примера речи.
Это важно
Пользовательский доступ к голосовой связи ограничен на основе критериев соответствия и использования. Запросите доступ в форме запроса доступа.
Замечание
Чтобы использовать пользовательскую модель голосовой связи с API голосовой трансляции, модель должна быть доступна в том же ресурсе Microsoft Foundry, который вы используете для вызова API голосовой трансляции. Если вы обучили модель в другом ресурсе Microsoft Foundry или Службе "Речь Azure", необходимо скопировать модель в ресурс, который вы используете для вызова API голосовой трансляции. Вы платите отдельно за пользовательское обучение голоса и хостинг моделей. Дополнительные сведения о поддерживаемых регионах см. Поддерживаемые регионы службы «Речь».
Профессиональный кастомизированный голос
Профессиональный пользовательский голос позволяет создать однообразный, настраиваемый, искусственный голос для приложений, предоставляя образцы речи человека в качестве точной настройки данных. Сведения о создании пользовательского голоса см. в разделе "Что такое пользовательский голос".
{
"voice": {
"type": "azure-custom",
"name": "en-US-CustomNeural",
"endpoint_id": "your-endpoint-id", // a guid string
"temperature": 0.8 // optional, value range 0.0-1.0, only take effect when using HD voices
}
}
Личный голос
Персональный голос позволяет пользователям получать ИИ-сгенерированную репликацию собственных голосов на основе краткого образца речи. Сведения о создании личного голоса см. в разделе "Что такое личный голос".
{
"voice": {
"type": "azure-personal",
"model": "DragonLatestNeural", // required, specify the base model for personal voice
"name": "your-personal-voice-name", // the name of the personal voice
"temperature": 0.8 // optional, value range 0.0-1.0
}
}
Свойство model задает имя голосовой связи базовой модели. Поддерживаемые имена базовых моделей включают DragonLatestNeuralDragonHDOmniLatestNeural и MAI-Voice-1. Дополнительные сведения о различиях базовых моделей см. в разделе "Использование личного голоса" в приложении. Полная схема см. в разделе RealtimeAzurePersonalVoice.
Настраиваемый аватар Azure
Текст для аватара речи преобразует текст в цифровое видео фотореалистического человека (стандартного аватара или пользовательского текста для аватара речи), выступающего с естественным звуком голоса.
Конфигурация пользовательского аватара не отличается от конфигурации стандартного аватара. См. подробный пример в статье "Как использовать Voice Live API — Azure текст в речь аватар".
Это важно
Доступ к пользовательским аватарам текстовой речи ограничен в зависимости от критериев соответствия и использования. Запросите доступ в форме запроса доступа.
Замечание
Чтобы использовать пользовательскую модель голосовой связи с API голосовой трансляции, модель должна быть доступна в том же ресурсе Microsoft Foundry, который вы используете для вызова API голосовой трансляции. Если вы обучили модель в другом ресурсе Microsoft Foundry или Службе "Речь Azure", необходимо скопировать модель в ресурс, который вы используете для вызова API голосовой трансляции. Вы оплачиваете отдельно за обучение пользовательского аватара и хостинг моделей. Дополнительные сведения о поддерживаемых регионах см. Поддерживаемые регионы службы «Речь».
Замечание
Обучение пользовательских фото-аватаров (предварительный) пока недоступно как вариант самообслуживания и в настоящее время требует ручного офлайн процесса.
Связанный контент
- Краткое руководство по API голосовой трансляции
- Дополнительные сведения об использовании API голосовой трансляции