Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Голосовая трансляция предоставляет несколько вариантов оптимизации производительности и качества с помощью пользовательских моделей. В настоящее время доступны следующие параметры настройки:
- Настройка входных данных речи:
- Список фраз: облегченная настройка в реальном времени (JIT) на основе списка слов или фраз, предоставляемых как часть конфигурации сеанса, чтобы повысить качество распознавания. Дополнительные сведения см. в разделе "Улучшение точности распознавания" со списком фраз.
- Настраиваемая речь. С помощью пользовательской речи вы можете оценить и повысить точность распознавания речи для приложений и продуктов и точно настроить качество распознавания для ваших бизнес-потребностей. Дополнительные сведения см. в статье "Что такое настраиваемая речь".
- Настройка выходных данных речи:
- Пользовательский лексикон: Пользовательский лексикон позволяет легко настраивать произношение как для стандартного текста Azure, так и для пользовательских голосов, чтобы повысить точность синтеза речи для вашего варианта использования. Дополнительные сведения см. в пользовательском лексиконе для речи .
- Пользовательский голос: Пользовательский голос позволяет создать однообразный, настраиваемый, искусственный голос для ваших приложений. С помощью персонализированного голоса вы можете создать очень естественно звучащий голос для вашего бренда или персонажей, предоставляя образцы человеческой речи в качестве данных для тонкой настройки. Дополнительные сведения см. в статье "Что такое пользовательский голос".
- Настраиваемый аватар: пользовательский аватар с синтезированным голосом позволяет создать уникальную виртуальную говорящую модель для вашего приложения. С помощью пользовательского текста в аватаре синтеза речи вы можете создать уникальный и естественно выглядящий аватар для вашего продукта или бренда, предоставив данные видеозаписей выбранных актёров. См. Что такое настраиваемый аватар с функцией преобразования текста в речь?, чтобы узнать больше.
Настройка ввода речи
Список фраз
Используйте список фраз для упрощенной JIT-настройки для ввода звука. Чтобы настроить список фраз, можно задать phrase_list в сообщении session.update .
{
"session": {
"input_audio_transcription": {
"model": "azure-speech",
"phrase_list": ["Neo QLED TV", "TUF Gaming", "AutoQuote Explorer"]
}
}
}
Замечание
Список фраз в настоящее время не поддерживает gpt-realtime, gpt-4o-mini-realtime и phi4-mm-realtime. Дополнительные сведения о списке фраз см. в списке фраз для преобразования речи в текст.
Настраиваемая конфигурация речи
Поле custom_speech можно использовать для указания пользовательских моделей речи. Это поле определяется как словарь, где каждый ключ представляет код языкового стандарта и каждое значение соответствует Model ID пользовательской модели речи. Дополнительные сведения о пользовательской речи см. в разделе "Что такое настраиваемая речь?".
Голосовая функция Live поддерживает использование сочетания базовых моделей и пользовательских моделей при условии, что каждый тип уникален для каждого языкового стандарта, при этом общее количество поддерживаемых языков не превышает 10.
Пример конфигурации сеанса с пользовательскими моделями речи. В этом примере при обнаруженном языке используется английский язык, используется базовая модель, а при обнаруженном языке — китайский, используется пользовательская модель речи.
{
"session": {
"input_audio_transcription": {
"model": "azure-speech",
"language": "en",
"custom_speech": {
"zh-CN": "847cb03d-7f22-4b11-444-e1be1d77bf17"
}
}
}
}
Замечание
Чтобы использовать пользовательскую модель речи с динамическим API голосовой связи, модель должна быть доступна в том же ресурсе Microsoft Foundry, который вы используете для вызова динамического API голосовой связи. Если вы обучили модель на другом ресурсе Microsoft Foundry или на ресурсе "Azure Speech" в Foundry Tools, необходимо скопировать модель в ресурс, который вы используете для вызова Voice Live API. Вы оплачиваете отдельно обучение технологии распознавания речи и хостинг моделей.
Настройка вывода речи
Пользовательский лексикон
Используйте строковое custom_lexicon_url свойство, чтобы настроить произношение как для стандартного текста Azure, так и для речи и пользовательских голосов. Дополнительные сведения о форматировании пользовательского лексикона (аналогично языку разметки синтеза речи (SSML)) см. в разделе пользовательском лексиконе для преобразования текста в речь.
{
"voice": {
"name": "en-US-Ava:DragonHDLatestNeural",
"type": "azure-standard",
"temperature": 0.8, // optional
"custom_lexicon_url": "<custom lexicon url>"
}
}
Пользовательские голоса Azure
Вы можете использовать пользовательский голос для вывода звука. Сведения о создании пользовательского голоса см. в разделе "Что такое пользовательский голос".
{
"voice": {
"name": "en-US-CustomNeural",
"type": "azure-custom",
"endpoint_id": "your-endpoint-id", // a guid string
"temperature": 0.8 // optional, value range 0.0-1.0, only take effect when using HD voices
}
}
Это важно
Пользовательский доступ к голосовой связи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.
Замечание
Чтобы использовать пользовательскую голосовую модель с динамическим API голосовой связи, модель должна быть доступна в том же ресурсе Microsoft Foundry, который вы используете для вызова динамического API голосовой связи. Если вы обучили модель в другом ресурсе Microsoft Foundry или Службе "Речь Azure", необходимо скопировать модель в ресурс, который вы используете для вызова динамического API голосовой связи. Вы платите отдельно за пользовательское обучение голоса и хостинг моделей. Дополнительные сведения о поддерживаемых регионах см. Поддерживаемые регионы службы «Речь».
Настраиваемый аватар Azure
Текст для аватара речи преобразует текст в цифровое видео фотореалистического человека (стандартного аватара или пользовательского текста для аватара речи), выступающего с естественным звуком голоса.
Конфигурация пользовательского аватара не отличается от конфигурации стандартного аватара. Подробный пример см. в статье "Как использовать API голосовой связи в реальном времени — текст в речь на платформе Azure"."
Это важно
Доступ к пользовательскому тексту для аватара речи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.
Замечание
Чтобы использовать пользовательскую голосовую модель с динамическим API голосовой связи, модель должна быть доступна в том же ресурсе Microsoft Foundry, который вы используете для вызова динамического API голосовой связи. Если вы обучили модель в другом ресурсе Microsoft Foundry или Службе "Речь Azure", необходимо скопировать модель в ресурс, который вы используете для вызова динамического API голосовой связи. Вы оплачиваете отдельно за обучение пользовательского аватара и хостинг моделей. Дополнительные сведения о поддерживаемых регионах см. Поддерживаемые регионы службы «Речь».
Замечание
Обучение пользовательских фото-аватаров (предварительный) пока недоступно как вариант самообслуживания и в настоящее время требует ручного офлайн процесса.
Связанный контент
- Быстрый старт с Voice live API
- Дополнительные сведения об использовании API голосовой трансляции