Настройка входных и выходных данных голосовой трансляции

Голосовая трансляция предоставляет несколько вариантов оптимизации производительности и качества с помощью пользовательских моделей. В настоящее время доступны следующие параметры настройки:

Настройка входных данных речи:
- Список фраз: облегченная настройка в реальном времени (JIT) на основе списка слов или фраз, предоставляемых как часть конфигурации сеанса, чтобы повысить качество распознавания. Дополнительные сведения см. в разделе "Улучшение точности распознавания" со списком фраз.
- Настраиваемая речь. С помощью пользовательской речи вы можете оценить и повысить точность распознавания речи для приложений и продуктов и точно настроить качество распознавания для ваших бизнес-потребностей. Дополнительные сведения см. в статье "Что такое настраиваемая речь".
Настройка выходных данных речи:
- Пользовательский лексикон: Пользовательский лексикон позволяет легко настраивать произношение как для стандартного текста Azure, так и для пользовательских голосов, чтобы повысить точность синтеза речи для вашего варианта использования. Дополнительные сведения см. в пользовательском лексиконе для речи .
- Пользовательский голос: Пользовательский голос поставляется в двух типах. Профессиональный настраиваемый голос даёт возможность создавать очень естественный звук для вашего бренда или персонажей, предоставляя образцы человеческой речи в качестве данных для тонкой настройки. Персональный голос позволяет пользователям получать ИИ-сгенерированную репликацию собственных голосов на основе краткого образца речи. Дополнительные сведения см. в разделе "Что такое пользовательский голос?" И что такое личный голос?
- Настраиваемый аватар: пользовательский аватар с синтезированным голосом позволяет создать уникальную виртуальную говорящую модель для вашего приложения. С помощью пользовательского текста в аватаре синтеза речи вы можете создать уникальный и естественно выглядящий аватар для вашего продукта или бренда, предоставив данные видеозаписей выбранных актёров. См. Что такое настраиваемый аватар с функцией преобразования текста в речь?, чтобы узнать больше.

Настройка ввода речи

Список фраз

Используйте список фраз для упрощенной JIT-настройки для ввода звука. Чтобы настроить список фраз, можно задать phrase_list в сообщении session.update .

{
    "session": {
        "input_audio_transcription": {
            "model": "azure-speech",
            "phrase_list": ["Neo QLED TV", "TUF Gaming", "AutoQuote Explorer"]
        }
    }
}

Замечание

Список фраз в настоящее время не поддерживает gpt-realtime, gpt-4o-mini-realtime и phi4-mm-realtime. Дополнительные сведения о списке фраз см. в списке фраз для преобразования речи в текст.

Настраиваемая конфигурация речи

Поле custom_speech можно использовать для указания пользовательских моделей речи. Это поле определяется как словарь, где каждый ключ представляет код языкового стандарта и каждое значение соответствует Model ID пользовательской модели речи. Дополнительные сведения о пользовательской речи см. в разделе "Что такое настраиваемая речь?".

Voice Live поддерживает использование сочетания базовых и пользовательских моделей, если для каждого языкового стандарта каждый тип модели уникален и общее количество языков не превышает 10.

Пример конфигурации сеанса с пользовательскими моделями речи. В этом примере при обнаруженном языке используется английский язык, используется базовая модель, а при обнаруженном языке — китайский, используется пользовательская модель речи.

{
  "session": {
    "input_audio_transcription": {
      "model": "azure-speech",
      "language": "en",
      "custom_speech": {
        "zh-CN": "847cb03d-7f22-4b11-444-e1be1d77bf17"
      }
    }
  }
}

Замечание

Чтобы использовать пользовательскую модель распознавания речи с помощью API голосовой трансляции, модель должна быть доступна в том же ресурсе Microsoft Foundry, который вы используете для вызова API голосовой трансляции. Если вы обучили модель на другом ресурсе, например, в Microsoft Foundry или службе Azure Speech в инструментах Foundry, необходимо скопировать модель в тот ресурс, который вы используете для вызова Voice Live API. Вы оплачиваете отдельно обучение технологии распознавания речи и хостинг моделей.

Настройка вывода речи

Пользовательский лексикон

Используйте строковое custom_lexicon_url свойство, чтобы настроить произношение как для стандартного текста Azure, так и для речи и пользовательских голосов. Дополнительные сведения о форматировании пользовательского лексикона (аналогично языку разметки синтеза речи (SSML)) см. в разделе пользовательском лексиконе для преобразования текста в речь.

{
  "voice": {
    "name": "en-US-Ava:DragonHDLatestNeural",
    "type": "azure-standard",
    "temperature": 0.8, // optional
    "custom_lexicon_url": "<custom lexicon url>"
  }
}

Пользовательские голоса Azure

Вы можете использовать пользовательский голос для вывода звука. Пользовательский голос существует в двух типах: профессиональный пользовательский голос, обученный на студийных записях для вашего бренда или персонажей, и личный голос, который воспроизводит собственный голос пользователя из короткого примера речи.

Это важно

Пользовательский доступ к голосовой связи ограничен на основе критериев соответствия и использования. Запросите доступ в форме запроса доступа.

Замечание

Чтобы использовать пользовательскую модель голосовой связи с API голосовой трансляции, модель должна быть доступна в том же ресурсе Microsoft Foundry, который вы используете для вызова API голосовой трансляции. Если вы обучили модель в другом ресурсе Microsoft Foundry или Службе "Речь Azure", необходимо скопировать модель в ресурс, который вы используете для вызова API голосовой трансляции. Вы платите отдельно за пользовательское обучение голоса и хостинг моделей. Дополнительные сведения о поддерживаемых регионах см. Поддерживаемые регионы службы «Речь».

Профессиональный кастомизированный голос

Профессиональный пользовательский голос позволяет создать однообразный, настраиваемый, искусственный голос для приложений, предоставляя образцы речи человека в качестве точной настройки данных. Сведения о создании пользовательского голоса см. в разделе "Что такое пользовательский голос".

{
  "voice": {
    "type": "azure-custom",
    "name": "en-US-CustomNeural",
    "endpoint_id": "your-endpoint-id", // a guid string
    "temperature": 0.8 // optional, value range 0.0-1.0, only take effect when using HD voices
  }
}

Личный голос

Персональный голос позволяет пользователям получать ИИ-сгенерированную репликацию собственных голосов на основе краткого образца речи. Сведения о создании личного голоса см. в разделе "Что такое личный голос".

{
  "voice": {
    "type": "azure-personal",
    "model": "DragonLatestNeural",  // required, specify the base model for personal voice
    "name": "your-personal-voice-name", // the name of the personal voice
    "temperature": 0.8  // optional, value range 0.0-1.0
  }
}

Свойство model задает имя голосовой связи базовой модели. Поддерживаемые имена базовых моделей включают DragonLatestNeuralDragonHDOmniLatestNeural и MAI-Voice-1. Дополнительные сведения о различиях базовых моделей см. в разделе "Использование личного голоса" в приложении. Полная схема см. в разделе RealtimeAzurePersonalVoice.

Настраиваемый аватар Azure

Текст для аватара речи преобразует текст в цифровое видео фотореалистического человека (стандартного аватара или пользовательского текста для аватара речи), выступающего с естественным звуком голоса.

Конфигурация пользовательского аватара не отличается от конфигурации стандартного аватара. См. подробный пример в статье "Как использовать Voice Live API — Azure текст в речь аватар".

Это важно

Доступ к пользовательским аватарам текстовой речи ограничен в зависимости от критериев соответствия и использования. Запросите доступ в форме запроса доступа.

Замечание

Чтобы использовать пользовательскую модель голосовой связи с API голосовой трансляции, модель должна быть доступна в том же ресурсе Microsoft Foundry, который вы используете для вызова API голосовой трансляции. Если вы обучили модель в другом ресурсе Microsoft Foundry или Службе "Речь Azure", необходимо скопировать модель в ресурс, который вы используете для вызова API голосовой трансляции. Вы оплачиваете отдельно за обучение пользовательского аватара и хостинг моделей. Дополнительные сведения о поддерживаемых регионах см. Поддерживаемые регионы службы «Речь».

Замечание

Обучение пользовательских фото-аватаров (предварительный) пока недоступно как вариант самообслуживания и в настоящее время требует ручного офлайн процесса.

Краткое руководство по API голосовой трансляции
Дополнительные сведения об использовании API голосовой трансляции

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-03-28

Настройка входных и выходных данных голосовой трансляции

Настройка ввода речи

Список фраз

Настраиваемая конфигурация речи

Настройка вывода речи

Пользовательский лексикон

Пользовательские голоса Azure

Профессиональный кастомизированный голос

Личный голос

Настраиваемый аватар Azure

Связанный контент

Обратная связь

Дополнительные ресурсы