Поделиться через


Как настраивать голосовой живой ввод и вывод

Голосовая трансляция предоставляет несколько вариантов оптимизации производительности и качества с помощью пользовательских моделей. В настоящее время доступны следующие параметры настройки:

  • Настройка входных данных речи:
    • Список фраз: облегченная настройка в реальном времени (JIT) на основе списка слов или фраз, предоставляемых как часть конфигурации сеанса, чтобы повысить качество распознавания. Дополнительные сведения см. в разделе "Улучшение точности распознавания" со списком фраз.
    • Настраиваемая речь. С помощью пользовательской речи вы можете оценить и повысить точность распознавания речи для приложений и продуктов и точно настроить качество распознавания для ваших бизнес-потребностей. Дополнительные сведения см. в статье "Что такое настраиваемая речь".
  • Настройка выходных данных речи:
    • Пользовательский лексикон: Пользовательский лексикон позволяет легко настраивать произношение как для стандартного текста Azure, так и для пользовательских голосов, чтобы повысить точность синтеза речи для вашего варианта использования. Дополнительные сведения см. в пользовательском лексиконе для речи .
    • Пользовательский голос: Пользовательский голос позволяет создать однообразный, настраиваемый, искусственный голос для ваших приложений. С помощью персонализированного голоса вы можете создать очень естественно звучащий голос для вашего бренда или персонажей, предоставляя образцы человеческой речи в качестве данных для тонкой настройки. Дополнительные сведения см. в статье "Что такое пользовательский голос".
    • Настраиваемый аватар: пользовательский аватар с синтезированным голосом позволяет создать уникальную виртуальную говорящую модель для вашего приложения. С помощью пользовательского текста в аватаре синтеза речи вы можете создать уникальный и естественно выглядящий аватар для вашего продукта или бренда, предоставив данные видеозаписей выбранных актёров. См. Что такое настраиваемый аватар с функцией преобразования текста в речь?, чтобы узнать больше.

Настройка ввода речи

Список фраз

Используйте список фраз для упрощенной JIT-настройки для ввода звука. Чтобы настроить список фраз, можно задать phrase_list в сообщении session.update .

{
    "session": {
        "input_audio_transcription": {
            "model": "azure-speech",
            "phrase_list": ["Neo QLED TV", "TUF Gaming", "AutoQuote Explorer"]
        }
    }
}

Замечание

Список фраз в настоящее время не поддерживает gpt-realtime, gpt-4o-mini-realtime и phi4-mm-realtime. Дополнительные сведения о списке фраз см. в списке фраз для преобразования речи в текст.

Настраиваемая конфигурация речи

Поле custom_speech можно использовать для указания пользовательских моделей речи. Это поле определяется как словарь, где каждый ключ представляет код языкового стандарта и каждое значение соответствует Model ID пользовательской модели речи. Дополнительные сведения о пользовательской речи см. в разделе "Что такое настраиваемая речь?".

Голосовая функция Live поддерживает использование сочетания базовых моделей и пользовательских моделей при условии, что каждый тип уникален для каждого языкового стандарта, при этом общее количество поддерживаемых языков не превышает 10.

Пример конфигурации сеанса с пользовательскими моделями речи. В этом примере при обнаруженном языке используется английский язык, используется базовая модель, а при обнаруженном языке — китайский, используется пользовательская модель речи.

{
  "session": {
    "input_audio_transcription": {
      "model": "azure-speech",
      "language": "en",
      "custom_speech": {
        "zh-CN": "847cb03d-7f22-4b11-444-e1be1d77bf17"
      }
    }
  }
}

Замечание

Чтобы использовать пользовательскую модель речи с динамическим API голосовой связи, модель должна быть доступна в том же ресурсе Microsoft Foundry, который вы используете для вызова динамического API голосовой связи. Если вы обучили модель на другом ресурсе Microsoft Foundry или на ресурсе "Azure Speech" в Foundry Tools, необходимо скопировать модель в ресурс, который вы используете для вызова Voice Live API. Вы оплачиваете отдельно обучение технологии распознавания речи и хостинг моделей.

Настройка вывода речи

Пользовательский лексикон

Используйте строковое custom_lexicon_url свойство, чтобы настроить произношение как для стандартного текста Azure, так и для речи и пользовательских голосов. Дополнительные сведения о форматировании пользовательского лексикона (аналогично языку разметки синтеза речи (SSML)) см. в разделе пользовательском лексиконе для преобразования текста в речь.

{
  "voice": {
    "name": "en-US-Ava:DragonHDLatestNeural",
    "type": "azure-standard",
    "temperature": 0.8, // optional
    "custom_lexicon_url": "<custom lexicon url>"
  }
}

Пользовательские голоса Azure

Вы можете использовать пользовательский голос для вывода звука. Сведения о создании пользовательского голоса см. в разделе "Что такое пользовательский голос".

{
  "voice": {
    "name": "en-US-CustomNeural",
    "type": "azure-custom",
    "endpoint_id": "your-endpoint-id", // a guid string
    "temperature": 0.8 // optional, value range 0.0-1.0, only take effect when using HD voices
  }
}

Это важно

Пользовательский доступ к голосовой связи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.

Замечание

Чтобы использовать пользовательскую голосовую модель с динамическим API голосовой связи, модель должна быть доступна в том же ресурсе Microsoft Foundry, который вы используете для вызова динамического API голосовой связи. Если вы обучили модель в другом ресурсе Microsoft Foundry или Службе "Речь Azure", необходимо скопировать модель в ресурс, который вы используете для вызова динамического API голосовой связи. Вы платите отдельно за пользовательское обучение голоса и хостинг моделей. Дополнительные сведения о поддерживаемых регионах см. Поддерживаемые регионы службы «Речь».

Настраиваемый аватар Azure

Текст для аватара речи преобразует текст в цифровое видео фотореалистического человека (стандартного аватара или пользовательского текста для аватара речи), выступающего с естественным звуком голоса.

Конфигурация пользовательского аватара не отличается от конфигурации стандартного аватара. Подробный пример см. в статье "Как использовать API голосовой связи в реальном времени — текст в речь на платформе Azure"."

Это важно

Доступ к пользовательскому тексту для аватара речи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.

Замечание

Чтобы использовать пользовательскую голосовую модель с динамическим API голосовой связи, модель должна быть доступна в том же ресурсе Microsoft Foundry, который вы используете для вызова динамического API голосовой связи. Если вы обучили модель в другом ресурсе Microsoft Foundry или Службе "Речь Azure", необходимо скопировать модель в ресурс, который вы используете для вызова динамического API голосовой связи. Вы оплачиваете отдельно за обучение пользовательского аватара и хостинг моделей. Дополнительные сведения о поддерживаемых регионах см. Поддерживаемые регионы службы «Речь».

Замечание

Обучение пользовательских фото-аватаров (предварительный) пока недоступно как вариант самообслуживания и в настоящее время требует ручного офлайн процесса.