Поделиться через


Что такое текст OpenAI для речевых голосов?

Как и голоса Azure Speech в Foundry Tools, голоса OpenAI для синтеза речи обеспечивают высококачественный синтез речи для преобразования написанного текста в естественно звучащее аудио. Это разблокирует широкий спектр возможностей для иммерсивного и интерактивного взаимодействия с пользователем.

Текст OpenAI для голосовой речи доступен через два варианта модели: Neural и NeuralHD.

  • Neural: оптимизировано для вариантов использования в режиме реального времени с наименьшей задержкой, но ниже качества NeuralHD.
  • NeuralHD: оптимизировано для качества.

Доступные голоса для синтеза речи в инструментах Foundry

Вы можете спросить: Если вы хотите использовать текст OpenAI для голосовой речи, следует ли использовать его с помощью Azure OpenAI в моделях Microsoft Foundry или с помощью службы "Речь Azure"? Каковы сценарии, которые помогут мне использовать один или другой?

Каждая модель голосовой связи предлагает различные функции и возможности, позволяя выбрать наиболее подходящий для ваших потребностей. Вы хотите понять параметры и различия между доступными голосами синтеза речи в инструментах Foundry.

Вы можете выбрать из следующего текста в голосовые голоса в средстве Foundry:

Синтез речи OpenAI через Azure OpenAI или через Azure Speech?

Если вы хотите использовать голоса OpenAI для преобразования текста в речь, можно выбрать использование через Azure OpenAI или через Azure Speech. Вы можете посетить коллекцию голосовых данных, чтобы слушать примеры голосов Azure OpenAI или синтезировать речь с собственным текстом с помощью создания аудиоконтента. Выходные данные звука идентичны в обоих случаях, при этом существует лишь несколько различий между двумя службами. Дополнительные сведения см. в таблице ниже.

Ниже представлено сравнение голосов синтеза речи OpenAI в Azure OpenAI и голосов синтеза речи OpenAI в службе "Речь Azure".

Функция Azure OpenAI (голоса OpenAI) Речь Azure (голоса от OpenAI) Голоса службы Azure Speech
Регион Центрально-северная часть США, Центральная Швеция Центрально-северная часть США, Центральная Швеция Доступно в десятках регионов. См. список регионов.
Разнообразие голосовых данных 6 12 Более 500
Многоязычный номер голоса 6 12 49
Максимальное число языкового охвата 57 57 77
Поддержка языка разметки синтеза речи (SSML) Не поддерживается Поддержка подмножества элементов SSML. Поддержка полного набора SSML в Azure Speech.
Варианты разработки REST API Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API
Вариант развертывания Учетные записи Учетные записи Облачные, внедренные, гибридные и контейнеры.
Синтез в режиме реального времени или пакетной обработки Реальное время Реальное время Синтез в режиме реального времени и пакетной обработки
Задержка больше 500 мс больше 500 мс менее 300 мс
Частота выборки синтезированного звука 24 кГц 8, 16, 24 и 48 кГц 8, 16, 24 и 48 кГц
Формат звука вывода речи opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

В службе "Речь Azure" доступны дополнительные функции и возможности, недоступные в голосовых функциях OpenAI. Например:

Доступный текст OpenAI для голосовых функций

Доступные голоса OpenAI в Azure OpenAI:

  • alloy
  • echo
  • fable
  • onyx
  • nova
  • shimmer

Доступные голоса OpenAI в службе "Речь Azure":

  • en-US-AlloyMultilingualNeural
  • en-US-EchoMultilingualNeural
  • en-US-FableMultilingualNeural
  • en-US-OnyxMultilingualNeural
  • en-US-NovaMultilingualNeural
  • en-US-ShimmerMultilingualNeural
  • en-US-AlloyMultilingualNeuralHD
  • en-US-EchoMultilingualNeuralHD
  • en-US-FableMultilingualNeuralHD
  • en-US-OnyxMultilingualNeuralHD
  • en-US-NovaMultilingualNeuralHD
  • en-US-ShimmerMultilingualNeuralHD

Элементы SSML, поддерживаемые текстом OpenAI для голосовой речи в службе "Речь Azure"

Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, можно использовать SSML для определения абзаца, предложения, перерыва или паузы или молчания. Текст можно упаковать с помощью тегов событий, таких как закладка или viseme, которые можно обработать позже приложением.

В следующей таблице описаны элементы языка разметки синтеза речи (SSML), поддерживаемые голосами текст в речь OpenAI в службе Azure Speech. Для голосов OpenAI поддерживаются только следующие подмножества тегов SSML. Дополнительные сведения см. в структуре и событиях документов SSML.

Имя элемента SSML Описание
<speak> Заключает весь контент, который нужно провести. Это корневой элемент документа SSML.
<voice> Задает голос, используемый для вывода текста в речь.
<sub> Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента.
<say-as> Указывает тип контента, например число или дату текста элемента.

interpret-as Для этого элемента interpret-as="name"поддерживаются все значения свойств. Например, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> поддерживается, но <say-as interpret-as="name">ED</say-as> не поддерживается. Дополнительные сведения см. в статье об произношении с помощью SSML.
<s> Обозначает предложения.
<lang> Указывает языковой стандарт по умолчанию для языка, который требуется говорить нейронным голосом.
<break> Используется для переопределения поведения разрывов или пауз по умолчанию между словами.