Что такое голоса OpenAI для преобразования текста в речь?

Как и голоса Azure Speech в Foundry Tools, голоса OpenAI text to speech обеспечивают высококачественный синтез речи для преобразования написанного текста в естественно звучащий речевой аудио. Это разблокирует широкий спектр возможностей для иммерсивного и интерактивного взаимодействия с пользователем.

Текст OpenAI для голосовой речи доступен через два варианта модели: Neural и NeuralHD.

  • Neural: оптимизировано для вариантов использования в режиме реального времени с наименьшей задержкой, но ниже качества NeuralHD.
  • NeuralHD: оптимизировано для обеспечения качества.

Доступные голоса для синтеза речи в инструментах Foundry

Может возникнуть вопрос: если я хочу использовать голосовую функцию преобразования текста в речь от OpenAI, следует ли брать его через Azure OpenAI в моделях Microsoft Foundry или через службу Azure Speech? Каковы сценарии, которые помогут мне использовать один или другой?

Каждая модель голосовой связи предлагает различные функции и возможности, позволяя выбрать наиболее подходящий для ваших потребностей. Вы хотите понять варианты и различия между доступными голосами для преобразования текста в речь в инструментах Foundry.

Вы можете выбрать один из следующих голосов для преобразования текста в речь в инструменте Foundry.

Голоса для синтеза речи OpenAI через Azure OpenAI или Azure Speech?

Если вы хотите использовать голоса синтеза речи от OpenAI, вы можете выбрать, следует ли использовать их через Azure OpenAI или Azure Speech. Вы можете посетить Галерею голосов, чтобы прослушать примеры голосов Azure OpenAI или синтезировать речь с собственным текстом, используя Создание аудиоконтента. Выходные данные звука идентичны в обоих случаях, при этом существует лишь несколько различий между двумя службами. Дополнительные сведения см. в таблице ниже.

Ниже приведено сравнение функций между голосами преобразования текста в речь OpenAI в Azure OpenAI и голосами преобразования текста в речь OpenAI в Azure Speech.

Функция Azure OpenAI (голоса OpenAI) Azure Speech (голоса OpenAI) Azure голоса речи
Регион См . таблицу регионов Foundry Models См . таблицу регионов Foundry Models Доступно в десятках регионов. См. список регионов.
Разнообразие голосов 6 12 Более 500
Многоязычный номер голоса 6 12 49
Максимальное многоязычное покрытие 57 57 77
Поддержка языка разметки синтеза речи (SSML) Не поддерживается Поддержка подмножества элементов SSML. Поддержка полного набора SSML в Azure Речь.
Варианты разработки REST API SDK для речи, CLI для речи, REST API Пакет SDK для распознавания речи, интерфейс командной строки для распознавания речи, REST API
Вариант развертывания Только облако Только облако Облачные, внедренные, гибридные и контейнеры.
Синтез в режиме реального времени или пакетной обработки Реальное время Реальное время Синтез в режиме реального времени и пакетной обработки
Задержки больше 500 мс больше 500 мс менее 300 мс
Частота выборки синтезированного звука 24 кГц 8, 16, 24 и 48 кГц 8, 16, 24 и 48 кГц
Формат звука вывода речи opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Существуют дополнительные функции и возможности, доступные в Azure Speech, которые недоступны в OpenAI voices. Например:

  • Текст в голосах речи OpenAI в Azure Speech поддерживает только подмножество элементов SSML. Голоса службы речи Azure поддерживают полный набор элементов SSML.
  • Azure Speech поддерживает события границ слов. Голоса OpenAI не поддерживают события границ слов.

Доступный текст OpenAI для голосовых функций

Доступные голоса OpenAI в Azure OpenAI:

  • alloy
  • echo
  • fable
  • onyx
  • nova
  • shimmer

Доступные голоса OpenAI в Azure Speech:

  • en-US-AlloyMultilingualNeural
  • en-US-EchoMultilingualNeural
  • en-US-FableMultilingualNeural
  • en-US-OnyxMultilingualNeural
  • en-US-NovaMultilingualNeural
  • en-US-ShimmerMultilingualNeural
  • en-US-AlloyMultilingualNeuralHD
  • en-US-EchoMultilingualNeuralHD
  • en-US-FableMultilingualNeuralHD
  • en-US-OnyxMultilingualNeuralHD
  • en-US-NovaMultilingualNeuralHD
  • en-US-ShimmerMultilingualNeuralHD

Элементы SSML, поддерживаемые голосами OpenAI для преобразования текста в речь в службе Azure Speech

Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, можно использовать SSML для определения абзаца, предложения, перерыва или паузы или молчания. Текст можно упаковать с помощью тегов событий, таких как закладка или viseme, которые можно обработать позже приложением.

В следующей таблице перечислены элементы языка разметки синтеза речи (SSML), поддерживаемые голосами синтеза OpenAI в Azure Speech. Для голосов OpenAI поддерживаются только следующие подмножества тегов SSML. Дополнительные сведения см. в структуре и событиях документов SSML .

Имя элемента SSML Описание
<speak> Заключает всё содержимое, которое нужно озвучить. Это корневой элемент документа SSML.
<voice> Задает голос, используемый для вывода текста в речь.
<sub> Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента.
<say-as> Указывает тип контента, например число или дату текста элемента.

Для этого элемента поддерживаются все значения свойств, кроме interpret-as="name". Например, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> поддерживается, но <say-as interpret-as="name">ED</say-as> не поддерживается. Дополнительные сведения см. в статье об произношении с помощью SSML.
<s> Обозначает предложения.
<lang> Указывает язык по умолчанию для нейронного голоса, на котором он должен говорить.
<break> Используется для изменения поведения разрывов или пауз между словами по умолчанию.