Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Как и голоса Azure Speech в Foundry Tools, голоса OpenAI text to speech обеспечивают высококачественный синтез речи для преобразования написанного текста в естественно звучащий речевой аудио. Это разблокирует широкий спектр возможностей для иммерсивного и интерактивного взаимодействия с пользователем.
Текст OpenAI для голосовой речи доступен через два варианта модели: Neural и NeuralHD.
-
Neural: оптимизировано для вариантов использования в режиме реального времени с наименьшей задержкой, но ниже качестваNeuralHD. -
NeuralHD: оптимизировано для обеспечения качества.
Доступные голоса для синтеза речи в инструментах Foundry
Может возникнуть вопрос: если я хочу использовать голосовую функцию преобразования текста в речь от OpenAI, следует ли брать его через Azure OpenAI в моделях Microsoft Foundry или через службу Azure Speech? Каковы сценарии, которые помогут мне использовать один или другой?
Каждая модель голосовой связи предлагает различные функции и возможности, позволяя выбрать наиболее подходящий для ваших потребностей. Вы хотите понять варианты и различия между доступными голосами для преобразования текста в речь в инструментах Foundry.
Вы можете выбрать один из следующих голосов для преобразования текста в речь в инструменте Foundry.
- Голоса синтеза речи OpenAI в Azure OpenAI. Текущий список поддерживаемых регионов см. в таблице регионов службы "Речь".
- Голоса синтеза речи OpenAI в Azure Speech. Текущий список поддерживаемых регионов см. в таблице регионов службы "Речь".
- Azure службе "Речь" текст для голосовой речи. Доступно в десятках регионов. См. список регионов.
Голоса для синтеза речи OpenAI через Azure OpenAI или Azure Speech?
Если вы хотите использовать голоса синтеза речи от OpenAI, вы можете выбрать, следует ли использовать их через Azure OpenAI или Azure Speech. Вы можете посетить Галерею голосов, чтобы прослушать примеры голосов Azure OpenAI или синтезировать речь с собственным текстом, используя Создание аудиоконтента. Выходные данные звука идентичны в обоих случаях, при этом существует лишь несколько различий между двумя службами. Дополнительные сведения см. в таблице ниже.
Ниже приведено сравнение функций между голосами преобразования текста в речь OpenAI в Azure OpenAI и голосами преобразования текста в речь OpenAI в Azure Speech.
| Функция | Azure OpenAI (голоса OpenAI) | Azure Speech (голоса OpenAI) | Azure голоса речи |
|---|---|---|---|
| Регион | См . таблицу регионов Foundry Models | См . таблицу регионов Foundry Models | Доступно в десятках регионов. См. список регионов. |
| Разнообразие голосов | 6 | 12 | Более 500 |
| Многоязычный номер голоса | 6 | 12 | 49 |
| Максимальное многоязычное покрытие | 57 | 57 | 77 |
| Поддержка языка разметки синтеза речи (SSML) | Не поддерживается | Поддержка подмножества элементов SSML. | Поддержка полного набора SSML в Azure Речь. |
| Варианты разработки | REST API | SDK для речи, CLI для речи, REST API | Пакет SDK для распознавания речи, интерфейс командной строки для распознавания речи, REST API |
| Вариант развертывания | Только облако | Только облако | Облачные, внедренные, гибридные и контейнеры. |
| Синтез в режиме реального времени или пакетной обработки | Реальное время | Реальное время | Синтез в режиме реального времени и пакетной обработки |
| Задержки | больше 500 мс | больше 500 мс | менее 300 мс |
| Частота выборки синтезированного звука | 24 кГц | 8, 16, 24 и 48 кГц | 8, 16, 24 и 48 кГц |
| Формат звука вывода речи | opus, mp3, aac, flac | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Существуют дополнительные функции и возможности, доступные в Azure Speech, которые недоступны в OpenAI voices. Например:
- Текст в голосах речи OpenAI в Azure Speech поддерживает только подмножество элементов SSML. Голоса службы речи Azure поддерживают полный набор элементов SSML.
- Azure Speech поддерживает события границ слов. Голоса OpenAI не поддерживают события границ слов.
Доступный текст OpenAI для голосовых функций
Доступные голоса OpenAI в Azure OpenAI:
alloyechofableonyxnovashimmer
Доступные голоса OpenAI в Azure Speech:
en-US-AlloyMultilingualNeuralen-US-EchoMultilingualNeuralen-US-FableMultilingualNeuralen-US-OnyxMultilingualNeuralen-US-NovaMultilingualNeuralen-US-ShimmerMultilingualNeuralen-US-AlloyMultilingualNeuralHDen-US-EchoMultilingualNeuralHDen-US-FableMultilingualNeuralHDen-US-OnyxMultilingualNeuralHDen-US-NovaMultilingualNeuralHDen-US-ShimmerMultilingualNeuralHD
Элементы SSML, поддерживаемые голосами OpenAI для преобразования текста в речь в службе Azure Speech
Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, можно использовать SSML для определения абзаца, предложения, перерыва или паузы или молчания. Текст можно упаковать с помощью тегов событий, таких как закладка или viseme, которые можно обработать позже приложением.
В следующей таблице перечислены элементы языка разметки синтеза речи (SSML), поддерживаемые голосами синтеза OpenAI в Azure Speech. Для голосов OpenAI поддерживаются только следующие подмножества тегов SSML. Дополнительные сведения см. в структуре и событиях документов SSML .
| Имя элемента SSML | Описание |
|---|---|
<speak> |
Заключает всё содержимое, которое нужно озвучить. Это корневой элемент документа SSML. |
<voice> |
Задает голос, используемый для вывода текста в речь. |
<sub> |
Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента. |
<say-as> |
Указывает тип контента, например число или дату текста элемента. Для этого элемента поддерживаются все значения свойств, кроме interpret-as="name". Например, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> поддерживается, но <say-as interpret-as="name">ED</say-as> не поддерживается. Дополнительные сведения см. в статье об произношении с помощью SSML. |
<s> |
Обозначает предложения. |
<lang> |
Указывает язык по умолчанию для нейронного голоса, на котором он должен говорить. |
<break> |
Используется для изменения поведения разрывов или пауз между словами по умолчанию. |