Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Как и голоса Azure Speech в Foundry Tools, голоса OpenAI для синтеза речи обеспечивают высококачественный синтез речи для преобразования написанного текста в естественно звучащее аудио. Это разблокирует широкий спектр возможностей для иммерсивного и интерактивного взаимодействия с пользователем.
Текст OpenAI для голосовой речи доступен через два варианта модели: Neural и NeuralHD.
-
Neural: оптимизировано для вариантов использования в режиме реального времени с наименьшей задержкой, но ниже качестваNeuralHD. -
NeuralHD: оптимизировано для качества.
Доступные голоса для синтеза речи в инструментах Foundry
Вы можете спросить: Если вы хотите использовать текст OpenAI для голосовой речи, следует ли использовать его с помощью Azure OpenAI в моделях Microsoft Foundry или с помощью службы "Речь Azure"? Каковы сценарии, которые помогут мне использовать один или другой?
Каждая модель голосовой связи предлагает различные функции и возможности, позволяя выбрать наиболее подходящий для ваших потребностей. Вы хотите понять параметры и различия между доступными голосами синтеза речи в инструментах Foundry.
Вы можете выбрать из следующего текста в голосовые голоса в средстве Foundry:
- Текст OpenAI для речевых голосов в Azure OpenAI. Текущий список поддерживаемых регионов см. в таблице регионов службы "Речь".
- Голоса OpenAI для преобразования текста в речь в службе Azure Speech. Текущий список поддерживаемых регионов см. в таблице регионов службы "Речь".
- Сервис Azure Speech голоса преобразования текста в речь. Доступно в десятках регионов. См. список регионов.
Синтез речи OpenAI через Azure OpenAI или через Azure Speech?
Если вы хотите использовать голоса OpenAI для преобразования текста в речь, можно выбрать использование через Azure OpenAI или через Azure Speech. Вы можете посетить коллекцию голосовых данных, чтобы слушать примеры голосов Azure OpenAI или синтезировать речь с собственным текстом с помощью создания аудиоконтента. Выходные данные звука идентичны в обоих случаях, при этом существует лишь несколько различий между двумя службами. Дополнительные сведения см. в таблице ниже.
Ниже представлено сравнение голосов синтеза речи OpenAI в Azure OpenAI и голосов синтеза речи OpenAI в службе "Речь Azure".
| Функция | Azure OpenAI (голоса OpenAI) | Речь Azure (голоса от OpenAI) | Голоса службы Azure Speech |
|---|---|---|---|
| Регион | Центрально-северная часть США, Центральная Швеция | Центрально-северная часть США, Центральная Швеция | Доступно в десятках регионов. См. список регионов. |
| Разнообразие голосовых данных | 6 | 12 | Более 500 |
| Многоязычный номер голоса | 6 | 12 | 49 |
| Максимальное число языкового охвата | 57 | 57 | 77 |
| Поддержка языка разметки синтеза речи (SSML) | Не поддерживается | Поддержка подмножества элементов SSML. | Поддержка полного набора SSML в Azure Speech. |
| Варианты разработки | REST API | Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API | Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API |
| Вариант развертывания | Учетные записи | Учетные записи | Облачные, внедренные, гибридные и контейнеры. |
| Синтез в режиме реального времени или пакетной обработки | Реальное время | Реальное время | Синтез в режиме реального времени и пакетной обработки |
| Задержка | больше 500 мс | больше 500 мс | менее 300 мс |
| Частота выборки синтезированного звука | 24 кГц | 8, 16, 24 и 48 кГц | 8, 16, 24 и 48 кГц |
| Формат звука вывода речи | opus, mp3, aac, flac | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
В службе "Речь Azure" доступны дополнительные функции и возможности, недоступные в голосовых функциях OpenAI. Например:
- Голоса OpenAI в Azure Speech поддерживают только подмножество элементов SSML. Голоса службы "Речь Azure" поддерживают полный набор элементов SSML.
- Служба Azure Speech поддерживает события границ слов. Голоса OpenAI не поддерживают события границ слов.
Доступный текст OpenAI для голосовых функций
Доступные голоса OpenAI в Azure OpenAI:
alloyechofableonyxnovashimmer
Доступные голоса OpenAI в службе "Речь Azure":
en-US-AlloyMultilingualNeuralen-US-EchoMultilingualNeuralen-US-FableMultilingualNeuralen-US-OnyxMultilingualNeuralen-US-NovaMultilingualNeuralen-US-ShimmerMultilingualNeuralen-US-AlloyMultilingualNeuralHDen-US-EchoMultilingualNeuralHDen-US-FableMultilingualNeuralHDen-US-OnyxMultilingualNeuralHDen-US-NovaMultilingualNeuralHDen-US-ShimmerMultilingualNeuralHD
Элементы SSML, поддерживаемые текстом OpenAI для голосовой речи в службе "Речь Azure"
Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, можно использовать SSML для определения абзаца, предложения, перерыва или паузы или молчания. Текст можно упаковать с помощью тегов событий, таких как закладка или viseme, которые можно обработать позже приложением.
В следующей таблице описаны элементы языка разметки синтеза речи (SSML), поддерживаемые голосами текст в речь OpenAI в службе Azure Speech. Для голосов OpenAI поддерживаются только следующие подмножества тегов SSML. Дополнительные сведения см. в структуре и событиях документов SSML.
| Имя элемента SSML | Описание |
|---|---|
<speak> |
Заключает весь контент, который нужно провести. Это корневой элемент документа SSML. |
<voice> |
Задает голос, используемый для вывода текста в речь. |
<sub> |
Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента. |
<say-as> |
Указывает тип контента, например число или дату текста элемента.interpret-as Для этого элемента interpret-as="name"поддерживаются все значения свойств. Например, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> поддерживается, но <say-as interpret-as="name">ED</say-as> не поддерживается. Дополнительные сведения см. в статье об произношении с помощью SSML. |
<s> |
Обозначает предложения. |
<lang> |
Указывает языковой стандарт по умолчанию для языка, который требуется говорить нейронным голосом. |
<break> |
Используется для переопределения поведения разрывов или пауз по умолчанию между словами. |