Обучение профессиональной голосовой модели

В этой статье вы узнаете, как настроить профессиональный голос на портале Microsoft Foundry.

Важно

Профессиональная настройка голосовой связи в настоящее время доступна только в некоторых регионах. После того как ваша голосовая модель обучена в поддерживаемом регионе, вы можете скопировать профессиональную голосовую модель в ресурс Microsoft Foundry в другом регионе по мере необходимости. Дополнительные сведения см. в сносках в таблице службы "Речь".

Длительность обучения зависит от того, сколько данных вы используете. Это занимает около 10 часов вычислений в среднем, чтобы точно настроить профессиональный голос. С помощью ресурса Microsoft Foundry standard (S0) можно одновременно обучить четыре голоса. Если вы достигнете предела, подождите, пока не менее одна из ваших голосовых моделей завершит обучение, а затем повторите попытку.

Примечание

Хотя общее количество часов, необходимых для каждого метода обучения, может различаться, одинаковая цена за единицу применяется ко всем. Дополнительные сведения см. в разделе о ценах на настраиваемую нейронную подготовку.

Выбор метода обучения

После проверки файлов данных используйте их для создания пользовательской голосовой модели. При создании пользовательского голоса вы можете обучить его одним из следующих методов:

Нейронный: создавайте голос на том же языке, что и язык ваших данных обучения.
Нейронный — HD голос: создайте HD голос на языке ваших обучающих данных. Голоса Azure Neural HD на базе LLM оптимизированы для динамических диалогов. Дополнительные сведения об нейронных голосах HD см. здесь.
Нейронная — многоязычная: создайте голос, который может говорить на нескольких языках, используя данные обучения для одного языка. Например, с en-US основными учебными данными можно создать голос, который говорит en-US, de-DEzh-CN и т. д. вторичные языки.

Основной язык обучающих данных и вторичных языков должен находиться на языках, которые поддерживаются для обучения многоязычной голосовой связи. Вам не нужно подготавливать обучающие данные на дополнительных языках.
Нейронная — много стилей: создайте пользовательский голос, который выступает в нескольких стилях и эмоциях, не добавляя новые обучающие данные. Несколько стилей голоса полезны для игровых персонажей, беседных чат-ботов, аудиокниг, средств чтения содержимого и многое другое.

Чтобы создать несколько стилей голоса, необходимо подготовить набор общих обучающих данных, по крайней мере 300 речевых фрагментов. Выберите один или несколько предустановленных стилей речи целевого объекта. Вы также можете создать несколько пользовательских стилей, предоставив примеры стилей, по крайней мере 100 речевых фрагментов на стиль, в качестве дополнительных обучающих данных для одного голоса. Поддерживаемые стили предустановок зависят от разных языков. Просмотрите доступные стили предустановок на разных языках.
Нейронный — кросслингвальный: создайте голос, который говорит на другом языке, отличном от обучающих данных. Например, используя zh-CN обучающие данные, можно создать голос, который произносит en-US.

Язык обучающих данных и целевого языка должен быть одним из языков, которые поддерживаются для перекрестного обучения голосовой связи. Вам не нужно подготавливать обучающие данные на целевом языке, но тестовый скрипт должен находиться на целевом языке.

Язык обучающих данных должен быть одним из языков, поддерживаемых для пользовательского голосового, кросслингвального или нескольких стилей обучения.

Обучение пользовательской голосовой модели

Чтобы создать пользовательский голос на портале Foundry Microsoft, выполните следующие действия для одного из следующих методов:

Войдите на портал Microsoft Foundry.
Выберите Тонкая настройка в левой области и выберите Тонкая настройка службы ИИ.
Выберите задачу профессиональной настройки голосовой связи (по имени модели), которую вы начали, как описано в статье о создании профессиональной голосовой связи.
Выберите "Обучение модели>+ Обучение модели".
Выберите Neural в качестве метода обучения для модели. Сведения об использовании другого метода обучения см. в разделе Нейронная — кросслингвальная, Нейронная — многостильная, Нейронная — многоязычная или Нейронная — голосовая связь HD.
Выберите версию рецепта обучения для модели. По умолчанию выбрана последняя версия. Поддерживаемые функции и время обучения могут отличаться по версии. Как правило, мы рекомендуем последнюю версию. В некоторых случаях можно выбрать более раннюю версию, чтобы сократить время обучения. Дополнительные сведения о двуязычной подготовке и различиях между языковыми стандартами см. в Bilingual training.
Нажмите кнопку "Далее".
Выберите данные, которые вы хотите использовать для обучения. Дублирующиеся звуковые имена удаляются из обучения. Убедитесь, что данные, которые вы выбрали, не содержат одинаковые имена звука в нескольких .zip файлах.

Вы можете выбрать только успешно обработанные наборы данных для обучения. Если в списке не отображается набор обучения, проверьте состояние обработки данных.
Выберите файл диктора с заявлением о голосовом таланте, соответствующий диктору в ваших тренировочных данных.
Нажмите кнопку "Далее".
Выберите тестовый скрипт и нажмите кнопку "Далее".
- Каждое обучение создает 100 примеров звуковых файлов автоматически, чтобы протестировать модель с помощью скрипта по умолчанию.
- Кроме того, можно выбрать " Добавить собственный скрипт теста " и предоставить собственный скрипт тестирования до 100 речевых фрагментов, чтобы протестировать модель без дополнительных затрат. Созданные звуковые файлы — это сочетание скриптов автоматического тестирования и пользовательских скриптов тестирования. Дополнительные сведения см. в статье о требованиях к скрипту тестирования.
Введите имя модели голосовой связи. Тщательно выберите имя. Имя модели используется в качестве голосового имени в запросе синтеза речи с помощью SDK и входных данных SSML. Допускаются только буквы, цифры и несколько знаков препинания. Используйте разные имена для различных моделей нейронных голосовых данных.
При необходимости введите описание , чтобы определить модель. Обычное использование описания заключается в записи имен данных, используемых для создания модели.
Установите флажок, чтобы принять условия использования, а затем нажмите кнопку "Далее".
Просмотрите параметры и выберите поле для принятия условий использования.
Выберите "Обучение ", чтобы начать обучение модели.

Двуязычное обучение

Если выбрать тип обучения нейронный, вы можете обучить голос говорить на нескольких языках. zh-CN, zh-HK, и zh-TW поддерживают двуязычное обучение системы, чтобы распознавать речь как на китайском, так и на английском языках. В зависимости от ваших обучающих данных синтезированный голос может говорить на английском языке с английским собственным акцентом или английским с тем же акцентом, что и данные обучения.

Примечание

Чтобы включить голос в zh-CN языковом стандарте для разговора на английском языке с тем же акцентом, что и в образце данных, следует загрузить данные на английском языке в контекстный набор обучения или выбрать Chinese (Mandarin, Simplified), English bilingual при создании проекта, либо указать zh-CN (English bilingual) языковой стандарт для данных набора обучения через REST API.

Включите в контекстный набор обучения по крайней мере 100 предложений или 10 минут английского контента, и не превышайте объема китайского контента.

В следующей таблице показаны различия локалей системы:

Локализация для Speech Studio	Локаль REST API	Двуязычная поддержка
`Chinese (Mandarin, Simplified)`	`zh-CN`	Если образец данных содержит английский, синтезированный голос говорит по-английски с родным английским акцентом, вместо акцента образца данных, независимо от объема данных на английском языке.
`Chinese (Mandarin, Simplified), English bilingual`	`zh-CN (English bilingual)`	Если вы хотите, чтобы синтезированный голос говорил на английском языке с тем же акцентом, что и примеры данных, рекомендуется включить более 10% английских данных в наборе обучения. В противном случае акцент на английском языке может быть не идеальным.
`Chinese (Cantonese, Simplified)`	`zh-HK`	Если вы хотите обучить синтезированный голос, способный говорить на английском языке с тем же акцентом, что и образец данных, обязательно предоставьте более 10% английских данных в учебном наборе. В противном случае, по умолчанию переключается на английский родной акцент. Пороговое значение 10% вычисляется на основе данных, принятых после успешной отправки, а не данных перед отправкой. Если некоторые загруженные данные на английском языке отклоняются из-за дефектов и не соответствуют порогу в 10%, синтезированный голос по умолчанию переключается на акцент носителя английского.
`Chinese (Taiwanese Mandarin, Traditional)`	`zh-TW`	Если вы хотите обучить синтезированный голос, способный говорить на английском языке с тем же акцентом, что и образец данных, обязательно предоставьте более 10% английских данных в учебном наборе. В противном случае, по умолчанию переключается на английский родной акцент. Пороговое значение 10% вычисляется на основе данных, принятых после успешной отправки, а не данных перед отправкой. Если некоторые загруженные данные на английском языке отклоняются из-за дефектов и не соответствуют порогу в 10%, синтезированный голос по умолчанию переключается на акцент носителя английского.

Войдите на портал Microsoft Foundry.
Выберите Тонкая настройка в левой области и выберите Тонкая настройка службы ИИ.
Выберите задачу профессиональной настройки голосовой связи (по имени модели), которую вы начали, как описано в статье о создании профессиональной голосовой связи.
Выберите "Обучение модели>+ Обучение модели".
Выберите Нейронный — мультинационный стиль в качестве метода обучения для модели. Сведения об использовании другого метода обучения смотрите в разделах Нейронная модель, Нейронная модель — кросс-лингвальная, Нейронная модель — мульти-язычная или Нейронная модель — HD Голос.
Выберите версию рецепта обучения для модели. По умолчанию выбрана последняя версия. Поддерживаемые функции и время обучения могут отличаться по версии. Как правило, мы рекомендуем последнюю версию. В некоторых случаях можно выбрать более раннюю версию, чтобы сократить время обучения.
Нажмите кнопку "Далее".
Выберите один или несколько предустановленных стилей речи для обучения.
Выберите данные, которые вы хотите использовать для обучения. Дублирующиеся звуковые имена удаляются из обучения. Убедитесь, что данные, которые вы выбрали, не содержат одинаковые имена звука в нескольких .zip файлах.

Вы можете выбрать только успешно обработанные наборы данных для обучения. Проверьте процесс обработки данных, если в списке не отображается ваш набор обучения.
Нажмите кнопку "Далее".
При необходимости можно добавить другие пользовательские стили речи. Максимальное количество пользовательских стилей зависит от языков: English (США) позволяет до 10 настраиваемых стилей, Chinese (Mandarin, Simplified) позволяет до четырех пользовательских стилей, а Japanese (Japan) позволяет до пяти пользовательских стилей.
1. Выберите +Добавить пользовательский стиль и введите имя пользовательского стиля. Это имя используется приложением в элементе styleязыка разметки синтеза речи (SSML).
2. Выберите примеры стилей в качестве обучающих данных. Убедитесь, что обучающие данные для пользовательских стилей речи приходят от того же говорящего, что и данные, используемые для создания стиля по умолчанию.
Нажмите кнопку "Далее".
Выберите файл диктора с заявлением о голосовом таланте, соответствующий диктору в ваших тренировочных данных.
Нажмите кнопку "Далее".
Выберите тестовый скрипт и нажмите кнопку "Далее".
- Каждое обучение создает 100 примеров звуковых файлов автоматически, чтобы протестировать модель с помощью скрипта по умолчанию.
- Кроме того, можно выбрать " Добавить собственный скрипт теста " и предоставить собственный скрипт тестирования до 100 речевых фрагментов, чтобы протестировать модель без дополнительных затрат. Созданные звуковые файлы — это сочетание скриптов автоматического тестирования и пользовательских скриптов тестирования. Дополнительные сведения см. в статье о требованиях к скрипту тестирования.
Введите имя модели голосовой связи. Тщательно выберите имя. Имя модели используется в качестве голосового имени в запросе синтеза речи с помощью SDK и входных данных SSML. Допускаются только буквы, цифры и несколько знаков препинания. Используйте разные имена для различных моделей нейронных голосовых данных.
При необходимости введите описание , чтобы определить модель. Обычное использование описания заключается в записи имен данных, используемых для создания модели.
Установите флажок, чтобы принять условия использования, а затем нажмите кнопку "Далее".
Просмотрите параметры и выберите поле для принятия условий использования.
Выберите "Обучение ", чтобы начать обучение модели.

Доступные стили предустановок на разных языках

В следующей таблице перечислены различные предустановленные стили в соответствии с различными языками.

Стиль речи	Язык (локаль)
Злой	Английский (Соединенные Штаты) (`en-US`) Японский (Япония) (`ja-JP`¹) Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Спокойствие	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Чат	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Веселый	Английский (Соединенные Штаты) (`en-US`) Японский (Япония) (`ja-JP`¹) Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Недовольных	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Взволнован	Английский (Соединенные Штаты) (`en-US`)
Испуганный	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Дружелюбный	Английский (Соединенные Штаты) (`en-US`)
обнадеживающий	Английский (Соединенные Штаты) (`en-US`)
Грустно	Английский (Соединенные Штаты) (`en-US`) Японский (Япония) (`ja-JP`¹) Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Кричать	Английский (Соединенные Штаты) (`en-US`)
Серьезный	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Ужасе	Английский (Соединенные Штаты) (`en-US`)
Недружелюбный	Английский (Соединенные Штаты) (`en-US`)
Шепот	Английский (Соединенные Штаты) (`en-US`)

¹ Стиль нейронного голоса доступен в общедоступной предварительной версии. Текущий список регионов, поддерживающих стили в общедоступной предварительной версии, см. в таблице регионов службы "Речь".

Мониторинг процесса обучения

В таблице Обучение модели отображается новая запись, соответствующая созданной модели. Состояние отражает процесс преобразования данных в голосовую модель, как описано в этой таблице:

Государства	Смысл
Обработка	Ваша голосовая модель создается.
Удалось	Ваша голосовая модель создана и может быть развернута.
Ошибка	Ваша голосовая модель претерпела неудачу в обучении. Причиной сбоя может быть, например, невидимые проблемы с данными или сетевые проблемы.
Отменен	Обучение вашей голосовой модели было отменено.

Пока состояние модели — обработка, можно выбрать модель, а затем выбрать команду "Отмена обучения ", чтобы отменить обучение. Плата за это отмененное обучение не взимается.

После успешного обучения модели можно просмотреть сведения о модели и протестировать голосовую модель.

Переименование модели

Чтобы переименовать модель, необходимо клонировать ее. Невозможно переименовать модель напрямую.

Выберите модель.
Выберите модель клонирования , чтобы создать клон модели с новым именем в текущем проекте.
Введите новое имя в окне Клонировать голосовую модель.
Нажмите кнопку "Отправить". Текст нейронный автоматически добавляется как суффикс к названию новой модели.

Тестирование голосовой модели

После успешной сборки модели голосовой связи можно использовать созданные примеры звуковых файлов для его тестирования перед развертыванием.

Примечание

Нейронная — многоязычная и нейронная — голосовая связь HD не поддерживает этот тип тестирования.

Качество голоса зависит от многих факторов, таких как:

Размер обучающих данных.
Качество записи.
Точность файла расшифровки.
Насколько хорошо записанный голос в обучающих данных соответствует личности разработанного голоса для вашего предполагаемого варианта использования.

Выберите DefaultTests в разделе "Тестирование ", чтобы прослушивать образец звуковых файлов. Примеры тестов по умолчанию включают 100 примеров звуковых файлов, созданных автоматически во время обучения, чтобы помочь вам протестировать модель. Помимо этих 100 звуковых файлов, предоставляемых по умолчанию, собственные речевые фрагменты скрипта тестирования также добавляются в набор DefaultTests . Это дополнение составляет не более 100 высказываний. Плата за тестирование с помощью DefaultTests не взимается.

Если вы хотите отправить собственные тестовые скрипты для дальнейшего тестирования модели, выберите "Добавить тестовые скрипты " для отправки собственного тестового скрипта.

Перед отправкой тестового скрипта проверьте требования к скрипту тестирования. Плата за дополнительное тестирование с помощью пакетного синтеза взимается на основе количества оплачиваемых символов. См. Azure Speech в инструментах Foundry для получения информации о ценах.

В разделе "Добавить тестовые скрипты" выберите "Обзор файла ", чтобы выбрать собственный скрипт, а затем нажмите кнопку "Добавить ", чтобы отправить его.

Требования к тестовом скрипту

Тестовый скрипт должен быть файлом.txt размером менее 1 МБ. Поддерживаемые форматы кодирования включают ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE или UTF-16-BE.

В отличие от файлов обучающего транскрибирования, скрипт теста должен исключить идентификатор высказываний, который является именем файла каждого высказывания. Иначе эти идентификаторы озвучиваются.

Ниже приведен пример набора речевых фрагментов в одном .txt файле:

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Каждый абзац речевого высказывания приводит к отдельному аудиофайлу. Если вы хотите объединить все предложения в один звук, сделайте их одним абзацем.

Примечание

Созданные звуковые файлы — это сочетание скриптов автоматического тестирования и пользовательских скриптов тестирования.

Обновите версию движка для вашей голосовой модели

Azure системы преобразования текста в речь обновляются время от времени, чтобы включить последнюю языковую модель, которая определяет произношение языка. После того как вы обучите голос, вы можете его применить к новой языковой модели, обновившись до последней версии модуля.

Когда доступен новый модуль, вам будет предложено обновить нейронную голосовую модель.
Перейдите на страницу сведений о модели и следуйте инструкциям на экране, чтобы установить последнюю версию подсистемы.
В качестве альтернативы выберите Установить последнюю версию движка, чтобы обновить модель до последней версии ядра. За обновление движка плата не взимается. Предыдущие версии по-прежнему хранятся.
Вы можете проверить все версии подсистемы для модели из списка версий подсистемы или удалить ее, если она больше не нужна.

Обновленная версия автоматически устанавливается в качестве значения по умолчанию. Но вы можете изменить версию по умолчанию, выбрав версию из раскрывающегося списка и выбрав "Задать в качестве значения по умолчанию".

Если вы хотите протестировать каждую версию подсистемы голосовой модели, можно выбрать версию из списка, а затем выберите DefaultTests в разделе "Тестирование ", чтобы прослушивать образец звуковых файлов. Если вы хотите отправить собственные тестовые скрипты для дальнейшего тестирования текущей версии подсистемы, сначала убедитесь, что версия задана по умолчанию, а затем выполните действия, описанные в разделе "Тестирование голосовой модели".

Обновление подсистемы создает новую версию модели без дополнительных затрат. После обновления версии движка для вашей голосовой модели необходимо развернуть новую версию, чтобы создать новую конечную точку. Вы можете развернуть только версию по умолчанию.

После создания новой конечной точки необходимо передать трафик в новую конечную точку в продукте.

Дополнительные сведения о возможностях и ограничениях этой функции и рекомендациях по улучшению качества модели см. в разделе "Характеристики и ограничения" для использования пользовательского голоса.

Копирование голосовой модели в другой проект

Примечание

В этом контексте "проект" относится к задаче тонкой настройки, а не к проекту Microsoft Foundry.

После обучения вы можете скопировать голосовую модель в другой проект для одного региона или другого региона.

Например, можно скопировать профессиональную голосовую модель, которая была обучена в одном регионе, в проект для другого региона. Профессиональная настройка голосовой связи в настоящее время доступна только в некоторых регионах.

Чтобы скопировать пользовательскую голосовую модель в другой проект:

На вкладке «Обучение модели» выберите голосовую модель, которую требуется скопировать, а затем выберите «Копировать в проект».
Выберите подписку, целевой регион, ресурс подключенной службы ИИ (ресурс Foundry) и целевую задачу тонкой настройки, в которой требуется скопировать модель.
Выберите Копировать в, чтобы скопировать модель.
Выберите модель представления в сообщении уведомления об успешном копировании.

Перейдите к проекту, в котором вы скопировали модель для развертывания копии модели.

Дальнейшие действия

Развертывание профессиональной конечной точки голосовой связи

Из этой статьи вы узнаете, как настроить профессиональный голос на портале Speech Studio.

Важно

Профессиональная настройка голосовой связи в настоящее время доступна только в некоторых регионах. После обучения голосовой модели в поддерживаемом регионе его можно скопировать в ресурс Foundry для распознавания речи в другом регионе по мере необходимости. Дополнительные сведения см. в сносках в таблице службы "Речь".

Длительность обучения зависит от того, сколько данных вы используете. Это занимает около 10 часов вычислений в среднем, чтобы точно настроить профессиональный голос. Пользователи стандартной подписки (S0) могут одновременно обучать четыре голоса. Если вы достигнете предела, подождите, пока не менее одна из ваших голосовых моделей завершит обучение, а затем повторите попытку.

Примечание

Выбор метода обучения

Нейронный: создайте голос на том же языке, что и язык данных обучения.
Нейронный — HD голос: создайте HD голос на том же языке, что и ваши обучающие данные. Голоса Azure Neural HD на базе LLM оптимизированы для динамических диалогов. Дополнительные сведения об нейронных голосах HD см. здесь.
Нейронная — многоязычная: создайте голос, который может говорить на нескольких языках, используя данные обучения для одного языка. Например, с en-US основными учебными данными можно создать голос, который говорит en-US, de-DEzh-CN и т. д. вторичные языки.

Основной язык обучающих данных и вторичных языков должен находиться на языках, которые поддерживаются для обучения многоязычной голосовой связи. Вам не нужно подготавливать обучающие данные на дополнительных языках.
Нейронная — много стилей: создайте пользовательский голос, который выступает в нескольких стилях и эмоциях, не добавляя новые обучающие данные. Несколько стилей голоса полезны для игровых персонажей, беседных чат-ботов, аудиокниг, средств чтения содержимого и многое другое.

Чтобы создать несколько стилей голоса, необходимо подготовить набор общих обучающих данных, по крайней мере 300 речевых фрагментов. Выберите один или несколько предустановленных стилей речи целевого объекта. Вы также можете создать несколько пользовательских стилей, предоставив примеры стилей, по крайней мере 100 речевых фрагментов на стиль, в качестве дополнительных обучающих данных для одного голоса. Поддерживаемые стили предустановок зависят от разных языков. Просмотрите доступные стили предустановок на разных языках.
Нейронный — кросслингвальный: создайте голос, который говорит на другом языке, отличном от обучающих данных. Например, используя zh-CN обучающие данные, можно создать голос, который произносит en-US.

Язык обучающих данных и целевого языка должен быть одним из языков, которые поддерживаются для перекрестного обучения голосовой связи. Вам не нужно подготавливать обучающие данные на целевом языке, но тестовый скрипт должен находиться на целевом языке.

Обучение пользовательской голосовой модели

Чтобы создать пользовательский голос в Speech Studio, выполните следующие действия для одного из следующих методов:

Войдите в Speech Studio.
Выберите Настраиваемый голос><Имя вашего проекта>>Обучите модель>Обучите новую модель.
Выберите "Нейрон" в качестве метода обучения для модели и нажмите кнопку "Далее". Сведения об использовании другого метода обучения см. в разделе Нейронная - межъязыковая или Нейронная - мультимодальная или Нейронная - многоязыковая или Нейронная - HD голос.
Выберите версию рецепта обучения для модели. По умолчанию выбрана последняя версия. Поддерживаемые функции и время обучения могут отличаться по версии. Как правило, мы рекомендуем последнюю версию. В некоторых случаях можно выбрать более раннюю версию, чтобы сократить время обучения. Дополнительные сведения о двуязычной подготовке и различиях между языковыми стандартами см. в Bilingual training.

Примечание

Версии модели V3.0, V7.0 и V8.0 были сняты с производства 25 июля 2025 года. Модели голосовой связи, уже созданные в этих устаревших версиях, не затрагиваются.
Выберите данные, которые вы хотите использовать для обучения. Дублирующиеся звуковые имена удаляются из обучения. Убедитесь, что данные, которые вы выбрали, не содержат одинаковые имена звука в нескольких .zip файлах.

Вы можете выбрать только успешно обработанные наборы данных для обучения. Если в списке не отображается набор обучения, проверьте состояние обработки данных.
Выберите файл диктора с заявлением о голосовом таланте, соответствующий диктору в ваших тренировочных данных.
Нажмите кнопку "Далее".
Каждое обучение создает 100 примеров звуковых файлов автоматически, чтобы протестировать модель с помощью скрипта по умолчанию.

При необходимости можно также выбрать " Добавить собственный скрипт теста " и предоставить собственный скрипт теста до 100 речевых фрагментов, чтобы протестировать модель без дополнительных затрат. Созданные звуковые файлы — это сочетание скриптов автоматического тестирования и пользовательских скриптов тестирования. Дополнительные сведения см. в статье о требованиях к скрипту тестирования.
Введите имя , чтобы определить модель. Тщательно выберите имя. Имя модели используется в качестве голосового имени в запросе синтеза речи с помощью SDK и входных данных SSML. Допускаются только буквы, цифры и несколько знаков препинания. Используйте разные имена для различных моделей нейронных голосовых данных.
При необходимости введите описание , чтобы определить модель. Обычное использование описания заключается в записи имен данных, используемых для создания модели.
Нажмите кнопку "Далее".
Просмотрите параметры и выберите поле для принятия условий использования.
Нажмите кнопку "Отправить ", чтобы начать обучение модели.

Двуязычное обучение

Примечание

В следующей таблице показаны различия локалей системы:

Локализация для Speech Studio	Локаль REST API	Двуязычная поддержка
`Chinese (Mandarin, Simplified)`	`zh-CN`	Если образец данных содержит английский, синтезированный голос говорит по-английски с родным английским акцентом, вместо акцента образца данных, независимо от объема данных на английском языке.
`Chinese (Mandarin, Simplified), English bilingual`	`zh-CN (English bilingual)`	Если вы хотите, чтобы синтезированный голос говорил на английском языке с тем же акцентом, что и примеры данных, рекомендуется включить более 10% английских данных в наборе обучения. В противном случае акцент на английском языке может быть не идеальным.
`Chinese (Cantonese, Simplified)`	`zh-HK`	Если вы хотите обучить синтезированный голос, способный говорить на английском языке с тем же акцентом, что и образец данных, обязательно предоставьте более 10% английских данных в учебном наборе. В противном случае, по умолчанию переключается на английский родной акцент. Пороговое значение 10% вычисляется на основе данных, принятых после успешной отправки, а не данных перед отправкой. Если некоторые загруженные данные на английском языке отклоняются из-за дефектов и не соответствуют порогу в 10%, синтезированный голос по умолчанию переключается на акцент носителя английского.
`Chinese (Taiwanese Mandarin, Traditional)`	`zh-TW`	Если вы хотите обучить синтезированный голос, способный говорить на английском языке с тем же акцентом, что и образец данных, обязательно предоставьте более 10% английских данных в учебном наборе. В противном случае, по умолчанию переключается на английский родной акцент. Пороговое значение 10% вычисляется на основе данных, принятых после успешной отправки, а не данных перед отправкой. Если некоторые загруженные данные на английском языке отклоняются из-за дефектов и не соответствуют порогу в 10%, синтезированный голос по умолчанию переключается на акцент носителя английского.

Войдите в Speech Studio.
Выберите Настраиваемый голос><Имя вашего проекта>>Обучите модель>Обучите новую модель.
Выберите Нейронный — мультинационный стиль в качестве метода обучения для модели. Чтобы использовать другой метод обучения, см. Нейронные или Нейронные - кросс-языковые или нейронные — многоязычные или нейронные — HD голос.
Выберите один или несколько предустановленных стилей речи для обучения.
Выберите данные, которые вы хотите использовать для обучения. Дублирующиеся звуковые имена удаляются из обучения. Убедитесь, что данные, которые вы выбрали, не содержат одинаковые имена звука в нескольких .zip файлах.

Вы можете выбрать только успешно обработанные наборы данных для обучения. Проверьте процесс обработки данных, если в списке не отображается ваш набор обучения.
Нажмите кнопку "Далее".
При необходимости можно добавить другие пользовательские стили речи. Максимальное количество пользовательских стилей зависит от языков: English (США) позволяет до 10 настраиваемых стилей, Chinese (Mandarin, Simplified) позволяет до четырех пользовательских стилей, а Japanese (Japan) позволяет до пяти пользовательских стилей.
1. Выберите "Добавить пользовательский стиль " и введите имя пользовательского стиля. Это имя используется приложением в элементе styleязыка разметки синтеза речи (SSML). Вы также можете использовать имя пользовательского стиля как SSML с помощью инструмента создания аудиоконтента в Speech Studio.
2. Выберите примеры стилей в качестве обучающих данных. Убедитесь, что обучающие данные для пользовательских стилей речи приходят от того же говорящего, что и данные, используемые для создания стиля по умолчанию.
Нажмите кнопку "Далее".
Выберите файл диктора с заявлением о голосовом таланте, соответствующий диктору в ваших тренировочных данных.
Нажмите кнопку "Далее".
Каждое обучение автоматически создает 100 примеров звуковых файлов для стиля по умолчанию и 20 для каждого предварительно заданного стиля, чтобы помочь протестировать модель с помощью скрипта по умолчанию.

При необходимости можно также выбрать " Добавить собственный тестовый скрипт " и предоставить собственный скрипт теста до 100 речевых фрагментов, чтобы проверить стиль по умолчанию без дополнительных затрат. Созданные звуковые файлы — это сочетание скриптов автоматического тестирования и пользовательских скриптов тестирования. Дополнительные сведения см. в статье о требованиях к скрипту тестирования.

Введите имя , чтобы определить модель. Тщательно выберите имя. Имя модели используется в качестве голосового имени в запросе синтеза речи с помощью SDK и входных данных SSML. Допускаются только буквы, цифры и несколько знаков препинания. Используйте разные имена для различных моделей нейронных голосовых данных.
При необходимости введите описание , чтобы определить модель. Обычное использование описания заключается в записи имен данных, используемых для создания модели.
Нажмите кнопку "Далее".
Просмотрите параметры и выберите поле для принятия условий использования.
Нажмите кнопку "Отправить ", чтобы начать обучение модели.

Доступные стили предустановок на разных языках

В следующей таблице перечислены различные предустановленные стили в соответствии с различными языками.

Стиль речи	Язык (локаль)
Злой	Английский (Соединенные Штаты) (`en-US`) Японский (Япония) (`ja-JP`¹) Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Спокойствие	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Чат	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Веселый	Английский (Соединенные Штаты) (`en-US`) Японский (Япония) (`ja-JP`¹) Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Недовольных	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Взволнован	Английский (Соединенные Штаты) (`en-US`)
Испуганный	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Дружелюбный	Английский (Соединенные Штаты) (`en-US`)
обнадеживающий	Английский (Соединенные Штаты) (`en-US`)
Грустно	Английский (Соединенные Штаты) (`en-US`) Японский (Япония) (`ja-JP`¹) Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Кричать	Английский (Соединенные Штаты) (`en-US`)
Серьезный	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Ужасе	Английский (Соединенные Штаты) (`en-US`)
Недружелюбный	Английский (Соединенные Штаты) (`en-US`)
Шепот	Английский (Соединенные Штаты) (`en-US`)

Войдите в Speech Studio.
Выберите Настраиваемый голос><Имя вашего проекта>>Обучите модель>Обучите новую модель.
Выберите Нейронный — перекрестный лингвальный метод в качестве метода обучения для модели. Для использования другого метода обучения, см. "Нейронная", "Нейронная - мультистиль", "Нейронная - многоязычная" или "Нейронная - HD голос".
Выберите версию рецепта обучения для модели. По умолчанию выбрана последняя версия. Поддерживаемые функции и время обучения могут отличаться по версии. Как правило, мы рекомендуем последнюю версию.

Примечание

Версия V3.0 модели была прекращена 25 июля 2025 г. Модели голосовой связи, уже созданные в этих устаревших версиях, не затрагиваются.
Выберите целевой язык, на котором говорит ваш голос. Голос говорит на другом языке, отличном от обучающих данных. Вы можете выбрать только один целевой язык для голосовой модели.
Выберите данные, которые вы хотите использовать для обучения. Дублирующиеся звуковые имена удаляются из обучения. Убедитесь, что данные, которые вы выбрали, не содержат одинаковые имена звука в нескольких .zip файлах.

Вы можете выбрать только успешно обработанные наборы данных для обучения. Проверьте процесс обработки данных, если в списке не отображается ваш набор обучения.
Выберите файл диктора с заявлением о голосовом таланте, соответствующий диктору в ваших тренировочных данных.
Нажмите кнопку "Далее".
Каждое обучение создает 100 примеров звуковых файлов автоматически, чтобы протестировать модель с помощью скрипта по умолчанию.

При необходимости можно также выбрать " Добавить собственный скрипт теста " и предоставить собственный скрипт теста до 100 речевых фрагментов, чтобы протестировать модель без дополнительных затрат. Созданные звуковые файлы — это сочетание скриптов автоматического тестирования и пользовательских скриптов тестирования. Дополнительные сведения см. в разделе "Требования к скрипту тестирования".
Введите имя , чтобы определить модель. Тщательно выберите имя. Имя модели используется в качестве голосового имени в запросе синтеза речи с помощью SDK и входных данных SSML. Допускаются только буквы, цифры и несколько знаков препинания. Используйте разные имена для различных моделей нейронных голосовых данных.
При необходимости введите описание , чтобы определить модель. Обычное использование описания заключается в записи имен данных, используемых для создания модели.
Нажмите кнопку "Далее".
Просмотрите параметры и выберите поле для принятия условий использования.
Нажмите кнопку "Отправить ", чтобы начать обучение модели.

Мониторинг процесса обучения

Государства	Смысл
Обработка	Ваша голосовая модель создается.
Удалось	Ваша голосовая модель создана и может быть развернута.
Ошибка	Ваша голосовая модель претерпела неудачу в обучении. Причиной сбоя может быть, например, невидимые проблемы с данными или сетевые проблемы.
Отменен	Обучение вашей голосовой модели было отменено.

Пока состояние модели — Обрабатывается, можно выбрать Отмена обучения, чтобы отменить вашу голосовую модель. Плата за это отмененное обучение не взимается.

Снимок экрана, показывающий, как отменить обучение модели.

После успешного обучения модели можно просмотреть сведения о модели и протестировать голосовую модель.

Вы можете использовать средство создания аудиоконтентов в Speech Studio для создания звука и точной настройки развернутого голоса. Если применимо для голоса, можно выбрать один из нескольких стилей.

Переименование модели

Если вы хотите переименовать созданную модель, выберите " Клонировать модель", чтобы создать клон модели с новым именем в текущем проекте.
Введите новое имя в окне «Клонировать голосовую модель», затем выберите «Отправить». Текст нейронный автоматически добавляется как суффикс к названию новой модели.

Тестирование голосовой модели

Примечание

Нейронная — многоязычная и нейронная — голосовая связь HD не поддерживает этот тип тестирования.

Качество голоса зависит от многих факторов, таких как:

Размер обучающих данных.
Качество записи.
Точность файла расшифровки.
Насколько хорошо записанный голос в обучающих данных соответствует личности разработанного голоса для вашего предполагаемого варианта использования.

Снимок экрана: выбор defaultTests в разделе

Снимок экрана: добавление скриптов тестирования модели.

Снимок экрана: отправка скриптов тестирования модели.

Требования к тестовом скрипту

Ниже приведен пример набора речевых фрагментов в одном .txt файле:

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Примечание

Обновите версию движка для вашей голосовой модели

Когда доступен новый модуль, вам будет предложено обновить нейронную голосовую модель.
Перейдите на страницу сведений о модели и следуйте инструкциям на экране, чтобы установить последнюю версию подсистемы.

В качестве альтернативы выберите Установить последнюю версию движка, чтобы обновить модель до последней версии ядра.

За обновление движка плата не взимается. Предыдущие версии по-прежнему хранятся.
Вы можете проверить все версии подсистемы для модели из списка версий подсистемы или удалить ее, если она больше не нужна.

Обновленная версия автоматически устанавливается в качестве значения по умолчанию. Но вы можете изменить версию по умолчанию, выбрав версию из раскрывающегося списка и выбрав "Задать в качестве значения по умолчанию".

Снимок экрана, на котором показано, как повторно развернуть новую версию голосовой модели.

После создания новой конечной точки необходимо передать трафик в новую конечную точку в продукте.

Копирование голосовой модели в другой проект

Вы можете скопировать голосовую модель в другой проект для того же региона или другого региона. Например, можно скопировать нейронную голосовую модель, обученную в одном регионе, в проект для другого региона.

Примечание

Профессиональная настройка голосовой связи в настоящее время доступна только в некоторых регионах. Вы можете скопировать нейронную голосовую модель из этих регионов в другие регионы. Дополнительные сведения см. в регионах для пользовательского голоса.

Чтобы скопировать пользовательскую голосовую модель в другой проект:

На вкладке «Обучение модели» выберите голосовую модель, которую требуется скопировать, а затем выберите «Копировать в проект».
Выберите Subscription, Region, Speech resource и Project где нужно скопировать модель. У вас должен быть ресурс речи и проект в целевом регионе, в противном случае необходимо сначала создать их.
Нажмите кнопку "Отправить ", чтобы скопировать модель.
Выберите модель представления в сообщении уведомления об успешном копировании.

Перейдите к проекту, в котором вы скопировали модель для развертывания копии модели.

Дальнейшие действия

Развертывание профессиональной конечной точки голосовой связи

В этой статье вы узнаете, как настроить профессиональный голос с помощью пользовательского API голосовой связи.

Важно

Профессиональная настройка голосовой связи в настоящее время доступна только в некоторых регионах. После обучения голосовой модели в поддерживаемом регионе его можно скопировать в ресурс Foundry в другом регионе по мере необходимости. Дополнительные сведения см. в сносках в таблице службы "Речь".

Примечание

Выбор метода обучения

Нейронный: создайте голос на том же языке, что и язык данных обучения.
Нейронный — HD голос: создайте HD голос на том же языке, что и ваши обучающие данные. Голоса Azure Neural HD на базе LLM оптимизированы для динамических диалогов. Дополнительные сведения об нейронных голосах HD см. здесь.
Нейронная — много стилей: создайте пользовательский голос, который выступает в нескольких стилях и эмоциях, не добавляя новые обучающие данные. Несколько стилей голоса полезны для игровых персонажей, беседных чат-ботов, аудиокниг, средств чтения содержимого и многое другое.

Чтобы создать несколько стилей голоса, необходимо подготовить набор общих обучающих данных, по крайней мере 300 речевых фрагментов. Выберите один или несколько предустановленных стилей речи целевого объекта. Вы также можете создать несколько пользовательских стилей, предоставив примеры стилей, по крайней мере 100 речевых фрагментов на стиль, в качестве дополнительных обучающих данных для одного голоса. Поддерживаемые стили предустановок зависят от разных языков. Просмотрите доступные стили предустановок на разных языках.
Нейронный — кросслингвальный: создайте голос, который говорит на другом языке, отличном от обучающих данных. Например, используя fr-FR обучающие данные, можно создать голос, который произносит en-US.

Язык обучающих данных и целевого языка должен быть одним из языков, которые поддерживаются для перекрестного обучения голосовой связи. Вам не нужно подготавливать обучающие данные на целевом языке, но тестовый скрипт должен находиться на целевом языке.

Язык обучающих данных должен быть одним из языков, которые поддерживаются для пользовательской голосовой обработки, межъязыкового, нескольких стилей или HD голосовой связи.

Создание голосовой модели

Чтобы создать нейронный голос, используйте операцию Models_Create пользовательского API голосовой связи. Создайте текст запроса в соответствии со следующими инструкциями:

Задайте необходимое projectId свойство. Смотрите создание проекта.
Задайте необходимое consentId свойство. См. добавление согласия для работы с голосовыми талантами.
Задайте необходимое trainingSetId свойство. См. статью о создании обучаемого набора.
Установите требуемое свойство kind в Default для тренировки нейронного голоса. Тип рецепта указывает метод обучения и не может быть изменен позже. Чтобы использовать другой метод обучения, см. Нейронная — кросс-языковая или Нейронная — многостилевая или Нейронная — HD голос. Дополнительные сведения о двуязычной подготовке и различиях между языковыми стандартами см. в Bilingual training.
Задайте необходимое voiceName свойство. Тщательно выберите имя. Имя голоса используется в запросе синтеза речи SDK и входных данных SSML. Допускаются только буквы, цифры и несколько знаков препинания. Используйте разные имена для различных моделей нейронных голосовых данных.
При необходимости задайте description свойство для описания голоса. Описание голоса можно изменить позже.

Выполните HTTP-запрос PUT с помощью URI, как показано в следующем Models_Create примере.

Замените YourResourceKey ключом ресурса распознавания речи.
Замените YourResourceRegion регион ресурсов службы "Речь".
Замените JessicaModelId идентификатором модели по своему усмотрению. Регистрозависимый идентификатор будет использоваться в URI модели и не может быть изменен позже.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2026-01-01"

Текст ответа должен быть получен в следующем формате:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V10.0"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Чтобы создать голос HD, используйте операцию Models_Create пользовательского API голосовой связи. Создайте текст запроса в соответствии со следующими инструкциями:

Задайте необходимое projectId свойство. Смотрите создание проекта.
Задайте необходимое consentId свойство. См. добавление согласия для работы с голосовыми талантами.
Задайте необходимое trainingSetId свойство. См. статью о создании обучаемого набора.
Установите требуемое свойство kind в HD для тренировки нейронного голоса. Тип рецепта указывает метод обучения и не может быть изменен позже. Сведения об использовании другого метода обучения см. в разделе Нейронная, Нейронная — межъязыковая или Нейронная — многостилевая. Дополнительные сведения о двуязычной подготовке и различиях между языковыми стандартами см. в Bilingual training.
Задайте необходимое voiceName свойство. Имя голоса должно заканчиваться на ":DragonHDLatestNeural" и не может быть изменено позже. Тщательно выберите имя. Имя голоса используется в запросе синтеза речи SDK и входных данных SSML. До определенного суффикса допускаются только буквы, цифры и несколько знаков препинания. Используйте разные имена для различных моделей нейронных голосовых данных.
При необходимости задайте description свойство для описания голоса. Описание голоса можно изменить позже.

Выполните HTTP-запрос PUT с помощью URI, как показано в следующем Models_Create примере.

Замените YourResourceKey ключом ресурса распознавания речи.
Замените YourResourceRegion регион ресурсов службы "Речь".
Замените JessicaModelId идентификатором модели по своему усмотрению. Регистрозависимый идентификатор будет использоваться в URI модели и не может быть изменен позже.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "Jessica:DragonHDLatestNeural",
  "description": "Jessica HD voice",
  "recipe": {
    "kind": "HD"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2026-01-01"

Текст ответа должен быть получен в следующем формате:

{
  "id": "JessicaModelId",
  "voiceName": "Jessica:DragonHDLatestNeural",
  "description": "Jessica HD voice",
  "recipe": {
    "kind": "HD",
    "version": "V1.0"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Чтобы создать многоуровневый нейронный голос, используйте операцию Models_Create пользовательского API голосовой связи. Создайте текст запроса в соответствии со следующими инструкциями:

Задайте необходимое projectId свойство. Смотрите создание проекта.
Задайте необходимое consentId свойство. См. добавление согласия для работы с голосовыми талантами.
Задайте необходимое trainingSetId свойство. См. статью о создании обучаемого набора.
Задайте требуемое свойство kind рецепта MultiStyle для обучения нескольких стилей голоса. Тип рецепта указывает метод обучения и не может быть изменен позже. Чтобы использовать другой метод обучения, см. раздел «Нейронные» или «Нейронные — кросс-языковые», или «Нейронные — HD Voice».
Задайте необходимое voiceName свойство. Тщательно выберите имя. Имя голоса используется в запросе синтеза речи SDK и входных данных SSML. Допускаются только буквы, цифры и несколько знаков препинания. Используйте разные имена для различных моделей нейронных голосовых данных.
Задайте необходимое locale свойство для языка для модели голосовой связи.
Задайте для требуемого presetStyles свойства один или несколько доступных стилей предустановок для целевого языка.
При необходимости задайте styleTrainingSetIds свойство для предоставления обучающих данных для пользовательских стилей речи. Максимальное количество пользовательских стилей зависит от языков: английский (США) позволяет до 10 пользовательских стилей, китайский (Mandarin, упрощенное письмо) позволяет до четырех пользовательских стилей, а японский (Япония) позволяет до пяти пользовательских стилей. Свойство styleTrainingSetIds — это словарь имен стилей и идентификаторов наборов обучения.
- Для каждого ключа словаря укажите имя пользовательского стиля. Это имя используется приложением в элементе styleязыка разметки синтеза речи (SSML).
- Для каждого значения словаря укажите идентификатор набора обучения, который вы уже создали для той же голосовой модели. Набор обучения должен содержать не менее 100 речевых фрагментов для каждого стиля.
При необходимости задайте description свойство для описания голоса. Описание голоса можно изменить позже.

Выполните HTTP-запрос PUT с помощью URI, как показано в следующем Models_Create примере.

Замените YourResourceKey ключом ресурса распознавания речи.
Замените YourResourceRegion регион ресурсов службы "Речь".
Замените JessicaModelId идентификатором модели по своему усмотрению. Регистрозависимый идентификатор будет использоваться в URI модели и не может быть изменен позже.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeuralMultiStyle",
  "description": "Jessica multi-style voice",
  "recipe": {
    "kind": "MultiStyle"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "properties": {
    "presetStyles": [
      "cheerful",
      "sad"
    ],
    "styleTrainingSetIds": {
      "happyJessica": "JessicaHappyTrainingSetId",
      "myStyle2": "JessicaStyle2TrainingSetId"
    }
  }
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2026-01-01"

Текст ответа должен быть получен в следующем формате:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeuralMultiStyle",
  "description": "Jessica multi-style voice",
  "recipe": {
    "kind": "MultiStyle",
    "version": "V1.0"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0","properties": {
    "presetStyles": [
      "cheerful",
      "sad"
    ],
    "styleTrainingSetIds": {
      "happyJessica": "JessicaHappyTrainingSetId",
      "myStyle2": "JessicaStyle2TrainingSetId"
    },
    "voiceStyles": [
      "cheerful",
      "sad",
      "happyJessica",
      "myStyle2"
    ]
  }
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Чтобы создать межлингвальный нейронный голос, используйте операцию Models_Create пользовательского API голосовой связи. Создайте текст запроса в соответствии со следующими инструкциями:

Задайте необходимое projectId свойство. Смотрите создание проекта.
Задайте необходимое consentId свойство. См. добавление согласия для работы с голосовыми талантами.
Задайте необходимое trainingSetId свойство. См. статью о создании обучаемого набора.
Установите требуемое свойство kind рецепта на CrossLingual для кросс-лингвального обучения голосовой модели. Тип рецепта указывает метод обучения и не может быть изменен позже. Сведения об использовании другого метода обучения см. в разделе "Нейронная" или "Нейронная — мультистиль" или "Нейронная — HD Voice".
Задайте необходимое voiceName свойство. Тщательно выберите имя. Имя голоса используется в запросе синтеза речи SDK и входных данных SSML. Допускаются только буквы, цифры и несколько знаков препинания. Используйте разные имена для различных моделей нейронных голосовых данных.
Задайте необходимое locale свойство для языка, который говорит ваш голос. Голос говорит на другом языке, отличном от обучающих данных. Для голосовой модели можно указать только один целевой язык.
При необходимости задайте description свойство для описания голоса. Описание голоса можно изменить позже.

Выполните HTTP-запрос PUT с помощью URI, как показано в следующем Models_Create примере.

Замените YourResourceKey ключом ресурса распознавания речи.
Замените YourResourceRegion регион ресурсов службы "Речь".
Замените JessicaModelId идентификатором модели по своему усмотрению. Регистрозависимый идентификатор будет использоваться в URI модели и не может быть изменен позже.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaCrossLingualNeural",
  "description": "Jessica cross lingual voice",
  "recipe": {
    "kind": "CrossLingual"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "Jessica-en-US-TrainingSetId",
  "locale": "fr-FR"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2026-01-01"

Текст ответа должен быть получен в следующем формате:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeuralCrossLingual",
  "description": "Jessica cross lingual voice",
  "recipe": {
    "kind": "CrossLingual",
    "version": "V5.0"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "Jessica-en-US-TrainingSetId",
  "locale": "fr-FR",
  "engineVersion": "2023.11.14.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Двуязычное обучение

Примечание

В следующей таблице показаны различия локалей системы:

Локализация для Speech Studio	Локаль REST API	Двуязычная поддержка
`Chinese (Mandarin, Simplified)`	`zh-CN`	Если образец данных содержит английский, синтезированный голос говорит по-английски с родным английским акцентом, вместо акцента образца данных, независимо от объема данных на английском языке.
`Chinese (Mandarin, Simplified), English bilingual`	`zh-CN (English bilingual)`	Если вы хотите, чтобы синтезированный голос говорил на английском языке с тем же акцентом, что и примеры данных, рекомендуется включить более 10% английских данных в наборе обучения. В противном случае акцент на английском языке может быть не идеальным.
`Chinese (Cantonese, Simplified)`	`zh-HK`	Если вы хотите обучить синтезированный голос, способный говорить на английском языке с тем же акцентом, что и образец данных, обязательно предоставьте более 10% английских данных в учебном наборе. В противном случае, по умолчанию переключается на английский родной акцент. Пороговое значение 10% вычисляется на основе данных, принятых после успешной отправки, а не данных перед отправкой. Если некоторые загруженные данные на английском языке отклоняются из-за дефектов и не соответствуют порогу в 10%, синтезированный голос по умолчанию переключается на акцент носителя английского.
`Chinese (Taiwanese Mandarin, Traditional)`	`zh-TW`	Если вы хотите обучить синтезированный голос, способный говорить на английском языке с тем же акцентом, что и образец данных, обязательно предоставьте более 10% английских данных в учебном наборе. В противном случае, по умолчанию переключается на английский родной акцент. Пороговое значение 10% вычисляется на основе данных, принятых после успешной отправки, а не данных перед отправкой. Если некоторые загруженные данные на английском языке отклоняются из-за дефектов и не соответствуют порогу в 10%, синтезированный голос по умолчанию переключается на акцент носителя английского.

Доступные стили предустановок на разных языках

В следующей таблице перечислены различные предустановленные стили в соответствии с различными языками.

Стиль речи	Язык (локаль)
Злой	Английский (Соединенные Штаты) (`en-US`) Японский (Япония) (`ja-JP`¹) Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Спокойствие	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Чат	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Веселый	Английский (Соединенные Штаты) (`en-US`) Японский (Япония) (`ja-JP`¹) Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Недовольных	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Взволнован	Английский (Соединенные Штаты) (`en-US`)
Испуганный	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Дружелюбный	Английский (Соединенные Штаты) (`en-US`)
обнадеживающий	Английский (Соединенные Штаты) (`en-US`)
Грустно	Английский (Соединенные Штаты) (`en-US`) Японский (Япония) (`ja-JP`¹) Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Кричать	Английский (Соединенные Штаты) (`en-US`)
Серьезный	Китайский (Мандарин, упрощённый китайский) (`zh-CN`) ¹
Ужасе	Английский (Соединенные Штаты) (`en-US`)
Недружелюбный	Английский (Соединенные Штаты) (`en-US`)
Шепот	Английский (Соединенные Штаты) (`en-US`)

Получить статус обучения

Чтобы получить состояние обучения модели голосовой связи, используйте Models_Get операцию пользовательского API голосовой связи. Создайте URI запроса в соответствии со следующими инструкциями:

Выполните HTTP-запрос GET с помощью URI, как показано в следующем Models_Get примере.

Замените YourResourceKey ключом ресурса распознавания речи.
Замените YourResourceRegion регион ресурсов службы "Речь".
Замените JessicaModelId , если вы указали другой идентификатор модели на предыдущем шаге.

curl -v -X GET "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2026-01-01" -H "Ocp-Apim-Subscription-Key: YourResourceKey"

Текст ответа должен быть получен в следующем формате.

Примечание

Рецепт kind и другие свойства зависят от того, как вы обучили голос. В этом примере Default обозначает тип рецепта для обучения нейронного голоса.

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "Succeeded",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Может потребоваться ждать несколько минут до завершения обучения. В конечном итоге состояние изменится на одно из значений: либо Succeeded, либо Failed.

Дальнейшие действия

Развертывание профессиональной конечной точки голосовой связи

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-03-11

Обучение профессиональной голосовой модели

Выбор метода обучения

Обучение пользовательской голосовой модели

Двуязычное обучение

Мониторинг процесса обучения

Переименование модели

Тестирование голосовой модели

Требования к тестовом скрипту

Обновите версию движка для вашей голосовой модели

Копирование голосовой модели в другой проект

Дальнейшие действия

Выбор метода обучения

Обучение пользовательской голосовой модели

Двуязычное обучение

Мониторинг процесса обучения

Переименование модели

Тестирование голосовой модели

Требования к тестовом скрипту

Обновите версию движка для вашей голосовой модели

Копирование голосовой модели в другой проект

Дальнейшие действия

Выбор метода обучения

Создание голосовой модели

Двуязычное обучение

Доступные стили предустановок на разных языках

Получить статус обучения

Дальнейшие действия

Обратная связь

Дополнительные ресурсы