Text to speech с помощью средства создания звукового содержимого

Средство создания звукового содержимого можно использовать на портале Microsoft Foundry или Speech Studio для text to speech без написания кода.

Подсказка

Выберите Foundry Portal или Speech Studio в верхней части этой статьи.

Создание очень естественного звукового содержимого для различных сценариев, таких как аудиокниги, новостные трансляции, видеозаписи и боты чата. Благодаря созданию аудиоконтента вы можете эффективно настраивать text to speech голоса и разрабатывать настраиваемые звуковые интерфейсы.

Это средство основано на языке разметки синтеза речи Speech Synthesis Markup Language (SSML). Он позволяет настраивать параметры вывода текста в речь в режимах реального времени и пакетного синтеза, например характеристики голоса, стили голоса, скорость речи, произношение и просодия.

Подход без кода: Вы можете использовать инструмент создания звукового контента для синтеза технологии преобразования текста в речь без написания кода. Выходной звук может быть конечным продуктом, который вам нужен. Например, можно использовать выходной звук для подкаста или видеозаписи.
Понятно для разработчиков: вы можете прослушивать выходной звук и настраивать SSML для улучшения синтеза речи. Затем можно использовать пакет SDK службы "Речь" или интерфейс командной строки службы "Речь" для интеграции SSML в приложения.

Вы легко получаете доступ к широкому портфелю языков и голосов. Эти голоса включают современные стандартные голосы, а также ваш собственный голос, если вы его создали.

Средство создания аудиоматериала бесплатно; вы оплачиваете только использование службы "Речь".

Prerequisites

Активная подписка Azure. Создать бесплатно.
Разрешение на создание ресурсов в подписке.
Проект Microsoft Foundry. Дополнительные сведения см. в разделе Create microsoft Foundry project.

Использование средства создания звукового содержимого

На следующей схеме показан процесс точной настройки выходных данных text to speech.

Получите доступ к инструменту

Чтобы получить доступ к инструменту создания аудиоконтента в Microsoft Foundry, выполните следующие действия.

Перейдите к вашему проекту в Microsoft Foundry.
Выберите Playgrounds на левой панели.
На плитке "Речевой платформы" выберите Попробовать "Речевую платформу".
Выберите Преобразование текста в речь>Создание аудиоконтента. Чтобы найти плитку, может потребоваться прокрутить страницу.

Обзор рабочих процессов

После получения доступа к средству следуйте этому общему рабочему процессу:

Создайте файл настройки звука, используя обычный текст или скрипты SSML. Введите или загрузите свой контент для создания аудиоконтента.
Выберите голос и язык для содержимого скрипта. Создание звукового содержимого включает все стандартные текстовые голоса для преобразования текста в речь. Вы можете использовать стандартные голоса или пользовательский голос.

Note

Настраиваемый доступ к голосовой связи ограничен на основе критериев соответствия и использования. Запросите доступ с помощью формы intake.
Выберите содержимое, которое нужно просмотреть, а затем нажмите кнопку "Воспроизвести " (с помощью значка треугольника), чтобы просмотреть выходные данные синтеза по умолчанию.

Если вы вносите изменения в текст, щелкните значок Остановить, а затем снова нажмите кнопку Воспроизвести, чтобы повторно создать звук на основе измененных скриптов.

Результат можно улучшить, отрегулировав произношение, паузы, высоту, скорость, интонацию и стиль голоса. Полный список параметров см. в разделе Язык разметки для синтеза речи.
Сохраните и экспортируйте настроенное аудио.

Если сохранить в системе трек настройки, можно продолжить работу и продолжить итерацию над выходными данными. Получив удовлетворительный результат, можно создать задачу создания аудио с функцией экспорта. Можно наблюдать за состоянием задачи экспорта и скачивать результат для использования с вашими приложениями и продуктами.

Создание файла настройки звука

Вы можете добавить своё содержимое в инструмент создания аудиоконтента двумя способами:

Вариант 1. Создание файла настройки звука

Выберите Создать>Текстовый файл, чтобы создать файл настройки аудио.
Введите или вставьте содержимое в окно редактирования. Каждый файл может содержать не более 20 000 символов. Если скрипт включает больше 20 000 символов, можно использовать вариант 2, чтобы автоматически разбить содержимое на несколько файлов.
Нажмите кнопку "Сохранить".

Вариант 2. Отправка файла настройки звука

Выберите Отправить>Текстовый файл, чтобы импортировать один или несколько текстовых файлов. Поддерживается как обычный текст, так и SSML.

Если файл скрипта содержит больше 20 000 символов, разделите содержимое по абзацам, по символам или с помощью регулярных выражений.

При отправке текстовых файлов убедитесь, что они соответствуют следующим требованиям.

Property	Description
Формат файла	Обычный текст (.txt) или текст SSML (.txt) Файлы ZIP не поддерживаются.
Формат кодирования	UTF-8
Имя файла	Имя каждого файла должно быть уникальным. Дублирующиеся файлы не поддерживаются.
Длина текста	Допустимое число символов: 20 000. Если размер файла превышает это ограничение, разделите его в соответствии с инструкциями, предоставляемыми средством.
Ограничения SSML	Каждый файл SSML может содержать только один элемент SSML.

Ниже приведен пример обычного текста:

Welcome to use audio content creation to customize audio output for your products.

Ниже приведен пример SSML:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
   <voice name="en-US-AvaMultilingualNeural">
   Welcome to use audio content creation <break time="10ms" />to customize audio output for your products.
   </voice>
</speak>

Экспорт настроенного звука

После того, как вы проверите и останетесь довольны настройкой и корректировкой звука, вы можете экспортировать аудио.

Выберите Экспорт, чтобы сгенерировать задачу создания аудиосодержимого.

Мы рекомендуем выполнить экспорт в библиотеку аудио для удобного хранения, поиска и нахождения выходных аудиоданных в облаке. Вы можете лучше интегрироваться с приложениями с помощью Azure blob storage. Вы также можете напрямую скачать аудио на локальный диск.

Выберите формат выходных данных для настроенного звука. Поддерживаемые аудиоформаты и частоты дискретизации перечислены в следующей таблице.

Format	Частота дискретизации 8 кГц	Частота дискретизации 16 кГц	Частота дискретизации 24 кГц	Частота дискретизации 48 кГц
wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	N/A	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

Чтобы просмотреть состояние задачи, выберите вкладку Список задач.

В случае сбоя задачи просмотрите страницу с подробной информацией для полного отчета.
Когда задача будет завершена, аудио будет доступно для скачивания в области Библиотека аудио.
Выберите файл, который вы хотите скачать, и нажмите Скачать.

Теперь вы готовы использовать пользовательское настроенное аудио в своих приложениях или продуктах.

Prerequisites

Активная подписка Azure. Создать бесплатно.
Разрешение на создание ресурсов в подписке.
Ресурс для речи. Создайте его в Azure portal или Speech Studio.

Note

Тип ресурса Foundry не поддерживается в Speech Studio.

Использование средства создания звукового содержимого

На следующей схеме показан процесс точной настройки выходных данных text to speech.

Чтобы использовать средство создания звукового содержимого, сделайте следующее:

Войдите в Speech Studio и выберите "Создание звукового содержимого".
Выберите подписку Azure и ресурс 'Speech', с которым вы хотите работать, а затем выберите Использовать ресурс.

Note

Если вы возвращаетесь к созданию звукового содержимого, можно выбрать другой ресурс службы "Речь", с которым вы хотите работать. Перейдите к параметрам учетной записи в правом верхнем углу страницы.
Создайте файл настройки звука, используя обычный текст или скрипты SSML. Введите или загрузите свой контент для создания аудиоконтента.
Выберите голос и язык для содержимого скрипта. Создание звукового содержимого включает все стандартные голоса для синтеза речи. Вы можете использовать стандартные голоса или пользовательский голос.

Note

Пользовательский голосовой доступ ограничен на основе критериев соответствия и использования. Запросите доступ в форме запроса.
Выберите содержимое, которое нужно просмотреть, а затем нажмите кнопку "Воспроизвести " (с помощью значка треугольника), чтобы просмотреть выходные данные синтеза по умолчанию.

Если вы вносите изменения в текст, щелкните значок Остановить, а затем снова нажмите кнопку Воспроизвести, чтобы повторно создать звук на основе измененных скриптов.

Результат можно улучшить, отрегулировав произношение, паузы, высоту, скорость, интонацию и стиль голоса. Полный список параметров см. в разделе Язык разметки для синтеза речи.

Для получения дополнительной информации о настройке выхода речи см. видео на YouTube о преобразовании текста в речь. Тем не менее, видео может быть недоступно во всех регионах и может быть не актуально к тому времени, когда вы просматриваете его.
Сохраните и экспортируйте настроенное аудио.

Если сохранить в системе трек настройки, можно продолжить работу и продолжить итерацию над выходными данными. Получив удовлетворительный результат, можно создать задачу создания аудио с функцией экспорта. Можно наблюдать за состоянием задачи экспорта и скачивать результат для использования с вашими приложениями и продуктами.

Создание файла настройки звука

Вы можете добавить своё содержимое в инструмент создания аудиоконтента двумя способами:

Вариант 1. Создание файла настройки звука

Выберите Создать>Текстовый файл, чтобы создать файл настройки аудио.
Введите или вставьте содержимое в окно редактирования. Каждый файл может содержать не более 20 000 символов. Если скрипт включает больше 20 000 символов, можно использовать вариант 2, чтобы автоматически разбить содержимое на несколько файлов.
Нажмите кнопку "Сохранить".

Вариант 2. Отправка файла настройки звука

Выберите Отправить>Текстовый файл, чтобы импортировать один или несколько текстовых файлов. Поддерживается как обычный текст, так и SSML.

Если файл скрипта содержит больше 20 000 символов, разделите содержимое по абзацам, по символам или с помощью регулярных выражений.

При отправке текстовых файлов убедитесь, что они соответствуют следующим требованиям.

Property	Description
Формат файла	Обычный текст (.txt) или текст SSML (.txt) Файлы ZIP не поддерживаются.
Формат кодирования	UTF-8
Имя файла	Имя каждого файла должно быть уникальным. Дублирующиеся файлы не поддерживаются.
Длина текста	Допустимое число символов: 20 000. Если размер файла превышает это ограничение, разделите его в соответствии с инструкциями, предоставляемыми средством.
Ограничения SSML	Каждый файл SSML может содержать только один элемент SSML.

Ниже приведен пример обычного текста:

Welcome to use audio content creation to customize audio output for your products.

Ниже приведен пример SSML:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
   <voice name="en-US-AvaMultilingualNeural">
   Welcome to use audio content creation <break time="10ms" />to customize audio output for your products.
   </voice>
</speak>

Экспорт настроенного звука

Выберите Экспорт, чтобы сгенерировать задачу создания аудиосодержимого.

Мы рекомендуем выполнить экспорт в библиотеку аудио для удобного хранения, поиска и нахождения выходных аудиоданных в облаке. Вы можете лучше интегрироваться с приложениями с помощью Azure blob storage. Вы также можете напрямую скачать аудио на локальный диск.

Format	Частота дискретизации 8 кГц	Частота дискретизации 16 кГц	Частота дискретизации 24 кГц	Частота дискретизации 48 кГц
wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	N/A	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

Чтобы просмотреть состояние задачи, выберите вкладку Список задач.

В случае сбоя задачи просмотрите страницу с подробной информацией для полного отчета.
Когда задача будет завершена, аудио будет доступно для скачивания в области Библиотека аудио.
Выберите файл, который вы хотите скачать, и нажмите Скачать.

Теперь вы готовы использовать пользовательское настроенное аудио в своих приложениях или продуктах.

Настройка BYOS и анонимного общедоступного доступа для больших двоичных объектов.

Если вы потеряете доступ к вашему собственному хранилищу (BYOS), вы не сможете просматривать, создавать, редактировать или удалять файлы. Чтобы возобновить доступ, необходимо удалить текущее хранилище и перенастроить BYOS в Azure портал. Дополнительные сведения о настройке BYOS см. в статье Подключение Azure Storage в качестве локальной папки в App Service.

После настройки разрешения BYOS необходимо настроить анонимный общедоступный доступ для связанных контейнеров и BLOB-объектов. В противном случае данные BLOB-объектов недоступны для публичного доступа, и файл лексикона в двоичном объекте недоступен. По умолчанию параметр общедоступности контейнера отключен. Чтобы предоставить анонимным пользователям доступ на чтение к контейнеру и его двоичным объектам, сначала установите параметр Разрешить анонимный доступ к Blob в Включено, чтобы разрешить общий доступ к учетной записи хранилища, а затем установите уровень общедоступного доступа для контейнера (названного acc-public-files) как анонимный доступ на чтение только для двоичных объектов. Дополнительные сведения о настройке анонимного общедоступного доступа см. в статье Настройка анонимного доступа на чтение для контейнеров и больших двоичных объектов.

Добавление или удаление пользователей создания звукового содержимого

Если несколько пользователей хотят использовать создание аудиоконтента, вы можете предоставить им доступ к подписке Azure и ресурсу "Речь". При добавлении пользователей в подписку Azure они могут получить доступ ко всем ресурсам этой подписки. Но если вы добавляете пользователей только в ресурс "Речь", они имеют доступ только к этому ресурсу, а не к другим ресурсам в рамках этой подписки Azure. Пользователи с доступом к ресурсу "Речь" могут использовать средство создания звукового содержимого.

Пользователи, которым вы предоставляете доступ, должны настроить учетную запись Microsoft. Если у них нет учетной записи Майкрософт, они могут создать ее всего за несколько минут. Они могут использовать свой существующий адрес электронной почты и связать его с учетной записью Майкрософт либо создать адрес электронной почты Outlook и использовать его в качестве учетной записи Майкрософт.

Добавьте пользователей в ресурс службы "Речь"

Чтобы добавить пользователей в ресурс "Речь", чтобы они могли использовать создание звукового содержимого, сделайте следующее:

В Azure portal выберите All services в левой области и найдите Foundry Tools или Speech.
Выберите ресурс "Речь".

Note

Вы также можете настроить Azure RBAC для целых групп ресурсов, подписок или групп управления. Для этого выберите нужный уровень области, а затем перейдите к нужному элементу (например, выберите группы ресурсов и выберите группу ресурсов).
Выберите Access control (IAM) на левой панели.
Выберите Добавить>Добавить назначение ролей.
На вкладке "Роль " на следующем экране выберите роль (например , владелец), которую вы хотите добавить.
Перейдите на вкладку Участники, введите адрес электронной почты пользователя и выберите имя пользователя в каталоге. Адрес электронной почты должен быть связан с учетной записью Microsoft, которой доверяет Microsoft Entra ID. Пользователи могут легко зарегистрировать учетную запись Майкрософт с помощью личного адреса электронной почты.
Чтобы назначить роль, на вкладке Проверка и назначение выберите Проверка и назначение.

Вот что происходит дальше:

Пользователям будут автоматически разосланы приглашения по электронной почте.

Note

Если пользователь не получил приглашение, вы можете найти его учетную запись в разделе Назначения ролей и войти в его профиль. Найдите раздел Удостоверение>Приглашение принято и выберите (управление), чтобы заново отправить приглашение по электронной почте. Можно также скопировать и отправить пользователю ссылку на приглашение.
Они могут принять приглашение, выбрав Принять приглашение>Принять для присоединения к Azure в своем электронном сообщении.
Затем они перенаправляются в Azure portal. Им не нужно предпринимать дальнейшие действия в Azure portal.
Через несколько минут пользователям назначается роль в рамках ресурса "Речь", которая предоставляет им доступ к этому ресурсу службы "Речь".

Теперь пользователи посещают или обновляют страницу продукта для создания аудиоконтента и входят с помощью своей учетной записи Microsoft. Среди речевых продуктов они выбирают блок Создание аудиосодержимого. Они выбирают ресурс 'Речь' во всплывающем окне или в настройках в правом верхнем углу.

Если они не могут найти доступный ресурс "Speech", они могут проверить, что находятся в нужном каталоге. Для этого выберите профиль учетной записи в правом верхнем углу, а затем выберите Переключить рядом с Текущий каталог. Если доступно несколько каталогов, это означает, что у них есть доступ к нескольким каталогам. Пользователи могут переключиться на другие каталоги и зайти в раздел Параметры, чтобы узнать, доступен ли правильный ресурс службы "Речь".

Пользователи, которые находятся в одном ресурсе службы "Речь", видят работу друг друга в средстве создания звукового содержимого. Если вы хотите, чтобы у каждого пользователя была уникальная и приватная рабочая среда для создания аудиоконтента, создайте новый ресурс "Speech".

Удалите пользователей из ресурса речи

Чтобы удалить разрешение пользователя на доступ к ресурсу «Речь», сделайте следующее:

Найдите Foundry Tools в портале Azure, и выберите ресурс "Speech", из которого нужно удалить пользователей.
Выберите Access control (IAM), и затем выберите вкладку Назначения ролей, чтобы просмотреть все назначения ролей для этого ресурса Speech.
Выберите пользователей, которых нужно удалить, щелкните Удалить, а затем нажмите кнопку ОК.

Позвольте пользователям предоставлять доступ другим пользователям

Если вы хотите разрешить пользователю предоставлять доступ другим пользователям, необходимо назначить им роль владельца ресурса "Речь" и настроить пользователя в качестве читателя каталога Azure.

Добавьте пользователя как владельца ресурса службы распознавания речи. Дополнительные сведения см. в разделе Добавление пользователей в ресурс службы “Речь”.
В Azure portal выберите свернутый меню в левом верхнем углу, выберите Microsoft Entra ID и выберите Users.
Найдите учетную запись Майкрософт пользователя, перейдите на страницу сведений и выберите Назначенные роли.
Щелкните Добавить назначения>Читатели каталогов. Если кнопка Add assignments недоступна, это значит, что у вас нет доступа. Необходимо иметь роль Owner или User Access Administrator для назначения ролей пользователям.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-03-11

Text to speech с помощью средства создания звукового содержимого

Prerequisites

Использование средства создания звукового содержимого

Получите доступ к инструменту

Обзор рабочих процессов

Создание файла настройки звука

Вариант 1. Создание файла настройки звука

Вариант 2. Отправка файла настройки звука

Экспорт настроенного звука

Prerequisites

Использование средства создания звукового содержимого

Создание файла настройки звука

Вариант 1. Создание файла настройки звука

Вариант 2. Отправка файла настройки звука

Экспорт настроенного звука

Настройка BYOS и анонимного общедоступного доступа для больших двоичных объектов.

Добавление или удаление пользователей создания звукового содержимого

Добавьте пользователей в ресурс службы "Речь"

Удалите пользователей из ресурса речи

Позвольте пользователям предоставлять доступ другим пользователям

Связанный контент

Обратная связь

Дополнительные ресурсы