Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Средство создания звукового содержимого можно использовать на портале Microsoft Foundry или Speech Studio для text to speech без написания кода.
Подсказка
Выберите Foundry Portal или Speech Studio в верхней части этой статьи.
Создание очень естественного звукового содержимого для различных сценариев, таких как аудиокниги, новостные трансляции, видеозаписи и боты чата. Благодаря созданию аудиоконтента вы можете эффективно настраивать text to speech голоса и разрабатывать настраиваемые звуковые интерфейсы.
Это средство основано на языке разметки синтеза речи Speech Synthesis Markup Language (SSML). Он позволяет настраивать параметры вывода текста в речь в режимах реального времени и пакетного синтеза, например характеристики голоса, стили голоса, скорость речи, произношение и просодия.
- Подход без кода: Вы можете использовать инструмент создания звукового контента для синтеза технологии преобразования текста в речь без написания кода. Выходной звук может быть конечным продуктом, который вам нужен. Например, можно использовать выходной звук для подкаста или видеозаписи.
- Понятно для разработчиков: вы можете прослушивать выходной звук и настраивать SSML для улучшения синтеза речи. Затем можно использовать пакет SDK службы "Речь" или интерфейс командной строки службы "Речь" для интеграции SSML в приложения.
Вы легко получаете доступ к широкому портфелю языков и голосов. Эти голоса включают современные стандартные голосы, а также ваш собственный голос, если вы его создали.
Средство создания аудиоматериала бесплатно; вы оплачиваете только использование службы "Речь".
Prerequisites
- Активная подписка Azure. Создать бесплатно.
- Разрешение на создание ресурсов в подписке.
- Проект Microsoft Foundry. Дополнительные сведения см. в разделе Create microsoft Foundry project.
Использование средства создания звукового содержимого
На следующей схеме показан процесс точной настройки выходных данных text to speech.
Получите доступ к инструменту
Чтобы получить доступ к инструменту создания аудиоконтента в Microsoft Foundry, выполните следующие действия.
Перейдите к вашему проекту в Microsoft Foundry.
Выберите Playgrounds на левой панели.
На плитке "Речевой платформы" выберите Попробовать "Речевую платформу".
Выберите Преобразование текста в речь>Создание аудиоконтента. Чтобы найти плитку, может потребоваться прокрутить страницу.
Обзор рабочих процессов
После получения доступа к средству следуйте этому общему рабочему процессу:
Создайте файл настройки звука, используя обычный текст или скрипты SSML. Введите или загрузите свой контент для создания аудиоконтента.
Выберите голос и язык для содержимого скрипта. Создание звукового содержимого включает все стандартные текстовые голоса для преобразования текста в речь. Вы можете использовать стандартные голоса или пользовательский голос.
Выберите содержимое, которое нужно просмотреть, а затем нажмите кнопку "Воспроизвести " (с помощью значка треугольника), чтобы просмотреть выходные данные синтеза по умолчанию.
Если вы вносите изменения в текст, щелкните значок Остановить, а затем снова нажмите кнопку Воспроизвести, чтобы повторно создать звук на основе измененных скриптов.
Результат можно улучшить, отрегулировав произношение, паузы, высоту, скорость, интонацию и стиль голоса. Полный список параметров см. в разделе Язык разметки для синтеза речи.
Сохраните и экспортируйте настроенное аудио.
Если сохранить в системе трек настройки, можно продолжить работу и продолжить итерацию над выходными данными. Получив удовлетворительный результат, можно создать задачу создания аудио с функцией экспорта. Можно наблюдать за состоянием задачи экспорта и скачивать результат для использования с вашими приложениями и продуктами.
Создание файла настройки звука
Вы можете добавить своё содержимое в инструмент создания аудиоконтента двумя способами:
Вариант 1. Создание файла настройки звука
Выберите Создать>Текстовый файл, чтобы создать файл настройки аудио.
Введите или вставьте содержимое в окно редактирования. Каждый файл может содержать не более 20 000 символов. Если скрипт включает больше 20 000 символов, можно использовать вариант 2, чтобы автоматически разбить содержимое на несколько файлов.
Нажмите кнопку "Сохранить".
Вариант 2. Отправка файла настройки звука
Выберите Отправить>Текстовый файл, чтобы импортировать один или несколько текстовых файлов. Поддерживается как обычный текст, так и SSML.
Если файл скрипта содержит больше 20 000 символов, разделите содержимое по абзацам, по символам или с помощью регулярных выражений.
При отправке текстовых файлов убедитесь, что они соответствуют следующим требованиям.
Property Description Формат файла Обычный текст (.txt) или текст SSML (.txt)
Файлы ZIP не поддерживаются.Формат кодирования UTF-8 Имя файла Имя каждого файла должно быть уникальным. Дублирующиеся файлы не поддерживаются. Длина текста Допустимое число символов: 20 000. Если размер файла превышает это ограничение, разделите его в соответствии с инструкциями, предоставляемыми средством. Ограничения SSML Каждый файл SSML может содержать только один элемент SSML. Ниже приведен пример обычного текста:
Welcome to use audio content creation to customize audio output for your products.Ниже приведен пример SSML:
<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US"> <voice name="en-US-AvaMultilingualNeural"> Welcome to use audio content creation <break time="10ms" />to customize audio output for your products. </voice> </speak>
Экспорт настроенного звука
После того, как вы проверите и останетесь довольны настройкой и корректировкой звука, вы можете экспортировать аудио.
Выберите Экспорт, чтобы сгенерировать задачу создания аудиосодержимого.
Мы рекомендуем выполнить экспорт в библиотеку аудио для удобного хранения, поиска и нахождения выходных аудиоданных в облаке. Вы можете лучше интегрироваться с приложениями с помощью Azure blob storage. Вы также можете напрямую скачать аудио на локальный диск.
Выберите формат выходных данных для настроенного звука. Поддерживаемые аудиоформаты и частоты дискретизации перечислены в следующей таблице.
Format Частота дискретизации 8 кГц Частота дискретизации 16 кГц Частота дискретизации 24 кГц Частота дискретизации 48 кГц wav riff-8khz-16bit-mono-pcm riff-16khz-16bit-mono-pcm riff-24khz-16bit-mono-pcm riff-48khz-16bit-mono-pcm mp3 N/A audio-16khz-128kbitrate-mono-mp3 audio-24khz-160kbitrate-mono-mp3 audio-48khz-192kbitrate-mono-mp3 Чтобы просмотреть состояние задачи, выберите вкладку Список задач.
В случае сбоя задачи просмотрите страницу с подробной информацией для полного отчета.
Когда задача будет завершена, аудио будет доступно для скачивания в области Библиотека аудио.
Выберите файл, который вы хотите скачать, и нажмите Скачать.
Теперь вы готовы использовать пользовательское настроенное аудио в своих приложениях или продуктах.
Prerequisites
- Активная подписка Azure. Создать бесплатно.
- Разрешение на создание ресурсов в подписке.
- Ресурс для речи. Создайте его в Azure portal или Speech Studio.
Note
Тип ресурса Foundry не поддерживается в Speech Studio.
Использование средства создания звукового содержимого
На следующей схеме показан процесс точной настройки выходных данных text to speech.
Чтобы использовать средство создания звукового содержимого, сделайте следующее:
Войдите в Speech Studio и выберите "Создание звукового содержимого".
Выберите подписку Azure и ресурс 'Speech', с которым вы хотите работать, а затем выберите Использовать ресурс.
Note
Если вы возвращаетесь к созданию звукового содержимого, можно выбрать другой ресурс службы "Речь", с которым вы хотите работать. Перейдите к параметрам учетной записи в правом верхнем углу страницы.
Создайте файл настройки звука, используя обычный текст или скрипты SSML. Введите или загрузите свой контент для создания аудиоконтента.
Выберите голос и язык для содержимого скрипта. Создание звукового содержимого включает все стандартные голоса для синтеза речи. Вы можете использовать стандартные голоса или пользовательский голос.
Выберите содержимое, которое нужно просмотреть, а затем нажмите кнопку "Воспроизвести " (с помощью значка треугольника), чтобы просмотреть выходные данные синтеза по умолчанию.
Если вы вносите изменения в текст, щелкните значок Остановить, а затем снова нажмите кнопку Воспроизвести, чтобы повторно создать звук на основе измененных скриптов.
Результат можно улучшить, отрегулировав произношение, паузы, высоту, скорость, интонацию и стиль голоса. Полный список параметров см. в разделе Язык разметки для синтеза речи.
Для получения дополнительной информации о настройке выхода речи см. видео на YouTube о преобразовании текста в речь. Тем не менее, видео может быть недоступно во всех регионах и может быть не актуально к тому времени, когда вы просматриваете его.
Сохраните и экспортируйте настроенное аудио.
Если сохранить в системе трек настройки, можно продолжить работу и продолжить итерацию над выходными данными. Получив удовлетворительный результат, можно создать задачу создания аудио с функцией экспорта. Можно наблюдать за состоянием задачи экспорта и скачивать результат для использования с вашими приложениями и продуктами.
Создание файла настройки звука
Вы можете добавить своё содержимое в инструмент создания аудиоконтента двумя способами:
Вариант 1. Создание файла настройки звука
Выберите Создать>Текстовый файл, чтобы создать файл настройки аудио.
Введите или вставьте содержимое в окно редактирования. Каждый файл может содержать не более 20 000 символов. Если скрипт включает больше 20 000 символов, можно использовать вариант 2, чтобы автоматически разбить содержимое на несколько файлов.
Нажмите кнопку "Сохранить".
Вариант 2. Отправка файла настройки звука
Выберите Отправить>Текстовый файл, чтобы импортировать один или несколько текстовых файлов. Поддерживается как обычный текст, так и SSML.
Если файл скрипта содержит больше 20 000 символов, разделите содержимое по абзацам, по символам или с помощью регулярных выражений.
При отправке текстовых файлов убедитесь, что они соответствуют следующим требованиям.
Property Description Формат файла Обычный текст (.txt) или текст SSML (.txt)
Файлы ZIP не поддерживаются.Формат кодирования UTF-8 Имя файла Имя каждого файла должно быть уникальным. Дублирующиеся файлы не поддерживаются. Длина текста Допустимое число символов: 20 000. Если размер файла превышает это ограничение, разделите его в соответствии с инструкциями, предоставляемыми средством. Ограничения SSML Каждый файл SSML может содержать только один элемент SSML. Ниже приведен пример обычного текста:
Welcome to use audio content creation to customize audio output for your products.Ниже приведен пример SSML:
<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US"> <voice name="en-US-AvaMultilingualNeural"> Welcome to use audio content creation <break time="10ms" />to customize audio output for your products. </voice> </speak>
Экспорт настроенного звука
После того, как вы проверите и останетесь довольны настройкой и корректировкой звука, вы можете экспортировать аудио.
Выберите Экспорт, чтобы сгенерировать задачу создания аудиосодержимого.
Мы рекомендуем выполнить экспорт в библиотеку аудио для удобного хранения, поиска и нахождения выходных аудиоданных в облаке. Вы можете лучше интегрироваться с приложениями с помощью Azure blob storage. Вы также можете напрямую скачать аудио на локальный диск.
Выберите формат выходных данных для настроенного звука. Поддерживаемые аудиоформаты и частоты дискретизации перечислены в следующей таблице.
Format Частота дискретизации 8 кГц Частота дискретизации 16 кГц Частота дискретизации 24 кГц Частота дискретизации 48 кГц wav riff-8khz-16bit-mono-pcm riff-16khz-16bit-mono-pcm riff-24khz-16bit-mono-pcm riff-48khz-16bit-mono-pcm mp3 N/A audio-16khz-128kbitrate-mono-mp3 audio-24khz-160kbitrate-mono-mp3 audio-48khz-192kbitrate-mono-mp3 Чтобы просмотреть состояние задачи, выберите вкладку Список задач.
В случае сбоя задачи просмотрите страницу с подробной информацией для полного отчета.
Когда задача будет завершена, аудио будет доступно для скачивания в области Библиотека аудио.
Выберите файл, который вы хотите скачать, и нажмите Скачать.
Теперь вы готовы использовать пользовательское настроенное аудио в своих приложениях или продуктах.
Настройка BYOS и анонимного общедоступного доступа для больших двоичных объектов.
Если вы потеряете доступ к вашему собственному хранилищу (BYOS), вы не сможете просматривать, создавать, редактировать или удалять файлы. Чтобы возобновить доступ, необходимо удалить текущее хранилище и перенастроить BYOS в Azure портал. Дополнительные сведения о настройке BYOS см. в статье Подключение Azure Storage в качестве локальной папки в App Service.
После настройки разрешения BYOS необходимо настроить анонимный общедоступный доступ для связанных контейнеров и BLOB-объектов. В противном случае данные BLOB-объектов недоступны для публичного доступа, и файл лексикона в двоичном объекте недоступен. По умолчанию параметр общедоступности контейнера отключен. Чтобы предоставить анонимным пользователям доступ на чтение к контейнеру и его двоичным объектам, сначала установите параметр Разрешить анонимный доступ к Blob в Включено, чтобы разрешить общий доступ к учетной записи хранилища, а затем установите уровень общедоступного доступа для контейнера (названного acc-public-files) как анонимный доступ на чтение только для двоичных объектов. Дополнительные сведения о настройке анонимного общедоступного доступа см. в статье Настройка анонимного доступа на чтение для контейнеров и больших двоичных объектов.
Добавление или удаление пользователей создания звукового содержимого
Если несколько пользователей хотят использовать создание аудиоконтента, вы можете предоставить им доступ к подписке Azure и ресурсу "Речь". При добавлении пользователей в подписку Azure они могут получить доступ ко всем ресурсам этой подписки. Но если вы добавляете пользователей только в ресурс "Речь", они имеют доступ только к этому ресурсу, а не к другим ресурсам в рамках этой подписки Azure. Пользователи с доступом к ресурсу "Речь" могут использовать средство создания звукового содержимого.
Пользователи, которым вы предоставляете доступ, должны настроить учетную запись Microsoft. Если у них нет учетной записи Майкрософт, они могут создать ее всего за несколько минут. Они могут использовать свой существующий адрес электронной почты и связать его с учетной записью Майкрософт либо создать адрес электронной почты Outlook и использовать его в качестве учетной записи Майкрософт.
Добавьте пользователей в ресурс службы "Речь"
Чтобы добавить пользователей в ресурс "Речь", чтобы они могли использовать создание звукового содержимого, сделайте следующее:
В Azure portal выберите All services в левой области и найдите Foundry Tools или Speech.
Выберите ресурс "Речь".
Note
Вы также можете настроить Azure RBAC для целых групп ресурсов, подписок или групп управления. Для этого выберите нужный уровень области, а затем перейдите к нужному элементу (например, выберите группы ресурсов и выберите группу ресурсов).
Выберите Access control (IAM) на левой панели.
Выберите Добавить>Добавить назначение ролей.
На вкладке "Роль " на следующем экране выберите роль (например , владелец), которую вы хотите добавить.
Перейдите на вкладку Участники, введите адрес электронной почты пользователя и выберите имя пользователя в каталоге. Адрес электронной почты должен быть связан с учетной записью Microsoft, которой доверяет Microsoft Entra ID. Пользователи могут легко зарегистрировать учетную запись Майкрософт с помощью личного адреса электронной почты.
Чтобы назначить роль, на вкладке Проверка и назначение выберите Проверка и назначение.
Вот что происходит дальше:
Пользователям будут автоматически разосланы приглашения по электронной почте.
Note
Если пользователь не получил приглашение, вы можете найти его учетную запись в разделе Назначения ролей и войти в его профиль. Найдите раздел Удостоверение>Приглашение принято и выберите (управление), чтобы заново отправить приглашение по электронной почте. Можно также скопировать и отправить пользователю ссылку на приглашение.
Они могут принять приглашение, выбрав Принять приглашение>Принять для присоединения к Azure в своем электронном сообщении.
Затем они перенаправляются в Azure portal. Им не нужно предпринимать дальнейшие действия в Azure portal.
Через несколько минут пользователям назначается роль в рамках ресурса "Речь", которая предоставляет им доступ к этому ресурсу службы "Речь".
Теперь пользователи посещают или обновляют страницу продукта для создания аудиоконтента и входят с помощью своей учетной записи Microsoft. Среди речевых продуктов они выбирают блок Создание аудиосодержимого. Они выбирают ресурс 'Речь' во всплывающем окне или в настройках в правом верхнем углу.
Если они не могут найти доступный ресурс "Speech", они могут проверить, что находятся в нужном каталоге. Для этого выберите профиль учетной записи в правом верхнем углу, а затем выберите Переключить рядом с Текущий каталог. Если доступно несколько каталогов, это означает, что у них есть доступ к нескольким каталогам. Пользователи могут переключиться на другие каталоги и зайти в раздел Параметры, чтобы узнать, доступен ли правильный ресурс службы "Речь".
Пользователи, которые находятся в одном ресурсе службы "Речь", видят работу друг друга в средстве создания звукового содержимого. Если вы хотите, чтобы у каждого пользователя была уникальная и приватная рабочая среда для создания аудиоконтента, создайте новый ресурс "Speech".
Удалите пользователей из ресурса речи
Чтобы удалить разрешение пользователя на доступ к ресурсу «Речь», сделайте следующее:
Найдите Foundry Tools в портале Azure, и выберите ресурс "Speech", из которого нужно удалить пользователей.
Выберите Access control (IAM), и затем выберите вкладку Назначения ролей, чтобы просмотреть все назначения ролей для этого ресурса Speech.
Выберите пользователей, которых нужно удалить, щелкните Удалить, а затем нажмите кнопку ОК.
Позвольте пользователям предоставлять доступ другим пользователям
Если вы хотите разрешить пользователю предоставлять доступ другим пользователям, необходимо назначить им роль владельца ресурса "Речь" и настроить пользователя в качестве читателя каталога Azure.
Добавьте пользователя как владельца ресурса службы распознавания речи. Дополнительные сведения см. в разделе Добавление пользователей в ресурс службы “Речь”.
В Azure portal выберите свернутый меню в левом верхнем углу, выберите Microsoft Entra ID и выберите Users.
Найдите учетную запись Майкрософт пользователя, перейдите на страницу сведений и выберите Назначенные роли.
Щелкните Добавить назначения>Читатели каталогов. Если кнопка Add assignments недоступна, это значит, что у вас нет доступа. Необходимо иметь роль Owner или User Access Administrator для назначения ролей пользователям.