Текст для речи с помощью средства создания звукового содержимого
Вы можете использовать средство создания аудиоконтентов в Speech Studio для преобразования текста в речь без написания кода. Средство создания аудиоконтентного содержимого может предоставить окончательный звук речи, который требуется. Вы можете использовать выходной звук как есть или в качестве отправной точки для дальнейшей настройки.
Создание очень естественного звукового содержимого для различных сценариев, таких как аудиокниги, новостные трансляции, видеозаписи и боты чата. Благодаря созданию аудиоконтента можно эффективно настраивать текст на голос и создавать настраиваемые звуковые интерфейсы.
Это средство основано на языке разметки синтеза речи Speech Synthesis Markup Language (SSML). Он позволяет настраивать текстовые атрибуты вывода речи в режиме реального времени или пакетного синтеза, например символы голоса, стили голоса, скорость речи, произношение и просодию.
- Подход без кода: вы можете использовать средство создания аудиоконтентного содержимого для синтеза речи без написания кода. Выходной звук может быть окончательным конечным результатом. Например, можно использовать выходной звук для подкаста или видеозаписи.
- Понятно для разработчиков: вы можете прослушивать выходной звук и настраивать SSML для улучшения синтеза речи. Затем можно использовать пакет SDK службы "Речь" или интерфейс командной строки службы "Речь" для интеграции SSML в приложения. Например, можно использовать SSML для создания бота чата.
Вам доступен широкий портфель языков и голосов. Эти голоса включают в себя предварительно созданные нейронные голоса и пользовательский нейронный голос, если вы создали его.
Дополнительные сведения см. в видео учебника по созданию аудиоконтентов на YouTube.
Начало работы
Средство создания аудиоконтентного содержимого в Speech Studio предоставляется бесплатно, но вы оплачиваете использование службы "Речь". Для работы с этим инструментом необходимо войти в систему с помощью учетной записи Azure и создать ресурс службы “Речь”. Для каждой учетной записи Azure существует бесплатная ежемесячная квота на использование службы “Речь”, включающая 500 000 символов для предварительно созданных нейронных голосов (на странице цен они называются нейронными). Как правило, ежемесячно выделенное количество достаточно для небольшой команды содержимого около 3-5 человек.
В следующих разделах приведены инструкции по созданию учетной записи Azure и получению ресурса службы "Речь".
Шаг 1. Создание учетной записи Azure
Для работы с инструментом "Создание аудиосодержимого" требуется учетная запись Майкрософт и учетная запись Azure.
Портал Azure — это центр управления учетной записью Azure. Здесь можно создать ресурс службы “Речь”, управлять доступом к продуктам и отслеживать все, от простых веб-приложений до сложных служб, развернутых в облаке.
Шаг 2. Создание ресурса службы "Речь"
После входа в учетную запись Azure необходимо создать в ней ресурс службы "Речь" для доступа к этой службе. Создайте ресурс службы "Речь" на портале Azure. Дополнительные сведения см. в статье "Создание ресурса служб искусственного интеллекта Azure".
Развертывание нового ресурса службы "Речь" может занять несколько секунд. Когда развертывание будет завершено, можно начать освоение инструмента "Создание аудиосодержимого".
Примечание.
Если планируется использовать синтезирование голоса с помощью нейронных сетей, убедитесь, что ресурс создается в регионе, поддерживающем синтезирование голоса с помощью нейронных сетей.
Шаг 3. Вход в средство "Создание аудиосодержимого" с помощью учетной записи Azure и ресурса службы "Речь"
После получения учетной записи Azure и ресурса службы "Речь" войдите в Speech Studio и выберите Создание аудиосодержимого.
Выберите подписку Azure и ресурс службы “Речь”, с которыми вы будете работать, а затем щелкните Использовать ресурс.
При следующем входе в средство создания аудиосодержимого у вас будет прямая ссылка на рабочие аудиофайлы в текущем ресурсе службы “Речь”. Сведения о подписке Azure и ее состоянии можно найти на портале Azure.
Если у вас нет доступного ресурса службы “Речь” и вы являетесь владельцем или администратором подписки Azure, вы можете создать ресурс службы "Речь" в Speech Studio, щелкнув Создать ресурс.
Если вы выступаете в роли пользователя определенной подписки Azure, у вас может отсутствовать разрешение на создание нового ресурса службы “Речь”. Чтобы получить доступ, обратитесь к администратору.
Чтобы изменить ресурс службы “Речь” (что можно сделать в любое время), выберите Параметры в верхней части страницы.
Чтобы переключиться на другой каталог, выберите Параметры или перейдите к своему профилю.
Использование инструмента
На следующей схеме показан процесс точной настройки текста на выходные данные речи.
Каждый шаг на предыдущей схеме описан здесь:
Выберите ресурс службы "Речь" для работы.
Создайте файл настройки звука, используя обычный текст или скрипты SSML. Введите или отправьте содержимое в средство "Создание аудиосодержимого".
Выберите голос и язык для содержимого скрипта. Создание звукового содержимого включает все предварительно созданные тексты для речевых голосов. Вы можете использовать предварительно созданные нейронные голоса или пользовательский нейронный голос.
Примечание.
Доступ к шлюзам доступен для пользовательского нейронного голоса, что позволяет создавать высокоопределяемые голоса, похожие на естественное звучание речи. Дополнительные сведения см. в статье Процесс с условием.
Выберите содержимое, которое нужно просмотреть, а затем нажмите кнопку "Воспроизвести " (с помощью значка треугольника), чтобы просмотреть выходные данные синтеза по умолчанию.
Если вы вносите изменения в текст, щелкните значок Остановить, а затем снова нажмите кнопку Воспроизвести, чтобы повторно создать звук на основе измененных скриптов.
Результат можно улучшить, настроив для голоса произношение, паузы, высоту, скорость, интонацию, стиль и т. д. Полный список параметров см. в разделе Язык разметки для синтеза речи.
Дополнительные сведения о настройке выходных данных речи см. в руководстве по преобразованию текста в видео речи на YouTube. Тем не менее, видео может быть недоступно во всех регионах и может быть не актуально к тому времени, когда вы просматриваете его.
Сохраните и экспортируйте настроенное аудио.
Если сохранить в системе настроенную запись, можно продолжить работу и выполнить итерацию для результата. Получив удовлетворительный результат, можно создать задачу создания аудио с функцией экспорта. Можно наблюдать за состоянием задачи экспорта и скачивать результат для использования с вашими приложениями и продуктами.
Создание файла настройки звука
Контент можно поместить в средство создания аудиосодержимого одним из двух способов:
Вариант 1. Создание файла настройки звука
Выберите Создать>Текстовый файл, чтобы создать файл настройки аудио.
Введите или вставьте содержимое в окно редактирования. Каждый файл может содержать не более 20 000 символов. Если скрипт включает больше 20 000 символов, можно использовать вариант 2, чтобы автоматически разбить содержимое на несколько файлов.
Выберите Сохранить.
Вариант 2. Отправка файла настройки звука
Выберите Отправить>Текстовый файл, чтобы импортировать один или несколько текстовых файлов. Поддерживается как обычный текст, так и SSML.
Если файл скрипта содержит больше 20 000 символов, разделите содержимое по абзацам, по символам или с помощью регулярных выражений.
При отправке текстовых файлов убедитесь, что они соответствуют следующим требованиям.
Свойство Description File format Обычный текст (.txt) или текст SSML (.txt)
Файлы ZIP не поддерживаются.Формат кодирования UTF-8 Имя файла Имя каждого файла должно быть уникальным. Дублирующиеся файлы не поддерживаются. Text length Допустимое число символов: 20 000. Если размер файла превышает это ограничение, разделите его в соответствии с инструкциями, предоставляемыми средством. Ограничения SSML Каждый файл SSML может содержать только один элемент SSML. Ниже приведен пример обычного текста:
Welcome to use Audio Content Creation to customize audio output for your products.
Ниже приведен пример SSML:
<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US"> <voice name="en-US-AvaMultilingualNeural"> Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products. </voice> </speak>
Экспорт настроенного звука
После просмотра выходных данных звука и соответствия настройке и настройке вы можете экспортировать звук.
Выберите Экспорт, чтобы сгенерировать задачу создания аудиосодержимого.
Мы рекомендуем выполнить экспорт в библиотеку аудио для удобного хранения, поиска и нахождения выходных аудиоданных в облаке. Вы можете оптимизировать интеграцию с приложениями с помощью хранилища BLOB-объектов Azure. Вы также можете напрямую скачать аудио на локальный диск.
Выберите формат выходных данных для настроенного звука. Поддерживаемые аудиоформаты и частоты дискретизации перечислены в следующей таблице.
Формат Частота дискретизации 8 кГц Частота дискретизации 16 кГц Частота дискретизации 24 кГц Частота дискретизации 48 кГц WAV riff-8khz-16bit-mono-pcm riff-16khz-16bit-mono-pcm riff-24khz-16bit-mono-pcm riff-48khz-16bit-mono-pcm MP3 Н/П audio-16khz-128kbitrate-mono-mp3 audio-24khz-160kbitrate-mono-mp3 audio-48khz-192kbitrate-mono-mp3 Чтобы просмотреть состояние задачи, выберите вкладку Список задач.
В случае сбоя задачи просмотрите страницу с подробной информацией для полного отчета.
Когда задача будет завершена, аудио будет доступно для скачивания в области Библиотека аудио.
Выберите файл, который вы хотите скачать, и нажмите Скачать.
Теперь вы готовы использовать пользовательское настроенное аудио в своих приложениях или продуктах.
Настройка BYOS и анонимного общедоступного доступа для чтения больших двоичных объектов
Если вы потеряете разрешение на доступ к собственному хранилищу (BYOS), вы не сможете просматривать, создавать, изменять или удалять файлы. Чтобы возобновить доступ, необходимо удалить текущее хранилище и перенастроить BYOS в портал Azure. Дополнительные сведения о настройке BYOS см. в статье "Подключение служба хранилища Azure в качестве локальной общей папки в Служба приложений".
После настройки разрешения BYOS необходимо настроить анонимный общедоступный доступ на чтение для связанных контейнеров и BLOB-объектов. В противном случае данные BLOB-объектов недоступны для общедоступного доступа, а лексикон-файл в большом двоичном объекте недоступен. По умолчанию параметр общедоступного доступа контейнера отключен. Чтобы предоставить анонимным пользователям доступ на чтение к контейнеру и его BLOB-объектам, сначала установите для параметра "Разрешить общедоступный доступ к BLOB-объектам", чтобы разрешить общедоступный доступ для учетной записи хранения, а затем задайте уровень общедоступного доступа контейнера (только для больших двоичных объектов с именем acc-public-files) (анонимный доступ для чтения только для БОЛЬШИХ двоичных объектов). Дополнительные сведения о настройке анонимного общедоступного доступа на чтение см. в статье Настройка анонимного общедоступного доступа на чтение для контейнеров и BLOB-объектов.
Добавление и удаление пользователей средства "Создание аудиосодержимого"
Если вы хотите привлечь к использованию средства "Создание аудиосодержимого" нескольких пользователей, им можно предоставить доступ к подписке Azure и ресурсу службы "Речь". Если добавить пользователей в подписку Azure, им будут доступны все ресурсы этой подписки Azure. Но если вы добавляете пользователей только в ресурс "Речь", у них есть доступ только к ресурсу "Речь", а не к другим ресурсам в этой подписке Azure. Пользователи с доступом к ресурсу службы "Речь" могут использовать инструмент "Создание аудиосодержимого".
Пользователям, которым предоставляется доступ, необходимо настроить учетную запись Майкрософт. Если у них нет учетной записи Майкрософт, они могут создать ее всего за несколько минут. Они могут использовать свой существующий адрес электронной почты и связать его с учетной записью Майкрософт либо создать адрес электронной почты Outlook и использовать его в качестве учетной записи Майкрософт.
Добавление пользователей в ресурс службы "Речь"
Чтобы добавить пользователей в ресурс службы "Речь" и дать им возможность использовать средство создания аудиосодержимого, выполните следующие действия.
- В портал Azure выберите все службы в области навигации слева, а затем найдите службы ИИ Azure или речь.
- Выберите ресурс "Речь".
Примечание.
Можно также настроить Azure RBAC для всей группы ресурсов, подписок или групп управления. Для этого выберите нужный уровень области, а затем перейдите к нужному элементу (например, выберите группы ресурсов и выберите группу ресурсов).
- На левой панели навигации выберите Управление доступом (IAM).
- Выберите Добавить>Добавить назначение ролей.
- На вкладке "Роль " на следующем экране выберите роль (например , владелец), которую вы хотите добавить.
- Перейдите на вкладку Участники, введите адрес электронной почты пользователя и выберите имя пользователя в каталоге. Адрес электронной почты должен быть связан с учетной записью Майкрософт, доверенной идентификатором Microsoft Entra. Пользователи могут легко зарегистрировать учетную запись Майкрософт с помощью личного адреса электронной почты.
- Чтобы назначить роль, на вкладке Проверка и назначение выберите Проверка и назначение.
Вот что происходит дальше:
Пользователям будут автоматически разосланы приглашения по электронной почте.
Примечание.
Если пользователь не получил приглашение, вы можете найти его учетную запись в разделе Назначения ролей и войти в его профиль. Найдите раздел Удостоверение >Приглашение принято и выберите (управление), чтобы заново отправить приглашение по электронной почте. Можно также скопировать и отправить пользователю ссылку на приглашение.
Чтобы их принять, они должны будут щелкнуть Принять приглашение > Принять, чтобы присоединиться к Azure в сообщении электронной почты.
После этого они будут перенаправлены на портал Azure. Им не придется выполнять какие-либо действия на портале Azure.
Через несколько секунд пользователям будет назначена роль в области действия ресурса службы “Речь”, благодаря которой они получат доступ к этому ресурсу.
Теперь пользователи заходят на страницу продукта Создание аудиосодержимого или обновляют ее и выполняют вход с помощью своей учетной записи Майкрософт. Среди продуктов службы "Речь" они выбирают блок Создание аудиосодержимого. Они указывают ресурс службы "Речь" во всплывающем окне или в параметрах в правом верхнем углу страницы.
Если они не могут найти доступный ресурс службы “Речь”, следует убедиться, что они находятся в нужном каталоге. Для этого нужно выбрать профиль учетной записи в правом верхнем углу, а затем щелкнуть переключатель рядом с текущим каталогом. Если отображается не один каталог, значит, у них есть доступ к нескольким каталогам. Пользователи могут переключиться на другие каталоги и зайти в раздел Параметры, чтобы узнать, доступен ли правильный ресурс службы "Речь".
Пользователи, которые находятся в том же ресурсе "Речь", видят работу друг друга в средстве создания аудиоконтентов. Если нужно предоставить каждому пользователю уникальное, приватное рабочее пространство в инструменте "Создание аудиосодержимого", создайте ресурс службы "Речь" для каждого пользователя и предоставьте уникальный доступ к соответствующему ресурсу.
Удаление пользователей из ресурса службы "Речь"
Чтобы удалить разрешение пользователя из ресурса "Речь", сделайте следующее:
Найдите службы ИИ Azure в портал Azure, выберите ресурс "Речь", из которого нужно удалить пользователей.
Выберите Управление доступом (IAM) и откройте вкладку Назначение ролей, чтобы просмотреть все назначения ролей для этого ресурса службы “Речь”.
Выберите пользователей, которых нужно удалить, щелкните Удалить, а затем нажмите кнопку ОК.
Как разрешить пользователю предоставлять доступ другим пользователям
Чтобы разрешить пользователю предоставлять доступ другим пользователям, необходимо назначить ему роль владельца ресурса службы "Речь" и определить его как читателя каталога Azure.
Добавьте пользователя в качестве владельца ресурса службы "Речь". Дополнительные сведения см. в разделе Добавление пользователей в ресурс службы “Речь”.
В портал Azure выберите свернутый меню в левом верхнем углу, выберите идентификатор Microsoft Entra и выберите "Пользователи".
Найдите учетную запись Майкрософт пользователя, перейдите на страницу сведений и выберите Назначенные роли.
Щелкните Добавить назначения > Читатели каталогов. Если кнопка Добавить назначения недоступна, значит, что у вас нет соответствующего доступа. Для назначения ролей пользователям должна быть роль владельца или администратора доступа пользователей.