Перенос кода из API Long Audio в API пакетного синтеза

API синтеза Batch обеспечивает асинхронный синтез длинных форм text to speech. В этой статье описываются преимущества обновления с Long Audio API до Batch Synthesis API, а также содержатся сведения о том, как выполнить это обновление.

Внимание

API пакетного синтеза общедоступен. API Long Audio выходит на пенсию 1 апреля 2027 года.

Базовый путь и версия

Обновите конечную точку с https://YourSpeechRegion.customvoice.api.speech.microsoft.com до https://YourSpeechRegion.api.cognitive.microsoft.com или вместо этого можно использовать custom domain: https://{customDomainName}.cognitiveservices.azure.com/.

Обновите базовый путь в вашем коде с /texttospeech/v3.0/longaudiosynthesis на /texttospeech/batchsyntheses.

Обновите версию с базового пути к строке запроса /texttospeech/v3.0/longaudiosynthesis на ?api-version=2024-04-01.

Например, чтобы перечислить задания синтеза для ресурса "Речь" в регионе eastus, используйте https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 вместо https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Регионы и конечные точки

API пакетного синтеза доступен в дополнительных регионах распознавания речи.

API long Audio ограничен следующими регионами:

Область/регион Конечная точка
Восточная Австралия https://australiaeast.customvoice.api.speech.microsoft.com
Восточная часть США https://eastus.customvoice.api.speech.microsoft.com
Центральная Индия https://centralindia.customvoice.api.speech.microsoft.com
Центрально-южная часть США https://southcentralus.customvoice.api.speech.microsoft.com
Юго-Восточная Азия https://southeastasia.customvoice.api.speech.microsoft.com
южная часть Соединенного Королевства https://uksouth.customvoice.api.speech.microsoft.com
Западная Европа https://westeurope.customvoice.api.speech.microsoft.com

Список голосов

API пакетного синтеза поддерживает все голоса и стили синтеза речи.

API для длинного аудио ограничен набором голосов, возвращаемых запросом GET к https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Текстовые входные данные

Входные данные пакетного текстового синтеза отправляются в полезные данные JSON размером до 2 мегабайт.

Текстовые входные данные API длинных аудиофайла передаются из файла, соответствующего следующим требованиям:

  • Один обычный текст (.txt) или текстовый файл SSML (.txt) в кодировке UTF-8 с меткой порядка байтов (BOM). Не используйте сжатые файлы, такие как ZIP. Если у вас несколько входных файлов, необходимо отправить несколько запросов.
  • содержит более 400 символов обычного текста или 400 оплачиваемых символов текста SSML и менее 10 000 абзацев. Для обычного текста каждый абзац отделяется новой строкой. в тексте SSML каждая часть SSML считается абзацем; Разделите части SSML разными абзацами.

С помощью Batch synthesis API можно использовать любой из поддерживаемых элементов SSML, включая элементы audio, mstts:backgroundaudio и lexicon. Длинный аудио API не поддерживает элементы audio, mstts:backgroundaudio и lexicon.

Форматы вывода аудио

API пакетного синтеза поддерживает все форматы вывода звука text to speech.

API long Audio ограничен следующим набором форматов выходных данных звука. Частота выборки для длинных звуковых голосов составляет 24 кГц, а не 48kГц. Другие частоты дискретизации можно получить с помощью увеличения или уменьшения частоты дискретизации при синтезе.

  • riff-8khz-16bit-mono-pcm
  • riff-16khz-16bit-mono-pcm
  • riff-24khz-16bit-mono-pcm
  • riff-48khz-16bit-mono-pcm
  • аудио-16кГц-32кбитрейт-моно-mp3
  • аудио-16 кГц-64 кбит/с-моно-mp3
  • audio-16khz-128kbitrate-mono-mp3
  • аудио-24кГц-48кбитрейт-моно-mp3
  • audio-24khz-96kbitrate-mono-mp3
  • аудио-24кГц-160кбит/с-моно-mp3

Получение результатов

С ПОМОЩЬЮ API пакетного синтеза используйте URL-адрес из outputs.result свойства ответа синтеза пакетной службы HTTP GET. Результаты находятся в ZIP-файле, который содержит звук (например0001.wav, сводку и сведения об отладке).

Длинные текстовые входные данные и результаты API аудио возвращаются с помощью двух отдельных URL-адресов содержимого, как показано в следующем примере. Файл с "kind": "LongAudioSynthesisScript" — это отправленный входной сценарий. Другой с "kind": "LongAudioSynthesisResult" является результатом этого запроса. Оба ZIP-файла можно скачать с URL-адреса, указанного в их свойстве links.contentUrl.

Очистка ресурсов

API пакетного синтеза поддерживает до 300 заданий, которые не имеют состояний «Успешно» или «Не удалось». Служба "Речь" сохраняет каждый журнал синтеза до 31 дней или длительность свойства запроса timeToLiveInHours , в зависимости от того, что происходит раньше. Дата и время автоматического удаления (для заданий синтеза с состоянием "Успешно" или "Сбой") равно свойствам lastActionDateTime + timeToLiveInHours .

API Long Audio ограничен 20 000 запросами для каждой подписки Azure. Служба распознавания речи не удаляет историю заданий автоматически. Перед выполнением новых запросов, превышающих ограничение, необходимо удалить предыдущий журнал выполнения задания.

Следующие шаги