Уменьшение задержки синтеза речи с помощью пакета SDK службы "Речь"

В этой статье мы представим лучшие практики по снижению задержки синтеза текста в речь и обеспечению оптимальной производительности для конечных пользователей.

Обычно задержка измерятся параметрами first byte latency и finish latency следующим образом:

Задержка	Описание	Ключ свойства SpeechSynthesisResult
`first byte client latency`	Указывает задержку времени между началом синтеза и первым блоком звука, полученным на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Указывает задержку времени между началом синтеза и получением всего синтезированного звука на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	Задержка сети между клиентом и службой TTS Azure.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Указывает задержку времени между получением службой Azure TTS запроса на синтез и возвратом первого блока звука.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

В пакете SDK для службы "Речь" значения длительности задержки находятся в коллекции свойств SpeechSynthesisResult. Эти значения показаны в образце кода ниже.

var result = await synthesizer.SpeakTextAsync(text);
Console.WriteLine($"first byte client latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs)} ms");
Console.WriteLine($"finish client latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs)} ms");
Console.WriteLine($"network latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisNetworkLatencyMs)} ms");
Console.WriteLine($"first byte service latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisServiceLatencyMs)} ms");
// you can also get the result id, and send to us when you need help for diagnosis
var resultId = result.ResultId;

Задержка	Описание	Ключ свойства SpeechSynthesisResult
`first byte client latency`	Указывает задержку времени между началом синтеза и первым блоком звука, полученным на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Указывает задержку времени между началом синтеза и получением всего синтезированного звука на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	Задержка сети между клиентом и службой TTS Azure.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Указывает задержку времени между получением службой Azure TTS запроса на синтез и возвратом первого блока звука.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

SDK для речи измеряет задержки и помещает их в набор свойств SpeechSynthesisResult. Чтобы получить значения, см. следующий код.

auto result = synthesizer->SpeakTextAsync(text).get();
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFirstByteLatencyMs));
auto finishedLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFinishLatencyMs));
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisNetworkLatencyMs));
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisServiceLatencyMs));
// you can also get the result id, and send to us when you need help for diagnosis
auto resultId = result->ResultId;

Задержка	Описание	Ключ свойства SpeechSynthesisResult
`first byte client latency`	Указывает задержку времени между началом синтеза и первым блоком звука, полученным на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Указывает задержку времени между началом синтеза и получением всего синтезированного звука на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	Задержка сети между клиентом и службой TTS Azure.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Указывает задержку времени между получением службой Azure TTS запроса на синтез и возвратом первого блока звука.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

SpeechSynthesisResult result = synthesizer.SpeakTextAsync(text).get();
System.out.println("first byte client latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs) + " ms.");
System.out.println("finish client latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs) + " ms.");
System.out.println("network latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisNetworkLatencyMs) + " ms.");
System.out.println("first byte service latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisServiceLatencyMs) + " ms.");
// you can also get the result id, and send to us when you need help for diagnosis
String resultId = result.getResultId();

Задержка	Описание	Ключ свойства SpeechSynthesisResult
`first byte client latency`	Указывает задержку времени между началом синтеза и первым блоком звука, полученным на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Указывает задержку времени между началом синтеза и получением всего синтезированного звука на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	Задержка сети между клиентом и службой TTS Azure.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Указывает задержку времени между получением службой Azure TTS запроса на синтез и возвратом первого блока звука.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

result = synthesizer.speak_text_async(text).get()
first_byte_client_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs))
finished_client_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs))
network_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisNetworkLatencyMs))
first_byte_service_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisServiceLatencyMs))
# you can also get the result id, and send to us when you need help for diagnosis
result_id = result.result_id

Задержка	Описание	Ключ свойства SPXSpeechSynthesisResult
`first byte client latency`	Указывает задержку времени между началом синтеза и первым блоком звука, полученным на клиенте, включая задержку сети.	`SPXSpeechServiceResponseSynthesisFirstByteLatencyMs`
`finish client latency`	Указывает задержку времени между началом синтеза и получением всего синтезированного звука на клиенте, включая задержку сети.	`SPXSpeechServiceResponseSynthesisFinishLatencyMs`
`network latency`	Задержка сети между клиентом и службой TTS Azure.	`SPXSpeechServiceResponseSynthesisNetworkLatencyMs`
`first byte service latency`	Указывает задержку времени между получением службой Azure TTS запроса на синтез и возвратом первого блока звука.	`SPXSpeechServiceResponseSynthesisServiceLatencyMs`

SDK для речи измеряет задержки и помещает их в набор свойств SPXSpeechSynthesisResult. Чтобы получить значения, см. следующий код.

SPXSpeechSynthesisResult *speechResult = [speechSynthesizer speakText:text];
int firstByteClientLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFirstByteLatencyMs]];
int finishedClientLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFinishLatencyMs]];
int networkLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisNetworkLatencyMs]];
int firstByteServiceLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisServiceLatencyMs]];
// you can also get the result id, and send to us when you need help for diagnosis
NSString *resultId = result.resultId;

Первая задержка байтов ниже, чем задержка завершения в большинстве случаев. Задержка первого байта не зависит от длины текста, а задержка завершения растет по мере увеличения этой длины.

В идеальном случае требуется минимизировать задержку для пользователя (время перед тем, как пользователь услышит звук) до времени однократного прохождения сетевого маршрута плюс задержка первого звукового фрагмента от службы синтеза речи.

Стриминг

Потоковая передача — важнейший фактор снижения задержки. Клиентский код может начать воспроизведение при получении первого звукового фрагмента. В сценарии обслуживания вы можете сразу пересылать клиентам звуковые фрагменты, не дожидаясь формирования всего звукового пакета.

Для реализации потоковой передачи можно использовать PullAudioOutputStream, PushAudioOutputStream, Synthesizing событие и AudioDataStream пакета SDK службы "Речь".