Обзор потоковой передачи звука — подписка на аудио

Службы коммуникации Azure предоставляет двунаправленные возможности потоковой передачи звука, предлагая разработчикам мощные средства для записи, анализа и обработки звукового содержимого во время активных вызовов. Эта разработка проложит путь к новым возможностям в режиме реального времени для разработчиков и предприятий.

Объединяя двунаправленную потоковую передачу звука с такими службами, как Azure OpenAI и другими API голосовой связи в режиме реального времени, компании могут добиться беспрепятственной, малозадержанной связи. Эта дополнительная возможность значительно улучшает разработку и развертывание решений для разговорного искусственного интеллекта, что позволяет обеспечить более увлекательное и эффективное взаимодействие.

Благодаря двунаправленной потоковой передаче компании теперь могут повысить уровень своих голосовых решений, создавая интерактивных ИИ-агентов для диалогов с низкой задержкой и естественным человеческим общением. Наши двунаправленные API потоковой передачи позволяют разработчикам передавать звук из текущего вызова на Службы коммуникации Azure на свои веб-серверы в режиме реального времени и передавать звук обратно в вызов. Хотя первоначальный акцент этих функций заключается в том, чтобы помочь предприятиям создавать агенты общения ИИ, другие варианты использования включают обработку естественного языка для анализа бесед или предоставление аналитических сведений и предложений агентов в режиме реального времени, пока они находятся в активном взаимодействии с конечными пользователями.

Этот API поддерживает возможность для разработчиков получать доступ к аудиопотокам в режиме реального времени через WebSocket из Служб коммуникации Azure и передавать звук обратно в вызов.

Помощь во время звонка в режиме реального времени

Использование решений ИИ для бесед: разработка сложных виртуальных агентов поддержки клиентов, которые могут взаимодействовать с клиентами в режиме реального времени, предоставляя немедленные ответы и решения.
Персонализированные возможности клиентов: используя данные в режиме реального времени, предприятия могут предлагать более персонализированные и динамические взаимодействия с клиентами в режиме реального времени, что приводит к повышению удовлетворенности и лояльности.
Сокращение времени ожидания для клиентов: использование двунаправленных аудиопотоков с большими языковыми моделями (LLMs) позволяет создавать виртуальные агенты, которые служат первой точкой контакта для клиентов, уменьшая время ожидания для человеческого агента.

Проверка подлинности

Биометрическая проверка подлинности— используйте аудиопотоки для выполнения голосовой проверки подлинности , запустив звук из звонка с помощью подсистемы распознавания голоса или средства сопоставления.

Пример архитектуры, показывающий, как двунаправленная потоковая передача звука может использоваться для конверсационных ИИ агентов

Поддерживаемые форматы

Смешанный

Содержит смешанный звук всех участников звонка. Все звуки плоские в один поток.

Несмешанный

Содержит звук на каждого участника на канал с поддержкой до четырех каналов для четырех наиболее доминирующих динамиков в любой момент звонка. Вы также получите идентификатор участника (participantRawID), который можно использовать для определения говорящего.

Дополнительная информация:

Разработчики могут использовать следующие сведения о аудио, отправляемых из Службы коммуникации Azure, чтобы преобразовать звуковые пакеты в звуковое содержимое для своих приложений.

Частота кадров: 50 кадров в секунду
Скорость потока пакетов: 20 мс
Размер пакета данных: 640 байт для 16 000 гц и 960 байт для 24 000 гц
Аудиометрика: 16-разрядная моно PCM на 16 000 гц и 24 000 Гц
Общедоступные строковые данные — это строка base64, которая должна быть преобразована в массив байтов для создания необработанного PCM-файла.

Выставление счетов

Сведения о выставлении счетов за потоковую передачу звука см. на странице цен на Службы коммуникации Azure. Цены можно найти в категории звонков в разделе потоковой передачи звука.

Известные ограничения

Остановка потоковой передачи мультимедиа с помощью нового OperationContext не корректно отражает обновленный контекст.
- Если вы создаете или отвечаете на вызов с параметром operationContext с значением ABC и включаете потоковую передачу мультимедиа, вы получите событие MediaStreamingStarted с помощью operationContext: ABC.
- Если вы вызываете API StopStreaming с другой операциейContext, скажите "XYZ", вы ожидаете получить событие MediaStreamingStopped с операциейContext: "XYZ". Однако из-за известной проблемы событие MediaStreamingStopped по-прежнему содержит operationContext: "ABC".
При остановке потоковой передачи мультимедиа с помощью нового URI обратного вызова события продолжают отправляться на URI обратного вызова по умолчанию, используемый при создании вызова или ответе на него.
- При создании или принятии вызова с использованием URI обратного вызова по умолчанию "https://ABC.com"" и включенной потоковой передачи мультимедиа событие MediaStreamingStarted будет отправлено в "https://ABC.com"".
- Если вы остановите потоковую передачу с помощью API StopStreaming и укажите новый универсальный код ресурса (URI) обратного вызова"https://XYZ.com, вы ожидаете, что событие MediaStreamingStopped будет отправлено в "https://XYZ.com." Однако из-за известной проблемы событие по-прежнему отправляется в исходный URI обратного вызова "https://ABC.com"

Следующие шаги

Дополнительные сведения см. в кратком руководстве по потоковой передаче аудио.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-06-05