Поделиться через


Обзор потоковой передачи звука — подписка на аудио

Службы коммуникации Azure предоставляет двунаправленные возможности потоковой передачи звука, предлагая разработчикам мощные средства для записи, анализа и обработки звукового содержимого во время активных вызовов. Эта разработка проложит путь к новым возможностям в режиме реального времени для разработчиков и предприятий.

Объединяя двунаправленную потоковую передачу звука с такими службами, как Azure OpenAI и другими API голосовой связи в режиме реального времени, компании могут добиться беспрепятственной, малозадержанной связи. Эта дополнительная возможность значительно улучшает разработку и развертывание решений для разговорного искусственного интеллекта, что позволяет обеспечить более увлекательное и эффективное взаимодействие.

Благодаря двунаправленной потоковой передаче компании теперь могут повысить уровень своих голосовых решений, создавая интерактивных ИИ-агентов для диалогов с низкой задержкой и естественным человеческим общением. Наши двунаправленные API потоковой передачи позволяют разработчикам передавать звук из текущего вызова на Службы коммуникации Azure на свои веб-серверы в режиме реального времени и передавать звук обратно в вызов. Хотя первоначальный акцент этих функций заключается в том, чтобы помочь предприятиям создавать агенты общения ИИ, другие варианты использования включают обработку естественного языка для анализа бесед или предоставление аналитических сведений и предложений агентов в режиме реального времени, пока они находятся в активном взаимодействии с конечными пользователями.

Эта общедоступная предварительная версия поддерживает возможность доступа разработчиков к аудиопотокам в режиме реального времени через WebSocket из Службы коммуникации Azure и потоковой передачи звука обратно в вызов.

Помощь во время звонка в режиме реального времени

  • Использование решений ИИ для бесед: разработка сложных виртуальных агентов поддержки клиентов, которые могут взаимодействовать с клиентами в режиме реального времени, предоставляя немедленные ответы и решения.

  • Персонализированные возможности клиентов: используя данные в режиме реального времени, предприятия могут предлагать более персонализированные и динамические взаимодействия с клиентами в режиме реального времени, что приводит к повышению удовлетворенности и лояльности.

  • Сокращение времени ожидания для клиентов: использование двунаправленных аудиопотоков с большими языковыми моделями (LLMs) позволяет создавать виртуальные агенты, которые служат первой точкой контакта для клиентов, уменьшая время ожидания для человеческого агента.

Проверка подлинности

  • Биометрическая проверка подлинности— используйте аудиопотоки для выполнения голосовой проверки подлинности , запустив звук из звонка с помощью подсистемы распознавания голоса или средства сопоставления.

Пример архитектуры, показывающий, как двунаправленная потоковая передача звука может использоваться для конверсационных ИИ агентов

Снимок экрана: схема архитектуры для потоковой передачи звука.

Поддерживаемые форматы

Смешанный

Содержит смешанный звук всех участников звонка. Все звуки плоские в один поток.

Несмешанный

Содержит звук на каждого участника на канал с поддержкой до четырех каналов для четырех наиболее доминирующих динамиков в любой момент звонка. Вы также получите идентификатор участника (participantRawID), который можно использовать для определения говорящего.

Дополнительная информация:

Разработчики могут использовать следующие сведения о аудио, отправляемых из Службы коммуникации Azure, чтобы преобразовать звуковые пакеты в звуковое содержимое для своих приложений.

  • Частота кадров: 50 кадров в секунду
  • Скорость потока пакетов: 20 мс
  • Размер пакета данных: 640 байт для 16 000 гц и 960 байт для 24 000 гц
  • Аудиометрика: 16-разрядная моно PCM на 16 000 гц и 24 000 Гц
  • Общедоступные строковые данные — это строка base64, которая должна быть преобразована в массив байтов для создания необработанного PCM-файла.

Выставление счетов

Сведения о выставлении счетов за потоковую передачу звука см. на странице цен на Службы коммуникации Azure. Цены можно найти в категории звонков в разделе потоковой передачи звука.

Известные ограничения

  • Остановка потоковой передачи мультимедиа с помощью нового OperationContext не корректно отражает обновленный контекст.
    • Если вы создаете или отвечаете на вызов с параметром operationContext с значением ABC и включаете потоковую передачу мультимедиа, вы получите событие MediaStreamingStarted с помощью operationContext: ABC.
    • Если вы вызываете API StopStreaming с другой операциейContext, скажите "XYZ", вы ожидаете получить событие MediaStreamingStopped с операциейContext: "XYZ". Однако из-за известной проблемы событие MediaStreamingStopped по-прежнему содержит operationContext: "ABC".
  • При остановке потоковой передачи мультимедиа с помощью нового URI обратного вызова события продолжают отправляться на URI обратного вызова по умолчанию, используемый при создании вызова или ответе на него.
    • При создании или принятии вызова с использованием URI обратного вызова по умолчанию "https://ABC.com"" и включенной потоковой передачи мультимедиа событие MediaStreamingStarted будет отправлено в "https://ABC.com"".
    • Если вы остановите потоковую передачу с помощью API StopStreaming и укажите новый универсальный код ресурса (URI) обратного вызова"https://XYZ.com, вы ожидаете, что событие MediaStreamingStopped будет отправлено в "https://XYZ.com." Однако из-за известной проблемы событие по-прежнему отправляется в исходный URI обратного вызова "https://ABC.com"

Следующие шаги

Дополнительные сведения см. в кратком руководстве по потоковой передаче аудио.