Обзор потоковой передачи звука — подписка на аудио
Внимание
Функции, описанные в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания. Ее не следует использовать для производственных рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.
Службы коммуникации Azure предоставляет разработчикам возможности потоковой передачи звука для получения доступа к аудиопотокам в режиме реального времени для записи, анализа и обработки звукового содержимого во время активных вызовов. В современном мире использование аудио и видео широко распространено, это содержимое может быть в виде онлайн-собраний, онлайн-конференций, поддержки клиентов и т. д. Благодаря доступу к потоковой передаче аудио разработчики теперь могут создавать серверные приложения для записи и анализа аудиопотоков для каждого участника звонка в режиме реального времени. Разработчики также могут объединять потоковую передачу звука с другими действиями автоматизации вызовов или использовать собственные модели ИИ для анализа звуковых потоков. Варианты использования включают NLP для анализа бесед или предоставления аналитических сведений в режиме реального времени и предложений агентов во время активного взаимодействия с конечными пользователями.
Эта общедоступная предварительная версия поддерживает возможность для разработчиков получать доступ к потокам звука в режиме реального времени через WebSocket для анализа звука вызова в смешанных и несмешанных форматах.
Распространенные варианты использования
Аудиопотоки можно использовать различными способами. Ниже приведены некоторые примеры того, как разработчики могут использовать аудиопотоки в своих приложениях:
Помощь в режиме реального времени
Улучшенные предложения по искусственному интеллекту . Используйте потоки звука в режиме реального времени для активного взаимодействия между агентами и клиентами, чтобы оценить намерение вызова и как ваши агенты могут обеспечить лучший опыт для своего клиента с помощью активных предложений с помощью собственной модели искусственного интеллекта для анализа вызова.
Проверка подлинности
Биометрическая проверка подлинности— используйте аудиопотоки для выполнения голосовой проверки подлинности , запустив звук из звонка с помощью подсистемы распознавания голоса или средства сопоставления.
Пример архитектуры для подписки на аудиопотоки из текущего вызова — сценарий динамического агента
Поддерживаемые форматы
Смешанный формат
Содержит смешанный звук всех участников звонка. Все звуки плоские в один поток.
Несмешанный
Содержит звук на каждого участника на канал с поддержкой до четырех каналов для четырех наиболее доминирующих динамиков в любой момент звонка. Вы также получите участникRawID, который можно использовать для определения говорящего.
Дополнительная информация:
В приведенной ниже таблице описаны сведения, которые помогут разработчикам преобразовать звуковые пакеты в звуковое содержимое, которое может использоваться их приложениями.
- Частота кадров: 50 кадров в секунду
- Скорость потока пакетов: 20 мс
- Пакет данных: 64 кб
- Аудиометрика: 16-разрядная моно PCM в 16000 гц
- Общедоступные строковые данные — это строка base64, которая должна быть преобразована в массив байтов для создания необработанного PCM-файла.\
Выставление счетов
Сведения о выставлении счетов за потоковую передачу звука см. на странице цен на Службы коммуникации Azure. Цены можно найти в категории звонков в разделе потоковой передачи звука.
Next Steps
Ознакомьтесь с кратким руководством по потоковой передаче аудио, чтобы узнать больше.