Поделиться через


API голосового взаимодействия в реальном времени для голосовых агентов

Что такое API "Voice live" (голосового общения)?

Голосовое live API — это решение, позволяющее обеспечить низкую задержку и высококачественную речь для голосовых взаимодействий с использование голосовых агентов. API предназначен для разработчиков, ищущих масштабируемые и эффективные возможности на основе голоса, так как это устраняет необходимость вручную оркестрировать несколько компонентов. Интеграция распознавания речи, генеративного искусственного интеллекта и преобразования текста в речь в единый унифицированный интерфейс предоставляет комплексное решение для создания бесшовного опыта.

Общие сведения о распознавании речи в речевых интерфейсах

Технология распознавания речи революционизирует взаимодействие людей с системами, предлагая интуитивно понятные решения на основе голоса. Традиционные реализации предполагали объединение разрозненных модулей, таких как преобразование речи в текст, управление диалогами, преобразование текста в речь и многое другое. Последовательность процессов может привести к увеличению инженерной сложности и ощущаемой задержке конечным пользователем.

Благодаря усовершенствованиям в крупных языковых моделях (LLM) и многомодальном ИИ api голосовой трансляции объединяет эти функции, упрощая рабочие процессы для разработчиков. Этот подход повышает взаимодействие в режиме реального времени и обеспечивает высококачественное, естественное взаимодействие, что делает его подходящим для отраслей, требующих мгновенных решений с поддержкой голоса.

Ключевые сценарии динамического API голосовой связи

API для работы с речью в реальном времени Azure идеально подходит для сценариев, где голосовые взаимодействия обеспечивают лучший опыт для пользователя. Вот некоторые примеры.

  • Центры контактов: разработка интерактивных голосовых ботов для поддержки клиентов, навигации по каталогу продуктов и решений самообслуживания.
  • Автомобильные помощники: активируйте голосовые помощники для работы без рук в автомобиле, выполняйте команды, навигацию и отвечайте на различные вопросы.
  • Образование: создание компаньонов обучения с поддержкой голоса и виртуальных преподавателей для интерактивного обучения и образования.
  • Государственные службы: создание голосовых агентов для оказания помощи гражданам с административными запросами и информацией о общедоступной службе.
  • Кадровые ресурсы. Улучшение процессов управления персоналом с поддержкой голосовых средств для поддержки сотрудников, развития карьеры и обучения.

Функции динамического API голосовой связи

API трансляции голосовой связи включает полный набор функций для поддержки различных вариантов использования и обеспечения более высокого взаимодействия с голосовой связью:

  • Широкий охват локалей: поддерживает более 140 локалей для преобразования речи в текст и предлагает более 600 стандартных голосов для преобразования текста в речь в более чем 150 локалях, обеспечивая глобальную доступность.
  • Настраиваемые входные и выходные данные: используйте список фраз для облегченной just-in-time настройки аудиовходов или пользовательские модели речи для расширенной настройки распознавания речи. Используйте настраиваемый голос для создания уникальных, согласованных с брендом голосов для аудиовывода. Дополнительные сведения см. в статье "Настройка голосовых входных и выходных данных ".
  • Гибкие варианты модели создания ИИ: выберите из нескольких моделей, включая GPT-5, GPT-4.1, GPT-4o, Phi и более адаптированные к требованиям к беседе.
  • Расширенные возможности общения:
    • Подавление шума: уменьшает экологический шум для более четкого взаимодействия.
    • Отмена эха: запрещает агенту собирать собственные ответы.
    • Надежное обнаружение прерываний. Обеспечивает точное распознавание прерываний во время бесед.
    • Расширенное обнаружение конца очереди: допускает естественные паузы без преждевременного завершения взаимодействия.
  • Интеграция аватара: предоставляет стандартные или настраиваемые аватары, синхронизированные с звуковыми выходными данными, предлагая визуальное удостоверение для голосовых агентов.
  • Вызов функции: включает внешние действия, использование инструментов и обоснованные ответы с помощью шаблона VoiceRAG.

Принцип работы

API голосовой связи в реальном времени полностью управляется, устраняя необходимость для клиентов управлять серверной оркестрацией или интеграцией компонентов. Разработчики предоставляют аудиовход и получают аудиовыход, визуализацию аватара и триггеры действий — все с минимальной задержкой. Вам не нужно развертывать или управлять моделями создания искусственного интеллекта, так как API обрабатывает базовую инфраструктуру.

Проектирование и совместимость API

API потоковой голосовой связи предназначен для обеспечения совместимости с API Azure OpenAI в реальном времени. Поддерживаемые события в режиме реального времени в основном соответствуют событиям API Azure OpenAI Realtime, за некоторыми исключениями, как описано в руководстве по Voice live API.

Функции, уникальные для API голосовой связи в реальном времени, являются необязательными и могут быть добавлены. Вы можете добавить возможности Azure Speech в основные инструменты Foundry, такие как подавление шума, подавление эха и расширенное определение окончания разговора, к вашим существующим приложениям без необходимости изменять существующую архитектуру.

API поддерживается с помощью событий WebSocket, что позволяет легко интегрировать между серверами. Серверная или служба среднего уровня подключается к динамическому API голосовой связи через WebSockets. Сообщения WebSocket можно использовать непосредственно для взаимодействия с API.

Поддерживаемые модели и регионы

Чтобы обеспечить интеллект голосового агента, у вас есть гибкость и выбор в модели создания ИИ между GPT-Realtime, GPT-5, GPT-4.1, Phi и другими вариантами. Различные модели генерирования ИИ предоставляют различные типы возможностей, уровней интеллекта, скорости и задержки вывода и затрат. В зависимости от того, что наиболее важно для вашего бизнеса и варианта использования, можно выбрать модель, которая лучше всего подходит для ваших потребностей.

Все изначально поддерживаемые модели полностью управляются, то есть вам не нужно развёртывать модели, беспокоиться о планировании емкости или обеспечении пропускной способности. Вы можете использовать нужную модель, а API голосовой трансляции заботится об остальных.

Голосовой API в реальном времени поддерживает следующие модели. Поддерживаемые регионы см. в регионах службы "Речь Azure".

Модель Описание
gpt-realtime GPT в режиме реального времени + возможность использовать функции преобразования текста в речь Azure, включая возможность создания пользовательских голосов для аудио.
gpt-realtime-mini GPT mini в режиме реального времени + возможность использовать синтез речи Azure, включая пользовательский голос для аудио.
gpt-4o GPT-4o + звуковой ввод через преобразование речи в текст Azure и аудиовывод через преобразование текста в речь Azure, включая пользовательский голос.
gpt-4o-mini GPT-4o mini + звуковой вход с помощью технологии преобразования речи в текст Azure + звуковой выход с помощью голосов Azure для преобразования текста в речь, включая пользовательский голос.
gpt-4.1 GPT-4.1 + входные аудиоданные с помощью технологии речи Azure в текст и аудиовыход с помощью голосов Azure для преобразования текста в речь, включая индивидуальный голос.
gpt-4.1-mini GPT-4.1 mini + аудиовход через функцию речи в текст от Azure и аудиовыход через функцию текста в речь от Azure, включая возможность использования пользовательского голоса.
gpt-5 GPT-5 + звуковые входные данные через Azure для преобразования речи в текст и аудиовывод через Azure для преобразования текста в речь, включая пользовательские голоса.
gpt-5-mini GPT-5 mini + аудиовход через преобразование речи в текст Azure и аудиовыход через преобразование текста в речь Azure, включая пользовательский голос.
gpt-5-nano GPT-5 nano + аудио ввод через Azure Speech-to-Text + аудио вывод через Azure Text-to-Speech, включая пользовательский голос.
gpt-5-chat GPT-5 чат с аудио вводом через Azure speech to text и аудио выводом через Azure text to speech, включая Custom Voice.
phi4-mm-realtime Phi4-mm + звуковой вывод с использованием голосов Azure для преобразования текста в речь, включая пользовательский голос.
phi4-mini Phi4-mm + звуковые входные данные посредством преобразования речи в текст с помощью сервиса Azure и аудио выход посредством преобразования текста в речь с использованием Azure, включая пользовательский голос.

Сравнение API трансляции голосовой связи с другими решениями для распознавания речи

Динамический API голосовой связи — это альтернатива оркестрации нескольких компонентов, таких как распознавание речи, создание ИИ и текст для речи. Эта оркестрация может быть сложной и потребляющей много времени, требуя значительных усилий по проектированию для интеграции и обслуживания. Динамический API голосовой связи упрощает этот процесс, предоставляя единый интерфейс для всех этих компонентов, позволяя разработчикам сосредоточиться на создании приложений, а не управлении базовой инфраструктурой.

Для удовлетворения ваших требований можно создать собственное решение или использовать динамический API голосовой связи. В этой таблице сравниваются подходы:

Требование к заявке Самостоятельно API трансляции голосовой связи
Широкое географическое покрытие с высокой точностью (входной звук)
Поддержание фирменного стиля и характера (аудио)
Улучшения беседы
Выбор моделей создания искусственного интеллекта
Визуальный выход с аватаром синтеза речи
Низкая стоимость проектирования
Низкая задержка, воспринимаемая конечным пользователем

Ценообразование

Цены на API голосовой трансляции действуют с 1 июля 2025 г.

Цены на динамический API голосовой связи многоуровневы (Pro, Basic и Lite) на основе используемой модели создания искусственного интеллекта.

Вы не выбираете уровень. Вы выбираете модель создания ИИ и применяется соответствующая цена.

Категория цен Модели
Voice Live Pro gpt-realtime, gpt-4o, , gpt-4.1, gpt-5gpt-5-chat
Базовая версия функции Voice Live gpt-realtime-mini gpt-4o-mini gpt-4.1-mini gpt-5-mini
Голосовая трансляция lite gpt-5-nano,phi4-mm-realtime, phi4-mini

Если вы решили использовать настраиваемую речь, пользовательский голос или настраиваемый аватар для ввода речи и (или) выходных данных, плата взимается отдельно за обучение и размещение моделей. См. подробности в ценообразовании на услуги речевых технологий.

Это важно

Пользовательский доступ к голосовой связи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.

Это важно

Доступ к пользовательскому тексту для аватара речи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.

Примеры сценариев ценообразования

Ниже приведены некоторые примеры сценариев ценообразования, которые помогут понять, каким образом осуществляется начисление платы за Voice API в реальном времени.

Сценарий 1

Агент службы поддержки клиентов, созданный с использованием стандартных входов речи Azure, GPT-4.1, пользовательских выходов речи Azure и индивидуализированного аватара.

Плата взимается по тарифу Voice Live Pro за:

  • Текст
  • Аудио с Azure Speech — стандартное
  • Звук с речью Azure — настраиваемый

Плата взимается отдельно за обучение и размещение моделей:

  • Настраиваемый голос — профессиональный
  • Настраиваемый аватар

Сценарий 2

Учебный агент, созданный с gpt-realtime собственным звуковым вводом и стандартным выводом Azure Speech.

Плата взимается по тарифу Voice Live Pro за:

  • Текст
  • Собственный звук с gpt-realtime
  • Звук с речью Azure — стандартный

Сценарий 3

Агент для проведения собеседований с талантами, созданный с помощью нативного звукового ввода, а также стандартного выхода "Azure Speech" и стандартного аватара.

Вы оплачиваете услуги голосовой связи по базовому тарифу за:

  • Текст
  • Собственный звук с gpt-realtime-mini
  • Аудио с использованием Azure Speech — стандартный

Плата взимается отдельно за:

  • Аватар преобразования текста в речь (стандартный)

Сценарий 4

Автомобильный помощник, созданный с phi4-mm-realtime и на базе пользовательских голосовых возможностей Azure.

Плата взимается по тарифу live lite голосовой связи за:

  • Текст
  • Собственный звук с phi4-mm-realtime

Плата взимается по тарифу Voice Live Pro за:

  • Звук с речью Azure — настраиваемый

Плата взимается отдельно за обучение и размещение моделей:

  • Настраиваемый голос — профессиональный

Оценка использования токенов и затрат

Токены — это единицы, которые используют генеративные модели искусственного интеллекта для обработки входных данных и генерации выходных данных. 

Вы можете оценить использование маркеров для разных семейств моделей с помощью API голосовой трансляции на основе длины звука. Следующие вычисления маркеров применяются к каждому семейству моделей:

Семейство моделей Входной звук (токены в секунду) Выходной звук (токены в секунду)
Модели Azure OpenAI ~10 токенов ~20 маркеров
Модели Phi ~12.5 токенов ~20 маркеров

Также взимается плата за кэшированные звуковые и текстовые входные данные, включая запрос и контекст бесед.