Поделиться через


API голосовой трансляции для агентов голосовой связи в режиме реального времени

Что такое API голосовой трансляции?

API Voice Live — это решение, которое обеспечивает взаимодействие с низкой задержкой и высоким качеством преобразования речи в речь для голосовых агентов. API предназначен для разработчиков, ищущих масштабируемые и эффективные возможности на основе голоса, так как это устраняет необходимость вручную оркестрировать несколько компонентов. Интеграция функций распознавания речи, генеративного ИИ и преобразования текста в речь в единый унифицированный интерфейс обеспечивает комплексное решение для создания бесшовных впечатлений.

API Голосовой трансляции полностью управляется, поэтому не требуется обрабатывать серверную оркестрацию или интеграцию компонентов. Разработчики предоставляют аудиовход и получают аудиовыход, визуализацию аватара и триггеры действий — все с минимальной задержкой. Вам не нужно развертывать или управлять моделями создания искусственного интеллекта, так как API обрабатывает базовую инфраструктуру.

Понимание процессов преобразования речи в речь

Технология преобразования речи в речь революционизирует взаимодействие людей с системами, предлагая интуитивные решения на основе голосового взаимодействия. Традиционные реализации включали в себя объединение разрозненных модулей, таких как перевод речи в текст, управление диалогами, синтез текста в речь и другие. Последовательность процессов может привести к увеличению инженерной сложности и ощущаемой задержке конечным пользователем.

Благодаря усовершенствованиям в крупных языковых моделях (LLM) и мультимодальном ИИ API голосовой трансляции объединяет эти функции, упрощая рабочие процессы для разработчиков. Этот подход повышает взаимодействие в режиме реального времени и обеспечивает высококачественное, естественное взаимодействие, что делает его подходящим для отраслей, требующих мгновенных решений с поддержкой голоса.

Ключевые сценарии для API голосовой трансляции

API Голосовой трансляции Azure идеально подходит для сценариев, когда взаимодействие на основе голоса улучшает взаимодействие с пользователем. Вот некоторые примеры.

  • Центры контактов: разработка интерактивных голосовых ботов для поддержки клиентов, навигации по каталогу продуктов и решений самообслуживания.
  • Автомобильные помощники: активируйте голосовые помощники для работы без рук в автомобиле, выполняйте команды, навигацию и отвечайте на различные вопросы.
  • Образование: создание компаньонов обучения с поддержкой голоса и виртуальных преподавателей для интерактивного обучения и образования.
  • Государственные службы: создание голосовых агентов для оказания помощи гражданам с административными запросами и информацией о общедоступной службе.
  • Кадровые ресурсы. Улучшение процессов управления персоналом с поддержкой голосовых средств для поддержки сотрудников, развития карьеры и обучения.

Функции API голосовой трансляции

API Голосовой трансляции включает полный набор функций для поддержки различных вариантов использования и обеспечения более высокого взаимодействия с голосовой связью:

  • Широкий охват локалей: поддерживает более 140 локалей для преобразования речи в текст и предлагает более 600 стандартных голосов для преобразования текста в речь в более чем 150 локалях, обеспечивая глобальную доступность.
  • Настраиваемые входные и выходные данные: используйте список фраз для облегченной just-in-time настройки аудиовходов или пользовательские модели речи для расширенной настройки распознавания речи. Используйте настраиваемый голос для создания уникальных, согласованных с брендом голосов для аудиовывода. Дополнительные сведения см. в статье "Настройка голосовых входных и выходных данных в реальном времени ".
  • Гибкие варианты модели создания ИИ: выберите из нескольких моделей, включая GPT-5, GPT-4.1, GPT-4o, Phi и более адаптированные к требованиям к беседе.
  • Расширенные возможности общения:
    • Подавление шума: уменьшает экологический шум для более четкого взаимодействия.
    • Отмена эха: запрещает агенту собирать собственные ответы.
    • Надежное обнаружение прерываний. Обеспечивает точное распознавание прерываний во время бесед.
    • Расширенное обнаружение конца очереди: допускает естественные паузы без преждевременного завершения взаимодействия.
  • Интеграция аватара: предоставляет стандартные или настраиваемые аватары, синхронизированные с звуковыми выходными данными, предлагая визуальное удостоверение для голосовых агентов.
  • Вызов функции: включает внешние действия, использование инструментов и обоснованные ответы с помощью шаблона VoiceRAG.

Проектирование и совместимость API

API Голосовой трансляции предназначен для обеспечения совместимости с API Azure OpenAI Realtime. Поддерживаемые события в режиме реального времени в основном соответствуют событиям Azure OpenAI Realtime API, за исключением некоторых случаев, описанных в руководстве по API голосовой трансляции.

Функции, уникальные для API голосовой трансляции, являются необязательными и аддитивны. Вы можете добавить Azure Speech к возможностям средств Foundry, таким как подавление шума, подавление эха и расширенное обнаружение окончания реплики, к вашим существующим приложениям без изменения вашей текущей архитектуры.

API поддерживается с помощью событий WebSocket, что позволяет легко интегрировать между серверами. Ваше серверное или промежуточное приложение подключается к Voice Live API через WebSockets. Сообщения WebSocket можно использовать непосредственно для взаимодействия с API.

Поддерживаемые модели и регионы

Чтобы обеспечить интеллект голосового агента, у вас есть гибкость и выбор в модели создания ИИ между GPT-Realtime, GPT-5, GPT-4.1, Phi и другими вариантами. Различные модели создания ИИ предоставляют различные типы возможностей, уровни интеллекта, скорости и задержки вывода и затрат. В зависимости от того, что наиболее важно для вашего бизнеса и варианта использования, выберите модель, которая лучше всего подходит для ваших потребностей.

Все модели, поддерживаемые на уровне системы, находятся под полным управлением, поэтому вам не нужно заниматься развертыванием моделей, планированием емкости или обеспечением пропускной способности. Используйте нужную модель, а API голосовой трансляции заботится об остальных.

API голосовой трансляции поддерживает следующие модели. Поддерживаемые регионы см. в регионах службы "Речь Azure".

Модель Описание
gpt-realtime GPT в режиме реального времени + возможность использовать функции преобразования текста в речь Azure, включая возможность создания пользовательских голосов для аудио.
gpt-realtime-mini GPT mini в режиме реального времени + возможность использовать синтез речи Azure, включая пользовательский голос для аудио.
gpt-4o GPT-4o + звуковой ввод через преобразование речи в текст Azure и аудиовывод через преобразование текста в речь Azure, включая пользовательский голос.
gpt-4o-mini GPT-4o mini + звуковой вход с помощью технологии преобразования речи в текст Azure + звуковой выход с помощью голосов Azure для преобразования текста в речь, включая пользовательский голос.
gpt-4.1 GPT-4.1 + входные аудиоданные с помощью технологии речи Azure в текст и аудиовыход с помощью голосов Azure для преобразования текста в речь, включая индивидуальный голос.
gpt-4.1-mini GPT-4.1 mini + аудиовход через функцию речи в текст от Azure и аудиовыход через функцию текста в речь от Azure, включая возможность использования пользовательского голоса.
gpt-5 GPT-5 + звуковые входные данные через Azure для преобразования речи в текст и аудиовывод через Azure для преобразования текста в речь, включая пользовательские голоса.
gpt-5-mini GPT-5 mini + аудиовход через преобразование речи в текст Azure и аудиовыход через преобразование текста в речь Azure, включая пользовательский голос.
gpt-5-nano GPT-5 nano + аудио ввод через Azure Speech-to-Text + аудио вывод через Azure Text-to-Speech, включая пользовательский голос.
gpt-5-chat GPT-5 чат с аудио вводом через Azure speech to text и аудио выводом через Azure text to speech, включая Custom Voice.
phi4-mm-realtime Phi4-mm + звуковой вывод с использованием голосов Azure для преобразования текста в речь, включая пользовательский голос.
phi4-mini Phi4-mm + звуковые входные данные посредством преобразования речи в текст с помощью сервиса Azure и аудио выход посредством преобразования текста в речь с использованием Azure, включая пользовательский голос.

Сравнение API голосовой трансляции с другими решениями для распознавания речи

Voice Live API — это альтернатива оркестрации нескольких компонентов, таких как распознавание речи, генеративный ИИ и синтез речи. Эта оркестрация может быть сложной и потребляющей много времени, требуя значительных усилий по проектированию для интеграции и обслуживания. API голосовой трансляции упрощает этот процесс, предоставляя единый интерфейс для всех этих компонентов. Разработчики могут сосредоточиться на создании приложений, а не управлении базовой инфраструктурой.

Для удовлетворения ваших требований можно создать собственное решение или использовать API голосовой трансляции. В этой таблице сравниваются подходы:

Требование к заявке Самостоятельно API трансляции голосовой связи
Широкое географическое покрытие с высокой точностью (входной звук)
Поддержание фирменного стиля и характера (аудио)
Улучшения беседы
Выбор моделей создания искусственного интеллекта
Визуальный выход с аватаром синтеза речи
Низкая стоимость проектирования
Низкая задержка, воспринимаемая конечным пользователем

Ценообразование

Цены на API Voice Live вступают в силу 1 июля 2025 г.

Цены на API голосовой трансляции многоуровневы (Pro, Basic и Lite) на основе используемой модели создания искусственного интеллекта. Вы не выбираете уровень. Вы выбираете модель создания искусственного интеллекта и применяется соответствующая цена:

Категория цен Модели
Voice Live Pro gpt-realtime, gpt-4o, , gpt-4.1, gpt-5gpt-5-chat
Voice Live базовый gpt-realtime-mini gpt-4o-mini gpt-4.1-mini gpt-5-mini
Voice Live lite gpt-5-nano,phi4-mm-realtime, phi4-mini

Если вы решили использовать настраиваемую речь, пользовательский голос или настраиваемый аватар для ввода или вывода речи, плата взимается отдельно за обучение модели и размещение. См. подробности в ценообразовании на услуги речевых технологий.

Это важно

Пользовательский доступ к голосовой связи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.

Это важно

Доступ к пользовательскому тексту для аватара речи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.

Примеры сценариев ценообразования

Ниже приведены некоторые примеры сценариев ценообразования, которые помогут вам понять, как взимается плата за API голосовой трансляции:

Сценарий 1

Агент службы поддержки клиентов, созданный с использованием стандартных входов речи Azure, GPT-4.1, пользовательских выходов речи Azure и индивидуализированного аватара.

Плата взимается по тарифу Voice Live Pro за:

  • Текст
  • Аудио с Azure Speech — стандартное
  • Звук с речью Azure — настраиваемый

Плата взимается отдельно за обучение и размещение моделей:

  • Настраиваемый голос — профессиональный
  • Настраиваемый аватар

Сценарий 2

Учебный агент, созданный с gpt-realtime собственным звуковым вводом и стандартным выводом Azure Speech.

Плата взимается по тарифу Voice Live Pro за:

  • Текст
  • Собственный звук с gpt-realtime
  • Аудио с Azure Speech — стандартное

Сценарий 3

Агент для проведения собеседований с талантами, созданный с помощью нативного звукового ввода, а также стандартного выхода "Azure Speech" и стандартного аватара.

Плата взимается по базовой ставке голосовой трансляции за:

  • Текст
  • Собственный звук с gpt-realtime-mini
  • Аудио с Azure Speech — стандартное

Плата взимается отдельно за:

  • Аватар преобразования текста в речь (стандартный)

Сценарий 4

Автомобильный помощник, созданный с phi4-mm-realtime и на базе пользовательских голосовых возможностей Azure.

Плата взимается по тарифу Voice Live lite за:

  • Текст
  • Собственный звук с phi4-mm-realtime

Плата взимается по тарифу Voice Live Pro за:

  • Звук с речью Azure — настраиваемый

Плата взимается отдельно за обучение и размещение моделей:

  • Настраиваемый голос — профессиональный

Оценка использования токенов и затрат

Токены — это единицы, которые используют генеративные модели искусственного интеллекта для обработки входных данных и генерации выходных данных. 

Вы можете оценить использование токенов для различных семейств моделей с помощью Voice Live API в зависимости от длины аудио. Следующие вычисления маркеров применяются к каждому семейству моделей:

Семейство моделей Входной звук (токены в секунду) Выходной звук (токены в секунду)
Модели Azure OpenAI ~10 токенов ~20 маркеров
Модели Phi ~12.5 токенов ~20 маркеров

Также взимается плата за кэшированные звуковые и текстовые входные данные, включая запрос и контекст бесед.