Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Что такое API "Voice live" (голосового общения)?
Голосовое live API — это решение, позволяющее обеспечить низкую задержку и высококачественную речь для голосовых взаимодействий с использование голосовых агентов. API предназначен для разработчиков, ищущих масштабируемые и эффективные возможности на основе голоса, так как это устраняет необходимость вручную оркестрировать несколько компонентов. Интеграция распознавания речи, генеративного искусственного интеллекта и преобразования текста в речь в единый унифицированный интерфейс предоставляет комплексное решение для создания бесшовного опыта.
Общие сведения о распознавании речи в речевых интерфейсах
Технология распознавания речи революционизирует взаимодействие людей с системами, предлагая интуитивно понятные решения на основе голоса. Традиционные реализации предполагали объединение разрозненных модулей, таких как преобразование речи в текст, управление диалогами, преобразование текста в речь и многое другое. Последовательность процессов может привести к увеличению инженерной сложности и ощущаемой задержке конечным пользователем.
Благодаря усовершенствованиям в крупных языковых моделях (LLM) и многомодальном ИИ api голосовой трансляции объединяет эти функции, упрощая рабочие процессы для разработчиков. Этот подход повышает взаимодействие в режиме реального времени и обеспечивает высококачественное, естественное взаимодействие, что делает его подходящим для отраслей, требующих мгновенных решений с поддержкой голоса.
Ключевые сценарии динамического API голосовой связи
API для работы с речью в реальном времени Azure идеально подходит для сценариев, где голосовые взаимодействия обеспечивают лучший опыт для пользователя. Вот некоторые примеры.
- Центры контактов: разработка интерактивных голосовых ботов для поддержки клиентов, навигации по каталогу продуктов и решений самообслуживания.
- Автомобильные помощники: активируйте голосовые помощники для работы без рук в автомобиле, выполняйте команды, навигацию и отвечайте на различные вопросы.
- Образование: создание компаньонов обучения с поддержкой голоса и виртуальных преподавателей для интерактивного обучения и образования.
- Государственные службы: создание голосовых агентов для оказания помощи гражданам с административными запросами и информацией о общедоступной службе.
- Кадровые ресурсы. Улучшение процессов управления персоналом с поддержкой голосовых средств для поддержки сотрудников, развития карьеры и обучения.
Функции динамического API голосовой связи
API трансляции голосовой связи включает полный набор функций для поддержки различных вариантов использования и обеспечения более высокого взаимодействия с голосовой связью:
- Широкий охват локалей: поддерживает более 140 локалей для преобразования речи в текст и предлагает более 600 стандартных голосов для преобразования текста в речь в более чем 150 локалях, обеспечивая глобальную доступность.
- Настраиваемые входные и выходные данные: используйте список фраз для облегченной just-in-time настройки аудиовходов или пользовательские модели речи для расширенной настройки распознавания речи. Используйте настраиваемый голос для создания уникальных, согласованных с брендом голосов для аудиовывода. Дополнительные сведения см. в статье "Настройка голосовых входных и выходных данных ".
- Гибкие варианты модели создания ИИ: выберите из нескольких моделей, включая GPT-5, GPT-4.1, GPT-4o, Phi и более адаптированные к требованиям к беседе.
-
Расширенные возможности общения:
- Подавление шума: уменьшает экологический шум для более четкого взаимодействия.
- Отмена эха: запрещает агенту собирать собственные ответы.
- Надежное обнаружение прерываний. Обеспечивает точное распознавание прерываний во время бесед.
- Расширенное обнаружение конца очереди: допускает естественные паузы без преждевременного завершения взаимодействия.
- Интеграция аватара: предоставляет стандартные или настраиваемые аватары, синхронизированные с звуковыми выходными данными, предлагая визуальное удостоверение для голосовых агентов.
- Вызов функции: включает внешние действия, использование инструментов и обоснованные ответы с помощью шаблона VoiceRAG.
Принцип работы
API голосовой связи в реальном времени полностью управляется, устраняя необходимость для клиентов управлять серверной оркестрацией или интеграцией компонентов. Разработчики предоставляют аудиовход и получают аудиовыход, визуализацию аватара и триггеры действий — все с минимальной задержкой. Вам не нужно развертывать или управлять моделями создания искусственного интеллекта, так как API обрабатывает базовую инфраструктуру.
Проектирование и совместимость API
API потоковой голосовой связи предназначен для обеспечения совместимости с API Azure OpenAI в реальном времени. Поддерживаемые события в режиме реального времени в основном соответствуют событиям API Azure OpenAI Realtime, за некоторыми исключениями, как описано в руководстве по Voice live API.
Функции, уникальные для API голосовой связи в реальном времени, являются необязательными и могут быть добавлены. Вы можете добавить возможности Azure Speech в основные инструменты Foundry, такие как подавление шума, подавление эха и расширенное определение окончания разговора, к вашим существующим приложениям без необходимости изменять существующую архитектуру.
API поддерживается с помощью событий WebSocket, что позволяет легко интегрировать между серверами. Серверная или служба среднего уровня подключается к динамическому API голосовой связи через WebSockets. Сообщения WebSocket можно использовать непосредственно для взаимодействия с API.
Поддерживаемые модели и регионы
Чтобы обеспечить интеллект голосового агента, у вас есть гибкость и выбор в модели создания ИИ между GPT-Realtime, GPT-5, GPT-4.1, Phi и другими вариантами. Различные модели генерирования ИИ предоставляют различные типы возможностей, уровней интеллекта, скорости и задержки вывода и затрат. В зависимости от того, что наиболее важно для вашего бизнеса и варианта использования, можно выбрать модель, которая лучше всего подходит для ваших потребностей.
Все изначально поддерживаемые модели полностью управляются, то есть вам не нужно развёртывать модели, беспокоиться о планировании емкости или обеспечении пропускной способности. Вы можете использовать нужную модель, а API голосовой трансляции заботится об остальных.
Голосовой API в реальном времени поддерживает следующие модели. Поддерживаемые регионы см. в регионах службы "Речь Azure".
| Модель | Описание |
|---|---|
gpt-realtime |
GPT в режиме реального времени + возможность использовать функции преобразования текста в речь Azure, включая возможность создания пользовательских голосов для аудио. |
gpt-realtime-mini |
GPT mini в режиме реального времени + возможность использовать синтез речи Azure, включая пользовательский голос для аудио. |
gpt-4o |
GPT-4o + звуковой ввод через преобразование речи в текст Azure и аудиовывод через преобразование текста в речь Azure, включая пользовательский голос. |
gpt-4o-mini |
GPT-4o mini + звуковой вход с помощью технологии преобразования речи в текст Azure + звуковой выход с помощью голосов Azure для преобразования текста в речь, включая пользовательский голос. |
gpt-4.1 |
GPT-4.1 + входные аудиоданные с помощью технологии речи Azure в текст и аудиовыход с помощью голосов Azure для преобразования текста в речь, включая индивидуальный голос. |
gpt-4.1-mini |
GPT-4.1 mini + аудиовход через функцию речи в текст от Azure и аудиовыход через функцию текста в речь от Azure, включая возможность использования пользовательского голоса. |
gpt-5 |
GPT-5 + звуковые входные данные через Azure для преобразования речи в текст и аудиовывод через Azure для преобразования текста в речь, включая пользовательские голоса. |
gpt-5-mini |
GPT-5 mini + аудиовход через преобразование речи в текст Azure и аудиовыход через преобразование текста в речь Azure, включая пользовательский голос. |
gpt-5-nano |
GPT-5 nano + аудио ввод через Azure Speech-to-Text + аудио вывод через Azure Text-to-Speech, включая пользовательский голос. |
gpt-5-chat |
GPT-5 чат с аудио вводом через Azure speech to text и аудио выводом через Azure text to speech, включая Custom Voice. |
phi4-mm-realtime |
Phi4-mm + звуковой вывод с использованием голосов Azure для преобразования текста в речь, включая пользовательский голос. |
phi4-mini |
Phi4-mm + звуковые входные данные посредством преобразования речи в текст с помощью сервиса Azure и аудио выход посредством преобразования текста в речь с использованием Azure, включая пользовательский голос. |
Сравнение API трансляции голосовой связи с другими решениями для распознавания речи
Динамический API голосовой связи — это альтернатива оркестрации нескольких компонентов, таких как распознавание речи, создание ИИ и текст для речи. Эта оркестрация может быть сложной и потребляющей много времени, требуя значительных усилий по проектированию для интеграции и обслуживания. Динамический API голосовой связи упрощает этот процесс, предоставляя единый интерфейс для всех этих компонентов, позволяя разработчикам сосредоточиться на создании приложений, а не управлении базовой инфраструктурой.
Для удовлетворения ваших требований можно создать собственное решение или использовать динамический API голосовой связи. В этой таблице сравниваются подходы:
| Требование к заявке | Самостоятельно | API трансляции голосовой связи |
|---|---|---|
| Широкое географическое покрытие с высокой точностью (входной звук) | ✅ | ✅ |
| Поддержание фирменного стиля и характера (аудио) | ✅ | ✅ |
| Улучшения беседы | ❌ | ✅ |
| Выбор моделей создания искусственного интеллекта | ✅ | ✅ |
| Визуальный выход с аватаром синтеза речи | ✅ | ✅ |
| Низкая стоимость проектирования | ❌ | ✅ |
| Низкая задержка, воспринимаемая конечным пользователем | ❌ | ✅ |
Ценообразование
Цены на API голосовой трансляции действуют с 1 июля 2025 г.
Цены на динамический API голосовой связи многоуровневы (Pro, Basic и Lite) на основе используемой модели создания искусственного интеллекта.
Вы не выбираете уровень. Вы выбираете модель создания ИИ и применяется соответствующая цена.
| Категория цен | Модели |
|---|---|
| Voice Live Pro |
gpt-realtime, gpt-4o, , gpt-4.1, gpt-5gpt-5-chat |
| Базовая версия функции Voice Live |
gpt-realtime-mini
gpt-4o-mini
gpt-4.1-mini
gpt-5-mini
|
| Голосовая трансляция lite |
gpt-5-nano,phi4-mm-realtime, phi4-mini |
Если вы решили использовать настраиваемую речь, пользовательский голос или настраиваемый аватар для ввода речи и (или) выходных данных, плата взимается отдельно за обучение и размещение моделей. См. подробности в ценообразовании на услуги речевых технологий.
Это важно
Пользовательский доступ к голосовой связи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.
Это важно
Доступ к пользовательскому тексту для аватара речи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.
Примеры сценариев ценообразования
Ниже приведены некоторые примеры сценариев ценообразования, которые помогут понять, каким образом осуществляется начисление платы за Voice API в реальном времени.
Сценарий 1
Агент службы поддержки клиентов, созданный с использованием стандартных входов речи Azure, GPT-4.1, пользовательских выходов речи Azure и индивидуализированного аватара.
Плата взимается по тарифу Voice Live Pro за:
- Текст
- Аудио с Azure Speech — стандартное
- Звук с речью Azure — настраиваемый
Плата взимается отдельно за обучение и размещение моделей:
- Настраиваемый голос — профессиональный
- Настраиваемый аватар
Сценарий 2
Учебный агент, созданный с gpt-realtime собственным звуковым вводом и стандартным выводом Azure Speech.
Плата взимается по тарифу Voice Live Pro за:
- Текст
- Собственный звук с
gpt-realtime - Звук с речью Azure — стандартный
Сценарий 3
Агент для проведения собеседований с талантами, созданный с помощью нативного звукового ввода, а также стандартного выхода "Azure Speech" и стандартного аватара.
Вы оплачиваете услуги голосовой связи по базовому тарифу за:
- Текст
- Собственный звук с
gpt-realtime-mini - Аудио с использованием Azure Speech — стандартный
Плата взимается отдельно за:
- Аватар преобразования текста в речь (стандартный)
Сценарий 4
Автомобильный помощник, созданный с phi4-mm-realtime и на базе пользовательских голосовых возможностей Azure.
Плата взимается по тарифу live lite голосовой связи за:
- Текст
- Собственный звук с
phi4-mm-realtime
Плата взимается по тарифу Voice Live Pro за:
- Звук с речью Azure — настраиваемый
Плата взимается отдельно за обучение и размещение моделей:
- Настраиваемый голос — профессиональный
Оценка использования токенов и затрат
Токены — это единицы, которые используют генеративные модели искусственного интеллекта для обработки входных данных и генерации выходных данных.
Вы можете оценить использование маркеров для разных семейств моделей с помощью API голосовой трансляции на основе длины звука. Следующие вычисления маркеров применяются к каждому семейству моделей:
| Семейство моделей | Входной звук (токены в секунду) | Выходной звук (токены в секунду) |
|---|---|---|
| Модели Azure OpenAI | ~10 токенов | ~20 маркеров |
| Модели Phi | ~12.5 токенов | ~20 маркеров |
Также взимается плата за кэшированные звуковые и текстовые входные данные, включая запрос и контекст бесед.
Связанный контент
- Дополнительные сведения об использовании API голосовой трансляции
- Быстрый старт с Voice live API
- См. справочник по API трансляции голосовой связи