API GPT-4o Realtime для речи и звука (предварительная версия)

Статья
10/31/2024

API Azure OpenAI GPT-4o Realtime для распознавания речи и звука является частью семейства моделей GPT-4o, которая поддерживает низкой задержки, "речь в речи" диалоговых взаимодействий. API звука realtime GPT-4o предназначен для обработки взаимодействий в режиме реального времени, низкой задержки общения, что делает его отличным для вариантов использования с участием динамического взаимодействия между пользователем и моделью, такими как агенты поддержки клиентов, голосовые помощники и переводчики в режиме реального времени.

Большинство пользователей API Реального времени должны доставлять и получать звук от конечного пользователя в режиме реального времени, включая приложения, использующие WebRTC или телефонную систему. API Реального времени не предназначен для прямого подключения к устройствам конечных пользователей и зависит от интеграции клиента для прекращения аудиопотоков конечных пользователей.

Поддерживаемые модели

В настоящее время доступна только gpt-4o-realtime-preview версия: 2024-10-01-preview поддерживает звук в режиме реального времени.

Модель gpt-4o-realtime-preview доступна для глобальных развертываний в регионах "Восточная часть США 2" и "Центральная Швеция".

Внимание

Система сохраняет запросы и завершения, как описано в разделе "Использование и доступ к данным для мониторинга злоупотреблений" условий использования и доступа к конкретным продуктам для службы OpenAI, за исключением того, что ограниченное исключение не применяется. Мониторинг злоупотреблений gpt-4o-realtime-preview будет включен для использования API даже для клиентов, которые в противном случае утверждены для измененного мониторинга злоупотреблений.

поддержка API

Поддержка API в режиме реального времени была добавлена в версию 2024-10-01-previewAPI.

Примечание.

Дополнительные сведения об API и архитектуре см. в репозитории аудиофайлов Azure OpenAI GPT-4o в режиме реального времени на GitHub.

Необходимые компоненты

Подписка Azure — создайте бесплатную учетную запись.
Ресурс Azure OpenAI, созданный в поддерживаемом регионе. Дополнительные сведения см. в статье "Создание ресурса" и развертывание модели с помощью Azure OpenAI.

Развертывание модели для звука в режиме реального времени

Прежде чем использовать звук GPT-4o в режиме реального gpt-4o-realtime-preview времени, вам потребуется развертывание модели в поддерживаемом регионе, как описано в разделе поддерживаемых моделей .

Перейдите на домашнюю страницу AI Studio и убедитесь, что вы вошли в подписку Azure с ресурсом Службы Azure OpenAI (с развертываниями моделей или без нее).
Выберите звуковую площадку в режиме реального времени в разделе "Ресурс" на левой панели.
Нажмите кнопку "+ Создать развертывание ", чтобы открыть окно развертывания.
Найдите и выберите gpt-4o-realtime-preview модель, а затем нажмите кнопку "Подтвердить".
В мастере развертывания обязательно выберите версию 2024-10-01 модели.
Следуйте инструкциям мастера, чтобы развернуть модель.

Теперь, когда у вас есть развертывание модели, вы можете взаимодействовать с ней в режиме реального времени в режиме реального gpt-4o-realtime-preview времени на звуковой площадке ИИ Studio или API Реального времени.

Использование звука GPT-4o в режиме реального времени

Совет

Сейчас самый быстрый способ начать разработку с помощью API GPT-4o Realtime — скачать пример кода из репозитория аудиофайлов Azure OpenAI GPT-4o в режиме реального времени на GitHub.

Чтобы общаться с развернутой gpt-4o-realtime-preview моделью на звуковой площадке Azure AI Studio в режиме реального времени , выполните следующие действия.

страница Службы Azure OpenAI в AI Studio. Убедитесь, что вы вошли в подписку Azure с ресурсом Azure OpenAI Service и развернутой gpt-4o-realtime-preview моделью.
Выберите звуковую площадку в режиме реального времени в разделе "Ресурс" на левой панели.
Выберите развернутую gpt-4o-realtime-preview модель в раскрывающемся списке развертывания .
Выберите "Включить микрофон" , чтобы разрешить браузеру доступ к микрофону. Если вы уже предоставили разрешение, этот шаг можно пропустить.
При необходимости можно изменить содержимое в текстовом поле "Дать инструкции модели" и текстовое поле контекста . Дайте модели инструкции о том, как он должен вести себя и какой-либо контекст, на который он должен ссылаться при создании ответа. Вы можете описать личность помощника, указать ему, что он должен и не должен отвечать, и сообщить о том, как форматировать ответы.
При необходимости измените параметры, такие как пороговое значение, заполнение префикса и длительность молчания.
Нажмите кнопку "Начать прослушивание" , чтобы начать сеанс. Вы можете поговорить с микрофоном, чтобы начать чат.
Вы можете прервать чат в любое время, выступая. Вы можете завершить чат, нажав кнопку "Остановить прослушивание ".

В веб-примере JavaScript показано, как использовать API GPT-4o Realtime для взаимодействия с моделью в режиме реального времени. Пример кода включает простой веб-интерфейс, который записывает звук с микрофона пользователя и отправляет его в модель для обработки. Модель реагирует на текст и звук, отрисовывая пример кода в веб-интерфейсе.

Пример кода можно запустить локально на компьютере, выполнив следующие действия. Дополнительные сведения см. в репозитории на сайте GitHub .

Если вы не установили Node.js, скачайте и установите версию LTS Node.js.
Клонируйте репозиторий на локальный компьютер:
```
git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
```
Перейдите в папку javascript/samples/web в предпочитаемом редакторе кода.
```
cd ./javascript/samples
```
Запустите download-pkg.ps1 или download-pkg.sh скачайте необходимые пакеты.
Перейдите в папку web ./javascript/samples из папки.
```
cd ./web
```
Запустите npm install , чтобы установить зависимости пакета.
Запустите npm run dev , чтобы запустить веб-сервер, перейдя по мере необходимости на все запросы разрешений брандмауэра.
Перейдите к любому из предоставленных URI из выходных данных консоли (например http://localhost:5173/, в браузере).
Введите следующие сведения в веб-интерфейсе:
- Конечная точка: конечная точка ресурса Azure OpenAI. Не нужно добавлять /realtime путь. Примером может быть https://my-azure-openai-resource-from-portal.openai.azure.comструктура.
- Ключ API: соответствующий ключ API для ресурса Azure OpenAI.
- Развертывание: имя gpt-4o-realtime-preview модели, развернутой в предыдущем разделе.
- Системное сообщение: при необходимости можно предоставить системное сообщение, например "Вы всегда разговариваете как дружественный пират".
- Температура: при необходимости можно предоставить пользовательскую температуру.
- Голосовая связь. При необходимости можно выбрать голос.
Нажмите кнопку "Запись", чтобы запустить сеанс. При появлении запроса примите разрешения на использование микрофона.
Вы увидите << Session Started >> сообщение в главном выходных данных. Затем вы можете поговорить с микрофоном, чтобы начать чат.
Вы можете прервать чат в любое время, выступая. Вы можете завершить чат, нажав кнопку "Остановить ".

Дополнительные сведения о типах развертывания Azure OpenAI
Дополнительные сведения о квотах и ограничениях Azure OpenAI

Поделиться через

API GPT-4o Realtime для речи и звука (предварительная версия)

Поддерживаемые модели

поддержка API

Необходимые компоненты

Развертывание модели для звука в режиме реального времени

Использование звука GPT-4o в режиме реального времени

Обратная связь

Дополнительные ресурсы

Поделиться через

API GPT-4o Realtime для речи и звука (предварительная версия)

Поддерживаемые модели

поддержка API

Необходимые компоненты

Развертывание модели для звука в режиме реального времени

Использование звука GPT-4o в режиме реального времени

Связанный контент

Обратная связь

Дополнительные ресурсы