Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Модель Whisper — это модель преобразования речи в текст от OpenAI, которую можно использовать для транскрибирования или перевода звуковых файлов. Модель обучена на большом наборе данных английского звука и текста.
- Модель оптимизирована для транскрибирования аудиофайлов, содержащих речь на английском языке.
- Модель также может использоваться для перевода звуковых файлов, содержащих речь на других языках. Выходные данные транскрибирования — английский текст.
Модели Whisper доступны через Azure OpenAI в Microsoft Foundry Models или через Azure Speech в Foundry Tools. Функции отличаются для этих предложений. В службе "Речь Azure" (пакетная транскрипция) Whisper — это всего лишь одна из нескольких моделей, которые можно использовать для преобразования речи в текст.
Вопрос.
Подходит ли модель Whisper для моего сценария или модель Azure Speech лучше? Каковы сравнения API между двумя типами моделей?
Если я хочу использовать модель Whisper, следует ли использовать ее с помощью Azure OpenAI или с помощью службы "Речь Azure"? Каковы сценарии, которые помогут мне использовать один или другой?
Модель Whisper или модели Azure Speech
Модели Whisper или модели Azure Speech подходят в зависимости от ваших сценариев. Если вы решите использовать службу Azure Speech, можно выбрать одну из нескольких моделей, включая модель Whisper. В следующей таблице сравниваются параметры с рекомендациями по началу работы.
| Сценарий | Модель Whisper | Модели Azure Speech |
|---|---|---|
| Транскрибирование в режиме реального времени, субтитры и субтитры для аудио и видео. | Недоступно | Рекомендуемая конфигурация |
| Транскрибирование, субтитры и субтитры для предварительно подготовленных аудио и видео. | Модель Whisper с помощью Azure OpenAI рекомендуется для быстрой обработки отдельных звуковых файлов. Модель Whisper через службу "Речь Azure" (пакетное транскрибирование) рекомендуется для пакетной обработки больших файлов. Дополнительные сведения см. в статье "Модель Whisper" с использованием пакетного транскрибирования через службу "Речь Azure" или с помощью Azure OpenAI. | Рекомендуется выполнять пакетную обработку больших файлов, диаризации и меток времени на уровне слов. |
| Расшифровка записей телефонных звонков и аналитики, таких как сводка звонков, тональность, ключевые темы и пользовательские аналитические сведения. | На месте | Рекомендуемая конфигурация |
| Транскрибирование и аналитика в режиме реального времени для помощи агентам центра обработки вызовов с вопросами клиентов. | Недоступно | Рекомендуемая конфигурация |
| Расшифровка записей собраний и аналитики, таких как сводка собрания, глава собрания и извлечение элементов действия. | На месте | Рекомендуемая конфигурация |
| Запись текста в режиме реального времени и создание документов с помощью диктовки голоса. | Недоступно | Рекомендуемая конфигурация |
| Агент голосовой связи центра контактов: маршрутизация звонков и интерактивный голосовой ответ для центров вызовов. | На месте | Рекомендуемая конфигурация |
| Голосовой помощник: приложение для конкретного голосового помощника для набора верхней коробки, мобильного приложения, встроенного в машину и других сценариев. | На месте | Рекомендуемая конфигурация |
| Оценка произношения: оценка произношения голоса говорящего. | Недоступно | Рекомендуемая конфигурация |
| Перевод динамического звука с одного языка на другой. | Недоступно | Рекомендуется использовать API перевода речи. |
| Перевод предварительно созданного звука с других языков на английский. | Рекомендуемая конфигурация | Также доступен через API перевода речи. |
| Преобразуйте предварительно подготовленный звук на языки, отличные от английского. | Недоступно | Рекомендуется использовать API перевода речи. |
Использовать модель Whisper через сервис Azure Speech или через Azure OpenAI?
Если вы решите использовать модель Whisper, у вас есть два варианта. Вы можете выбрать, следует ли использовать модель Whisper через Azure OpenAI или через Azure Speech (пакетная транскрипция). В любом случае возможность чтения транскрибированного текста одинакова.
Модель Whisper с помощью Azure OpenAI может быть лучшей для:
- Быстрое транскрибирование аудиофайлов по одному.
- Перевод звука с других языков на английский. Вы можете ввести звук смешанного языка, а выходные данные — на английском языке.
- Укажите запрос модели для руководства выходными данными.
- Поддерживаемые форматы файлов: mp3, mp4, mpweg, mpga, m4a, wav и webm.
- Только символ ASCII, поддерживаемый для имени файла.
Модель Whisper при пакетной транскрипции службы Azure Speech может быть лучшим выбором для:
- Транскрибирование файлов размером более 25 МБ (до 1 ГБ). Ограничение размера файла для модели Whisper Azure OpenAI составляет 25 МБ.
- Транскрибирование больших пакетов звуковых файлов.
- Диаризация для различения разных докладчиков, участвующих в беседе. Служба "Речь" предоставляет сведения о том, какой докладчик говорил определенную часть транскрибированного речи. Модель Whisper через Azure OpenAI не поддерживает диаризацию.
- Метки времени на уровне Word
- Поддерживаемые форматы файлов: mp3, wav и ogg.
Региональная поддержка является еще одним фактором.
- Ознакомьтесь с текущим списком регионов, где доступна модель Whisper, в таблице регионов службы "Речь".