Что такое модель Whisper?

Модель Whisper — это модель преобразования речи в текст от OpenAI, которую можно использовать для транскрибирования или перевода звуковых файлов. Модель обучена на большом наборе данных английского звука и текста.

  • Модель оптимизирована для транскрибирования аудиофайлов, содержащих речь на английском языке.
  • Модель также может использоваться для перевода звуковых файлов, содержащих речь на других языках. Выходные данные транскрибирования — английский текст.

Модели Whisper доступны через Azure OpenAI в Microsoft Foundry Models или через Azure Speech в Foundry Tools. Функции отличаются для этих предложений. В службе "Речь Azure" (пакетная транскрипция) Whisper — это всего лишь одна из нескольких моделей, которые можно использовать для преобразования речи в текст.

Вопрос.

  • Подходит ли модель Whisper для моего сценария или модель Azure Speech лучше? Каковы сравнения API между двумя типами моделей?

  • Если я хочу использовать модель Whisper, следует ли использовать ее с помощью Azure OpenAI или с помощью службы "Речь Azure"? Каковы сценарии, которые помогут мне использовать один или другой?

Модель Whisper или модели Azure Speech

Модели Whisper или модели Azure Speech подходят в зависимости от ваших сценариев. Если вы решите использовать службу Azure Speech, можно выбрать одну из нескольких моделей, включая модель Whisper. В следующей таблице сравниваются параметры с рекомендациями по началу работы.

Сценарий Модель Whisper Модели Azure Speech
Транскрибирование в режиме реального времени, субтитры и субтитры для аудио и видео. Недоступно Рекомендуемая конфигурация
Транскрибирование, субтитры и субтитры для предварительно подготовленных аудио и видео. Модель Whisper с помощью Azure OpenAI рекомендуется для быстрой обработки отдельных звуковых файлов. Модель Whisper через службу "Речь Azure" (пакетное транскрибирование) рекомендуется для пакетной обработки больших файлов. Дополнительные сведения см. в статье "Модель Whisper" с использованием пакетного транскрибирования через службу "Речь Azure" или с помощью Azure OpenAI. Рекомендуется выполнять пакетную обработку больших файлов, диаризации и меток времени на уровне слов.
Расшифровка записей телефонных звонков и аналитики, таких как сводка звонков, тональность, ключевые темы и пользовательские аналитические сведения. На месте Рекомендуемая конфигурация
Транскрибирование и аналитика в режиме реального времени для помощи агентам центра обработки вызовов с вопросами клиентов. Недоступно Рекомендуемая конфигурация
Расшифровка записей собраний и аналитики, таких как сводка собрания, глава собрания и извлечение элементов действия. На месте Рекомендуемая конфигурация
Запись текста в режиме реального времени и создание документов с помощью диктовки голоса. Недоступно Рекомендуемая конфигурация
Агент голосовой связи центра контактов: маршрутизация звонков и интерактивный голосовой ответ для центров вызовов. На месте Рекомендуемая конфигурация
Голосовой помощник: приложение для конкретного голосового помощника для набора верхней коробки, мобильного приложения, встроенного в машину и других сценариев. На месте Рекомендуемая конфигурация
Оценка произношения: оценка произношения голоса говорящего. Недоступно Рекомендуемая конфигурация
Перевод динамического звука с одного языка на другой. Недоступно Рекомендуется использовать API перевода речи.
Перевод предварительно созданного звука с других языков на английский. Рекомендуемая конфигурация Также доступен через API перевода речи.
Преобразуйте предварительно подготовленный звук на языки, отличные от английского. Недоступно Рекомендуется использовать API перевода речи.

Использовать модель Whisper через сервис Azure Speech или через Azure OpenAI?

Если вы решите использовать модель Whisper, у вас есть два варианта. Вы можете выбрать, следует ли использовать модель Whisper через Azure OpenAI или через Azure Speech (пакетная транскрипция). В любом случае возможность чтения транскрибированного текста одинакова.

Модель Whisper с помощью Azure OpenAI может быть лучшей для:

  • Быстрое транскрибирование аудиофайлов по одному.
  • Перевод звука с других языков на английский. Вы можете ввести звук смешанного языка, а выходные данные — на английском языке.
  • Укажите запрос модели для руководства выходными данными.
  • Поддерживаемые форматы файлов: mp3, mp4, mpweg, mpga, m4a, wav и webm.
  • Только символ ASCII, поддерживаемый для имени файла.

Модель Whisper при пакетной транскрипции службы Azure Speech может быть лучшим выбором для:

  • Транскрибирование файлов размером более 25 МБ (до 1 ГБ). Ограничение размера файла для модели Whisper Azure OpenAI составляет 25 МБ.
  • Транскрибирование больших пакетов звуковых файлов.
  • Диаризация для различения разных докладчиков, участвующих в беседе. Служба "Речь" предоставляет сведения о том, какой докладчик говорил определенную часть транскрибированного речи. Модель Whisper через Azure OpenAI не поддерживает диаризацию.
  • Метки времени на уровне Word
  • Поддерживаемые форматы файлов: mp3, wav и ogg.

Региональная поддержка является еще одним фактором.