Поделиться через


Что такое речь в тексте?

Служба "Azure Speech в инструментах Foundry" предлагает расширенные возможности преобразования речи в текст. Эта функция поддерживает как транскрибирование в режиме реального времени, так и пакетное транскрибирование, предоставляя универсальные решения для преобразования аудиопотоков в текст.

Основные функции преобразования речи в текст

Служба преобразования речи в текст предлагает следующие основные функции:

Транскрибирование в режиме реального времени

Речь в режиме реального времени к тексту транскрибирует звук, как он распознается с микрофона или файла. Это идеально подходит для приложений, требующих немедленного транскрибирования, таких как:

  • Транскрибирование звука в режиме реального времени для доступности и ведения записей.
  • Оценка и предоставление отзывов о точности произношения.
  • Предоставление транскрибирования в режиме реального времени для помощи представителям службы клиентов.
  • Транскрибирование слов в письменный текст в целях документации.
  • Включение интерактивных систем голосовых ответов для транскрибирования запросов и команд пользователей.

Доступ к речи в режиме реального времени можно получить с помощью пакета SDK службы "Речь", интерфейса командной строки службы "Речь" и REST API, что позволяет интегрироваться в различные приложения и рабочие процессы. Речь в режиме реального времени доступна с помощью пакета SDK службы "Речь", интерфейса командной строки службы "Речь" и "Речь" в REST API для короткого звука.

Быстрое транскрибирование

Используйте API быстрого транскрибирования, чтобы расшифровывать звуковые файлы и возвращать результаты синхронно и быстрее, чем звук в режиме реального времени. Используйте быстрое распознавание речи в сценариях, когда требуется как можно быстрее получить текстовый вариант аудиозаписи при прогнозируемой задержке, например:

  • Быстрое транскрибирование аудиофайла, субтитры и редактирование
  • заметкам к собраниям;
  • Голосовая почта

Дополнительные сведения см. в API быстрого транскрибирования.

Пакетное транскрибирование

Пакетное транскрибирование предназначено для транскрибирования больших объемов звука, хранящихся в файлах. Этот метод обрабатывает звук асинхронно и подходит для:

  • Транскрипции, титры или субтитры для больших объемов аудиофайлов
  • Анализ записанных вызовов центра обработки вызовов для извлечения ценных аналитических сведений.

Вы можете получить доступ к пакетной транскрибировании с помощью:

Настраиваемая речь

С помощью пользовательской речи можно оценить и повысить точность распознавания речи для приложений и продуктов. Используйте пользовательскую модель речи для преобразования устной речи в текст в режиме реального времени, перевода устной речи и пакетной транскрипции.

Совет

Для использования пользовательской речи с API пакетного транскрибирования не требуется развернутая узловая конечная точка. Если вы используете только пользовательскую модель речи для пакетного транскрибирования, можно сохранить ресурсы. Дополнительные сведения см. в разделе Цены на службы "Речь".

Вне поля распознавание речи использует универсальную языковую модель в качестве базовой модели. Корпорация Майкрософт обучает базовую модель своими данными, поэтому она отражает часто используемый язык. Базовая модель предварительно обучена диалектами и фонетиками, представляющими различные общие домены. При выполнении запроса на распознавание речи по умолчанию используется последняя базовая модель для каждого поддерживаемого языка. Базовая модель хорошо работает в большинстве сценариев распознавания речи.

Используя настраиваемую речь, вы можете настроить модель распознавания речи, чтобы лучше соответствовать конкретным потребностям приложения. Эта адаптация особенно полезна для:

  • Улучшение распознавания словаря для конкретного домена: обучение модели с текстовыми данными, соответствующими вашему полю.
  • Повышение точности для определенных условий звука: используйте звуковые данные с ссылочными транскрибированиями для уточнения модели.

Дополнительные сведения о пользовательской речи см. в обзоре пользовательской речи и документации ПО REST API для преобразования речи в текст.

Дополнительные сведения о параметрах настройки для каждого языка и языкового стандарта см . в документации по службе "Речь" на языке и голосовой поддержке.

Примеры использования

Ниже приведены некоторые практические примеры использования службы "Речь Azure" для текста:

Вариант использования Сценарий Решение
Транскрибирование и субтитры в реальном времени Платформа виртуальных событий должна предоставлять субтитры в режиме реального времени для вебинаров. Интеграция речи в режиме реального времени с текстом с помощью пакета SDK службы "Речь" для транскрибирования речевых содержимого в субтитры, отображаемые в реальном времени во время события.
Улучшение обслуживания клиентов Центр обработки вызовов хочет помочь агентам, предоставляя транскрибирование клиентов в режиме реального времени. Используйте речь в режиме реального времени с помощью интерфейса командной строки службы "Речь" для транскрибирования вызовов, что позволяет агентам лучше понимать и отвечать на запросы клиентов.
Подзарядка видео Платформа размещения видео хочет быстро создать набор субтитров для видео. Используйте быструю транскрибирование, чтобы быстро получить набор субтитров для всего видео.
Учебные инструменты Платформа электронного обучения предназначена для предоставления транскрибирования для видеолекции. Примените пакетное транскрибирование с помощью речи к текстовому REST API для обработки предварительно подготовленных видео лекции, создавая расшифровки текста для учащихся.
Документация по здравоохранению Поставщик услуг здравоохранения должен документировать консультации пациентов. Используйте речь в режиме реального времени для диктовки, позволяя специалистам здравоохранения говорить свои заметки и мгновенно транскрибировать их. Используйте пользовательскую модель для улучшения распознавания конкретных медицинских терминов.
Медиа и развлечения Компания мультимедиа хочет создать субтитры для большого архива видео. Используйте пакетное транскрибирование для обработки видеофайлов в массовом режиме, создавая точные субтитры для каждого видео.
Исследования рынка Компания по исследованиям рынка должна проанализировать отзывы клиентов от аудиозаписей. Использование пакетного транскрибирования для преобразования обратной связи аудио в текст, что упрощает анализ и извлечение аналитических сведений.

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.