Поделиться через


Что такое речь в тексте?

Служба "Azure Speech в инструментах Foundry" предлагает расширенные возможности преобразования речи в текст. Эта функция поддерживает как транскрибирование в режиме реального времени, так и пакетное транскрибирование, предоставляя универсальные решения для преобразования аудиопотоков в текст.

Основные функции

Служба преобразования речи в текст предлагает следующие основные функции:

Транскрибирование в режиме реального времени

Речь в режиме реального времени к тексту транскрибирует звук, как он распознается с микрофона или файла. Это идеально подходит для приложений, требующих немедленного транскрибирования, таких как:

  • Транскрибирование звука в режиме реального времени для доступности и ведения записей.
  • Оценка и предоставление отзывов о точности произношения.
  • Предоставление транскрибирования в режиме реального времени для помощи представителям службы клиентов.
  • Транскрибирование слов в письменный текст в целях документации.
  • Включение интерактивных систем голосовых ответов для транскрибирования запросов и команд пользователей.

Доступ к речи в режиме реального времени можно получить с помощью пакета SDK службы "Речь", интерфейса командной строки службы "Речь" и REST API, что позволяет интегрироваться в различные приложения и рабочие процессы. Речь в режиме реального времени доступна с помощью пакета SDK службы "Речь", интерфейса командной строки службы "Речь" и "Речь" в REST API для короткого звука.

Быстрое транскрибирование

API быстрого транскрибирования используется для расшифровки звуковых файлов с синхронно и быстрее, чем звук в режиме реального времени. Используйте быструю транскрибирование в сценариях, необходимых для расшифровки аудиозаписи как можно быстрее с прогнозируемой задержкой, например:

  • Быстрое транскрибирование аудиофайла, субтитры и редактирование
  • заметкам к собраниям;
  • Голосовая почта

Сведения о начале работы с быстрым транскрибированием см . в api быстрого транскрибирования.

Пакетное транскрибирование

Пакетное транскрибирование предназначено для транскрибирования больших объемов звука, хранящихся в файлах. Этот метод обрабатывает звук асинхронно и подходит для:

  • Транскрипции, титры или субтитры для больших объемов аудиофайлов
  • Анализ записанных вызовов центра обработки вызовов для извлечения ценных аналитических сведений.

Пакетное транскрибирование доступно через:

Настраиваемая речь

С помощью пользовательской речи можно оценить и повысить точность распознавания речи для приложений и продуктов. Пользовательская модель речи может использоваться для преобразования речи в режиме реального времени в текст, перевод речи и пакетное транскрибирование.

Совет

Размещенная конечная точка развертывания не требуется для использования пользовательской речи с API транскрибирования пакетной службы. Вы можете сохранить ресурсы, если пользовательская модель речи используется только для пакетной транскрибирования. Дополнительные сведения см. в разделе Цены на службы "Речь".

Вне поля распознавание речи использует универсальную языковую модель в качестве базовой модели, которая обучена с данными, принадлежащими Майкрософт, и отражает часто используемый язык. Базовая модель предварительно обучена диалектами и фонетиками, представляющими различные общие домены. При выполнении запроса на распознавание речи по умолчанию используется последняя базовая модель для каждого поддерживаемого языка. Базовая модель хорошо работает в большинстве сценариев распознавания речи.

Настраиваемая речь позволяет адаптировать модель распознавания речи, чтобы лучше соответствовать конкретным потребностям приложения. Это может быть особенно полезно для:

  • Улучшение распознавания словаря для конкретного домена: обучение модели с текстовыми данными, соответствующими вашему полю.
  • Повышение точности для определенных условий звука: используйте звуковые данные с ссылочными транскрибированиями для уточнения модели.

Дополнительные сведения о пользовательской речи см. в обзоре пользовательской речи и документации ПО REST API для преобразования речи в текст.

Дополнительные сведения о параметрах настройки для каждого языка и языкового стандарта см . в документации по службе "Речь" на языке и голосовой поддержке.

Примеры использования

Ниже приведены некоторые практические примеры использования службы "Речь Azure" для текста:

Вариант использования Сценарий Решение
Транскрибирование и субтитры в реальном времени Платформа виртуальных событий должна предоставлять субтитры в режиме реального времени для вебинаров. Интеграция речи в режиме реального времени с текстом с помощью пакета SDK службы "Речь" для транскрибирования речевых содержимого в субтитры, отображаемые в реальном времени во время события.
Улучшение обслуживания клиентов Центр обработки вызовов хочет помочь агентам, предоставляя транскрибирование клиентов в режиме реального времени. Используйте речь в режиме реального времени с помощью интерфейса командной строки службы "Речь" для транскрибирования вызовов, что позволяет агентам лучше понимать и отвечать на запросы клиентов.
Подзарядка видео Платформа размещения видео хочет быстро создать набор субтитров для видео. Используйте быструю транскрибирование, чтобы быстро получить набор субтитров для всего видео.
Учебные инструменты Платформа электронного обучения предназначена для предоставления транскрибирования для видеолекции. Примените пакетное транскрибирование с помощью речи к текстовому REST API для обработки предварительно подготовленных видео лекции, создавая расшифровки текста для учащихся.
Документация по здравоохранению Поставщик услуг здравоохранения должен документировать консультации пациентов. Используйте речь в режиме реального времени для диктовки, позволяя специалистам здравоохранения говорить свои заметки и мгновенно транскрибировать их. Используйте пользовательскую модель для улучшения распознавания конкретных медицинских терминов.
Медиа и развлечения Компания мультимедиа хочет создать субтитры для большого архива видео. Используйте пакетное транскрибирование для обработки видеофайлов в массовом режиме, создавая точные субтитры для каждого видео.
Исследования рынка Компания по исследованиям рынка должна проанализировать отзывы клиентов от аудиозаписей. Использование пакетного транскрибирования для преобразования обратной связи аудио в текст, что упрощает анализ и извлечение аналитических сведений.

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.