Что такое речь в тексте?

Служба Azure Speech в инструментах Foundry предлагает расширенные возможности преобразования речи в текст. Эта функция поддерживает как транскрибирование в режиме реального времени, так и пакетное транскрибирование, предоставляя универсальные решения для преобразования аудиопотоков в текст.

Основные функции преобразования речи в текст

Служба преобразования речи в текст предлагает следующие основные функции:

Транскрибирование в реальном времени: мгновенное транскрибирование с промежуточными результатами для живых аудиовходов.
Быстрое транскрибирование: самый быстрый синхронный вывод для ситуаций с прогнозируемой задержкой.
Пакетное транскрибирование: эффективная обработка больших объемов предварительно закодированного звука.
Настраиваемая речь: модели с повышенной точностью для определенных доменов и условий.

Транскрибирование в режиме реального времени

Транскрибирование аудио в текст в режиме реального времени осуществляется по мере его распознавания с микрофона или файла. Это идеально подходит для приложений, требующих немедленного транскрибирования, таких как:

Транскрибирование звука в режиме реального времени для доступности и ведения записей.
Оценка и предоставление отзывов о точности произношения.
Предоставление транскрибирования в режиме реального времени для помощи представителям службы клиентов.
Транскрибирование слов в письменный текст в целях документации.
Включение интерактивных систем голосовых ответов для транскрибирования запросов и команд пользователей.

Распознавание речи в режиме реального времени доступно через Speech SDK, Speech CLI и Speech to text REST API для коротких аудио.

Быстрое транскрибирование

Используйте API быстрого транскрибирования, чтобы расшифровывать звуковые файлы и возвращать результаты синхронно и быстрее, чем звук в режиме реального времени. Используйте быстрое распознавание речи в сценариях, когда требуется как можно быстрее получить текстовый вариант аудиозаписи при прогнозируемой задержке, например:

Быстрое транскрибирование аудиофайла, субтитры и редактирование
Заметки к собранию
Голосовая почта

Дополнительные сведения см. в API быстрого транскрибирования.

Диаризация

Диаризация — это процесс различения и разделения разных динамиков в звукозаписи. Эта функция особенно полезна для транскрибирования бесед, собраний или любого аудиоконтента с несколькими динамиками. Служба "Речь" может идентифицировать до 35 разных динамиков в аудиозаписи (если служба распознает более 35 динамиков, она выдает ошибку).

Чтобы приступить к работе, ознакомьтесь с кратким руководством по diarization .

Списки фраз

Функция списков фраз позволяет предоставить модель распознавания речи со списком определенных слов или фраз, которые, скорее всего, будут говориться в звуке. Это помогает повысить точность транскрибирования, особенно для терминологии, конкретной предметной области, правильных существительных или необычных слов. Используя списки фраз, вы можете управлять моделью, чтобы лучше распознать и транскрибировать эти термины правильно.

Распознавание языка

Распознавание речи позволяет модели распознавания речи автоматически определять язык, который произносится в звуковом вводе. Это полезно в сценариях, когда язык звука не известен заранее или когда у вас есть многоязычное аудиоконтентное содержимое. Обнаружив язык, модель может применять соответствующие алгоритмы распознавания, зависящие от языка, что может значительно повысить точность транскрибирования.

Пакетное транскрибирование

Пакетное транскрибирование предназначено для транскрибирования больших объемов звука, хранящихся в файлах. Этот метод обрабатывает звук асинхронно и подходит для:

Транскрипции, титры или субтитры для больших объемов аудиофайлов
Анализ записанных вызовов центра обработки вызовов для извлечения ценных аналитических сведений.

Вы можете получить доступ к пакетной транскрибировании с помощью:

Преобразование речи в текст REST API. Упрощает пакетную обработку с помощью гибкости вызовов RESTful. Сведения о начале работы см. в разделе Как использовать пакетное транскрибирование и примеры транскрибирования Batch.
Интерфейс командной строки речи: поддерживает как режим реального времени, так и пакетную транскрибирование, что упрощает управление задачами транскрибирования. Для получения помощи по командной строке службы "Speech" с пакетной транскрибацией, выполните следующую команду:
```
spx help batch transcription
```

Настраиваемая речь

С помощью пользовательской речи можно оценить и повысить точность распознавания речи для приложений и продуктов. Используйте пользовательскую модель речи для преобразования устной речи в текст в режиме реального времени, перевода устной речи и пакетной транскрипции.

Совет

Для использования пользовательской речи с API пакетного транскрибирования не требуется развернутая узловая конечная точка. Если вы используете только пользовательскую модель речи для пакетного транскрибирования, можно сохранить ресурсы. Дополнительные сведения см. в разделе Цены на службы "Речь".

Вне поля распознавание речи использует универсальную языковую модель в качестве базовой модели. Корпорация Майкрософт обучает базовую модель своими данными, поэтому она отражает часто используемый язык. Базовая модель предварительно обучена диалектами и фонетиками, представляющими различные общие домены. При выполнении запроса на распознавание речи по умолчанию используется последняя базовая модель для каждого поддерживаемого языка. Базовая модель хорошо работает в большинстве сценариев распознавания речи.

Используя настраиваемую речь, вы можете настроить модель распознавания речи, чтобы лучше соответствовать конкретным потребностям приложения. Эта адаптация особенно полезна для:

Улучшение распознавания словаря для конкретного домена: обучение модели с текстовыми данными, соответствующими вашему полю.
Повышение точности для определенных условий звука: используйте звуковые данные с ссылочными транскрибированиями для уточнения модели.

Дополнительные сведения о пользовательской речи см. в обзоре пользовательской речи и документации REST API для преобразования речи в текст.

Для получения подробной информации о параметрах настройки для каждого языка и языкового стандарта см. раздел поддержка языков и голосов службы речи в документации.

Примеры использования

Ниже приведены некоторые практические примеры использования Azure Speech для преобразования речи в текст:

Вариант использования	Сценарий	Решение
Транскрибирование и титры для собраний в реальном времени	Платформа виртуальных событий должна предоставлять субтитры в режиме реального времени для вебинаров.	Интеграция функции преобразования речи в текст в режиме реального времени с использованием Speech SDK для транскрибирования речевого контента в субтитры, отображаемые в реальном времени во время события.
Улучшение обслуживания клиентов	Центр обработки вызовов хочет помочь агентам, предоставляя транскрипции звонков клиентов в режиме реального времени.	Используйте функцию преобразования речи в текст в режиме реального времени через CLI службы "Речь" для транскрибирования звонков, что позволяет агентам лучше понимать и отвечать на запросы клиентов.
Создание субтитров для видео	Платформа размещения видео хочет быстро создать набор субтитров для видео.	Используйте быструю транскрипцию, чтобы получить субтитры для всего видео.
Учебные инструменты	Платформа электронного обучения предназначена для предоставления транскрибирования для видеолекции.	Используйте пакетное транскрибирование через REST API преобразования речи в текст для обработки предварительно записанных видео лекций, создавая транскрипты для студентов.
Документация по здравоохранению	Поставщик услуг здравоохранения должен документировать консультации пациентов.	Используйте речь в режиме реального времени для диктовки, позволяя специалистам здравоохранения говорить свои заметки и мгновенно транскрибировать их. Используйте пользовательскую модель для улучшения распознавания конкретных медицинских терминов.
Медиа и развлечения	Компания мультимедиа хочет создать субтитры для большого архива видео.	Используйте пакетное транскрибирование для обработки видеофайлов в массовом режиме, создавая точные субтитры для каждого видео.
Исследования рынка	Компания по исследованиям рынка должна проанализировать отзывы клиентов от аудиозаписей.	Использование пакетного транскрибирования для преобразования обратной связи аудио в текст, что упрощает анализ и извлечение аналитических сведений.

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.

Начало работы с преобразованием речи в текст
Создание пакетного транскрибирования
Подробную информацию о ценах см. на странице цен службы речи.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-02-25