Сценарии использования для преобразования речи в текст

Это важно

Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.

Что такое информационная статья?

В систему ИИ входит не только технология, но и ее пользователи, люди, на которых она повлияет, а также среда, в которой она будет развернута. Чтобы создаваемая система соответствовала своему предназначению, нужно понимать, как работает технология, каковы ее возможности и ограничения, а также как добиться от нее наилучших результатов. Заметки о прозрачности корпорации Майкрософт предназначены для того, чтобы помочь вам понять, как работает наша технология ИИ, как владельцы систем могут повлиять на производительность и поведение системы, а также важность думать о всей системе, включая технологию, людей и окружающую среду. Вы можете использовать информационные статьи при разработке или развертывании собственной системы, а также предоставить к ним доступ пользователям, которые будут использовать вашу систему или которых она затрагивает.

Заметки майкрософт о прозрачности являются частью более широких усилий корпорации Майкрософт по внедрению принципов ИИ на практике. Дополнительные сведения см. в статье Принципы ИИ Майкрософт.

Основы преобразования речи в текст

Речь к тексту, также известная как автоматическое распознавание речи (ASR), является функцией в службе "Речь Azure в средствах Foundry Tools", которая входит в состав средства Foundry Tools. Речь в текст преобразует речевой звук в текст. Распознавание речи в Azure поддерживает более 140 локалей ввода. Последний список поддерживаемых языковых стандартов см. в разделе "Язык" и "Поддержка голосовой связи" службы "Речь".

Ключевые термины

Термин	Определение
Аудиовход	Потоковые звуковые данные или звуковой файл, используемый в качестве входных данных для функции преобразования речи в текст. Входной аудиосигнал может содержать не только голос, но и молчание, и неречевой шум. Речь в тексте создает текст для голосовых частей звукового ввода.
Фраза	Компонент звукового ввода, который содержит человеческий голос. Одно высказывание может состоять из одного слова или нескольких слов, таких как фраза.
Расшифровка	Текстовый вывод функции преобразования речи в текст. Этот автоматически созданный текстовый вывод использует модели речи и иногда называется транскрибированием компьютера или автоматическим распознаванием речи (ASR). Транскрибирование в этом контексте полностью автоматизировано и поэтому отличается от транскрибирования человека, который является текстом, создаваемым транскриберами человека.
Модель распознавания речи	Автоматически сгенерированное, машинно обученное числовое представление высказывания, которое используется для определения транскрипции из аудиовхода. Модели речи обучаются на голосовых данных, включая различные стили речи, языки, акценты, диалекты и интонации, а также на акустических вариациях, создаваемых с помощью различных типов устройств записи. Модель речи числовым образом представляет как акустические, так и лингвистические функции, которые используются для прогнозирования того, какой текст должен быть связан с речевым фрагментом.
API реального времени	API, который принимает запросы с входным звуком и возвращает ответ в режиме реального времени с транскрибированием в том же сетевом подключении.
API обнаружения языка	Тип API в режиме реального времени, который определяет, какой язык говорится во входе звука. Язык выводится на основе голосового звука в звуковом вводе.
API перевода речи	Другой тип API в режиме реального времени, который создает транскрибирование заданного входного звука, а затем преобразует их на язык, указанный пользователем. Это каскадная служба служб распознавания речи и перевода текстов.
API пакетной обработки	Служба, которая используется для отправки звуковых входных данных, которые будут транскрибированы позже. Вы указываете расположение звуковых файлов и других параметров, таких как язык распознавания. Служба загружает входные данные звука асинхронно и транскрибирует его. После завершения транскрибирования текстовые файлы загружаются обратно в указанное расположение.
Диаризация	Диаризация отвечает на вопрос о том, кто говорил и когда. Он различает людей говорящих в аудиовходе по их голосовым характеристикам. Как API в реальном времени, так и пакетные API поддерживают диаризацию и могут различать голоса говорящих на моноканальных записях. Диаризация объединяется с функцией преобразования речи в текст для предоставления результатов транскрибирования, содержащих определение говорящего для каждого транскрибированного сегмента. Выходные данные транскрибирования помечены как GUEST1, GUEST2, GUEST3 и т. д. на основе количества участников в аудиоразговоре.
Частота ошибок Word (WER)	Частота ошибок Word (WER) — это отраслевый стандарт для измерения точности речи к тексту. WER подсчитывает количество неправильных слов, определенных во время распознавания. Затем он делится на общее число слов, которые содержатся в верной транскрипции (часто созданной человеком).
Частота ошибок токенов (TER)	Коэффициент ошибок токенов (TER) — это мера правильности окончательного распознавания слов, заглавных букв, знаков препинания и т. д., по сравнению с токенами, предусмотренными в правильной расшифровке (часто создаваемой человеческой разметкой).
Задержка среды выполнения	В речи к тексту задержка — это время между входным звуком речи и результатом транскрибирования.
Частота ошибок диаризации Word (WDER)	Частота ошибок диаризации слов (WDER) подсчитывает количество ошибок в словах, назначенных неправильному говорящему, по сравнению с эталоном. Более низкая скорость WDER указывает на более высокое качество.

Возможности

Поведение системы

Ниже приведены основные способы обращения к нашей службе распознавания речи.

API преобразования речи в текст в режиме реального времени

Это типичный вызов API через пакет SDK службы "Речь" или REST API для отправки аудиовхода и получения текстовой транскрипции в режиме реального времени. Система речи использует модель речи для распознавания того, что говорится в входном звуке. Преобразование речи в текст в реальном времени: система принимает аудиопоток в качестве входных данных и постоянно определяет наиболее вероятную последовательность слов, создавших звучание, наблюдаемое до текущего момента. Модель обучена на большом количестве разнообразных аудио в типичных сценариях использования и широком спектре динамиков. Например, эта функция часто используется для голосовых запросов или диктовки в службе или приложении организации.

API пакетного транскрибирования

Пакетное транскрибирование — это другой тип вызова API. Обычно используется для отправки предварительно подготовленных звуковых входных данных и асинхронного получения транскрибированного текста (то есть в дальнейшем). Чтобы использовать этот API, можно указать расположения для нескольких звуковых файлов. Технология преобразования речи в текст считывает аудиовход из файла и создает файлы транскрипции, которые возвращаются в указанное вами место хранения. Эта функция используется для поддержки более крупных заданий транскрибирования, в которых не требуется предоставлять пользователям содержимое транскрибирования в режиме реального времени. Примером является транскрибирование записей центра обработки вызовов для получения аналитических сведений о клиентах и производительности агента центра обработки вызовов.

При использовании пакетной транскрипции можно выбрать модель Whisper вместо модели Azure Speech to text по умолчанию. Чтобы определить, подходит ли модель Whisper для вашего варианта использования, можно сравнить, как выходные данные между этими моделями отличаются в пакете. Попробуйте его в Speech Studio, а затем выполните более глубокие оценки с помощью возможностей тестирования с помощью пользовательской речи. Обратите внимание, что модель Whisper также доступна через Azure OpenAI.

API перевода речи

Этот API преобразует входные данные звука в текст, а затем преобразует его на другой язык. Преобразованные выходные данные транскрибирования можно возвращать в текстовом формате, или можно выбрать синтез текста в звуковую речь с помощью текста для речи. Дополнительные сведения см. в статье "Что такое Azure Translator в средствах Foundry"?

Подфункции и опции

Приведенные выше API могут использовать следующие вложенные функции:

Настройка модели: Речь Azure позволяет разработчикам настраивать модели преобразования речи в текст, чтобы повысить точность распознавания для конкретного сценария. Существует два способа настройки речи в текст:
- Во время выполнения с помощью функции списка фраз
- Заблаговременно с использованием пользовательской речи
Обнаружение языка. В отличие от вызова API по умолчанию, в котором необходимо заранее указать язык или языковой стандарт для звукового ввода, при обнаружении языка можно указать несколько языковых стандартов и позволить службе определить, какой язык следует использовать для распознавания определенной части звука.
Diarization: эта функция отключена по умолчанию. Если вы решили включить эту функцию, служба различает высказывания разных докладчиков. Результирующий текст транскрибирования содержит свойство "спикер", указывающее на GUEST1, GUEST2, GUEST3 и т. д., которое обозначает, кто говорит в аудиофайле.

Случаи использования

Речь в тексте может предложить различные способы взаимодействия пользователей с приложениями и устройствами. Вместо ввода слов на клавиатуре или с помощью рук для взаимодействия с сенсорным экраном речь в текстовой технологии позволяет пользователям работать с приложениями и устройствами с помощью голоса и диктовки.

Смарт-помощники: компании, которые разрабатывают смарт-помощников на устройствах, автомобилях и домах, могут использовать речь для текста, чтобы включить запросы поиска естественного интерфейса или активировать определенные функции по голосовой связи. Это называется _управление и контроль_.
Чат-боты: компании могут создавать приложения чат-ботов, в которых пользователи могут использовать голосовые запросы или команды для взаимодействия с ботами.
Ввод голоса: приложения могут использовать голос для диктовки длинного текста. Типирование голосовой связи можно использовать для ввода текста для обмена сообщениями, сообщений электронной почты и документов.
Голосовая команда: пользователи могут активировать определенные действия по голосовой связи (команда и управление). Два распространенных примера: ввод текста запроса по голосовой связи и выбор элемента меню по голосу.
Голосовой перевод: вы можете использовать функции перевода речи в текстовую технологию для обмена данными с другими пользователями, которые говорят на разных языках. Перевод речи обеспечивает голосовую связь между несколькими языками. См. последний список поддерживаемых локалей в разделе Поддержка языков и голосов для службы "Речь".
Транскрибирование центра вызовов: компании часто записывают беседы со своими пользователями в таких сценариях, как звонки в службу поддержки клиентов. Аудиозаписи можно отправлять в пакетный API для транскрибирования.
Диктовка на нескольких языках: пользователи могут использовать технологию преобразования речи в текст для диктовки на различных языках. С помощью обнаружения языка приложение диктовки может автоматически обнаруживать языки и выполнять транскрипцию соответствующим образом, не требуя, чтобы пользователь указал, какой язык они говорят.
Транскрипция беседы в реальном времени: когда участники находятся в одной комнате и используют одну микрофонную установку, проведите транскрипцию, определяя, какой из говорящих (Гость1, Гость2, Гость3 и т. д.) делает каждое заявление.
Транскрипция бесед предварительно записанного звука: после записи звука с несколькими участниками вы можете использовать нашу службу, чтобы получить транскрипцию, в которой указано, какой участник (Guest1, Guest2, Guest3 и т. д.) делает каждое заявление.

Неподдерживаемые способы использования

Транскрибирование бесед с распознаванием говорящего: служба "Речь" не предназначена для обеспечения диаризации с распознаванием говорящего, и ее нельзя использовать для идентификации отдельных лиц. Другими словами, докладчики будут представлены как Guest1, Guest2, Guest3 и т. д. в транскрибировании. Они будут случайным образом назначены и могут не использоваться для идентификации отдельных докладчиков в беседе. Для каждой транскрипции беседы, назначение гостя 1, гостя 2, гостя 3 и так далее будет случайным.

Чтобы предотвратить любое неправильное использование службы "Речь" в целях идентификации, вы несете ответственность за обеспечение использования службы, включая функцию диаризации, только для поддерживаемых целей, а также за то, что у вас есть соответствующая юридическая база и все необходимые согласия для всех видов использования службы.

Ограничения

Преобразование речи в текст распознает, что говорится в аудиосигнале, а затем создает транскрипции. Для этого требуется правильная настройка ожидаемых языков, используемых в стилях ввода звука и речи. Неоптимные параметры могут привести к снижению точности.

Технические ограничения, операционные факторы и диапазоны

Язык точности

Отраслевый стандарт для измерения точности речи к тексту — это частота ошибок в словах (WER). Сведения о подробном вычислении WER см. в разделе "Проверка точности пользовательской модели речи".

Точность транскрибирования и ограничения системы

Речь в тексте использует унифицированную модель машинного обучения распознавания речи для транскрибирования того, что говорится в широком спектре контекстов и доменов тем, включая команды и управление, диктовку и беседы. Вам не нужно использовать различные модели для приложений или сценариев функций.

Однако необходимо указать язык или языковой стандарт для каждого входного звука. Язык или языковой стандарт должны соответствовать фактическому языку, который говорился во входном голосе. Дополнительные сведения см. в списке поддерживаемых языковых стандартов.

Многие факторы могут привести к снижению точности транскрибирования:

Акустическое качество: приложения и устройства с функцией преобразования речи в текст могут использовать широкий спектр микрофонов и их спецификаций. Унифицированные модели распознавания речи созданы на основе различных сценариев голосового аудиоустройства, таких как телефоны, мобильные телефоны и динамики. Однако качество голоса может быть понижено, так как пользователь разговаривает с микрофоном, даже если они используют высококачественный микрофон. Например, если динамик находится далеко от микрофона, качество ввода будет слишком низким. Динамик, который слишком близок к микрофону, также может привести к ухудшению качества звука. Оба случая могут отрицательно повлиять на точность преобразования речи в текст.
Шум, отличный от речи: Если входной звук содержит определенный уровень шума, то влияет точность. Шум может поступать из звуковых устройств, которые используются для записи, или сам входной звук может содержать шум, например фоновый или экологический шум.
Перекрываемая речь: Может быть несколько динамиков в диапазоне звукового устройства ввода, и они могут одновременно говорить. Кроме того, другие докладчики могут говорить в фоновом режиме, пока основной пользователь говорит.
Словари: Модель распознавания речи была обучена на широком разнообразии слов в различных областях. Однако пользователи могут использовать организационно-специфическую лексику и жаргон, которые не входят в стандартный словарь. Если слово, которое не существует в модели, отображается в звуке, результатом является ошибка транскрибирования.
Акценты: Даже в одном языковом стандарте, например на английском языке - Соединенных Штатах (en-US), многие люди имеют разные акценты. Очень конкретные акценты также могут привести к ошибке в транскрибировании.
Несоответствие локалей: Пользователи могут не знать те языки, которые вы ожидаете. Если вы указали английский - Соединенные Штаты (en-US) для звукового ввода, но говорящий говорил на шведском языке, например, точность снизится.
Ошибки вставки: иногда в моделях преобразования речи в текст могут происходить ошибки вставки в присутствии шума или мягкой фоновой речи. Это ограничено при использовании сервиса "Речь", но немного чаще при использовании модели Whisper, как указано в карточке модели OpenAI.

Из-за этих акустических и лингвистических вариаций при разработке приложения следует ожидать определенного уровня неточности в выходном тексте.

Производительность системы

Производительность системы измеряется этими ключевыми факторами (с точки зрения пользователя):

Частота ошибок Word (WER)
Частота ошибок токена (TER)
Задержка среды выполнения

Модель считается лучшей, только если она демонстрирует значительные улучшения (например, относительное улучшение WER на 5%) во всех сценариях (например, транскрибирование разговорной речи, транскрибирование речи в колл-центре, диктовку и использование голосового помощника) при соблюдении целей использования ресурсов и задержки ответа.

Для диаризации мы измеряем качество с помощью частоты ошибок диаризации слов (WDER). Чем ниже WDER, тем лучше качество диаризации.

Оценка преобразования речи в текст

Модель преобразования речи в текст оценивается с помощью тестирования. Цель тестирования заключается в том, чтобы подтвердить, что модель хорошо работает в каждом из ключевых сценариев и в распространенных акустических условиях, и что мы достигаем целей по обеспечению справедливости по демографическим факторам.

Методы оценки

Для оценки модели используются тестовые наборы данных. Перед каждым развертыванием модели выполняются как регрессионные тесты, так и тест производительности модели. Ключевыми метриками для тестов регрессии являются WER, TER, WDER (если диаризация включена при преобразовании речи в текст) и задержка на уровне 90-го процентиля.

Результаты оценки

Мы стремимся отправлять все обновления модели без регрессии (т. е. обновленная модель должна только улучшить текущую рабочую модель). Каждый кандидат сравнивается непосредственно с текущей производственной моделью. Чтобы рассмотреть модель для развертывания, необходимо достичь по крайней мере 5% относительного улучшения WER по сравнению с текущей рабочей моделью.

Модели преобразования речи в текст обучаются и настраиваются на основе голосовых данных, в том числе:

Микрофоны и спецификации устройств
Среда распознавания речи
Сценарии службы "Речь"
Языки и акценты говорящего
Возраст и пол говорящего
Этнический фон ораторов

Для диаризации используются дополнительные варианты данных:

Продолжительность выступления каждого докладчика
Количество носителей языка
Эмоциональная речь, которая изменяет высоту и тон.

Результирующая система преобразования речи в текст транскрибирует слова пользователя в текст, который затем может применяться диалоговой системой с пониманием естественного языка или для аналитики, например, для суммирования или оценки тональности.

Соображения справедливости

В Корпорации Майкрософт мы стремимся расширить возможности каждого человека на планете, чтобы добиться большего. Основная часть этой цели заключается в создании технологий и продуктов, которые являются справедливыми и инклюзивными. Справедливость является многомерной, социально-технической темой, и она влияет на многие различные аспекты развития нашего продукта. Узнайте больше о подходе Майкрософт к справедливости.

Одним из аспектов, который необходимо учитывать, является то, насколько хорошо система работает для разных групп людей. Исследования показали, что без сознательных усилий, направленных на повышение производительности для всех групп, зачастую можно изменить производительность системы ИИ в зависимости от таких факторов, как раса, этническое происхождение, регион, пол и возраст.

Каждая версия текстовой модели проверяется и оценивается на основе различных наборов тестов, чтобы убедиться, что модель может выполняться без большого пробела в каждом из критериев оценки. Более детализированные результаты по вопросам справедливости появятся в ближайшее время.

Оценка и интеграция преобразования речи в текст для вашего использования.

Производительность речи в тексте будет отличаться в зависимости от реального использования и условий, которые вы реализуете. Чтобы обеспечить оптимальную производительность в вашем сценарии, следует проводить собственные оценки решений, которые вы реализуете с помощью речи в текст.

Тестовый набор данных голосовых данных должен состоять из фактических входных данных голоса, собранных в приложениях в рабочей среде. Для отражения реальных вариантов пользователей в течение определенного периода времени следует случайным образом отбирать данные. Кроме того, тестовый набор данных следует периодически обновлять, чтобы отразить изменения в вариантах.

Руководство по интеграции и ответственному использованию технологии преобразования речи в текст

Так как корпорация Майкрософт помогает клиентам ответственно разрабатывать и развертывать решения с помощью преобразования речи в текст, мы принимаем принципиальный подход к поддержанию личной свободы и достоинства, рассматривая справедливость, надежность, безопасность, конфиденциальность, инклюзивность, прозрачность и человеческую ответственность систем ИИ. Эти соображения отражают нашу приверженность разработке ответственного ИИ.

При подготовке к развертыванию продуктов или функций, управляемых ИИ, следующие действия помогут вам добиться успеха:

Понять, что это может сделать: полностью оценить возможности речи для текста, чтобы понять его возможности и ограничения. Узнайте, как он проявит себя в вашем конкретном сценарии и контексте, тщательно проверив его в реальных условиях и с данными.
Уважайте право человека на конфиденциальность: только собирать данные и информацию от отдельных лиц для законных и оправданных целей. Использовать для этих целей только те данные и сведения, на использование которых у вас есть согласие.
Юридическая проверка: получите соответствующие юридические советы для проверки решения, особенно если вы будете использовать его в конфиденциальных или высокориском приложениях. Разберитесь, в рамках каких ограничений вам, возможно, придется работать и в чем заключается ваша ответственность за решение любых проблем, которые могут возникнуть в будущем. Не предоставляйте никаких юридических консультаций или рекомендаций.
Участие человека в процессе: обеспечивать участие человека в процессе и включать надзор человека как постоянный элемент для изучения. Это означает обеспечение постоянного контроля над продуктом или компонентом, на основе искусственного интеллекта, и поддержание роли людей в принятии решений. Убедитесь, что вмешательство человека в решение возможно в режиме реального времени, чтобы предотвратить вред. Это позволяет управлять ситуациями, когда модель искусственного интеллекта не выполняется должным образом.
Безопасность. Убедитесь, что решение безопасно и имеет надлежащие средства управления, чтобы сохранить целостность содержимого и предотвратить несанкционированный доступ.
Создание доверия с затронутыми заинтересованными лицами: сообщите ожидаемые преимущества и потенциальные риски для затронутых заинтересованных лиц. Объясните людям, зачем нужны данные и как их использование принесет им пользу. Опишите процесс обработки данных в понятной форме.
Цикл отзывов клиентов: предоставление канала отзывов, позволяющего пользователям сообщать о проблемах с услугой после её развертывания. После развертывания продукта или компонента на основе ИИ ему требуется постоянный мониторинг и улучшение. Будьте готовы к реализации любых отзывов и предложений по улучшению. Создайте каналы для сбора вопросов и проблем заинтересованных лиц (людей, которые могут быть непосредственно или косвенно затронуты системой, включая сотрудников, посетителей и широкой общественности).
Обратная связь: обратитесь к различным выборкам сообщества во время процесса разработки и оценки (например, от исторически маргинализованных групп, людей с ограниченными возможностями и работников службы). См. жюри сообщества.
Исследование пользователей: любые рекомендации по согласию или раскрытию информации должны быть обрамлены в исследовании пользователя. Оцените первый и непрерывный опыт использования на репрезентативной выборке сообщества, чтобы убедиться, что варианты проектирования приводят к эффективному раскрытию информации. Проведите исследование пользователей с участием 10-20 членов сообщества (затронутых заинтересованных лиц), чтобы оценить их понимание информации и определить, оправдываются ли их ожидания.

Дальнейшие шаги

Данные, конфиденциальность и безопасность для преобразования речи в текст

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-11-08