Поделиться через


Примечание о прозрачности

Это важно

Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.

В систему ИИ входит не только технология, но и ее пользователи, люди, на которых она повлияет, а также среда, в которой она будет развернута. Создание системы, соответствующей её целевому назначению, требует понимания того, как работает технология, её возможностей и ограничений, а также того, как добиться наилучшей производительности.

Корпорация Майкрософт предоставляет информационные статьи, чтобы вам было проще понять, как работает наша технология ИИ. В них описываются варианты выбора, посредством которых владельцы систем могут влиять на эффективность и поведение систем. Кроме того, в них мы рассказываем о важности комплексного подхода к разработке систем с учетом аспектов, касающихся технологий, людей и окружающей среды. Вы можете использовать информационные статьи при разработке или развертывании собственной системы, а также предоставить к ним доступ пользователям, которые будут использовать вашу систему или которых она затрагивает.

Информационные статьи предоставляются в рамках инициативы корпорации Майкрософт по внедрению принципов ИИ на практике. Дополнительные сведения см. в принципах ИИ Майкрософт.

Общие сведения об оценке произношения

API оценки произношения принимает аудиовходы для оценки произношения речи и предоставляет говорящим отзывы о точности, беглости и полноте речи. Функция оценки произношения также включает более подробные отзывы о различных аспектах речевой просодии, использовании словаря, правильности грамматики и понимании тем, предоставляя подробную оценку языковых навыков. Поддерживаются как скрипты, так и неписанные оценки, что упрощает оценку произношения и языка. Оценка произношения поддерживает широкий спектр языков.

С помощью оценки произношения изучающие язык могут практиковаться, получать мгновенные отзывы и улучшать свое произношение, чтобы они могли говорить и презентовать с уверенностью. Преподаватели могут использовать оценку произношения для оценки произношения нескольких ораторов в режиме реального времени.

Основы оценки произношения

API оценки произношения предлагает результаты оценки речи с помощью подхода на основе машинного обучения, который тесно соответствует оценкам речи, проведенным собственными экспертами. Он предоставляет ценные отзывы о произношении, беглости, просодии, использовании словаря, правильности грамматики и понимании тем, помогая улучшить свои языковые навыки и уверенно общаться на новом языке. Модель оценки произношения была обучена на основе более 100 000 часов речевых данных от носителей языка. Он может обеспечить точные результаты, когда люди пропускают, повторяют или добавляют фразы по сравнению с справочным текстом. Кроме того, он позволяет расширенным параметрам конфигурации поддерживать гибкость в использовании API, например настройку детализации для изменения детализации информации в оценке. (Дополнительные сведения см. в примере кода.)

Оценка произношения оценивает несколько аспектов произношения и содержимого: точность, беглость, полнота, просодия, использование словаря, правильность грамматики и понимание темы. Он также предоставляет оценки на нескольких уровнях детализации и возвращает оценки точности для определенных слогов, слогов, слов, предложений или даже целых статей. Дополнительные сведения см. в статье об использовании пакета SDK службы "Речь" для функций оценки произношения.

В следующей таблице описаны ключевые результаты. Дополнительные сведения см. в полных параметрах ответа. С помощью методов обработки естественного языка (NLP) и параметров EnableMiscue оценка произношения может обнаруживать такие ошибки, как дополнительные, отсутствующие или повторяющиеся слова при сравнении с эталонным текстом. Эта информация помогает получить более точную оценку для использования в качестве диагностических сведений. Эта возможность полезна для более длинных абзацев текста.

Параметр Описание
AccuracyScore Точность произношения речи. Правильность указывает на степень соответствия фонем произношению носителя языка. Слоги, слова и полнотекстовые оценки точности агрегируются из оценки точности на уровне фонем и уточняются с учётом целей оценки.
FluencyScore Беглость заданной речи. Владение языком указывает на степень соответствия речи использованию пауз между словами носителем языка.
CompletenessScore Полнота речи, вычисляемая по соотношению произнесемых слов к входной ссылке.
ProsodyScore Просодию данной речи. Prosody указывает, насколько естественно данное речь, включая стресс, интонацию, скорость речи и ритм.
PronScore Общая оценка, указывающая качество произношения данной речи. Взвешенное значение получается из Score точности, Score плавности и Score полноты.
ErrorType Это значение указывает, опущено ли слово, вставлено, неправильно произнесено, неправильно вставлено с разрывом, пропущена пауза на знаке препинания или тон монотонно растет, падает или остается ровным на речевых фрагментах по сравнению с ReferenceText. Возможные значения: None (что означает отсутствие ошибки в этом слове), Omission, Insertion, Mispronunciation, UnexpectedBreak, MissingBreak и Monotone.

Другим набором параметров, возвращаемых оценкой произношения, являются смещение и длительность (называемые "меткой времени") Метка времени речи возвращается в структурированном формате JSON. Оценка произношения может вычислить ошибки произношения на каждом фонеме. Оценка произношения также может пометить ошибки для определенных меток времени в входном звуке. Клиенты, разрабатывающие приложения, могут использовать сигнал, чтобы предложить путь обучения, чтобы помочь учащимся сосредоточиться на ошибке несколькими способами. Например, приложение может выделить исходную речь, ответить на звук, чтобы сравнить его со стандартным произношением, или рекомендовать аналогичные слова для практики.

Параметр Описание
Смещение Время (в единицах 100 нс), с которого в звуковом потоке начинается распознанная речь.
Продолжительность Длительность (в единицах 100 нс) распознанной речи в звуковом потоке.

Примеры вариантов использования

Оценка произношения может использоваться для удаленного обучения, практики экзаменов или других сценариев, требующих обратной связи с произношением. Ниже приведены примеры вариантов использования, которые развертываются или предназначены для клиентов, использующих оценку произношения:

  • Поставщик образовательных услуг: поставщики могут создавать приложения с помощью оценки произношения, чтобы помочь учащимся обучаться на языке удаленно с обратной связью в режиме реального времени. Этот вариант использования является типичным, если приложению требуется поддержка обратной связи в режиме реального времени. Мы поддерживаем потоковую отправку аудиофайлов для немедленной обратной связи.
  • Образование в игре: разработчики приложений, например, могут создавать приложение для обучения языка, сочетая комплексные уроки в играх с технологией распознавания речи, чтобы помочь детям учиться на английском языке. Программа может охватывать широкий спектр английских навыков, таких как речь, чтение и прослушивание, а также обучение детей по грамматике и словарю, с оценкой произношения, используемой для поддержки детей, как они учатся говорить на английском языке. Эти несколько форматов обучения гарантируют, что дети учат английский язык с легкостью на основе веселого стиля обучения.
  • Образование в приложении для коммуникации: Microsoft Teams Reading Progress помогает преподавателю оценивать задания на устную речь учащегося с помощью автоматического определения пропусков, вставок и неправильного произношения. Кроме того, учащиеся могут удобнее тренировать произношение перед отправкой домашней работы. Прогресс Спикер Microsoft Teams как функция ускорения обучения также может помочь учащимся в развитии навыков презентации и публичного выступления.

Рекомендации при выборе других вариантов использования

Онлайн-обучение быстро растет, так как школы и организации адаптируются к новым способам подключения и методов образования. Речевые технологии могут играть значительную роль в том, чтобы сделать дистанционное обучение более привлекательным и доступным для студентов из всех слоев общества. Благодаря средствам Foundry разработчики могут быстро добавлять возможности речи в приложения, что позволяет создавать онлайн-обучение в жизнь.

Одним из ключевых элементов в обучении языка является улучшение навыков произношения. Для новых изучающих язык, практика произношения и своевременное получение обратной связи важны для того, чтобы стать более свободным говорящим. Для поставщика решений, который стремится поддерживать учащихся в изучении языка, возможность практики в любое время и в любом месте с помощью оценки произношения хорошо подходит для этого случая. Она также может быть интегрирована в качестве виртуального помощника для учителей и помочь повысить их эффективность.

Следующие рекомендации относятся к случаям использования, когда следует тщательно использовать оценку произношения:

  • Привлечение человека для участия в любых сценариях формальной проверки: система оценки произношения основана на системах ИИ, и такие внешние факторы, как качество голоса и фоновый шум, могут повлиять на точность. Участие человека в процессе формальных экзаменов гарантирует, что результаты оценки соответствуют ожиданиям.
  • Рассмотрите возможность использования различных пороговых значений для каждого сценария: в настоящее время оценка произношения представляет только степень сходства с носителями языка, использованными для обучения модели. Такую метрику сходства можно сопоставить с различными сценариями с условиями на основе правил или взвешенным подсчетом, чтобы помочь обеспечить обратную связь по произношению. Например, метод градирования для обучения детей может быть не столь строгим, как для обучения взрослых. Рекомендуется задать более высокий порог обнаружения неправильного произношения для обучения взрослых.
  • Учитывайте возможность учета ошибок: если сценарий включает чтение длинных абзацев, пользователям, скорее всего, будет трудно следовать справочному тексту, не допуская ошибок. Эти ошибки, включая пропуски, вставки и повторы, считаются ошибками. С включенной функцией EnableMiscue произнесемые слова будут сравниваться с справочным текстом и будут помечены как "Упущение", "Вставка", "Повторение" на основе сравнения.

Юридические и нормативные соображения: организациям необходимо оценить потенциальные определенные юридические и нормативные обязательства при использовании любых служб и решений ИИ, которые могут быть не подходящими для использования в каждой отрасли или сценарии. Кроме того, службы или решения ИИ не предназначены для использования и не могут использоваться способами, запрещенными в применимых условиях обслуживания и соответствующих кодексах поведения.