Примечание по прозрачности

Важно

Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.

Система ИИ включает не только технологию, но и людей, которые будут использовать его, людей, которые будут затронуты им, и среды, в которой она развернута. Для создания системы, которая подходит для ее целевой цели, требуется понимание того, как работает технология, ее возможности и ограничения, а также как достичь оптимальной производительности.

Microsoft предоставляет заметки Transparency Notes, чтобы понять, как работает наша технология ИИ. К ним относятся выборы владельцев системы, которые могут повлиять на производительность и поведение системы, а также о значении комплексного подхода к системе, включая технологию, людей и окружающую среду. При разработке или развертывании собственной системы можно использовать прозрачные заметки или поделиться ими с пользователями, которые будут использовать вашу систему или на которых она повлияет.

Заметки о прозрачности являются частью более широких усилий по Microsoft, чтобы положить наши принципы ИИ на практике. Дополнительные сведения см. в принципах ИИ Microsoft.

Общие сведения об оценке произношения

API оценки качества произношения принимает аудиовходы для анализа произношения речи и предоставляет говорящему отзывы о точности, беглости и полноте речевого материала. Функция оценки произношения также включает более подробные отзывы о различных аспектах речевой просодии, использовании словаря, правильности грамматики и понимании тем, предоставляя подробную оценку языковых навыков. Поддерживаются как сценарные, так и без использования сценария оценивания, что упрощает вам оценку произношения и языковой компетенции. Оценка произношения поддерживает широкий спектр языков.

С помощью оценки произношения учащиеся языка могут практиковаться, получать мгновенные отзывы и улучшать своё произношение, чтобы они могли говорить и выступать с уверенностью. Преподаватели могут использовать оценку произношения для оценки произношения нескольких ораторов в режиме реального времени.

Основы оценки произношения

API оценки произношения предлагает результаты оценки речи с помощью подхода на основе машинного обучения, который тесно соответствует оценкам речи, проведенным собственными экспертами. Он предоставляет ценные отзывы о произношении, беглости, просодии, использовании словаря, правильности грамматики и понимании тем, помогая улучшить свои языковые навыки и уверенно общаться на новом языке. Модель оценки произношения была обучена на основе более чем 100 000 часов речевых данных от носителей языка. Он может обеспечить точные результаты, когда люди пропускают, повторяют или добавляют фразы по сравнению с справочным текстом. Кроме того, он позволяет расширенным параметрам конфигурации поддерживать гибкость в использовании API, например настройку детализации для изменения детализации информации в оценке. (Дополнительные сведения см. в примере кода.)

Оценка произношения оценивает несколько аспектов произношения и содержимого: точность, беглость, полнота, просодия, использование словаря, правильность грамматики и понимание темы. Он также предоставляет оценки на нескольких уровнях детализации и возвращает оценки точности для определенных слогов, слогов, слов, предложений или даже целых статей. Дополнительные сведения см. в статье об использовании пакета SDK службы "Речь" для функций оценки произношения.

В следующей таблице описаны ключевые результаты. Дополнительные сведения см. в полном списке параметров ответа. С помощью методов обработки естественного языка (NLP) и параметров EnableMiscue оценка произношения может обнаруживать такие ошибки, как дополнительные, отсутствующие или повторяющиеся слова при сравнении с эталонным текстом. Эта информация помогает получить более точную оценку для использования в качестве диагностических сведений. Эта возможность полезна для более длинных абзацев текста.

Параметр Описание
AccuracyScore Точность произношения речи. Точность показывает, насколько близко фонемы соответствуют произношению носителя языка. Слоги, слова и оценки точности полного текста агрегируются из оценки точности на уровне фонем и уточняются в соответствии с целями оценки.
FluencyScore Беглость заданной речи. Fluency указывает, насколько тесно речь соответствует использованию носителями языка пауз между словами.
CompletenessScore Полнота речи, вычисляемая по соотношению произнесемых слов к входной ссылке.
ProsodyScore Просодия данной речи. Просодия определяет, насколько естественной является данная речь, включая ударение, интонацию, скорость речи и ритм.
PronScore Общая оценка, указывающая качество произношения данной речи. Это собирается из AccuracyScore, FluencyScore и CompletenessScore с взвешенным значением.
ErrorType Это значение указывает, опущено ли слово, вставлено, неправильно произнесено, неправильно вставлено с паузой, отсутствует пауза при знаках препинания или произнесено с монотонно повышенной, пониженной или ровной интонацией на фразах, по сравнению с ReferenceText. Возможные значения: None (то есть нет ошибки в этом слове), Omission, Insertion, Mispronunciation, UnexpectedBreak, MissingBreak и Monotone.

Другим набором параметров, возвращаемых оценкой произношения, являются смещение и длительность (называемые "меткой времени") Метка времени речи возвращается в структурированном формате JSON. Оценка произношения может вычислить ошибки произношения на каждом фонеме. Оценка произношения также может помечать ошибки в определенные моменты времени во входном аудио. Клиенты, разрабатывающие приложения, могут использовать сигнал, чтобы предложить путь обучения, чтобы помочь учащимся сосредоточиться на ошибке несколькими способами. Например, приложение может выделить исходную речь, ответить на звук, чтобы сравнить его со стандартным произношением, или рекомендовать аналогичные слова для практики.

Параметр Описание
Смещение Время (в 100-наносекундных единицах), с которого распознанная речь начинается в звуковом потоке.
Длительность Длительность (в 100-наносекундах) распознанной речи в звуковом потоке.

Примеры вариантов использования

Оценка произношения может использоваться для удаленного обучения, практики экзаменов или других сценариев, требующих обратной связи с произношением. Ниже приведены примеры вариантов использования, которые развертываются или предназначены для клиентов, использующих оценку произношения:

  • Поставщик образовательных услуг: поставщики могут создавать приложения с помощью оценки произношения, чтобы помочь учащимся обучаться на языке удаленно с обратной связью в режиме реального времени. Этот вариант использования является типичным, если приложению требуется поддержка обратной связи в режиме реального времени. Мы поддерживаем потоковую отправку аудиофайлов для немедленной обратной связи.
  • Образование в игре: разработчики приложений, например, могут создавать приложение для обучения языка, сочетая комплексные уроки в играх с технологией распознавания речи, чтобы помочь детям учиться на английском языке. Программа может охватывать широкий спектр английских навыков, таких как речь, чтение и прослушивание, а также обучение детей по грамматике и словарю, с оценкой произношения, используемой для поддержки детей, как они учатся говорить на английском языке. Эти несколько форматов обучения гарантируют, что дети учат английский язык с легкостью на основе веселого стиля обучения.
  • Образование в приложении для коммуникации: Microsoft Teams Reading Progress помогает преподавателю оценивать устное задание ученика с помощью автоматического определения упущений, вставок и неправильного произношения. Кроме того, учащиеся могут более удобно и комфортно практиковать произношение, прежде чем отправить свою домашнюю работу. Microsoft Teams Функция «Успехи оратора» как инструмент ускорения обучения также может помочь учащимся в развитии навыков презентации и публичных выступлений.

Рекомендации при выборе других вариантов использования

Онлайн-обучение быстро растет, так как школы и организации адаптируются к новым способам подключения и методов образования. Технологии обработки речи могут играть значительную роль в том, чтобы сделать дистанционное обучение более увлекательным и доступным для студентов всех социальных слоев. Благодаря средствам Foundry разработчики могут быстро добавлять возможности речи в приложения, что позволяет создавать онлайн-обучение в жизнь.

Одним из ключевых элементов в обучении языка является улучшение навыков произношения. Для новичков в изучении языка практика произношения и своевременное получение обратной связи важны для того, чтобы стать более свободным говорящим. Для поставщика решений, который стремится поддерживать учеников в изучении языка, возможность практиковаться в любое время и в любом месте с помощью оценивания произношения будет хорошо подходить для этого сценария. Она также может быть интегрирована в качестве виртуального помощника для учителей и помочь повысить их эффективность.

Следующие рекомендации относятся к случаям использования, когда следует тщательно использовать оценку произношения:

  • Включите человека в процесс для любых формальных сценариев проверки: система оценки произношения управляется системами ИИ, и внешние факторы, такие как качество голоса и фоновый шум, могут повлиять на точность. Человек в процессе в формальных экзаменах гарантирует, что результаты оценки соответствуют ожиданиям.
  • Рассмотрите возможность использования различных пороговых значений для каждого сценария: в настоящее время оценка произношения представляет лишь степень сходства с произношением носителей языка, использованных для обучения модели. Такое расстояние сходства можно отобразить в разных сценариях с использованием правил или взвешенного подсчета, чтобы помочь обеспечить оценку произношения. Например, метод градирования для обучения детей может быть не столь строгим, как для обучения взрослых. Рекомендуется установить более высокий порог обнаружения неправильного произношения для обучения взрослых.
  • Рассмотрим возможность учитывать несоответствия: если сценарий включает чтение длинных абзацев, пользователям, скорее всего, будет трудно следить за справочным текстом, не делая ошибок. Эти ошибки, включая упущение, вставку и повторение, считаются ошибками. С включенной функцией EnableMiscue произнесемые слова будут сравниваться с справочным текстом и будут помечены как "Упущение", "Вставка", "Повторение" на основе сравнения.

Юридические и нормативные аспекты: организациям необходимо оценить потенциальные определенные юридические и нормативные обязательства при использовании любых средств и решений Foundry, которые могут быть не подходящими для использования в каждой отрасли или сценарии. Кроме того, средства и решения Foundry не предназначены для использования и не могут использоваться способами, запрещенными в применимых условиях обслуживания и соответствующих кодексах поведения.