Характеристики и ограничения оценки произношения

Важно

Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.

В рамках службы Azure Speech в средстве Foundry Tools, оценка произношения поддерживает комплексные решения для компьютеризированного обучения языкам. Оценка произношения включает несколько критериев для оценки производительности учащихся на нескольких уровнях детализации, с восприятием, похожим на человеческих судей.

Насколько точно оценка произношения?

Функция оценки произношения предоставляет объективные оценки, такие как точность произношения и степень беглости для учащихся в компьютерном обучении языку. Производительность оценки произношения зависит от точности транскрипции с помощью Azure Speech-To-Text с использованием отправленной транскрипции в качестве ссылки, а также интер-рейтер согласования между системой и человеческими судьями. Для определения точности функции преобразования речи в текст см. раздел Характеристики и ограничения для использования преобразования речи в текст.

В следующих разделах показано, как понять ключевые понятия о точности, применяемой к оценке произношения.

Язык точности

Точность распознавания речи в текст влияет на оценку произношения. Уровень ошибок слов (WER) используется для измерения точности преобразования речи в текст как отраслевый стандарт. WER подсчитывает количество неправильных слов, определенных во время распознавания, а затем делится на общее количество слов, предоставленных в правильной расшифровке, которая часто создается человеческой разметкой.

Сравнение оценки произношения с человеческими судьями

Коэффициент корреляции Пирсона используется для измерения корреляции между оценками, созданными API оценки произношения, и оценками, выставленными человеческими судьями. Коэффициент корреляции Пирсона — это мера линейной корреляции для двух заданных последовательностей. Метрика широко используется для измерения разницы между машинными результатами и метками, аннотированными человеком. Этот коэффициент присваивает значение от –1 до 1, где 0 означает нулевую корреляцию, отрицательное значение указывает на то, что прогноз противоположен цели, а положительное значение показывает, насколько прогноз согласуется с целью.

Предлагаемые рекомендации по интерпретации коэффициента корреляции Пирсона приведены в следующей таблице. Сила означает корреляцию связей между двумя переменными и отражает, насколько согласованно результат машины соответствует человеческим меткам. Значения, близкие к 1, указывают на более сильную корреляцию.

Сила ассоциации Значение коэффициента Детали
Низкий от 0.1 до 0.3 Автоматически созданные оценки из автоматической системы не соответствуют представлению людей.
Средний от 0.3 до 0.5 Автоматически созданные оценки из автоматической системы согласованы с восприятием людей, но различия по-прежнему существуют, и люди могут не согласиться с результатом.
Высокий от 0.5 до 1.0 Автоматически созданные оценки из автоматической системы соответствуют представлению людей, и люди готовы согласиться с результатами системы.

В наших оценках оценка произношения Microsoft достигла корреляции Пирсона >0,5 с результатами, полученными от человеческих судей, что означает, что автоматически созданные результаты очень согласованы с оценками человеческих экспертов.

Ограничения системы и рекомендации по повышению точности системы

  • Оценка произношения лучше работает с более качественным звуковым вводом. Мы рекомендуем качество ввода 16 кГц или выше.
  • Качество оценки произношения также влияет на расстояние динамика от микрофона. Записи должны быть сделаны с динамиком рядом с микрофоном, а не через удаленное подключение.
  • Оценка произношения не поддерживает смешанный лингвальный сценарий оценки.
  • Оценка произношения поддерживает более широкий спектр языков.
  • Оценка произношения не поддерживает сценарий оценки с несколькими говорителями. Звук должен содержать только один динамик для каждой оценки.
  • Оценка произношения сравнивает отправленный аудиофайл с носителями языка в стандартных условиях. Говорящий должен сохранять нормальную скорость и громкость речи, а также избегать кричать или повышать голос.
  • Оценка произношения лучше работает в среде с небольшим фоновым шумом. Текущие модели распознавания речь-в-текст учитывают шум в общих условиях. Шумные среды или несколько людей, говорящих в то же время, могут привести к снижению достоверности оценки. Чтобы лучше справляться с трудными случаями, вы можете предложить докладчику повторить произношение, если его оценка ниже определенного порога.

Оценка функций оценки произношения в ваших приложениях

Производительность оценки произношения зависит от реального использования, которое реализует клиенты. Чтобы обеспечить оптимальную производительность в своих сценариях, клиенты должны проводить собственные оценки решений, которые они реализуют с помощью оценки произношения.

  • Прежде чем использовать оценку произношения в приложениях, рассмотрите, хорошо ли работает этот продукт в вашем сценарии. Соберите данные из реальной жизни из целевого сценария, проверьте, как выполняется оценка произношения, и убедитесь, что Speech-To-Text и оценка произношения обеспечивают необходимую точность, см. статью "Оценка и улучшение точности пользовательской речи Foundry Tools".
  • Выберите подходящие пороговые значения для целевого сценария. Оценка произношения обеспечивает оценки точности на разных уровнях, и вам может потребоваться рассмотреть пороговое значение, используемое в реальном использовании. Например, метод градирования для обучения детей может быть не столь строгим, как для обучения взрослых. Рекомендуется установить более высокий порог обнаружения неправильного произношения для обучения взрослых.