Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Важно
Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.
В рамках службы Azure Speech в средстве Foundry Tools, оценка произношения поддерживает комплексные решения для компьютеризированного обучения языкам. Оценка произношения включает несколько критериев для оценки производительности учащихся на нескольких уровнях детализации, с восприятием, похожим на человеческих судей.
Насколько точно оценка произношения?
Функция оценки произношения предоставляет объективные оценки, такие как точность произношения и степень беглости для учащихся в компьютерном обучении языку. Производительность оценки произношения зависит от точности транскрипции с помощью Azure Speech-To-Text с использованием отправленной транскрипции в качестве ссылки, а также интер-рейтер согласования между системой и человеческими судьями. Для определения точности функции преобразования речи в текст см. раздел Характеристики и ограничения для использования преобразования речи в текст.
В следующих разделах показано, как понять ключевые понятия о точности, применяемой к оценке произношения.
Язык точности
Точность распознавания речи в текст влияет на оценку произношения. Уровень ошибок слов (WER) используется для измерения точности преобразования речи в текст как отраслевый стандарт. WER подсчитывает количество неправильных слов, определенных во время распознавания, а затем делится на общее количество слов, предоставленных в правильной расшифровке, которая часто создается человеческой разметкой.
Сравнение оценки произношения с человеческими судьями
Коэффициент корреляции Пирсона используется для измерения корреляции между оценками, созданными API оценки произношения, и оценками, выставленными человеческими судьями. Коэффициент корреляции Пирсона — это мера линейной корреляции для двух заданных последовательностей. Метрика широко используется для измерения разницы между машинными результатами и метками, аннотированными человеком. Этот коэффициент присваивает значение от –1 до 1, где 0 означает нулевую корреляцию, отрицательное значение указывает на то, что прогноз противоположен цели, а положительное значение показывает, насколько прогноз согласуется с целью.
Предлагаемые рекомендации по интерпретации коэффициента корреляции Пирсона приведены в следующей таблице. Сила означает корреляцию связей между двумя переменными и отражает, насколько согласованно результат машины соответствует человеческим меткам. Значения, близкие к 1, указывают на более сильную корреляцию.
| Сила ассоциации | Значение коэффициента | Детали |
|---|---|---|
| Низкий | от 0.1 до 0.3 | Автоматически созданные оценки из автоматической системы не соответствуют представлению людей. |
| Средний | от 0.3 до 0.5 | Автоматически созданные оценки из автоматической системы согласованы с восприятием людей, но различия по-прежнему существуют, и люди могут не согласиться с результатом. |
| Высокий | от 0.5 до 1.0 | Автоматически созданные оценки из автоматической системы соответствуют представлению людей, и люди готовы согласиться с результатами системы. |
В наших оценках оценка произношения Microsoft достигла корреляции Пирсона >0,5 с результатами, полученными от человеческих судей, что означает, что автоматически созданные результаты очень согласованы с оценками человеческих экспертов.
Ограничения системы и рекомендации по повышению точности системы
- Оценка произношения лучше работает с более качественным звуковым вводом. Мы рекомендуем качество ввода 16 кГц или выше.
- Качество оценки произношения также влияет на расстояние динамика от микрофона. Записи должны быть сделаны с динамиком рядом с микрофоном, а не через удаленное подключение.
- Оценка произношения не поддерживает смешанный лингвальный сценарий оценки.
- Оценка произношения поддерживает более широкий спектр языков.
- Оценка произношения не поддерживает сценарий оценки с несколькими говорителями. Звук должен содержать только один динамик для каждой оценки.
- Оценка произношения сравнивает отправленный аудиофайл с носителями языка в стандартных условиях. Говорящий должен сохранять нормальную скорость и громкость речи, а также избегать кричать или повышать голос.
- Оценка произношения лучше работает в среде с небольшим фоновым шумом. Текущие модели распознавания речь-в-текст учитывают шум в общих условиях. Шумные среды или несколько людей, говорящих в то же время, могут привести к снижению достоверности оценки. Чтобы лучше справляться с трудными случаями, вы можете предложить докладчику повторить произношение, если его оценка ниже определенного порога.
Оценка функций оценки произношения в ваших приложениях
Производительность оценки произношения зависит от реального использования, которое реализует клиенты. Чтобы обеспечить оптимальную производительность в своих сценариях, клиенты должны проводить собственные оценки решений, которые они реализуют с помощью оценки произношения.
- Прежде чем использовать оценку произношения в приложениях, рассмотрите, хорошо ли работает этот продукт в вашем сценарии. Соберите данные из реальной жизни из целевого сценария, проверьте, как выполняется оценка произношения, и убедитесь, что Speech-To-Text и оценка произношения обеспечивают необходимую точность, см. статью "Оценка и улучшение точности пользовательской речи Foundry Tools".
- Выберите подходящие пороговые значения для целевого сценария. Оценка произношения обеспечивает оценки точности на разных уровнях, и вам может потребоваться рассмотреть пороговое значение, используемое в реальном использовании. Например, метод градирования для обучения детей может быть не столь строгим, как для обучения взрослых. Рекомендуется установить более высокий порог обнаружения неправильного произношения для обучения взрослых.