Что такое оценка BLEU?

BLEU (Bilingual Evaluation Understudy) — это измерение различий между автоматическим переводом и эталонными переводами того же предложения, выполненными людьми.

Процесс оценки

Алгоритм BLEU сравнивает последовательные фразы автоматического перевода с последовательными фразами, которые он находит в эталонном переводе, и взвешенно подсчитывает количество совпадений. Эти совпадения не зависят от позиции. Высшая степень совпадения указывает на более высокую степень сходства с эталонным переводом и более высокий балл. Внятность и грамматика не учитываются.

Как работает BLEU

Преимущество алгоритма BLEU в том, что он хорошо коррелирует с оценками пользователей. Он усредняет число ошибок в отдельных предложениях для всего тестового набора, вместо того чтобы пытаться разработать точную оценку пользователя для каждого предложения.

Более подробные сведения об оценках BLEU см. в этой статье.

Результаты BLEU сильно зависят от обширности предметной области, согласованности тестовых данных, данных для обучения и настройки, а также от того, сколько данных у вас есть для обучения. Если модели обучены в узком домене, а данные обучения соответствуют тестовых данных, вы можете ожидать высокую оценку BLEU.

Примечание.

Сравнение оценок BLEU оправдано только в том случае, когда результаты BLEU сравниваются с тем же тестовым набором, той же языковой парой и тем же модулем машинного перевода. Оценка BLEU из другого тестового набора должна отличаться.

Следующие шаги

Оценка оценки BLEU

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-11-18