Ключевые термины Пользовательского переводчика

В следующей таблице представлен список ключевых терминов, которые могут быть встречены при работе с Пользовательским переводчиком.

Слово или фраза Определение
Исходный язык Исходный язык — это язык оригинала, с которого вы хотите перевести текст на другой язык (конечный язык).
Целевой язык Конечным языком является язык машинного перевода, который будет предоставляться после получения исходного языка.
Одноязычный файл Одноязычный файл имеет один язык, который не объединен с другим файлом на другом языке.
Параллельные файлы Параллельный файл является сочетанием двух файлов соответствующего текста. В одном файле представлен исходный язык, а в другом — конечный.
Выравнивание предложений Параллельный набор данных должен выравнивать предложения к предложениям, которые представляют один и тот же текст на обоих языках. К примеру в исходном параллельном файле первое предложение, в теории, должно сопоставляться с первым предложением в целевом параллельном файле.
Выровненный текст Одним из важнейших этапов проверки файла является выравнивание предложений в параллельных документах. Вещи выражаются по-разному на разных языках. Кроме того, порядок слов в разных языках также отличается. Этот шаг выполняет задачу выравнивания предложений с одинаковым содержимым, чтобы их можно было использовать для обучения. Низкий уровень выравнивания предложений свидетельствует о том, что в одном или обоих файлах могут быть ошибки.
Разбивка и соединение слов Разбивка слов — это функция маркировки границ между словами. Во многих системах письма для маркировки границ между словами используются пустые пространства. Отмена разбиения word ссылается на удаление любого видимого маркера, вставленного между словами на предыдущем шаге.
Разделители Разделители — это способы разделения предложения на сегменты или разделения полей между предложениями. Например, в английском языке пустые пространства разделяют слова, двоеточия и точки с запятой разделяют части предложения, а точки разделяют предложения.
Файлы для обучения Файл для обучения используется, чтобы научить систему машинного перевода сопоставлять исходный язык с конечным. Чем больше данных вы предоставляете, тем лучше работает система.
Файлы для настройки Эти файлы часто случайным образом выводятся из обучающего набора (если не было задано каких-либо наборов настройки). Предложения автоматически выбираются и используются для настройки системы и обеспечения правильной работы. Если вы решите создавать собственные файлы настройки, убедитесь, что они представляют собой случайный набор предложений в доменах
Файлы для тестирования Эти файлы часто являются производными файлами, случайным образом выбранными в обучающем наборе (если вы не выбираете тестовый набор). Эти предложения предназначены для оценки точности модели перевода. Чтобы убедиться, что система точно переводит эти предложения, может потребоваться создать набор тестирования и отправить его переводчику. Это гарантирует, что предложения используются в оценке системы (создание BLEU оценки).
Комбинированный файл Тип файла, в котором исходные и переведенные предложения расположены в одном файле. Поддерживаемые форматы файлов (TMX, , XLIFFXLF, ICIи XLSX).
Файл архива Файл, содержащий другие файлы. Поддерживаемые форматы файлов: ZIP, GZ, TGZ.
BLEU Счёт BLEU — это стандартный метод для оценки точности или точности модели перевода. Хотя существуют другие методы оценки, Microsoft Translator использует BLEU метод для получения отчетов о точности владельцам проектов.