Что такое словарь?
Словарь представляет собой пару согласованных документов, которые содержат список фраз или предложений и соответствующие переводы. Используйте словарь в обучении, если вы хотите перевести любые экземпляры исходной фразы или предложения с помощью перевода, предоставленного в словаре. Словари иногда называют глоссариями или терминологическими базами. Словарь по сути выполняет буквальную замену копированием для всех терминов, включенных в список. Кроме того, служба "Пользовательский переводчик Майкрософт" создает и использует собственные словари общего назначения для улучшения качества перевода. Однако предоставленный клиентом словарь принимает прецедент и сначала выполняет поиск слов или предложений.
Словари хорошо работают только для проектов, языковые пары в которых полностью поддерживаются универсальной моделью нейронных сетей Майкрософт. Ознакомьтесь с полным списком языков.
Словарь фраз
Словарь фраз учитывает регистр. Он обеспечивает операции точного поиска и замены. Если вы добавите в процесс обучения модели словарь фраз, все указанные в нем слова и фразы будут переведены строго указанным образом. Остальная часть предложения переводится обычным образом. Словарь фраз позволяет указать фразы, которые не нужно переводить. Для этого сохраните в целевом файле ту же непереведенную фразу, что и в исходном файле.
Динамический словарь
Функция динамического словаря позволяет настраивать переводы для определенных терминов или фраз. Вы определяете пользовательские переводы для уникального контекста, языка или конкретных потребностей.
Словарь нейронных фраз
Словарь нейронных фраз расширяет возможности динамического словаря и стандартного словаря фраз. Динамические словари фраз позволяют настраивать выходные данные перевода, предоставляя собственные переводы для определенных терминов или фраз. Функция динамического словаря используется с API переводчика, а словарь нейронных фраз включен с помощью пользовательского переводчика. Словарь нейронных фраз улучшает качество перевода предложений, которые включают один или несколько терминов перевода, позволяя модели машинного перевода настраивать как термин, так и контекст. Эта корректировка приводит к более свободному переводу. В то же время она сохраняет высокую точность перевода.
Словарь предложений
В словаре предложений регистр не учитывается. Словарь предложения позволяет указать точный требуемый перевод для исходного предложения. Чтобы засчитывалось совпадение со словарем предложений, запись в словаре должна полностью и точно совпадать с полученным предложением. Запись исходного словаря, которая заканчивается препинанием, игнорируется во время совпадения. Если соответствует только часть предложения, запись не соответствует. При обнаружении совпадения возвращается целевая запись словаря предложений.
Обучение только по словарю
При обучении модели можно ограничиться только данными в формате словаря. Для этого выберите документы с одним или несколькими словарями, которые вы решили включить в обучение, и выберите Создать модель. Поскольку это обучение только по словарю, ограничение на минимально необходимое количество обучающих предложений не применяется. Модель обычно завершает обучение быстрее стандартного обучения. Полученные модели используют базовые модели Майкрософт для перевода с добавлением добавленных словарей. Вы не получаете тестовый отчет.
Примечание.
Пользовательский переводчик не сопоставляет предложения в файлах словарей, поэтому важно самостоятельно следить за совпадением количества и расположения фраз и предложений в исходном и целевом документах словаря.
Рекомендации
Словари не заменяют обучение модели с использованием обучающих данных. Для получения лучших результатов рекомендуется позволить системе обучаться с помощью данных для обучения. Однако если предложения или составные существительные должны быть переведены подробно, используйте словарь фраз.
Словари фраз следует использовать с осторожностью. При замене фразы в предложении контекст этого предложения теряется или ограничивается для перевода остальной части предложения. Результатом является то, что, хотя фраза или слово в предложении преобразуется в соответствии с предоставленным словарем, общее качество перевода предложения часто страдает.
Словарь фраз хорошо подходит для составных существительных, таких как названия продуктов ("Microsoft SQL Server"), правильные имена ("Город Гамбурга"), или функции продукта ("сводная таблица"). Он не работает так же, как и для глаголов или прилагательных, так как, как правило, эти слова являются весьма контекстными в исходном или целевом языке. Рекомендуется избежать записей словаря фраз для всех, кроме составных существительных.
При использовании словаря фраз важно учитывать регистр букв и знаки препинания. Записи словаря относятся к регистру и пунктуации. Пользовательский переводчик соответствует только словам и фразам в входном предложении, которые используют точно те же знаки заглавности и препинания, как указано в исходном файле словаря. Кроме того, переводы отражают прописную букву и препинание, предоставленные в целевом файле словаря.
Пример
- Если вы обучаете англо-испанской системе, которая использует словарь фраз, и вы указываете SQL Server в исходном файле и Microsoft SQL Server в целевом файле. При запросе перевода предложения, содержащего фразу SQL Server, Пользовательский переводчик соответствует записи словаря и переводу, который содержит Microsoft SQL Server.
- При запросе перевода предложения, который содержит ту же фразу, но не соответствует тому, что находится в исходном файле, например SQL Server, SQL Server или SQL Server, он не возвращает совпадение из словаря.
- Перевод следует правилам целевого языка, как указано в словаре фраз.
Дополнительные сведения о словаре нейронных фраз см. в руководстве и рекомендациях по нейронным словарям.
Если вы используете словарь предложений, то знак препинания конца предложения игнорируется.
Пример
- Если исходный словарь содержит фразу "Это предложение заканчивается препинанием!", то все запросы на перевод, содержащие "Это предложение заканчивается знаками препинания".
Словарь должен содержать уникальные исходные строки. Если исходная строка (слово, фраза или предложение) отображается несколько раз в файле словаря, система всегда использует последнюю запись и возвращает целевой объект при обнаружении совпадения.
Избегайте добавления фраз, состоящих только из чисел или двух или трех букв, таких как акронимы, в исходном файле словаря.