Поделиться через


Пользовательский переводчик для начинающих

Пользовательский переводчик позволяет создать систему перевода, отражающую терминологию и стиль, характерные для бизнеса, отрасли и предметной области. Обучить и развернуть пользовательскую систему несложно, для этого не нужны навыки программирования. Настраиваемая система перевода легко интегрируется в существующие приложения, рабочие процессы и веб-сайты и доступна в Azure через ту же облачную облачную службу API перевода текста Microsoft, которая ежедневно выполняет миллиарды переводов.

Платформа позволяет пользователям создавать и публиковать пользовательские системы перевода на английском языке. Пользовательский переводчик поддерживает более 60 языков, которые сопоставляют напрямую с языками, доступными для нейронного машинного перевода (NMT). Полный список см. в разделе "Поддержка языка переводчика".

Подходит ли мне пользовательская модель перевода?

Хорошо обученная пользовательская модель перевода обеспечивает более точные переводы для конкретного домена, так как он использует ранее переведенные документы в домене для изучения предпочитаемых переводов. Переводчик использует эти термины и фразы в контексте для создания правильных переводов на целевом языке с соблюдением грамматики, зависящей от контекста.

Для обучения полной пользовательской модели перевода требуется значительный объем данных. Если у вас нет по крайней мере 10 000 предложений ранее обученных документов, вы не можете обучить модель полного перевода на язык. Однако вы можете обучить модель только для словаря или использовать высококачественные встроенные переводы, доступные с помощью API перевода текста.

Снимок экрана: разница между пользовательскими и общими моделями.

В чем заключается обучение пользовательской модели перевода?

Для создания пользовательской модели перевода требуется:

  • Понимание варианта использования.

  • Получение переведенных данных, относящихся к предметной области (лучше, если это будут переводы, выполненные человеком).

  • Оценка качества перевода или перевода на целевой язык.

Как оценить мой вариант использования?

Первый шаг к формированию источника профессиональных обучающих данных — четкое понимание вашего варианта использования и того, что вы будете считать успехом. При этом нужно учесть ряд факторов.

  • Указан ли нужный результат и как он измеряется?

  • Определяется ли ваш бизнес-домен?

  • Есть ли у вас предложения, относящиеся к предметной области похожие по терминологии и стилю?

  • Предполагает ли ваш вариант использования несколько предметных областей? Если да, следует ли создавать одну систему перевода или несколько?

  • Есть ли у вас требования, влияющие на регион расположения неактивных данных и данных в процессе передачи?

  • Есть ли целевые пользователи в одном или нескольких регионах?

Как предоставлять исходные данные?

Поиск качественных данных в домене часто сопряжен с трудностями, которые зависят от классификации пользователей. Ниже приведены некоторые вопросы, которые можно задать себе при оценке доступных для вас данных.

  • Имеются ли у вашей компании предыдущие данные перевода, которые можно использовать? Предприятия часто обладают большим объемом данных перевода, накопленных на протяжении многих лет при использовании человеческого перевода.

  • Есть ли у вас огромное количество одноязычных данных? Одноязычные данные — это данные только на одном языке. Если да, можно ли получить переводы для этих данных?

  • Можно ли просканировать веб-порталы, чтобы собрать исходные предложения и синтезировать их перевод на целевой язык?

Что следует использовать для учебных материалов?

Исходный код Что он делает Правила для выполнения
Двуязычные учебные документы Обучает систему применять вашу терминологию и стиль. Будьте снисходительны. Любой предметный перевод, выполненный человеком, будет лучше машинного. Добавляйте и удаляйте документы по ходу работы и постарайтесь улучшить оценку BLEU.
Настройка документов Помогает научиться применять параметры нейронного машинного перевода. Будьте строги. Создайте их, чтобы быть оптимальным представителем того, что вы собираетесь перевести в будущем.
Проверка документов Позволяет вычислить оценку BLEU. Будьте строги. Составляйте тестовые документы так, чтобы они были оптимально соответствовали тому, что вы собираетесь переводить в будущем.
Словарь фраз Принудительно выдает заданный перевод в течение всего времени. Ставьте ограничения. Словарь фраз учитывает регистр, а все слова и фразы, занесенные в список, переводятся указанным способом. Во многих случаях лучше не использовать словарь фраз и дать системе возможность обучиться.
Словарь предложений Принудительно выдает заданный перевод в течение всего времени. Будьте строги. В словаре предложений не учитывается регистр, и он хорошо подходит для коротких предложений, которые нередко встречаются в предметной области. Чтобы засчитывалось совпадение со словарем предложений, запись в словаре должна полностью и точно совпадать с полученным предложением. Если совпадает только часть предложения, запись не соответствует.

Что такое оценка BLEU?

BLEU (двуязычная оценка недоумение) — это алгоритм для оценки точности или точности текста, переведенного с одного языка на другой. Пользовательский переводчик использует метрику BLEU как один из способов оценки точности перевода.

Оценка BLEU — это число от 0 до 100. Нулевой показатель указывает на некачественный перевод, который совершенно не соответствует справочному. Оценка 100 означает идеальный перевод, идентичный справочному. Необязательно стремиться к результату 100 — оценка BLEU между 40 и 60 указывает на высокое качество перевода.

Дополнительные сведения

Что произойдет, если я не буду отправлять данные для настройки или тестирования?

Предложения, используемые для настройки и тестирования, оптимально соответствуют тому, что вы собираетесь переводить в будущем. Если вы не отправляете данные о настройке или тестировании, Пользовательский переводчик автоматически исключает предложения из обучающих документов для использования в качестве данных настройки и тестирования.

Создано системой Выбор вручную
Удобный процесс. Обеспечивает точную настройку для будущих потребностей.
Хороший выбор, если вы уверены, что обучающие данные оптимально соответствуют тому, что вы планируете переводить. Предоставляет больше свободы при формировании обучающих данных.
Легко выполнить заново при расширении или сокращении предметной области. Позволяет использовать больше данных и лучше соответствует предметной области.
Меняются при каждом цикле обучения. Не меняется при повторных циклах обучения.

Как обрабатываются обучающие материалы с помощью Пользовательского переводчика?

Для подготовки к обучению документы проходят ряд шагов обработки и фильтрации. Понимание процесса фильтрации поможет вам разобраться с числом отображаемых предложений, а также с действиями, которые вы можете выполнить при подготовке документов для обучения с помощью Пользовательского переводчика. Ниже приведены шаги фильтрации.

  • Выравнивание предложений

    Если документ не находится XLIFFв , XLSXTMXили ALIGN в формате, настраиваемый переводчик выравнивает предложения исходных и целевых документов друг другу, предложения по предложению. Переводчик не производит выравнивание документов — он следует соглашению об именовании, чтобы найти соответствующий документ на другом языке. В исходном тексте Пользовательский переводчик пытается найти соответствующее предложение на целевом языке. Он использует разметку документа, например внедренные теги HTML, чтобы упростить выравнивание.

    Если вы видите большое несоответствие между количеством предложений в исходных и целевых документах, исходный документ может быть не параллельным или не может быть выровнен. Если в паре документов разница в количестве предложений составляет более 10%, проверьте документы и убедитесь, что они параллельны.

  • Настройка и тестирование извлечения данных

    Данные для настройки и тестирования являются необязательными. Если он не указан, система удаляет соответствующий процент из обучающих документов, используемых для настройки и тестирования. Удаление происходит динамически в рамках процесса обучения. Поскольку этот этап осуществляется в ходе обучения, отправленные документы не затрагиваются. После успешного обучения можно просмотреть окончательные счетчики предложений для каждой категории данных — обучение, настройка, тестирование и словарь.

  • Фильтр длины

    • Удаляет предложения только из одного слова с обеих сторон.
    • Удаляет предложения, включающие больше 100 слов, с обеих сторон. Кроме китайского, японского и корейского.
    • Удаляет предложения, содержащие меньше трех символов. Кроме китайского, японского и корейского.
    • Удаляет предложения с более чем 2000 символами для китайского, японского, корейского.
    • Удаляет предложения, где буквы и цифры занимают менее 1%.
    • Удаляет записи словаря, содержащие более 50 слов.
  • Пробел

    • Заменяет любую последовательность символов пробела, включая табуляцию и переход на новую строку, одним пробелом.
    • Удаляет начальные и конечные пробелы в предложении.
  • Конечный знак препинания в предложении

    • Заменяет несколько знаков препинания в конце предложения одним знаком. Нормализация японских символов.

    • Преобразует буквы и цифры полной ширины в символы половинной ширины.

  • Неэкранированные теги XML

    Преобразует неэкранированные теги в экранированные:

    Тег превращается в
    < & lt;
    > & gt;
    & & ампер;
  • Недопустимые знаки

    Пользовательский переводчик удаляет предложения, содержащие символ Юникода U+FFFD. Символ U+FFFD указывает на сбой преобразования кодировки.

Какие действия следует предпринять перед отправкой данных?

  • Удалите предложения с недопустимой кодировкой.
  • Удалите управляющие символы Юникода.
  • При необходимости выравнивайте предложения (исходные и целевые).
  • Удалите исходные и целевые предложения, которые не соответствуют исходному и целевому языкам.
  • Если исходные и целевые предложения используют смешанные языки, убедитесь, что непереведенные слова оставлены намеренно, например, если это названия организаций и продуктов.
  • Избегайте ошибок обучения модели, убедившись, что грамматика и типография правильны.
  • Имеет одно исходное предложение, сопоставленное с одним целевым предложением. Хотя учебный процесс обрабатывает исходные и целевые строки, содержащие несколько предложений, сопоставление "один к одному" рекомендуется.

Как оценить результаты?

После успешного обучения модели можно просмотреть оценку BLEU модели и оценку базовой модели BLEU на странице сведений о модели. Мы используем один и тот же набор тестовых данных для создания оценки BLEU модели и базовой оценки BLEU. Эти данные помогут вам принять обоснованное решение о том, какая модель лучше подходит для вашего варианта использования.

Следующие шаги