Быстрый старт: создание, публикация и перевод с помощью Custom Translator

Переводчик — это облачная служба перевода нейронных машин, которая входит в семейство средств Foundry REST API, которые можно использовать с любой операционной системой. Переводчик позволяет многим продуктам и службам Майкрософт, используемым тысячами предприятий по всему миру, выполнять перевод на язык и другие операции, связанные с языком. В этом кратком руководстве описано, как создавать пользовательские решения для приложений на всех поддерживаемых языках.

Предварительные условия

Чтобы использовать портал Пользовательского переводчика , вам потребуется следующее:

  • Учетная запись Майкрософт.

  • Подписка Azure — создайте бесплатную учетную запись.

  • Оформив подписку Azure, создайте ресурс "Переводчик" на портале Azure, чтобы получить ключ и конечную точку. После развертывания выберите Перейти к ресурсу.

    • Для подключения приложения к Переводчику требуется ключ и конечная точка из ресурса. Вставьте ключ и конечную точку в код далее в кратком руководстве. Эти значения находятся на странице Ключи и конечная точка портала Azure:

      Снимок экрана: страница

Дополнительные сведения см. в статьео создании ресурса Переводчика.

Портал настраиваемого переводчика

После завершения предварительных требований войдите на портал Custom Translator для создания рабочих областей, создания проектов, отправки файлов, обучения моделей и публикации пользовательского решения.

Вы можете ознакомиться с возможностями перевода и Пользовательского переводчика, получить советы и просмотреть видео о начале работы в блоге, посвященном ИИ Azure.

Сводка процесса

  1. Создайте рабочую область. Рабочая область — это рабочая зона для создания и построения пользовательской системы перевода. Рабочая область может содержать несколько проектов, моделей и документов. Все действия, которые вы выполняете в Пользовательском переводчике, выполняются в определенной рабочей области.

  2. Создайте проект. Проект — это программа-оболочка для модели, документов и тестов. Каждый проект включает все документы, которые были загружены в рабочую область с указанной языковой парой. Например, если у вас есть как проект на английский и испанский, так и на английском языке, одни и те же документы включены в оба проекта.

  3. Отправьте параллельные документы. Параллельные документы — это пары документов, в которых один (целевой документ) является переводом другого (исходного документа). Один документ в паре содержит предложения на исходном языке, а другой — предложения, переведенные на целевой язык. Не имеет значения, какой язык помечен как исходный, а какой — как целевой. Параллельный документ можно использовать для обучения системы перевода в любом направлении.

  4. Обучите модель. Моделью называется система, которая предоставляет перевод для определенной языковой пары. Результатом успешного обучения является модель. При обучении модели требуются три взаимоисключающих типа документов: учебный, настроечный и тестовый. Если при очереди обучения предоставляются только обучающие данные, настраиваемый переводчик автоматически собирает данные настройки и тестирования. Он использует случайное подмножество предложений из обучающих документов и исключает эти предложения из самих обучающих данных. Минимальное требование для обучения модели: 10 000 параллельных предложений.

  5. Протестируйте модель (оценку должен провести человек). Тестовый набор используется для вычисления BLEU оценки. Она позволяет проверить качество системы перевода.

  6. Опубликуйте (разверните) обученную модель. Теперь пользовательская модель доступна для запросов перевода в среде выполнения.

  7. Переведите текст. Используйте облачный, безопасный, высокий уровень производительности, высокомасштабируемый API перевода текстов Майкрософт версии 3 для выполнения запросов на перевод.

Создание рабочей области

  1. После входа в Custom Translator вам будет предложено предоставить разрешение на доступ к вашему профилю на платформе удостоверений Microsoft, чтобы запросить ваш пользовательский токен доступа и токен обновления. Оба токена необходимы для проверки подлинности и чтобы предотвратить выход из сеанса во время работы в режиме реального времени или в процессе обучения ваших моделей.
    Выберите Да.

    Снимок экрана: создание рабочей области.

  2. Выберите мои рабочие области.

  3. Выберите Создать рабочую область.

  4. Введите Contoso MT модели для рабочей области и выберите Далее.

  5. Выберите регион , в котором развернут ресурс.

  6. Скопируйте и вставьте ключ служб Переводчика.

  7. Выберите Далее.

  8. Нажмите кнопку Готово.

    Примечание.

    Регион должен соответствовать региону, выбранному при создании ресурса. Вы можете использовать КЛЮЧ 1 или КЛЮЧ 2.

    Снимок экрана, иллюстрирующий ключ ресурса.

    Снимок экрана: создание рабочей области.

Создание проекта

После успешного создания рабочей области вы увидите страницу "Проекты ".

Вы создаете проект по переводу с английского на немецкий для обучения пользовательской модели только с документом типа обучение.

  1. Выберите Создать проект.

  2. Введите Английский–немецкий в поле Имя проекта.

  3. В раскрывающемся списке выберите Английский (EN) в качестве Исходного языка.

  4. В раскрывающемся списке выберите Немецкий (DE) в качестве Целевого языка.

  5. В раскрывающемся списке выберите Общая в качестве Предметной области.

  6. Выберите Создать проект.

    Снимок экрана: создание проекта.

Отправить документы

Чтобы создать пользовательскую модель, необходимо отправить все документы или сочетание типов документов для обучения, настройки, тестирования и словаря.

В этом кратком руководстве показано, как загрузить тренировочные документы для настройки.

Примечание.

Вы можете использовать наши образцы данных для обучения, словарей фраз и предложений, образцы наборов данных для клиентов с английского на немецкий язык, для быстрого начала. Однако для производственного использования лучше загрузить собственный обучающий набор данных.

  1. Выберите имя проекта Английский–немецкий.

  2. Выберите "Управление документами " в левой области.

  3. Выберите Добавить набор документов.

  4. Установите флажок Обучающий набор и нажмите кнопку Далее.

  5. Убедитесь, что флажок Параллельные документы установлен, и введите Пример: Английский–немецкий.

  6. В поле Исходный файл (английский, EN) выберите Обзор файлов и выберите sample-English-German-Training-en.txt.

  7. В поле Целевой файл (немецкий, DE) выберите Обзор файлов и выберите sample-English-German-Training-de.txt.

  8. Щелкните Отправить.

    Примечание.

    Можно отправить пример набора данных со словарями фраз и предложений. Этот шаг вы выполните самостоятельно.

    Снимок экрана: отправка документов.

Обучение модели

Теперь вы готовы к обучению модели перевода с английского на немецкий язык.

  1. Выберите "Обучение модели " в левой области.

  2. Введите en-de with sample data в поле Имя модели.

  3. Убедитесь, что флажок Полное обучение установлен.

  4. В разделе Выбор документов выберите Пример: Английский–немецкий и просмотрите стоимость обучения для выбранного количества предложений.

  5. Щелкните Обучить сейчас.

  6. Для подтверждения выберите Обучить.

    Примечание.

    Уведомления отображают обучение модели, например состояние отправки данных . Обучение модели занимает несколько часов в зависимости от числа выбранных предложений.

    Снимок экрана: создание модели.

  7. После успешного обучения модели выберите сведения о модели в левой области.

  8. Выберите имя модели en-de с примерами данных. Просмотрите дату и время обучения, общее время обучения, количество предложений, используемых для обучения, настройки, тестирования и словаря. Проверьте, сгенерировала ли система наборы данных для тестирования и настройки. Вы используете Category ID для выполнения запросов на перевод.

  9. Оцените оценку модели BLEU . Оценка BLEU набора тестов — это пользовательская оценка модели, а базовая модель BLEU — это предварительно обученная базовая модель, используемая для настройки. Чем выше оценка BLEU, тем выше качество перевода с использованием пользовательской модели.

    Примечание.

    Если вы используете наши общие клиентские наборы данных для тренировки, BLEU оценка может отличаться от изображения.

    Снимок экрана: сведения о модели.

Тестирование модели

После успешного завершения обучения проверьте переведённые предложения в тестовом наборе.

  1. Выберите тестовую модель на левой панели.
  2. Выберите "англ-нем с примерами данных".
  3. Человеческая оценка перевода из новой модели (настраиваемая модель) и базовой модели (наша предварительно обученная базовая модель, используемая для настройки) против эталона (целевой перевод из тестового набора)

Публикация модели

Публикация модели делает ее доступной для использования с помощью API Переводчика. В проекте может быть одна или несколько успешно обученных моделей. Для проекта можно опубликовать только одну модель, зато это можно сделать в нескольких регионах в зависимости от ваших потребностей. Дополнительные сведения см. на странице цены на Переводчик.

  1. Выберите "Опубликовать модель " на левой панели.

  2. Выберите en-de с примерами данных и выберите Опубликовать.

  3. Проверьте нужные регионы.

  4. Выберите Опубликовать. Состояние должно измениться с Развертывается на Развернуто.

    Снимок экрана: развертывание обученной модели.

Перевод текста

  1. Разработчики должны использовать Category ID при выполнении запросов на перевод с помощью API перевода текстов Переводчик Майкрософт версии 3. Дополнительные сведения об API перевода текстов можно найти на этой веб-странице.

  2. Бизнес-пользователи могут скачать и установить бесплатное приложение DocumentTranslator для Windows.

Следующие шаги