Поделиться через


Что такое перевод документов?

Перевод документов — это облачная функция машинного перевода службы Azure AI Translator . Вы можете переводить несколько и сложных документов на всех поддерживаемых языках и диалектах , сохраняя исходную структуру документов и формат данных. API перевода документов поддерживает два процесса перевода:

  • Асинхронный пакетный перевод поддерживает обработку нескольких документов и больших файлов. Для процесса пакетного перевода требуется учетная запись Azure Blob Storage с контейнерами хранения для ваших исходных и переведенных документов.

  • Синхронный один файл поддерживает обработку однофайловых переводов. Процесс перевода файлов не требует учетной записи для хранения BLOB-данных в Azure. Окончательный ответ содержит переведенный документ и возвращается непосредственно вызывающому клиенту.

Асинхронный пакетный перевод

Используйте асинхронную обработку документов для перевода нескольких документов и больших файлов.

Основные функции пакетной обработки

Особенность Описание
Перевод больших файлов Асинхронный перевод целых документов.
Перевод большого количества файлов Перевод нескольких файлов с использованием всех поддерживаемых языков и диалектов с сохранением структуры и формата данных документа.
Сохранение представления исходного файла Перевод файлов с сохранением исходной структуры и формата.
Применение пользовательской модели перевода Перевод документов с использованием стандартной и пользовательской моделей перевода.
Применение пользовательских глоссариев Перевод документов с использованием пользовательских глоссариев.
Автоматическое определение языка документа Разрешить службе перевода документов определять язык документа.
Перевод документов с содержимым на нескольких языках Используйте возможность автоматического обнаружения для перевода документов с содержимым с нескольких языков на целевой язык.

Параметры разработки пакетной обработки

Вы можете добавить службу "Перевод документов" в свои приложения с помощью REST API или пакета SDK клиентской библиотеки:

  • REST API — это независимый от языка интерфейс, позволяющий создавать HTTP-запросы и заголовки авторизации для перевода документов;

  • пакеты SDK для клиентских библиотек — это классы, объекты, методы и код, специфичные для языка, которые можно быстро использовать, добавив ссылку в проект. Сейчас служба "Перевод документов" поддерживает языки программирования C#/.NET и Python.

Форматы документов, поддерживаемые пакетной обработкой

Метод Получения поддерживаемых форматов документов возвращает список форматов документов, поддерживаемых службой перевода документов. Список содержит распространенные расширения имен файла и тип содержимого при использовании API загрузки.

Тип файла Расширение файла Описание
Adobe PDF pdf Переносимый формат документов. В переводе документов используется технология оптического распознавания символов (OCR) для извлечения и перевода текста в отсканированном PDF-документе при сохранении исходного макета.
Значения, разделённые запятыми csv Файл необработанных данных с разделением запятыми, используемый редакторами электронных таблиц.
HTML html, htm Язык разметки гипертекста.
XML Формат файлов обмена для локализации xlff Формат параллельных документов, экспортируемый системами памяти переводов. Используемые языки определены в файле.
Markdown markdown, mdownmkdnmdmkdmdwnmdtxtmdtextrmd Упрощенный язык разметки для создания форматированного текста.
MHTML mhtml, mht Формат архива веб-страниц, используемый для объединения HTML-кода и сопровождающих его ресурсов.
Microsoft Excel xls, xlsx Файл электронной таблицы для анализа и документирования данных.
Microsoft Outlook msg Сообщение электронной почты, созданное или сохраненное в Microsoft Outlook.
Microsoft PowerPoint ppt, pptx Файл презентации, используемый для отображения содержимого в формате слайд-шоу.
Microsoft Word doc, docx Файл текстового документа.
Текст OpenDocument odt Файл текстового документа с открытым кодом.
Презентация OpenDocument odp Файл презентации с открытым кодом.
Электронная таблица в формате OpenDocument ods Файл электронной таблицы с открытым кодом.
Формат «Текст с разметкой» rtf Текстовый документ, содержащий форматирование.
Значения, разделённые табуляцией/TAB tsv/tab Файл необработанных данных с разделителями-табуляциями, используемый программами для работы с электронными таблицами.
Текст txt Неформатированный текстовый документ.

Устаревшие пакетные типы файлов

Типы исходных файлов сохраняются во время перевода документов со следующими исключениями:

Расширение исходного файла Расширение переведенного файла
.doc, .odt, .rtf, DOCX
.xls, .ods XLSX
.ppt, .odp PPTX

Поддерживаемые пакетной обработкой форматы глоссария

Перевод документов поддерживает следующие типы файлов глоссария:

Тип файла Расширение файла Описание
значения, разделённые запятыми csv Файл необработанных данных с разделением запятыми, используемый редакторами электронных таблиц.
XML Формат обмена файлами локализации xlf , xliff Параллельный формат документа, экспорт систем памяти преобразования. Используемые языки определяются внутри файла.
Значения, разделённые табуляцией (TAB) tsv, tab Файл данных с разделением табуляцией, используемый программами для работы с электронными таблицами.

Синхронный перевод

Используйте синхронную обработку перевода для отправки документа в составе текста HTTP-запроса и получения переведенного документа в ответе HTTP.

Функции синхронного перевода

Особенность Описание
Перевод одностраничных файлов Синхронный запрос принимает только один документ в качестве входных данных.
Сохранение представления исходного файла Перевод файлов с сохранением исходной структуры и формата.
Применение пользовательской модели перевода Перевод документов с использованием стандартной и пользовательской моделей перевода.
Применение пользовательских глоссариев Перевод документов с использованием пользовательских глоссариев.
Перевод на один язык Перевод на один поддерживаемый язык и с одного поддерживаемого языка.
Автоматическое определение языка документа Разрешить службе перевода документов определять язык документа.
Применение пользовательских глоссариев Перевод документа с помощью пользовательского глоссария.

Синхронные поддерживаемые форматы документов

Тип файла Расширение файла Тип контента Описание
Обычный текст .txt text/plain Неформатированный текстовый документ.
значения, разделённые табуляцией .txv
.tab
text/tab-separated-values Формат текстового файла, использующий вкладки для разделения значений и новых линий для отдельных записей.
Разделенные запятыми значения .csv text/csv Формат текстового файла, который использует запятые в качестве разделителя между значениями.
Язык разметки HyperText .html
.htm
text/html HTML — это стандартный язык разметки, используемый для структуры веб-страниц и содержимого.
MHTML .mhtml
.mht
message/rfc822
@application/x-mimearchive
@multipart/related
Формат файла архива веб-страницы.
Microsoft PowerPoint .pptx application/vnd.openxmlformats-officedocument.presentationml.presentation Формат файла на основе XML, используемый для презентаций слайд-шоу PowerPoint.
Microsoft Excel .xlsx application/vnd.openxmlformats-officedocument.spreadsheetml.sheet Формат файла на основе XML, используемый для электронных таблиц Excel.
Microsoft Word .docx application/vnd.openxmlformats-officedocument.wordprocessingml.document Формат файла на основе XML, используемый для документов Word.
Microsoft Outlook .msg application/vnd.ms-outlook Формат файла, используемый для сохраненных объектов почтового сообщения Outlook.
Обмен локализацией XML .xlf
.xliff
application/xliff+xml Стандартный формат xml-файла, широко используемый в процессе перевода и локализации программной обработки.

Синхронные поддерживаемые форматы глоссарий

Перевод документов поддерживает следующие типы файлов глоссария:

Тип файла Расширение файла Описание
Значения, разделенные запятыми csv Файл необработанных данных с разделением запятыми, используемый редакторами электронных таблиц.
XmlLocalizationInterchange xlf , xliff Формат на основе XML, предназначенный для стандартизации передаче данных во время процесса локализации.
TabSeparatedValues tsv, tab Файл необработанных данных с разделением знаками табуляции, используемый редакторами электронных таблиц.

Ограничения запросов на перевод документов

Подробные сведения об ограничениях запросов службы Azure AI Translator см. в разделе"Ограничения запросов на перевод документов".

Резиденция данных перевода документов

Расположение данных перевода документов зависит от региона Azure, в котором был создан ресурс Переводчика:

✔️ Функция: Перевод документов
✔️ Конечная точка службы: Custom: <name-of-your-resource.cognitiveservices.azure.com/translator/text/batch/v1.1

Ресурс создан в регионе Центр обработки запросов
Global Ближайший доступный центр обработки данных.
Америки Восточная часть США 2 • Западная часть США 2
Азиатско-Тихоокеанский регион Восточная Япония • Юго-Восточная Азия
Европа (за исключением Швейцарии) Центральная Франция • Западная Европа
Швейцария Северная Швейцария • Западная Швейцария

Следующие шаги

В нашем кратком руководстве вы узнаете, как быстро приступить к работе с переводом документов. Для начала вам нужна активная учетная запись Azure. Если ее нет, можно создать бесплатную учетную запись.