Примечание о прозрачности для определения языка

Важно

Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.

Что такое заметка о прозрачности?

Важно

В этой статье предполагается, что вы знакомы с рекомендациями и передовыми методами для Azure Language в инструментах Foundry. Дополнительные сведения см. в заметке о прозрачности языка.

Система ИИ включает не только технологию, но и людей, которые будут использовать его, людей, которые будут затронуты им, и среды, в которой она развернута. Для создания системы, которая подходит для ее целевой цели, требуется понимание того, как работает технология, ее возможности и ограничения, а также как достичь оптимальной производительности. Заметки о прозрачности Microsoft призваны помочь вам понять, как работает наша технология ИИ, какие выборы могут делать владельцы системы, чтобы влиять на производительность и поведение системы, и насколько важно рассматривать всю систему в целом, включая технологию, людей и окружающую среду. При разработке или развертывании собственной системы можно использовать прозрачные заметки или поделиться ими с пользователями, которые будут использовать вашу систему или на которых она повлияет.

Прозрачные записки Microsoft являются частью более широких усилий Microsoft по реализации наших принципов ИИ. Дополнительные сведения см. в статье "Принципы ответственного ИИ" из Microsoft.

Общие сведения об обнаружении языка

Функция обнаружения языка определяет язык, в который записывается входной текст, и сообщает один языковой код для каждого документа, отправленного по запросу, в широком диапазоне языков, вариантов, диалектов и некоторых региональных или культурных языков. Языковой код связан с оценкой достоверности.

Обязательно проверьте список поддерживаемых языков , чтобы убедиться, что нужные языки поддерживаются.

Примеры вариантов использования

Обнаружение языка используется в нескольких сценариях в различных отраслях. Ниже приведены некоторые примеры:

  • Предварительная обработка текста других функций языка. Другие функции языка требуют отправки кода языка в запросе для идентификации исходного языка. Если вы не знаете исходный язык текста, можно использовать обнаружение языка в качестве предварительного процессора для получения кода языка.

  • Определение языков для рабочего процесса бизнеса. Например, если компания получает электронную почту на разных языках от клиентов, они могут использовать определение языка для маршрутизации сообщений электронной почты по языку к носителям языка, чтобы лучше взаимодействовать с клиентами.

Рекомендации при выборе варианта использования

Не используйте

  • Не используйте для автоматических действий без вмешательства человека для сценариев высокого риска. Человек всегда должен проверять исходные данные, когда затрагивается экономическая ситуация, здоровье или безопасность другого человека.

Юридические и нормативные аспекты: организациям необходимо оценить потенциальные определенные юридические и нормативные обязательства при использовании любых средств и решений Foundry, которые могут быть не подходящими для использования в каждой отрасли или сценарии. Кроме того, средства и решения Foundry не предназначены для использования и не могут использоваться способами, запрещенными в применимых условиях обслуживания и соответствующих кодексах поведения.

Характеристики и ограничения

В зависимости от сценария и входных данных можно столкнуться с разными уровнями производительности. Следующая информация разработана, чтобы помочь вам понять основные концепции производительности в контексте использования функции обнаружения языка в Language.

Ограничения системы и рекомендации по повышению производительности

  • Для входных данных, включающих содержимое смешанного языка , возвращается только один язык. Как правило, язык, который больше всего представлен в содержимом, возвращается, но с более низким уровнем уверенности.
  • Служба пока не поддерживает романизированные версии всех языков, которые не используют латинский скрипт. Например, Pinyin не поддерживается для китайского языка и Franco-Arabic не поддерживается для арабского языка.
  • Некоторые слова существуют на нескольких языках. Например, "невозможное" встречается как в английском, так и во французском языках. Для коротких примеров, включающих неоднозначные слова, вы можете не получить правильный язык.
  • Если вы знаете о стране или регионе происхождения текста и сталкиваетесь с смешанными языками, можно использовать countryHintпараметр для передачи кода страны или региона в виде двух букв.
  • Как правило, более длинные входные данные, скорее всего, будут правильно распознаны. Полные фразы или предложения, скорее всего, будут правильно распознаны, чем отдельные слова или фрагменты предложения.
  • Не все языки будут распознаны. Обязательно проверьте список поддерживаемых языков и скриптов.
  • Чтобы различать несколько скриптов, используемых для написания определенных языков, таких как казах, функция обнаружения языка возвращает имя скрипта и код скрипта в соответствии со стандартом ISO 15924 для ограниченного набора скриптов.
  • Служба поддерживает обнаружение текста, только если он находится в родном алфавите. Например, Pinyin не поддерживается для китайского языка и Franco-Arabic не поддерживается для арабского языка.
  • Из-за неизвестных пробелов в наших обучающих данных некоторые диалекты и разновидности языка, менее представленные в веб-данных, могут быть неправильно распознаны.

См. также