Изучение концепций модерации текста
Используйте модели текстового модерирования Content Moderator для анализа текстового содержимого, например, чатов, форумов, чат-ботов, каталогов электронной коммерции и документов.
Ответ службы будет содержать следующие данные:
- Ненормативная лексика: сопоставление по терминам с использованием встроенного списка ненормативных слов на разных языках.
- Классификация: распределение по трем категориям с применением машинных алгоритмов.
- Личные данные
- Автоматически исправленный текст.
- Original text
- Язык
Ненормативная лексика
Если API обнаруживает ненормативную лексику на любом из поддерживаемых языков, эти термины включаются в ответ. В ответе также указывается их расположение (Index
) в исходном тексте. В ListId
следующем примере JSON ссылается на термины, найденные в настраиваемых списках терминов, если они доступны.
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 0,
"Term": "<offensive word>"
}
Примечание.
Для параметра language (язык) задайте значение eng
или оставьте это поле пустым, чтобы в ответе отобразился результат classification (классификация), которая сейчас выполняется в режиме предварительной версии. Эта функция поддерживает только английский язык.
Для обнаружения ненормативной лексики укажите код ISO 639-3 для поддерживаемых языков, которые перечислены в этой статье, или оставьте это поле пустым.
Классификация
Функция классификации текста Content Moderator с машинными алгоритмами поддерживает только английский язык и используется для обнаружения потенциально нежелательного содержимого. С ее помощью оценивается содержимое, которое может считаться недопустимым в определенном контексте. Она передает вероятность каждой категории. Она использует обученную модель для выявления лексики оскорбительного, неуважительного или дискриминационного характера. Сюда входят сленг, сокращения, оскорбительные слова и слова с намеренными орфографическими ошибками.
Ниже приводится пример ответа в формате JSON:
"Classification": {
"ReviewRecommended": true,
"Category1": {
"Score": 1.5113095059859916E-06
},
"Category2": {
"Score": 0.12747249007225037
},
"Category3": {
"Score": 0.98799997568130493
}
}
Описание
Category1
обозначает потенциальное наличие лексики, которая в некоторых обстоятельствах может считаться сексуально откровенной или предназначенной только для взрослых.Category2
обозначает потенциальное наличие лексики, которая в некоторых обстоятельствах может считаться сексуально окрашенной или не предназначенной для детей.Category3
обозначает потенциальное наличие лексики, которая в определенных обстоятельствах может считаться оскорбительной.Score
имеет значение в диапазоне от 0 до 1. Чем выше оценка, тем более подходящей модель считает соответствующую категорию. Эта возможность использует статистическую модель прогнозирования, а не оценки, кодированные вручную. Корпорация Майкрософт рекомендует протестировать ее на своих данных, чтобы проверить применимость анализа по каждой категории.ReviewRecommended
принимает значения true или false в зависимости от внутренних порогов оценки. Клиенты могут на выбор использовать значения по умолчанию или настраивать собственные пороги в соответствии с действующими политиками.
Личные данные
Функция персональных данных обнаруживает потенциальные наличие таких сведений:
- Адрес электронной почты
- Почтовый адрес в США
- IP-адрес
- Номер телефона США
Ниже показан пример результатов:
"pii":{
"email":[
{
"detected":"[email protected]",
"sub_type":"Regular",
"text":"[email protected]",
"index":32
}
],
"ssn":[
],
"ipa":[
{
"sub_type":"IPV4",
"text":"255.255.255.255",
"index":72
}
],
"phone":[
{
"country_code":"US",
"text":"6657789887",
"index":56
}
],
"address":[
{
"text":"1 Microsoft Way, Redmond, WA 98052",
"index":89
}
]
}
Автозамена
Ответ текстового модерирования может дополнительно возвращать текст с применением базовой автокоррекции.
Например, приведенный ниже входной текст имеет опечатку.
Быстрая коричневая лиса перепрыгивает через линивую собаку.
Если указать автоматическое исправление, ответ будет содержать правильную версию текста:
Быстрая коричневая лиса перепрыгивает через ленивую собаку.
Создание пользовательских списков терминов и управление ими
Используемый по умолчанию глобальный список терминов отлично подходит для большинства случаев, но в некоторых ситуациях нужно учесть дополнительные термины, характерные для вашего бизнеса. Например, вы можете фильтровать бренды ваших конкурентов в сообщениях пользователей.
Примечание.
Существует максимальное ограничение в 5 списков терминов, каждый из которых может содержать не более 10 000 терминов.
В следующем примере представлен идентификатор совпадения по списку:
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 231.
"Term": "<offensive word>"
}
Content Moderator предоставляет API списка терминов с операциями для управления пользовательскими списками терминов. Ознакомьтесь с кратким руководством по спискам терминов .NET, если вы знакомы с Visual Studio и C#.
Следующие шаги
Проверьте API с помощью краткого руководства.