Обнаружение и изменение личных сведений в тексте

Язык Azure в инструментах Foundry — это облачный сервис, который применяет функции обработки естественного языка (NLP) к текстовым данным. Функция piI может оценивать неструктурированный текст, извлекать и редактировать конфиденциальную информацию (PII) и информацию о работоспособности (PHI) в тексте в нескольких предопределенных категориях.

Варианты разработки

Чтобы использовать обнаружение piI, вы отправляете текст для анализа и обрабатываете выходные данные API в приложении. Анализ выполняется как есть, без настройки модели, используемой в данных. Существует два способа использования обнаружения персонально идентифицируемой информации:

Вариант разработки	Описание
Портал Microsoft Foundry (новый)	Foundry (новое) — это облачная платформа искусственного интеллекта, которая обеспечивает упрощенный доступ к моделям, агентам и инструментам Foundry через проекты Foundry.
Портал Foundry (классический)	Foundry (классическая) — это облачная платформа, которая поддерживает проекты на основе концентраторов и другие типы ресурсов. При регистрации вы можете использовать собственные данные для обнаружения личных сведений в текстовых примерах.
REST API или клиентская библиотека (Azure SDK)	Интеграция обнаружения PII в приложения с помощью REST API или клиентской библиотеки, доступной на различных языках.

Указание модели обнаружения персональных данных

По умолчанию эта функция использует последнюю доступную модель ИИ в тексте. Вы также можете настроить запросы API для использования определенной версии модели.

Языки ввода

При отправке входного текста для обработки можно указать, какие из поддерживаемых языков они написаны. Если язык не указан, извлечение по умолчанию используется на английском языке. API может возвращать смещения в ответе для поддержки различных многоязычных кодировок и эмодзи.

Дополнительные параметры конфигурации (2025-11-15-preview)

Это важно

Общедоступная предварительная версия azure Language in Foundry Tools предоставляет ранний доступ к функциям, которые находятся в активной разработке.
Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
Функции предварительного просмотра подчиняются условиям, применимым к предварительным версиям, как это описано в дополнительных условиях использования предварительных версий Microsoft Azure и Дополнении о защите данных (DPA) для продуктов и служб Майкрософт.

Политики редактирования

Начиная с версии 2025-11-15-preview и более поздних, можно указать параметр redactionPolicies, чтобы определить, какие политики редактирования применяются при обработке текста. Вы можете включить несколько политик в один запрос, при этом одна из них указывается как основная defaultRedactionPolicy, а дополнительные переопределения политики применяются для указанных сущностей.

Поле политики принимает четыре типа политик:

SyntheticReplacement 🆕
CharacterMask (по умолчанию)
NoMask
EntityMask

Для получения дополнительной информации, см. параметрызадачи REST API PII.

Тип политики syntheticReplacement 🆕

Тип политики синтетическая замена заменяет обнаруженную PII-сущность значением замены. Например, входные данные, такие как "Джон Доу получил звонок от 424-878-9193", можно преобразовать в "Сэм Джонсон получил звонок от 401-255-6901". Эти замены случайным образом выбираются из предопределенного набора альтернативных значений.


POST {Endpoint}/language/:analyze-text?api-version=2025-11-15-preview

      {
     "kind": "PiiEntityRecognition",
     "parameters": {
       "modelVersion": "latest",
       "redactionPolicies": [
         {
           "policyKind": "syntheticReplacement",
           "entityTypes": [
                    "Person",
                    "PhoneNumber"
           ]
         }
       ]
     }
   }

Тип политики characterMask

Тип политики characterMask ** позволяет маскировать redactedText с помощью указанного символа (например, "") при сохранении длины и смещения исходного текста. Например, "получил звонок из ************"

Кроме того, есть также необязательное поле с именем redactionCharacter , которое позволяет указать символ, используемый для редактирования при применении characterMask политики.

Пример запроса

   POST {Endpoint}/language/:analyze-text?api-version=2025-11-15-preview
           {
       "kind": "PiiEntityRecognition",
       "parameters": {
       "modelVersion": "latest",
           "redactionPolicies": [
             {
               "policyKind": "characterMask",
               "redactionCharacter": "-"
             }
           ]
         }
     }

Тип политики noMask

тип политики noMask ** позволяет возвращать ответ без включения redactedText поля. Например, "Джон Доу получил звонок от 424-878-919".

Пример запроса

   POST {Endpoint}/language/:analyze-text?api-version=2025-11-15-preview

     {
    "kind": "PiiEntityRecognition",
    "parameters": {
      "modelVersion": "latest",
      "redactionPolicies": [
        {
          "policyKind": "noMask"
        }
      ]
    }
  }

Тип политики entityMask

Тип политики entityMask ** позволяет маскировать обнаруженный текст сущности PII вместе с соответствующим типом сущности. Например, "[PERSON_1] получил звонок из [PHONENUMBER_1]".


   POST {Endpoint}/language/:analyze-text?api-version=2025-11-15-preview

      {
     "kind": "PiiEntityRecognition",
     "parameters": {
       "modelVersion": "latest",
       "redactionPolicies": [
         {
           "policyKind": "entityMask"
         }
       ]
     }
   }

Дополнительные сведения см. в заметке по прозрачности обработки личных данных (PII).

ConfidenceScoreThreshold 🆕

Функция piI в настоящее время редактирует все обнаруженные сущности независимо от их оценки достоверности. Таким образом, сущности с низким уровнем достоверности также удаляются, даже если сохранение их предпочтительнее. Чтобы повысить гибкость, можно настроить порог достоверности, определяющий минимальную оценку достоверности сущности, которая должна оставаться в выходных данных.

Пример запроса


    POST {Endpoint}/language/:analyze-text?api-version=2025-11-15-preview

         {
           "kind":"PiiEntityRecognition",
           "parameters":{
              "modelVersion":"latest",
              "confidenceScoreThreshold":{
                 "default":0.9,
                 "overrides":[
                    {
                       "value":0.8,
                       "entity":"USSocialSecurityNumber"
                    },
                    {
                       "value":0.6,
                       "entity":"Person",
                       "language":"en"
                    }
                 ]
              }
           }
        }

Дополнительные сведения см. в справочнике по REST API: ConfidenceScoreThreshold

ОтключитьПроверкуСущности

При использовании службы PII она проверяет несколько типов сущностей, чтобы обеспечить целостность данных и минимизировать ложные срабатывания. Однако эта строгая проверка иногда может замедлить рабочие процессы, в которых проверка не требуется. Чтобы предоставить больше гибкости, мы вводим параметр, который позволяет отключить проверку сущности, если вы решите. По умолчанию этот параметр имеет значение false, что означает, что строгая проверка сущностей остается на месте. Если вы хотите обойти проверку сущности для запросов, можно задать для параметра значение true.

Пример запроса



 POST {Endpoint}/language/:analyze-text?api-version=2025-11-15-preview

     {
        "kind":"PiiEntityRecognition",
        "parameters":{
           "modelVersion":"latest",
           "disableEntityValidation":"true | false"
        },
        "analysisInput":{
           "documents":[
              {
                 "id":"id01",
                 "text":"blah"
              }
           ]
        }
     }

Дополнительные сведения см. в справочнике по REST API: PiiTaskParameters

Выбор возвращаемых сущностей

API пытается определить определенные категории сущностей для заданного текстового языка ввода. Если вы хотите указать, какие сущности обнаружены и возвращаются, используйте необязательный piiCategories параметр с соответствующими категориями сущностей. Этот параметр также позволяет обнаруживать сущности, которые не включены по умолчанию для языка ввода текста. В примере ниже обнаруживается только Person. Можно указать один или несколько типов сущностей, которые необходимо вернуть.

Подсказка

Если вы не включаете default при указании категорий сущностей, API возвращает только указанные категории сущностей.

Входные данные:

Примечание.

В этом примере возвращается только тип сущности лица.

https://<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-05-01

{
  "kind": "PiiEntityRecognition",
  "parameters": {
    "modelVersion": "latest",
    "piiCategories": [
      "Person"
    ],
    "redactionPolicies": {
      "policyKind": "characterMask",
      "redactionCharacter": "*"
       # MaskWithCharacter|MaskWithEntityType|DoNotRedact
    }
  },
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "en",
        "text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to [email protected]! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
      }
    ]
  }
}

Выходные данные:


{
    "kind": "PiiEntityRecognitionResults",
    "results": {
        "documents": [
            {
                "redactedText": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is ********) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to [email protected]! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!",
                "id": "1",
                "entities": [
                    {
                        "text": "John Doe",
                        "category": "Person",
                        "offset": 226,
                        "length": 8,
                        "confidenceScore": 0.98
                    }
                ],
                "warnings": []
            }
        ],
        "errors": [],
        "modelVersion": "2021-01-15"
    }
}

Адаптация ПД к вашему домену

Для учета и адаптации кастомного словаря клиента, используемого для идентификации сущностей (иначе называемого "контекст"), функция entitySynonyms позволяет клиентам определять собственные синонимы для конкретных типов сущностей.

Эта функция предназначена для идентификации сущностей в контекстах, которые могут быть незнакомы для модели, особенно термины, относящиеся к входным данным клиента. Таким образом, это гарантирует, что уникальная терминология клиента достоверно распознана и правильно связана во время процесса обнаружения.

Этот valueExclusionPolicy вариант позволяет клиентам адаптировать службу PII для сценариев, когда клиенты предпочитают, чтобы определенные термины не обнаруживали и не редактировали, даже если эти термины попадают в категорию PII, которая их интересует. Например, департамент полиции может потребовать, чтобы личные идентификаторы редактировались в большинстве случаев, за исключением терминов, таких как "полицейский", "подозреваемый" и "свидетель".

Теперь клиенты могут адаптировать обнаружение службы PII, указав собственный regex с помощью файла конфигурации распознавания regex. Узнайте, как установить и запустить контейнеры для обнаружения персонально идентифицируемой информации (PII) в наших руководствах по контейнерам.

Более подробное руководство см. в руководстве по адаптации PII к вашему домену.

Отправка данных

Анализ выполняется при получении запроса. При синхронном использовании функции распознавания персональных данных состояние не сохраняется. Никакие данные в учетной записи не сохраняются, а все результаты немедленно возвращаются в ответе.

При асинхронном использовании этой функции результаты API доступны в течение 24 часов с момента приема запроса и указываются в ответе. По истечении этого периода результаты очищаются и больше не будут доступны для извлечения.

Получение результатов персональных данных

При получении результатов от функции распознавания персональных данных можно передать результаты в приложение в потоке или сохранить выходные данные в файл в локальной системе. Ответ API включает распознанные сущности, включая их категории и подкатегории, а также оценки достоверности. Строка текста с сущностями PII, редактированная, также возвращается.

Ограничения службы и данных

Сведения о размере и числе запросов, которые можно отправлять в минуту и секунду, см. в статье об ограничениях службы.

Дальнейшие действия

Обзор личных сведений (PII)

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-11-18

Поделиться через

Обнаружение и изменение личных сведений в тексте

Варианты разработки

Указание модели обнаружения персональных данных

Языки ввода

Дополнительные параметры конфигурации (2025-11-15-preview)

Политики редактирования

Тип политики syntheticReplacement 🆕

Тип политики characterMask

Тип политики noMask

Тип политики entityMask

ConfidenceScoreThreshold 🆕

ОтключитьПроверкуСущности

Выбор возвращаемых сущностей

Адаптация ПД к вашему домену

Отправка данных

Получение результатов персональных данных

Ограничения службы и данных

Дальнейшие действия

Обратная связь

Дополнительные ресурсы