Поделиться через


Примечание о прозрачности персонально идентифицируемой информации (ПИИ)

Это важно

Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.

Что такое примечание о прозрачности?

Это важно

В этой статье предполагается, что вы знакомы с инструкциями и передовыми методиками по языку Azure. Дополнительные сведения см. в заметке о прозрачности языка Azure.

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Создание системы, соответствующей её целевому назначению, требует понимания того, как работает технология, её возможностей и ограничений, а также того, как добиться наилучшей производительности.

Заметки о прозрачности корпорации Майкрософт предназначены для того, чтобы помочь вам понять, как работает наша технология ИИ, как владельцы систем могут повлиять на производительность и поведение системы, а также важность думать о всей системе, включая технологию, людей и окружающую среду.

При разработке или развертывании собственной системы можно использовать заметки о прозрачности, а также предоставлять им общий доступ к пользователям, использующим или затронутым вашей системой.

Заметки о прозрачности Корпорации Майкрософт являются частью более широких усилий корпорации Майкрософт по внедрению принципов искусственного интеллекта на практике. Дополнительные сведения см. в статье "Принципы ответственного искусственного интеллекта" от Корпорации Майкрософт.

Общие сведения о функции персональных данных (PII)

Язык Azure поддерживает распознавание именованных сущностей для идентификации и классификации сведений в тексте. Функция PII поддерживает обнаружение личных категорий сущностей. Можно распознать широкий спектр личных данных, такие как имена, организации, адреса, номера телефонов, номера финансовых счетов, коды, а также государственные, правительственные и региональные идентификационные номера. Подмножество этих персональных данных — это защищённая медицинская информация (PHI). Если вы указываете domain=phi в запросе, вы получите только возвращаемые сущности PHI. Полный список категорий сущностей PII и PHI можно найти в таблице.

Ознакомьтесь с примером запроса NER и примером ответа , чтобы узнать, как отправлять текст в службу и что ожидать обратно.

Примеры вариантов использования

Клиентам может потребоваться распознать различные категории персональных данных по нескольким причинам:

  • Применяйте метки конфиденциальности. Например, на основе результатов службы по обнаружению персональных данных публичная метка конфиденциальности может применяться к документам, в которых персональные данные не выявлены. Для документов, в которых распознаются адреса и номера телефонов США, может применяться метка "конфиденциально". Метка высокого уровня конфиденциальности может использоваться для документов, в которых распознаются номера маршрутизации банка.
  • Отредактировать некоторые категории персональных данных из документов, подлежащих более широкому распространению - Например, если записи контактной информации клиентов доступны представителям службы первой линии поддержки, компания может захотеть скрыть личную информацию клиента, кроме их имени, из версии истории клиентов, чтобы сохранить конфиденциальность клиента.
  • Редактируйте личную информацию, чтобы уменьшить бессознательную предвзятость - Например, во время процесса рассмотрения резюме компании они могут заблокировать имя, адрес и номер телефона, чтобы помочь уменьшить гендерную или другие формы бессознательной предвзятости.
  • Замена персональных данных в исходных данных машинного обучения, чтобы снизить несправедливость. Например, если вы хотите удалить имена, которые могут выявить пол при обучении модели машинного обучения, можно использовать службу для их идентификации и заменить их универсальными заполнителями для обучения моделей.
  • Удалите персональные данные из транскрипции центра обработки вызовов. Например, если вы хотите удалить имена или другие персональные данные, которые упоминаются в разговоре агента и клиента в сценарии центра обработки вызовов. Служба позволяет выявлять и удалять эти данные.

Рекомендации при выборе варианта использования

  • Избегайте сценариев автоматического повторного редактирования или классификации информации с высоким риском . Любой сценарий, в котором отказ от редактирования персональных данных может привести к риску кражи удостоверений и физического или психологического ущерба, должен включать в себя тщательный контроль над человеком.
  • Избегайте сценариев, которые используют личную информацию для цели, для которой согласие не было получено . Например, компания имеет резюме прошлых претендентов на работу. Заявители не дали согласия на то, чтобы с ними связывались для участия в рекламных мероприятиях, когда они подали свои резюме. В соответствии с этим сценарием служба PII не должна использоваться для идентификации контактных данных в целях приглашения прошлых заявителей в торговое шоу.
  • Избегайте сценариев, использующих службу для сбора персональных данных из общедоступного содержимого.
  • Избегайте сценариев, которые заменяют личную информацию в тексте намерением обмануть людей.
  • Юридические и нормативные соображения: организациям необходимо оценить потенциальные определенные юридические и нормативные обязательства при использовании любых служб и решений ИИ, которые могут быть не подходящими для использования в каждой отрасли или сценарии. Кроме того, службы или решения ИИ не предназначены для использования и не могут использоваться способами, запрещенными в применимых условиях обслуживания и соответствующих кодексах поведения.

Характеристики и ограничения

В зависимости от вашего сценария, входных данных и сущностей, которые вы хотите извлечь, вы можете столкнуться с различными уровнями производительности. В следующих разделах описаны основные понятия о производительности, которые применяются к использованию службы piI языка Azure.

Понимание и измерение производительности

Так как могут возникать ложные положительные и ложные отрицательные ошибки, важно понять, как оба типа ошибок могут повлиять на общую систему. Например, в сценариях редактирования ложные отрицательные значения могут привести к утечке персональных данных. В сценариях редактации рассмотрим процесс проверки человека, который будет учитывать этот тип ошибки. В сценариях меток конфиденциальности как ложные срабатывания, так и ложные отрицательные могут привести к неправильной классификации документов. Аудитория может ненужно ограничить документы, помеченные как конфиденциальные, из-за ложноположительного срабатывания. Персональные идентификационные данные (ПИО) могли быть утечены в случае ложного отрицательного результата и применения публичной метки.

Вы можете настроить пороговое значение для оценки достоверности, который используется системой для настройки системы. Если более важно определить все потенциальные экземпляры PII, можно использовать более низкий порог. Это означает, что вы можете получить больше ложных срабатываний (данные, не являющиеся PII, распознаются как сущности PII), но меньше ложных отрицательных результатов (сущности PII не распознаются как PII). Если для вашей системы важно распознавать только подлинные данные PII, можно использовать более высокое пороговое значение. Пороговые значения могут не иметь согласованного поведения в отдельных категориях сущностей PII. Поэтому важно протестировать систему с реальными данными, которые будут обрабатываться в рабочей среде.

Ограничения системы и рекомендации по повышению производительности

  • Убедитесь, что вы понимаете все категории сущностей , которые можно распознать системой. В зависимости от вашего сценария ваши данные могут включать другие сведения, которые могут считаться личными, но не охватываются категориями, которые в настоящее время поддерживает служба.

  • Контекст важен для всех категорий сущностей, которые должны быть правильно распознаны системой, так как часто это позволяет людям распознавать сущность. Например, без контекста десятизначный номер является только числом, а не сущностью PII. Тем не менее, учитывая контекст, как вы можете связаться со мной на моем номере офиса 2345678901, как система, так и человек могут распознавать десятизначный номер как номер телефона. Всегда включать контекст при отправке текста в систему, чтобы получить оптимальную производительность.

  • Имена пользователей, в частности, требуют лингвистического контекста. Отправьте максимально возможный контекст для лучшего обнаружения имен пользователей.

  • Для данных разговоров стоит отправить более одной реплики в разговоре, чтобы обеспечить более высокую вероятность включения необходимого контекста с необходимыми сущностями. В следующем диалоге, если вы отправляете одну строку за раз, номер паспорта не имеет контекста, и категория PII номера паспорта ЕС не распознается.

    Привет, как я могу помочь вам сегодня?
    Я хочу продлить паспорт
    Конечно, какой у вас текущий номер паспорта?
    Это 123456789, спасибо.

    Тем не менее, если вы отправляете всю беседу, она будет распознана, так как контекст включен.

  • Иногда для одной сущности можно распознать несколько категорий сущностей. Если мы рассмотрим предыдущий пример:

    Привет, как я могу помочь вам сегодня?
    Я хочу продлить паспорт
    Конечно, какой у вас текущий номер паспорта?
    Это 123456789, спасибо.

    Несколько разных стран имеют одинаковый формат для номеров паспортов, поэтому могут быть признаны несколько различных категорий конкретных сущностей. В некоторых случаях использование максимальной оценки достоверности может быть недостаточно для выбора подходящего класса сущности. Если ваш сценарий зависит от распознавания конкретной категории сущностей, возможно, потребуется уточнять результат в другой части вашей системы либо через человеческую проверку, либо с помощью дополнительного кода проверки. Тщательное тестирование данных в реальной жизни поможет определить, может ли вы увидеть несколько категорий сущностей для распознанного сценария.

    Хотя поддержка оказывается многим международным субъектам, в настоящее время служба поддерживает только английский текст. Попробуйте проверить язык, в который находится текст ввода, если вы не уверены, что это все на английском языке.

  • Служба piI принимает только текст в качестве входных данных. Если вы скрываете информацию из документов других форматов, тщательно протестируйте код удаления, чтобы гарантировать, что обнаруженные сущности не утекли случайно.

  • Функция анонимизации (2025-11-15-preview) заменяет персональные данные (PII) случайным образом выбранными значениями из предопределенного списка, определенного для каждой категории сущностей. Например, имя пользователя заменяется именем, выбранным в соответствующем списке предустановок.

    • Предустановленный список имен включает как гендерные, так и гендерно-не зависящие от пола варианты, а также имена из различных культурных фонов. Однако, если имя связано с определенным гендерным или культурным контекстом, эти ассоциации не сохраняются во время замены. В результате это может привести к непредвиденным последствиям в сценариях, когда ожидаются гендерные или культурные идентификаторы, связанные с персональными данными на основе имен.
    • Использование функции анонимизации также может привести к путанице для конечных пользователей редактированного текста, так как после замены значений PII конечные пользователи могут не понимать, что какие-либо значения PII были отредактированы.

См. также