Дополнительные сведения о типах конфиденциальной информации

Выявление и классификация конфиденциальных элементов, которые находятся под контролем организации, является первым шагом в Information Protection дисциплине. Microsoft Purview предоставляет три способа идентификации элементов, чтобы их можно было классифицировать:

вручную, по пользователям
с помощью автоматического распознавания шаблонов, как и в случае с типами конфиденциальной информации
с помощью машинного обучения

Типы конфиденциальной информации (SIT) — это классификаторы на основе шаблонов. Они обнаруживают конфиденциальную информацию, такую как социальное обеспечение, кредитные карта или номера банковских счетов для идентификации конфиденциальных элементов. Полный список всех ИЦТ см. в разделе Определения сущностей типа конфиденциальной информации.

Корпорация Майкрософт предоставляет большое количество предварительно настроенных SIT или вы можете создать собственные.

Лицензирование

Лицензия E5 необходима для использования sit проверки учетных данных. Список всех типов конфиденциальной информации для проверки учетных данных см. в разделе Все типы конфиденциальной информации для учетных данных. Этот sit содержит все sit проверки учетных данных, доступные на портале. Каждый член этого sit является проверкой учетных данных SIT и может использоваться в качестве автономного. Список многих созданных корпорацией Майкрософт SIT см. в разделе Определения сущностей типа конфиденциальной информации.

Типы конфиденциальной информации используются в

Категории типов конфиденциальной информации

Встроенные типы конфиденциальной информации

Корпорация Майкрософт создала эти SIT, и они отображаются на портале Purview по умолчанию. Эти SIT нельзя изменить, но их можно использовать в качестве шаблонов, скопировав их для создания пользовательских типов конфиденциальной информации. Полный список всех типов sit см. в статье Определения сущностей типов конфиденциальной информации .

Типы конфиденциальной информации именованных сущностей

По умолчанию на портале Purview также отображаются sit именованные сущности. Они определяют имена людей, физические адреса и медицинские условия. Их невозможно изменить или скопировать. Дополнительные сведения см. в статье Сведения об именованных сущностях.

Типы SIT именованных сущностей бывают двух типов:

не упаковано

Эти именованные sit сущности имеют более узкий фокус, например отдельную страну или регион или один класс терминов. Используйте их, если требуется политика защиты от потери данных (DLP) с более узким область обнаружения. См. примеры именованных сущностей SIT.

Комплекте

Объединенные идентификаторы именованных сущностей обнаруживают все возможные совпадения в классе, например Все физические адреса. Используйте их в качестве общих критериев в политиках защиты от потери данных для обнаружения конфиденциальных элементов. См. примеры именованных сущностей SIT.

Совет

Если вы хотите использовать пакет SIT в политике защиты от потери данных конечной точки, необходимо включить расширенную проверку классификации и защиту. Это требование связано с сочетанием объединенных политик SITS иendpoint DLP.

Пользовательские типы конфиденциальной информации

Если предварительно настроенные типы конфиденциальной информации не соответствуют вашим потребностям, можно создать собственные настраиваемые типы конфиденциальной информации, которые вы полностью определяете, или скопировать один из встроенных и изменить его. Дополнительные сведения см. в разделе

Создайте пользовательский тип конфиденциальной информации на портале Microsoft Purview.

Точное сопоставление данных типов конфиденциальной информации

Все точное совпадение данных (EDM) на основе SIT создаются с нуля. Они используются для обнаружения элементов с точными значениями, которые определяются в базе данных с конфиденциальной информацией. Дополнительные сведения см. в статье Сведения о типах конфиденциальной информации на основе точного сопоставления данных.

Основные части типа конфиденциальной информации

Каждая сущность типа конфиденциальной информации (SIT) состоит из следующих полей:

Имя: Указывает, как ссылается тип конфиденциальной информации.
Описание: Объяснение того, что ищет тип конфиденциальной информации.
Узор: Определяет, что обнаруживает SIT. Он состоит из следующих компонентов: основной элемент, вспомогательные элементы, уровень достоверности и близость.

В следующей таблице описан каждый компонент шаблонов, используемых при определении типов конфиденциальной информации.

Компонент шаблона	Описание
Основной элемент	Основной элемент, который ищет тип конфиденциальной информации. Это может быть регулярное выражение с проверкой контрольной суммы или без него, список ключевое слово, словарь ключевое слово или функция. Каждый из этих типов элементов может быть выбран из списка существующих SIT или может быть определен пользователем с разрешениями администратора. После определения элемента он появляется в списке существующих элементов вместе с встроенными.
Вспомогательный элемент	Элемент, выступающий в качестве подтверждающих доказательств. При включении вспомогательные элементы помогают повысить уровень достоверности по отношению к точности обнаруженных совпадений. Например, если основной элемент определен как `SSN` (состоит из девяти цифр), а ключевое слово номер социального страхования (SSN) используется в качестве вспомогательного элемента при обнаружении в непосредственной близости от `SSN`, уверенность в том, что `SSN` обнаруженный номер действительно является номером социального страхования, будет выше, чем если ключевое слово номера социального страхования (SSN) отсутствует. Вспомогательным элементом может быть регулярное выражение (с проверкой контрольной суммы или без нее), список ключевое слово или словарь ключевое слово.
Уровень вероятности	Существует три уровня достоверности в отношении обнаруженных совпадений: высокий, средний и низкий. Уровень достоверности отражает, сколько подтверждающих доказательств обнаружено вместе с основным элементом. Чем больше подтверждающих доказательств содержит обнаруженный элемент, тем выше уверенность в том, что соответствующий элемент содержит конфиденциальную информацию, которую вы ищете. Дополнительные сведения об уровнях достоверности см. в видео, включенном далее в эту статью.
Компонент ранжирования с учетом расположения	Указывает, насколько близко вспомогательный элемент к основному элементу с точки зрения количества символов между ними.

Общие сведения о близком расположении

На следующей схеме показано, как работает обнаружение совпадений с точки зрения близости. В этом примере основным элементом является SSN поле, а определение SIT требует, чтобы каждый экземпляр SSN значения был в указанном расположении по крайней мере к одному из следующих элементов:

AccountNumber
Name
DateOfBirth

На схеме мы видим, что проверяемые данные включают три разных экземпляра SSN поля: SSN1, SSN2, SSN3и SSN4.

Чтобы понять, как работает близкое расположение, давайте рассмотрим некоторые примеры критериев обнаружения. Здесь, хотели обнаружить девятизначные номера социального страхования. Критерии обнаружения требуют, чтобы девятизначное регулярное выражение (основной элемент) было найдено в сочетании с подтверждающими доказательствами (среди AccountNumberполей , Nameи DateOfBirth ), которое отображается в пределах 250 символов ( близкое расположение).

Как показано на схеме, только первичные элементы SSN1 и SSN4 соответствуют описанным критериям обнаружения. Давайте посмотрим поближе.

В случае SSN1AccountNumber значение находится в пределах указанного окна близости, равного 250 символам, поэтому обнаруживается совпадение.
В обоих случаях SSN2 и SSN3ни один из вспомогательных элементов не встречается в пределах 250 символов от первичного элемента, поэтому эти значения не обнаруживаются как совпадение. Однако, когда вы посмотрите на окно близкого взаимодействия для SSN2 на схеме, вы можете спросить: Почему нет совпадения для SSN2? Разве окно близкого SSN2 взаимодействия не распространяется на Name элемент? Это хороший вопрос. Ответ: Не совсем. Хотя окно близкого взаимодействия распространяется на Name значение, оно не включает все значение, поэтому шаблон не совпадает.
Наконец, в случае есть два вспомогательных элемента в окне близкого SSN4взаимодействия: и NameDateOfBirth, поэтому этот шаблон также соответствует.

Дополнительные сведения об уровнях доверия см. в этом коротком видео.

Пример типа конфиденциальной информации

Номер внутреннего удостоверения личности для Аргентины (DNI)

Формат

Восемь цифр, разделенных точками.

Шаблон

Восемь цифр:

две цифры
точка
три цифры
точка
три цифры

Контрольная сумма

Нет

Определение

Политика защиты от потери данных имеет среднюю уверенность в том, что она обнаружила этот тип конфиденциальной информации, если в пределах 250 символов:

регулярное выражение Regex_argentina_national_id находит содержимое, которое соответствует шаблону;
находится ключевое слово из Keyword_argentina_national_id.

<!-- Argentina National Identity (DNI) Number -->
<Entity id="00aa00aa-bb11-cc22-dd33-44ee44ee44ee" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

Ключевые слова

Keyword_argentina_national_id

Argentina National Identity number
Удостоверение
Удостоверение личности
DNI
Национальный реестр лиц (NIC)
Documento Nacional de Identidad
Registro Nacional de las Personas
Identidad
Identificación

Дополнительные сведения об уровнях достоверности

В определении сущности типа конфиденциальной информации уровень достоверности отражает, сколько подтверждающих доказательств обнаружено в дополнение к основному элементу. Чем больше подтверждающих доказательств содержит элемент, тем выше уверенность в том, что соответствующий элемент содержит конфиденциальную информацию, которую вы ищете. Например, совпадения с высоким уровнем достоверности содержат больше подтверждающих доказательств в непосредственной близости к основному элементу, тогда как совпадения с низким уровнем достоверности будут содержать мало подтверждающих доказательств в непосредственной близости.

Высокий уровень достоверности возвращает наименьшее количество ложноположительных результатов, но может привести к большему числу ложноотрицательных результатов. Низкие или средние уровни достоверности возвращают больше ложноположительных результатов, но от нескольких до нуля ложноотрицательных.

низкая достоверность. Совпадаемые элементы содержат наименьшее количество ложноотрицательных значений, но больше всего ложноположительных результатов. Низкая достоверность возвращает все совпадения с низкой, средней и высокой достоверностью. Низкий уровень достоверности имеет значение 65.
средняя достоверность. Совпадаемые элементы содержат среднее количество ложноположительных и ложноотрицательных результатов. Средняя достоверность возвращает все совпадения средней и высокой достоверности. Средний уровень достоверности имеет значение 75.
высокая достоверность. Совпадаемые элементы содержат наименьшее количество ложноположительных результатов, но больше всего ложноотрицательных. Высокая достоверность возвращает только совпадения с высокой достоверностью и имеет значение 85.

Вы должны использовать шаблоны высокого уровня достоверности с низким числом, например от пяти до 10, и шаблоны низкого доверия с более высоким числом, например 20 или более.

Примечание.

Если у вас есть существующие политики или пользовательские типы конфиденциальной информации (SIT), определенные с помощью уровней достоверности на основе чисел (также известных как точность), они автоматически сопоставляются с тремя дискретными уровнями достоверности; низкая достоверность, средняя достоверность и высокая достоверность в пользовательском интерфейсе Центра безопасности и соответствия требованиям.

Все политики с минимальной точностью или настраиваемые шаблоны SIT с уровнями достоверности от 76 до 100 будут сопоставлены с высокой достоверностью.
Все политики с минимальной точностью или пользовательские шаблоны SIT с уровнем достоверности от 66 до 75 будут сопоставлены со средней достоверностью.
Все политики с минимальной точностью или настраиваемые шаблоны SIT с уровнями достоверности меньше или равными 65 будут сопоставлены с низкой достоверностью.

Создание пользовательских типов конфиденциальной информации

Для создания пользовательских типов конфиденциальной информации можно выбрать один из нескольких вариантов.

Использование пользовательского интерфейса . Вы можете настроить пользовательский тип конфиденциальной информации с помощью пользовательского интерфейса портала Purview. В этом методе можно использовать регулярные выражения, ключевые слова и словари ключевых слов. Дополнительные сведения см. в статье Создание пользовательского типа конфиденциальной информации.
Использование EDM . Вы можете настроить пользовательские типы конфиденциальной информации с помощью классификации на основе точного сопоставления данных (EDM). Этот метод позволяет создать динамический тип конфиденциальной информации с помощью защищенной базы данных, которую можно периодически обновлять. См . статью Сведения о типах конфиденциальной информации на основе точного сопоставления данных.
Использование PowerShell . Вы можете настроить настраиваемые типы конфиденциальной информации с помощью PowerShell. Хотя этот метод сложнее, чем использование пользовательского интерфейса, он предоставляет дополнительные параметры конфигурации. См . статью Создание настраиваемого типа конфиденциальной информации в PowerShell для обеспечения соответствия требованиям безопасности &.

Настройка обучаемых классификаторов

Конечная точка защиты от потери данных классифицирует файлы на основе всех типов конфиденциальной информации, доступных в клиенте, включая настраиваемые типы конфиденциальной информации, независимо от их использования в любых политиках защиты от потери данных. Это может привести к чрезмерному трафику классификации, если типы конфиденциальной информации не настроены правильно и в конечном итоге совпадают с большим количеством файлов. Следует оптимизировать все настраиваемые типы конфиденциальной информации. Это можно сделать, удалив неиспользуемые типы конфиденциальной информации и изменив sit, если они соответствуют большинству файлов в вашей организации. Инструкции по использованию проверяющих элементов regex SIT для настройки SIT см. в разделе Тип конфиденциальной информации— проверяющие элементы REGEX и дополнительные проверка

Поддержка двухбайтового набора символов

Улучшенные уровни достоверности доступны для немедленного использования в службах Защита от потери данных Microsoft Purview, защиты информации, соответствия требованиям к обмену данными, управления жизненным циклом данных и управления записями.

Information Protection теперь поддерживает языки двухбайтового набора символов для:
Китайский (упрощенное письмо)
Китайский (традиционное письмо)
Корейский
Японский

Эта поддержка доступна для конфиденциальных типов информации. Дополнительные сведения см. в разделе Сведения о поддержке двойных байтовых наборов символов.

Поддержка однобайтового набора символов

Для выявления шаблонов, содержащих символы китайского или японского языков и однобайтовые символы, или шаблонов, содержащих элементы китайского/японского и английского языков, определите два варианта ключевого слова или регулярного выражения.

Например, для выявления такого ключевого слова, как "机密的document", используйте два варианта ключевого слова: один с пробелом между японским и английским текстом, а другой без пробела между японским и английским текстом. Поэтому в SIT следует добавить ключевые слова "机密的 document" и "机密的document". Аналогично, для выявления фразы "東京オリンピック2020" следует использовать два варианта: "東京オリンピック 2020" и "東京オリンピック2020".

Если в списке ключевых слов или фраз также содержатся слова, отличные от китайского или японского языка(например, только на английском языке), необходимо создать два словаря или ключевое слово списки. Одно для ключевых слов, содержащих китайский/японский/двойные байтовые символы, а другое — для ключевых слов только для английского языка. Например, Если вы хотите создать словарь или список ключевое слово с тремя фразами "Строго конфиденциальный", "機密性が高い" и "机密的документ", необходимо создать два списка ключевое слово.

Строго конфиденциально
機密性が高い, 机密的document и 机密的 При создании регулярного выражения с помощью двойного байтового дефиса или двойной байтовой точки убедитесь, что оба символа экранироваться так же, как и дефис или точка в регулярном счете. Вот пример регулярного выражения для справки: (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Мы рекомендуем использовать сопоставление строк вместо совпадения слов в списке ключевое слово.

Проверка типа конфиденциальной информации

Вы можете протестировать SIT, отправив пример файла. Результаты теста показывают количество совпадений для каждого уровня достоверности. Вы можете проверить встроенные SIT, пользовательские SIT, обучаемые классификаторы и точное соответствие данных.

Тест встроенных и настраиваемых типов конфиденциальной информации

Проверьте точное соответствие данных типу конфиденциальной информации.

Чтобы протестировать любой пользовательский или стандартный клиент SIT, в клиент должен быть добавлен по крайней мере одна лицензия Exchange Online. В противном случае параметр Test SIT будет неактивен при выборе любого параметра SIT.

Предоставление отзывов о соответствии или не точности соответствия в типах конфиденциальной информации

Количество совпадений, которое имеет SIT, можно просмотреть в разделах Типы конфиденциальной информации и Обозреватель содержимого. Вы также можете оставить отзыв о том, является ли элемент на самом деле совпадением или нет, используя механизм обратной связи Соответствие, а не соответствие , и использовать этот отзыв для настройки SIT. Дополнительные сведения см. в разделе Повышение точности классификатора.