Поделиться через


Сведения об оптическом распознавании символов в Microsoft Purview

Сканирование оптического распознавания символов (OCR) позволяет Microsoft Purview сканировать изображения на наличие конфиденциальной информации. Сканирование OCR — это необязательная функция, которая должна быть включена на уровне клиента. После включения выберите расположения, в которых нужно сканировать изображения. Сканирование изображений доступно для устройств Exchange, SharePoint, OneDrive, Teams, Windows и macOS. После настройки параметров OCR существующие политики защиты от потери данных (DLP), управления записями и управления внутренними рисками (IRM) применяются к изображениям и текстовому содержимому. Например, предположим, что вы настроили содержимое условия защиты от потери данных , содержащее конфиденциальную информацию и включили классификатор данных, например тип конфиденциальной информации кредитной карты (SIT). В этом случае Microsoft Purview сканирует кредит карта числа как в тексте, так и на изображениях во всех выбранных расположениях.

Обзор рабочего процесса

Этап Требуемые параметры
При необходимости создайте подписку Azure Если у вашей организации еще нет подписки Azure с оплатой по мере использования для клиента, глобальный администратор должен начать с создания учетной записи Azure.
Оценка расходов на сканирование OCR Используйте оценщик затрат OCR , чтобы оценить ожидаемые затраты для конкретных вариантов использования.
Настройте выставление счетов с оплатой по мере использования, чтобы включить распознавание текста. Ваш глобальный администратор или администратор SharePoint должен следовать инструкциям в разделе Настройка Microsoft Syntex выставления счетов в Azure, чтобы добавить подписку на OCR.
Настройка параметров проверки OCR Администратор соответствия требованиям вашей организации настраивает параметры OCR для клиента.

Предварительные условия

Чтобы использовать проверку OCR, глобальный администратор вашей организации должен убедиться, что подписка Azure с оплатой по мере использования имеется. Если нет, они должны настроить это, следуя инструкциям в разделе Создание начальных подписок Azure.

Настройка выставления счетов

При включении распознавания текста все типы конфиденциальной информации и обучаемые классификаторы могут обнаруживать символы, которые находятся на изображениях.

Так как это необязательная функция, глобальный администратор должен настроить выставление счетов с оплатой по мере использования, чтобы включить распознавание текста. Чтобы добавить подписку на OCR, ознакомьтесь с инструкциями в разделе Настройка Microsoft Syntex выставления счетов в Azure.

Примечание.

После ввода сведений о выставлении счетов в Microsoft Syntex администратор соответствия требованиям может настроить OCR в Microsoft Purview без каких-либо дополнительных требований к настройке или лицензированию.

Сведения о ценах OCR с оплатой по мере использования см. на странице Настройка Microsoft Syntex выставления счетов в Azure.

Оценка расходов на сканирование OCR

Плата за использование OCR составляет 1,00 долл. США за каждые 1000 отсканированных элементов. Каждое отсканированное изображение считается одной транзакцией. Это означает, что изолированные изображения (JPEG, JPG, PNG, BMP или TIFF) считаются одной транзакцией. Это также означает, что плата за каждую страницу в PDF-файле взимается отдельно. Например, если в PDF-файле есть 10 страниц, функция OCR-сканирования PDF-файла будет учитываться как 10 отдельных проверок. Сведения об использовании оценщика затрат OCR см. в статье Оценка затрат на OCR.

Примечание.

Чтобы снизить затраты на распознавание текста, плата за сканирование каждого уникального изображения взимается только один раз.

Небольшие изображения, такие как логотипы и подписи, отправленные по электронной почте через Microsoft Exchange, сканируются и выставляются только один раз за уникальное изображение для всех пользователей клиента. Для всех последующих экземпляров результаты предыдущей проверки будут использоваться повторно.

Кроме того, каждое отсканированное изображение можно использовать в любом количестве политик защиты от потери данных, управления внутренними рисками, автоматической маркировки и управления записями без дополнительной платы.

Важно!

Сведения о требованиях Adobe к использованию функций Защита от потери данных Microsoft Purview (DLP) с PDF-файлами см. в статье Adobe: поддержка Защита информации Microsoft Purview в Acrobat.

Настройка параметров OCR

Выберите соответствующую вкладку для используемого портала. Дополнительные сведения о портале Microsoft Purview см. на портале Microsoft Purview. Дополнительные сведения о портале соответствия требованиям см. в разделе Портал соответствия требованиям Microsoft Purview.

  1. Войдите на портал Microsoft Purview.
  2. Выберите Настройки.
  3. Выберите Оптическое распознавание символов (OCR), чтобы ввести параметры конфигурации OCR.
  4. Выберите расположения, в которых вы хотите сканировать изображения.
  5. Выберите группы рассылки, которые нужно включить или исключить из сканирования OCR.
  6. Нажмите кнопку Готово.

Поддерживаемые расположения и решения перечислены в таблице ниже.

Разрешения

Учетная запись, используемая для создания и развертывания политик, должна быть членом одной из этих групп ролей.

  • Администратор соответствия требованиям
  • Администратор данных о соответствии требованиям
  • Глобальный администратор
  • Защита информации
  • Администратор Information Protection

Примечание.

Поддерживаемые расположения и решения

Расположение Поддерживаемые решения
Exchange Защита от потери данных

Защита информации: политики автоматического присвоения меток

Управление записями: автоматическое применение политик меток хранения1
Сайты SharePoint Защита от потери данных

Управление внутренними рисками2

Управление записями: автоматическое применение политик меток хранения1
Учетные записи OneDrive Защита от потери данных

Управление записями: автоматическое применение политик меток хранения1
сообщения в чатах и каналах Teams Защита от потери данных

Управление внутренними рисками2
Устройства Защита от потери данных

Управление внутренними рисками2

1 Поддерживает ключевые слова и типы конфиденциальной информации.
2 Учитывает типы конфиденциальной информации и обучаемые классификаторы, присутствующие на изображениях, для оценки рисков.


Поддерживаемые типы файлов

Эта функция поддерживает сканирование изображений в следующих типах файлов с указанными требованиями:

Поддерживаемые типы файлов Требования к образу
JPEG, JPG, PNG, BMP, TIFF и PDF (только изображение) Размеры файлов: Размер файлов изображений не должен превышать 20 МБ для Exchange и Teams. Для конечных точек SharePoint, OneDrive, Windows и macOS максимальный размер файла изображения составляет 50 МБ.

Разрешение изображения: Разрешение изображения должно быть не менее 50 x 50 пикселей и не больше 16 000 x 16 000 пикселей.

Важно!

  • Сканируются только изображения, отправленные после включения распознавания текста.
  • Проверка OCR выполняется как входящей электронной почты (от пользователей за пределами организации), так и от исходящих сообщений (от пользователей внутри организации). Чтобы ограничить сканирование OCR только исходящими письмами, измените параметры OCR с область по умолчанию всех групп рассылки на конкретные группы рассылки и укажите внутренние группы рассылки, которые требуется сканировать. Сведения об изменении этой конфигурации см. в разделе Настройка параметров OCR.
  • Советы по политике защиты от потери данных не поддерживаются для образов в Exchange.
  • Если исключить путь в параметрах защиты от потери данных конечной точки, OCR не будет сканировать изображения в этих папках.
  • Когда функция распознавания текста включена для устройств с Windows и macOS, устройства начинают отправлять сообщения в облако для сканирования. Ограничение пропускной способности по умолчанию составляет 1024 МБ данных на устройство в день. OCR останавливает сканирование изображений после достижения этого ежедневного ограничения. Если вы хотите продолжить сканирование изображений, можно увеличить ограничение пропускной способности.

Поддерживаемые языки

Сканирование OCR поддерживает более 150 языков.

Сводка

См. также