Обзор типов моделей обработки документов

Область применения: ✓ Все пользовательские модели | ✓ Все предварительно созданные модели

Модели обработки документов — это мощные средства, помогающие выявлять, классифицировать и извлекать информацию из документов, хранящихся в библиотеках документов SharePoint.

При применении модели к библиотеке SharePoint она связана с типом контента, который определяет структуру извлекаемой информации. Этот тип контента, включающий столбцы для хранения извлеченных данных, сохраняется в коллекции типов контента SharePoint. Вы можете создать новый тип контента, адаптированный к вашим потребностям, или использовать существующие для повторного использования их схемы и обеспечения согласованности в организации.

Для обработки документов используются пользовательские модели и предварительно созданные модели.

Схема, показывающая типы пользовательских и предварительно созданных моделей.

Модели можно создавать двумя способами в зависимости от ваших потребностей и от того, где вы хотите ими управлять. Корпоративные модели создаются и управляются в центре содержимого, что делает их повторно используемыми на нескольких сайтах SharePoint. Локальные модели, с другой стороны, создаются непосредственно в библиотеке документов SharePoint на сайте и относятся к этой конкретной библиотеке. Это обеспечивает гибкость при выборе подходящего типа модели в зависимости от того, требуется ли централизованное управление или локализованная настройка.

Пользовательские модели

Выбранный тип пользовательской модели зависит от типов файлов, с которыми вы работаете, структуры и формата этих файлов, а также от расположений SharePoint, в которых планируется применить модель.

Пользовательские модели включают:

Дополнительные сведения о параллельных различиях в пользовательских моделях см. в статье Сравнение пользовательских моделей.

Обработка неструктурированных документов

Используйте неструктурированную модель обработки документов при работе с такими документами, как буквы или контракты, которые не соответствуют согласованному макету, но содержат идентифицируемые фразы или шаблоны. Эта модель автоматически классифицирует документы и извлекает соответствующую информацию на основе текстовых шаблонов.

Например, письмо о продлении контракта может отличаться по формату, но последовательно содержит фразу "Дата начала службы", за которой следует дата. Модель использует такие шаблоны для определения типа документа (классификация) и извлекаемой информации (средства извлечения).

  • Лучше всего подходит для: неструктурированные документы с узнаваемыми текстовыми шаблонами.
  • Поддержка файлов: самый широкий диапазон типов файлов.
  • Поддержка языков: более 40 языков.
  • Настройка. Используйте параметр Модель с одним классом .

Дополнительные сведения см. в статье Общие сведения об обработке неструктурированных документов.

Обработка документов в свободной форме

Модель обработки документов в свободной форме идеально подходит для извлечения информации из документов, в которых данные могут отображаться в любом месте, например в отсканированных письмах, факсах или PDF-файлах. В отличие от неструктурированных моделей, модели свободной формы не классифицируют тип документа; они сосредоточены исключительно на извлечении данных.

Эти модели создаются с помощью Microsoft Power Apps AI Builder и особенно полезны при обработке больших объемов входящих документов из различных источников.

  • Подходит для: PDF-файлов или файлов изображений, где классификация не требуется.
  • Поддержка файлов: форматы PDF и изображений.
  • Поддержка языков: более 40 языков.
  • Настройка. Используйте параметр модели извлечения свободной формы .
  • Доступность: зависит от региона.

Дополнительные сведения см. в статье Общие сведения о структурированной и бесплатной обработке документов.

Структурированная обработка документов

Выберите структурированную модель обработки документов для документов с согласованным макетом, например форм или счетов. Эта модель определяет значения полей и таблиц на основе их фиксированных позиций в документе.

Структурированные модели, созданные с помощью Microsoft Power Apps AI Builder, учатся на примерах документов и извлекают данные из аналогичных расположений в будущих файлах. Например, налоговая форма всегда может разместить номер социального страхования в одном месте.

  • Лучше всего подходит для: структурированных или частично структурированных документов, таких как формы.
  • Поддержка файлов: формы с согласованными макетами.
  • Поддержка языков: самый широкий диапазон поддерживаемых языков.
  • Настройка. Используйте параметр Структурированная модель извлечения .

Дополнительные сведения см. в статье Общие сведения о структурированной и бесплатной обработке документов.

Готовые модели

Помимо пользовательских моделей, обработка документов предлагает набор готовых моделей , которые предоставляют готовые возможности для извлечения структурированной информации из общих бизнес-документов. Эти модели предназначены для экономии времени и усилий, устраняя необходимость в ручном обучении или настройке.

К предварительно созданным моделям относятся:

Обработка контракта

Модель обработки контракта предназначена для анализа и извлечения ключевой информации из документов контракта. Он работает в различных форматах и определяет важные сведения о контракте, такие как:

  • Имя клиента или стороны
  • Адрес выставления счетов
  • Юрисдикции
  • Дата окончания срока действия

Эта модель идеально подходит для юридических, закупок или операционных групп, которые управляют большими объемами контрактов.

Дополнительные сведения см. в разделе Использование предварительно созданной модели для извлечения сведений из контрактов.

Обработка счета

Модель обработки счетов извлекает важные данные из счетов-фактур, помогая упростить рабочие процессы кредиторской задолженности. Он может идентифицировать такие сведения, как:

  • Имя клиента
  • Адрес выставления счетов
  • Дата выполнения
  • Сумма, к оплате

Эта модель особенно полезна для финансовых команд, которые хотят автоматизировать прием счетов и сократить ввод данных вручную.

Дополнительные сведения см. в разделе Использование предварительно созданной модели для извлечения сведений из счетов.

Обработка квитанций

Модель обработки квитанций обрабатывает как печатные, так и рукописные квитанции, извлекая ключевые сведения о транзакции, такие как:

  • Имя продавца
  • Номер телефона продавца
  • Дата транзакции
  • Налог и общая сумма

Эта модель хорошо подходит для рабочих процессов отчетности о расходах и возмещения.

Дополнительные сведения см. в разделе Использование предварительно созданной модели для извлечения сведений из квитанций.

Обработка конфиденциальной информации

Модель обработки конфиденциальной информации помогает выявлять и извлекать персональные и конфиденциальные данные из документов. Он может обнаруживать такие сведения, как:

  • Номера социального страхования
  • Номера финансовых счетов
  • Идентификаторы водительских параметров
  • Другая личная информация

Эта модель поддерживает меры по обеспечению соответствия требованиям и защите данных в организации.

Дополнительные сведения см. в разделе Использование предварительно созданной модели для обнаружения конфиденциальной информации из документов.

Простая обработка документов

Простая модель обработки документов предлагает гибкое предварительно обученное решение для извлечения таких сведений, как:

  • Пары "ключ—значение"
  • Метки выделения (например, флажки)
  • Именованные сущности
  • Штрихкоды
  • Обнаружение языка

В отличие от других готовых моделей с фиксированными схемами, эта модель адаптируется к более широкому спектру структурированных документов и является отличной альтернативой, если пользовательские метки нецелесообразно.

Дополнительные сведения см. в разделе Использование предварительно созданной модели для обнаружения конфиденциальной информации из документов.