Понимание контента Azure в решениях с инструментами Foundry для документов

Content Understanding предлагает сложные возможности анализа документов. Организации могут использовать эти возможности для преобразования неструктурированного содержимого в интерактивные и упорядоченные данные. Распознавание содержимого может использовать настраиваемые анализаторы для экспертного извлечения важных сведений, полей и связей из разнообразных документов и форм.

Варианты использования для бизнеса

Анализаторы документов могут обрабатывать сложные документы в различных форматах и шаблонах:

  • Управление жизненным циклом контракта: Извлеките ключевые поля, предложения и обязательства из различных типов контрактов.
  • Кредиты и ипотечные заявки: Автоматизируйте обработку, чтобы обеспечить быструю обработку банками, кредиторами и государственными организациями.
  • Финансовые услуги: Анализ сложных документов, таких как финансовые отчеты и отчеты по управлению активами.
  • Управление затратами: Анализ квитанций и счетов от различных розничных торговцев для проверки расходов в разных форматах и шаблонах.
  • Наборы документов и сценарии базы знаний: Извлечение ключевых полей из наборов документов в целом. Добавьте справочные данные, которые обрабатывают задачи, такие как проверка и обогащение, применяя многоэтапное рассуждение.

Ключевые преимущества

Content Understanding предоставляет мощные возможности анализа документов, предназначенные для решения критически важных корпоративных и бизнес-сценариев, таких как генерация с дополнением извлечением данных (RAG) и роботизированная автоматизация процессов. Основные преимущества:

  • Интеллектуальная функция поиска: Преобразуйте неструктурированные документы в структурированные, доступные для поиска ресурсы данных, чтобы повысить доступность информации и доступность в организации.
  • Обоснованное извлечение данных: Обеспечение четкой трассировки и локализации извлеченных данных для упрощения эффективных процессов проверки с участием человека и обеспечения прозрачности и соблюдения требований.
  • Автоматизация на основе доверия: Используйте встроенную оценку достоверности для интеллектуальной автоматизации задач обработки документов, чтобы оптимизировать распределение ресурсов, сократить операционные затраты и повысить точность принятия решений.
  • Гибкая настройка: Легко адаптируйте и настраивайте анализаторы документов для соответствия конкретным бизнес-процессам и процессам рабочего процесса. Настройка позволяет точно извлекать и классифицировать данные, адаптированные под конкретные требования вашей организации.
  • Улучшенная точность и надежность: Обеспечение точного извлечения и классификации критически важных бизнес-данных для снижения ошибок и повышения эффективности работы в автоматизированных рабочих процессах.
  • Агенты готовы: Обработайте различные входные данные и доставьте выходные данные в стандартном формате, который готов к рабочему процессу агента. Выходные данные могут дать приложению представление о намерении пользователя с данными, поддерживаемыми strongly-typed схемой, которая упрощает быстрое получение данных в формате, готовом к коду.

Возможности анализатора документов

Снимок экрана: поток извлечения документов.

Извлечение содержимого

Извлечение содержимого формирует основу возможностей анализа документов Content Understanding. Этот процесс преобразует неструктурированные документы в структурированные и читаемые компьютером данные. Извлечение содержимого точно записывает печатный и рукописный текст, сохраняя структуру документа с помощью расширенного анализа макета:

  • Анализ содержимого
    • Текст: обрабатывает многоязычное содержимое, в том числе печатный и рукописный текст сотнями языков.
    • Метки выбора: определяет и извлекает индикаторы выбора, такие как флажки, кнопки и аналогичные маркеры.
    • Обнаружение штрихкодов: сканирует и декодирует информацию из более десятка типов линейных и двухмерных штрихкодов.
    • Математические формулы: захватывает и сохраняет сложные математические выражения в формате LaTeX.
    • Элементы изображения: находит и извлекает изображения, рисунки, графики и диаграммы вместе со связанными подписями и аннотациями.
    • Элементы гиперссылки: обнаружение гиперссылок, внедренных в документ.
    • Элементы аннотации: связывают содержимое с его аннотациями, такими как зачеркивание, подчеркивание и выделение.
    • Элементы рисунка: обнаружение и извлечение элементов фигуры в структурированные выходные данные.
  • Анализ структуры
    • Абзацы. Определяет и классифицирует сегменты текста на основе контекста и роли документа.
    • Табличные данные: распознает и извлекает структуры таблиц, включая сложные форматы с охватывающими ячейками и макетами с несколькими страницами.
    • Иерархические разделы: структура организации содержимого с помощью заголовков разделов и вложенных связей между элементами.
  • Генерация с использованием извлечения (RAG)
    • Решения RAG: извлечение содержимого формирует основу эффективных систем RAG путем преобразования необработанных многомодальных данных в структурированные и доступные для поиска форматы, оптимизированные для получения. Дополнительные сведения о создании решений RAG см. Retrieval-augmented generation.

Извлечение полей

С помощью извлечения полей можно извлекать, классифицировать и создавать структурированные данные из различных документов и форм, настроенных в соответствии с вашими требованиями. Процесс преобразования неструктурированного содержимого в упорядоченную, действимую информацию упрощает управление данными, повышает удобство поиска и поддерживает автоматизированные рабочие процессы.

Например, вы можете извлечь сведения о клиентах, адресах выставления счетов и элементах расходов из счетов. Вы также можете определить договорные стороны, даты продления и условия оплаты в юридических соглашениях.

Чтобы повысить эффективность, используйте предварительно созданные шаблоны анализаторов, такие как шаблоны, адаптированные для счетов. Вы также можете создавать пользовательские анализаторы с нуля, чтобы повысить точность путем маркировки дополнительных примеров документов.

API достоверности и заземления — это функция согласия. Чтобы включить уверенность и основу для извлечения полей, укажите estimateFieldSourceAndConfidence = true в конфигурации анализатора или estimateSourceAndConfidence = true для конкретного поля.

Методы извлечения полей

Понимание содержимого предоставляет универсальные методы извлечения полей, что обеспечивает точную и адаптированную обработку содержимого документа:

  • Извлечение: извлечение определенных данных, таких как даты транзакций из квитанций или строки из счетов, для точного и целенаправленного сбора информации.
  • Классификация: классифицируйте содержимое документа в предопределенные категории, такие как классификация тональности в расшифровках вызовов клиента или классификация элементов квитанции об отеле.
  • Создание: создание новых аналитических сведений или сводок из документов, включая сводки документов и общие сведения о главах, чтобы повысить доступность содержимого и понимание.

Требования к входным данным

Дополнительные сведения о поддерживаемых форматах входных документов см. в разделе " Квоты и ограничения службы".

Поддерживаемые языки и регионы

Список поддерживаемых языков и регионов см. в разделе "Поддержка языков и регионов".

Данные, конфиденциальность и безопасность

Если вы используете службу "Понимание содержимого", ознакомьтесь с политиками Майкрософт по данным клиента. Дополнительные сведения см. в разделе "Данные", "Конфиденциальность" и "Безопасность".