Понимание контента Azure в решениях с инструментами Foundry для документов

Content Understanding предлагает сложные возможности анализа документов. Организации могут использовать эти возможности для преобразования неструктурированного содержимого в интерактивные и упорядоченные данные. Распознавание содержимого может использовать настраиваемые анализаторы для экспертного извлечения важных сведений, полей и связей из разнообразных документов и форм.

Варианты использования для бизнеса

Анализаторы документов могут обрабатывать сложные документы в различных форматах и шаблонах:

Управление жизненным циклом контракта: Извлеките ключевые поля, предложения и обязательства из различных типов контрактов.
Кредиты и ипотечные заявки: Автоматизируйте обработку, чтобы обеспечить быструю обработку банками, кредиторами и государственными организациями.
Финансовые услуги: Анализ сложных документов, таких как финансовые отчеты и отчеты по управлению активами.
Управление затратами: Анализ квитанций и счетов от различных розничных торговцев для проверки расходов в разных форматах и шаблонах.
Наборы документов и сценарии базы знаний: Извлечение ключевых полей из наборов документов в целом. Добавьте справочные данные, которые обрабатывают задачи, такие как проверка и обогащение, применяя многоэтапное рассуждение.

Ключевые преимущества

Content Understanding предоставляет мощные возможности анализа документов, предназначенные для решения критически важных корпоративных и бизнес-сценариев, таких как генерация с дополнением извлечением данных (RAG) и роботизированная автоматизация процессов. Основные преимущества:

Интеллектуальная функция поиска: Преобразуйте неструктурированные документы в структурированные, доступные для поиска ресурсы данных, чтобы повысить доступность информации и доступность в организации.
Обоснованное извлечение данных: Обеспечение четкой трассировки и локализации извлеченных данных для упрощения эффективных процессов проверки с участием человека и обеспечения прозрачности и соблюдения требований.
Автоматизация на основе доверия: Используйте встроенную оценку достоверности для интеллектуальной автоматизации задач обработки документов, чтобы оптимизировать распределение ресурсов, сократить операционные затраты и повысить точность принятия решений.
Гибкая настройка: Легко адаптируйте и настраивайте анализаторы документов для соответствия конкретным бизнес-процессам и процессам рабочего процесса. Настройка позволяет точно извлекать и классифицировать данные, адаптированные под конкретные требования вашей организации.
Улучшенная точность и надежность: Обеспечение точного извлечения и классификации критически важных бизнес-данных для снижения ошибок и повышения эффективности работы в автоматизированных рабочих процессах.
Агенты готовы: Обработайте различные входные данные и доставьте выходные данные в стандартном формате, который готов к рабочему процессу агента. Выходные данные могут дать приложению представление о намерении пользователя с данными, поддерживаемыми strongly-typed схемой, которая упрощает быстрое получение данных в формате, готовом к коду.

Возможности анализатора документов

Снимок экрана: поток извлечения документов.

Извлечение содержимого

Извлечение содержимого формирует основу возможностей анализа документов Content Understanding. Этот процесс преобразует неструктурированные документы в структурированные и читаемые компьютером данные. Извлечение содержимого точно записывает печатный и рукописный текст, сохраняя структуру документа с помощью расширенного анализа макета:

Анализ содержимого
- Текст: обрабатывает многоязычное содержимое, в том числе печатный и рукописный текст сотнями языков.
- Метки выбора: определяет и извлекает индикаторы выбора, такие как флажки, кнопки и аналогичные маркеры.
- Обнаружение штрихкодов: сканирует и декодирует информацию из более десятка типов линейных и двухмерных штрихкодов.
- Математические формулы: захватывает и сохраняет сложные математические выражения в формате LaTeX.
- Элементы изображения: находит и извлекает изображения, рисунки, графики и диаграммы вместе со связанными подписями и аннотациями.
- Элементы гиперссылки: обнаружение гиперссылок, внедренных в документ.
- Элементы аннотации: связывают содержимое с его аннотациями, такими как зачеркивание, подчеркивание и выделение.
- Элементы рисунка: обнаружение и извлечение элементов фигуры в структурированные выходные данные.
Анализ структуры
- Абзацы. Определяет и классифицирует сегменты текста на основе контекста и роли документа.
- Табличные данные: распознает и извлекает структуры таблиц, включая сложные форматы с охватывающими ячейками и макетами с несколькими страницами.
- Иерархические разделы: структура организации содержимого с помощью заголовков разделов и вложенных связей между элементами.
Генерация с использованием извлечения (RAG)
- Решения RAG: извлечение содержимого формирует основу эффективных систем RAG путем преобразования необработанных многомодальных данных в структурированные и доступные для поиска форматы, оптимизированные для получения. Дополнительные сведения о создании решений RAG см. Retrieval-augmented generation.

Извлечение полей

С помощью извлечения полей можно извлекать, классифицировать и создавать структурированные данные из различных документов и форм, настроенных в соответствии с вашими требованиями. Процесс преобразования неструктурированного содержимого в упорядоченную, действимую информацию упрощает управление данными, повышает удобство поиска и поддерживает автоматизированные рабочие процессы.

Например, вы можете извлечь сведения о клиентах, адресах выставления счетов и элементах расходов из счетов. Вы также можете определить договорные стороны, даты продления и условия оплаты в юридических соглашениях.

Чтобы повысить эффективность, используйте предварительно созданные шаблоны анализаторов, такие как шаблоны, адаптированные для счетов. Вы также можете создавать пользовательские анализаторы с нуля, чтобы повысить точность путем маркировки дополнительных примеров документов.

API достоверности и заземления — это функция согласия. Чтобы включить уверенность и основу для извлечения полей, укажите estimateFieldSourceAndConfidence = true в конфигурации анализатора или estimateSourceAndConfidence = true для конкретного поля.

Методы извлечения полей

Понимание содержимого предоставляет универсальные методы извлечения полей, что обеспечивает точную и адаптированную обработку содержимого документа:

Извлечение: извлечение определенных данных, таких как даты транзакций из квитанций или строки из счетов, для точного и целенаправленного сбора информации.
Классификация: классифицируйте содержимое документа в предопределенные категории, такие как классификация тональности в расшифровках вызовов клиента или классификация элементов квитанции об отеле.
Создание: создание новых аналитических сведений или сводок из документов, включая сводки документов и общие сведения о главах, чтобы повысить доступность содержимого и понимание.

Требования к входным данным

Дополнительные сведения о поддерживаемых форматах входных документов см. в разделе " Квоты и ограничения службы".

Поддерживаемые языки и регионы

Список поддерживаемых языков и регионов см. в разделе "Поддержка языков и регионов".

Данные, конфиденциальность и безопасность

Если вы используете службу "Понимание содержимого", ознакомьтесь с политиками Майкрософт по данным клиента. Дополнительные сведения см. в разделе "Данные", "Конфиденциальность" и "Безопасность".

Попробуйте обработать содержимое документа с помощью Content Understanding Studio.
Ознакомьтесь с кратким руководством по Content Understanding Studio.
Узнайте, как анализировать содержимое документа с помощью шаблонов анализаторов.
Просмотрите примеры кода с помощью визуального поиска документов.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-03-23