Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Примечание
Служба "Понимание содержимого" стала общедоступной (GA) с выпуском новой версии API 2025-11-01. Дополнительные сведения см. в статье "Новые возможности".
Azure распознавание содержимого в средстве Foundry — это средство Foundry Tool, доступное в рамках ресурса Foundry от Microsoft на портале Azure. Он использует генерированный ИИ для обработки и приема множества типов содержимого, включая документы, изображения, видео и аудио, в определяемый пользователем формат выходных данных. Понимание содержимого предлагает упрощенный процесс анализа больших объемов неструктурированных данных, ускоряя время достижения ценности путем создания результатов, которые можно интегрировать в автоматизацию и аналитические рабочие процессы.
Зачем использовать понимание содержимого?
Понимание содержимого ускоряет получение ценности благодаря возможности прямой обработки неструктурированных данных с показателями достоверности, минимизируя ручную проверку и снижая операционные затраты. К ключевым преимуществам относятся:
Упрощение и упрощение рабочих процессов. Понимание содержимого стандартизирует извлечение и классификацию содержимого, структуры и аналитических сведений из различных типов контента в единый процесс.
Упрощение извлечения полей. Извлечение полей с помощью Content Understanding упрощает создание структурированных выходных данных из неструктурированного содержимого. Определите схему для извлечения, классификации или создания значений полей без сложного создания подсказок.
Повышение точности. Понимание содержимого использует несколько моделей ИИ для одновременного анализа и перекрестной проверки информации, что приводит к более точным и надежным результатам.
Оценка достоверности и заземление. Понимание содержимого обеспечивает точность извлеченных значений при минимизации затрат на проверку человека.
Классифицируйте типы контента. Понимание содержимого позволяет классифицировать типы документов, чтобы упростить возможность обработки содержимого. Эта функция теперь доступна в едином подходе в API анализа.
Предварительно созданные анализаторы для конкретных отраслей. Понимание содержимого включает предпостроенные анализаторы, предназначенные для конкретных отраслевых сценариев, включая подготовку налогов, обработку документов о закупках, анализ контрактов, аналитику контактных центров, анализ мультимедиа и многое другое.
Варианты использования содержимого
Интеллектуальная обработка документов (IDP) Понимание содержимого позволяет интеллектуальной обработке документов путем преобразования неструктурированных документов в структурированные данные с высокой точностью. Оценки достоверности и возможности приземления обеспечивают качество данных при минимизации ручной проверки и снижения эксплуатационных затрат. Например, автоматизация обработки счетов, анализа контрактов и управления утверждениями путем извлечения и проверки полей из сложных документов.
Агентические приложения. Понимание содержимого превращает грязные, многомодальные входные данные файлов в прогнозируемые, стандартизированные входные данные. Он предоставляет чистые представления markdown для аргументации и процессов управления знаниями, обеспечивая ясность и контекст для последующих задач. Если требуются структурированные данные, они предоставляют согласованные со схемой поля ключ-значение с оценкой уверенности и обоснованием, позволяя агентам автоматизировать принятие решений с точностью и возможностью аудита.
Генерация с дополнением поиска и извлечения (RAG). Понимание контента позволяет принимать контент любой модальности в индекс поиска с обширной поддержкой описания и анализа графических элементов, чтобы обеспечить лучший доступ к вашим данным. Служба "Понимание содержимого" предлагает несколько предварительно созданных анализаторов, которые настраиваются для получения наилучших выходных данных для сценариев поиска RAG.
Автоматизация роботизированных процессов (RPA). Понимание содержимого легко интегрируется с рабочими процессами RPA, предоставляя структурированные данные, извлеченные из различных типов контента. Эта возможность обеспечивает сквозную автоматизацию бизнес-процессов, требующих понимания содержимого, таких как обработка заказов, подключение клиентов и рабочие процессы соответствия нормативным требованиям.
Аналитика и отчеты: извлеченные выходные данные области распознавания содержимого повышают аналитические данные и отчеты, позволяя предприятиям получать ценные аналитические сведения, проводить более глубокий анализ и принимать обоснованные решения на основе точных отчетов.
Оптимизируйте рабочий процесс с помощью классификации: функция классификации содержимого позволяет сначала классифицировать документы перед их маршрутизацией в связанный анализатор для извлечения.
Приложения для конкретных отраслей
Ниже приведены некоторые распространенные отраслевые приложения для распознавания содержимого:
| Приложения | Описание |
|---|---|
| Автоматизация налогов | Компании, занимающиеся подготовкой налоговых деклараций, могут использовать Content Understanding для создания единого представления информации из различных документов и подготовки всесторонних налоговых деклараций. |
| Обработка ипотечных заявлений | Анализируйте дополнительную документацию и заявки на ипотеку, чтобы выяснить, предоставил ли потенциальный покупатель жилья все необходимые документы для получения ипотеки. |
| Проверка контракта счёта-фактуры | Внимательно просматривайте счета и договорные соглашения с клиентами. Примените многоэтапный процесс анализа данных. Убедитесь, что выводы, такие как проверка согласованности между счетом и контрактом, являются точными и тщательны. |
| Процесс извлечения и дополненной генерации (RAG) | Организации могут улучшить рабочие процессы RAG, извлекая исчерпывающие сведения из документов, которые в противном случае будут пропущены. Описания рисунков захватывают сведения из диаграмм, схем и визуализаций, что делает их доступным для поиска. Анализ макета сохраняет структуру документов, включая таблицы, разделы и иерархии. Обнаружение заметок фиксирует рукописные заметки, подчеркивания и забастовки. |
| Аналитика после вызова | Предприятия и центры вызовов могут создавать аналитические сведения из записей вызовов для отслеживания ключевых показателей производительности (KPI), повышения качества продукта, создания бизнес-аналитики, создания дифференцированных клиентских интерфейсов и более точного ответа на запросы. |
| Управление ресурсами мультимедиа | Поставщики программного обеспечения и мультимедиа могут использовать content Understanding для извлечения более подробных и целевых сведений из видео для решений по управлению ресурсами мультимедиа. |
| Улучшенная поддержка клиентов | Предприятия с каналами поддержки могут использовать службу "Понимание содержимого" для поиска RAG, чтобы повысить качество ответов на основе данных из предыдущих проблем клиентов и отзывов. |
Ключевые компоненты распознавания содержимого
Платформа "Понимание содержимого" обрабатывает неструктурированное содержимое с помощью нескольких этапов, преобразуя входные данные в структурированные, практические выходные данные. В следующей таблице описывается каждый компонент слева направо, как показано на схеме:
| Компонент | Описание |
|---|---|
| Входы | Исходное содержимое, которое обрабатывает анализ контента. Поддерживает несколько модальностей, включая документы, изображения, видео и звук. Дополнительные сведения о входных типах файлов. |
| Анализатор | Основной компонент, определяющий способ обработки содержимого. Он настраивает параметры извлечения содержимого, схему извлечения полей и развертывания моделей. После настройки анализатор последовательно применяет эти параметры ко всем входящим данным. Content Understanding предлагает предварительно созданные анализаторы для распространенных сценариев и поддерживает пользовательские анализаторы, адаптированные к вашим потребностям. Дополнительные сведения об анализаторах, предварительно созданных анализаторах и пользовательских анализаторах. |
| Извлечение содержимого | Преобразует неструктурированные входные данные в нормализованный структурированный текст и метаданные. Извлекает текст с помощью оптического распознавания символов (OCR), определяет знаки выделения и штрихкоды, обнаруживает формулы и распознает элементы макета, такие как абзацы, разделы и таблицы. Для аудио и видео транскрибирует речь и определяет ключевые визуальные элементы. Дополнительные сведения о извлечении содержимого. |
| Сегментация | Делит документы или видео на логические разделы для целевой обработки. Настроено с использованием свойства enableSegment в схеме анализатора. Позволяет разбить содержимое на значимые блоки, например разделить документ по типу документа или разделить видео на сцены. Дополнительные сведения о сегментации и классификации. |
| Извлечение полей | Создает структурированные пары "ключ-значение" на основе определенной схемы. См. ограничения служб для поддерживаемых типов полей. Поля можно создать с помощью трех методов: • Извлечение: напрямую извлекает значения по мере их отображения в входном содержимом (поддерживается только для документов), например дат из квитанций или сведений о элементах из счетов. • Классификация: классифицируйте содержимое из предопределенного набора категорий, таких как тональность вызовов или тип диаграммы, и перенаправьте его в правильный анализатор для анализа. • Создание: свободное создание значений из входных данных, таких как сводка аудиозаписи или создание описания сцены из видео. Дополнительные сведения о извлечении полей. |
| Оценки достоверности | Предоставляет оценки надежности от 0 до 1 для каждого извлеченного значения поля. Высокие оценки указывают на точное извлечение данных, обеспечивая прямую обработку в рабочих процессах автоматизации. Включается с использованием параметра estimateFieldSourceAndConfidence в анализаторах документов. Узнайте больше о оценках достоверности. |
| Заземление | Определяет определенные регионы в содержимом, где каждое значение было извлечено или создано. Исходное основание позволяет пользователям в сценариях автоматизации быстро проверять правильность значений полей, трассируя их обратно в исходное содержимое. Включается с использованием параметра estimateFieldSourceAndConfidence в анализаторах документов. Узнайте больше о заземлении. |
| Контекстуализация | Слой контекстуализации подготавливает контекст для генеративных моделей и осуществляет постобработку их выходных данных. Она включает нормализацию выходных данных и форматирование, вычисление исходного основания, вычисление оценки достоверности и проектирование контекста для оптимизации использования модели. Дополнительные сведения о контекстуализации. |
| Модели литейного цеха | Модели больших языковых моделей (LLM) Foundry и модели встраиваний, которые обеспечивают генеративные возможности. Вы предоставляете собственные развертывания поддерживаемых генеративных моделей и моделей встраивания текста для примеров обучения. Понимание содержимого использует эти модели для извлечения полей, анализа диаграмм и других возможностей на основе ИИ. Дополнительные сведения о моделях и развертываниях. |
| Структурированные выходные данные | Окончательный результат предоставляется в выбранном формате. Содержимое может быть выходным как Markdown для сценариев поиска и извлечения или в виде структурированного JSON, соответствующего определенной схеме для рабочих процессов автоматизации и аналитики. |
Опыт в области понимания контента
Content Understanding — это служба Foundry. Чтобы использовать понимание содержимого, необходимо создать ресурс Foundry Azure. Content Understanding Studio дополняет интерфейс Foundry, если вам нужны расширенные возможности. Более подробную разбивку каждой службы см. в разделе "Сравнение компонентов: понимание содержимого в Foundry и Content Understanding Studio".
- Понимание контента на портале Foundry (в ближайшее время): портал Foundry NextGen позволяет создавать расширенные, комплексные агентные рабочие процессы с помощью средства "Распознавание контента".
- Content Understanding Studio: дополнительный пользовательский интерфейс, позволяющий обеспечить плавный переход при переходе с Document Intelligence. Он предлагает интерфейс, оптимизированный для улучшения производительности анализатора, включая улучшение пользовательских анализаторов с помощью методов маркировки данных. Он также поддерживает создание пользовательских анализаторов на основе классификации.
Ответственный ИИ
Понимание содержимого предназначено для защиты от обработки вредного содержимого, таких как графическое насилие и горе, ненавистная речь и издевательства, эксплуатация, злоупотребление и многое другое. Служба использует стандартную инфраструктуру Foundry, в том числе Безопасность содержимого ИИ Azure, интегрируя результаты безопасности содержимого в выходные данные распознавания содержимого. Дополнительные сведения и полный список запрещенного содержимого см. в заметке о прозрачности и Кодексе поведения.
Фильтрация содержимого и ограждения
Функция "Понимание содержимого" создает результаты фильтрации содержимого непосредственно из развертывания модели Foundry, который он использует. Каждое развертывание модели Foundry сопровождается экземпляром Guardrails, который оценивает как посланные в модель запросы, так и полученные ответы. Когда экземпляр Guardrails помечает содержимое, результат будет включен в ответ анализа содержания в виде массива content_filters.
Чтобы изменить поведение фильтрации содержимого для анализаторов, обновите экземпляр Guardrails, связанный с развертыванием модели в проекте Azure AI Foundry. Пороговые значения для каждой категории можно настроить или переключиться с блокировки на режим аннотирования. Дополнительные сведения см. в разделе "Фильтрация содержимого".
Вы можете изменить фильтры содержимого, чтобы настроить уровень серьезности блокировки или пометки вместо блокировки, что позволяет вам обрабатывать потенциально вредное содержимое в собственном рабочем процессе.
Дополнительные сведения о типах фильтров контента см. в разделе "Типы фильтров контента".
Важно
- Подать заявку на изменённые фильтры содержимого с помощью этой формы: Azure OpenAI Limited Access Review: Modified Content Filters.
- Дополнительные сведения см. в разделе "Фильтрация содержимого".
Возможности распознавания лиц
Content Understanding предоставляет возможности описания лиц, которые могут создавать подробные описания лиц в содержимом видео и изображения. При включении генерируемая модель описывает такие атрибуты лица, как волосы лица и выражение лица, и может идентифицировать видных людей или знаменитостей. Дополнительные сведения о описании лиц в видеообработке.
Конфиденциальность и безопасность данных
Просмотрите политики Microsoft о данных клиента при использовании службы "Распознавание содержимого". Дополнительные сведения см. на странице "Данные,защита и конфиденциальность ".
Важно
Если вы используете Microsoft продукты или службы для обработки биометрических данных, вы несете ответственность за: (i) предоставление уведомления субъектам данных, в том числе в отношении периодов хранения и уничтожения; (ii) получение согласия от субъектов данных; и (iii) удаление биометрических данных, все в соответствии с соответствующими требованиями и обязательными в соответствии с применимыми требованиями к защите данных. Дополнительные сведения см. в разделе "Данные и конфиденциальность" для Face.
Начало работы
Чтобы приступить к работе, используйте следующие краткие руководства.
- Краткое руководство по порталу Microsoft Foundry.
- Краткое руководство по Студии содержимого
- Краткое руководство по REST API и пакетам SDK