Классификация и маршрутизация данных с помощью распознавания содержимого

Понимание содержимого позволяет создавать пользовательские рабочие процессы классификации, которые классифицируют содержимое и направляют его в правильный анализатор. С помощью маршрутизации можно отправить несколько потоков данных через один конвейер и убедиться, что данные обрабатываются лучшим анализатором для его типа.

В этом руководстве описаны два шага.

Создайте базовый классификатор, который классифицирует документы в пользовательские категории.
Классификация и маршрутизация с помощью пользовательских анализаторов , которые объединяют классификацию с извлечением полей для каждой категории.

Необходимые условия

Чтобы приступить к работе, убедитесь, что у вас есть следующие ресурсы и разрешения:

Подписка Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись.
Ресурс Microsoft Foundry на портале Azure, созданном в поддерживаемом регионе.
- Этот ресурс указан в разделе Foundry>Foundry на портале.
Настройте развертывания моделей по умолчанию для ресурса Content Understanding. По умолчанию вы создаете подключение к моделям Microsoft Foundry, используемым для запросов на распознавание контента. Выберите один из следующих методов:
- Портал
- REST API
1. Перейдите на страницу параметров распознавания содержимого.
2. Нажмите кнопку +Добавить ресурс в левом верхнем углу.
3. Выберите ресурс Foundry, который вы хотите использовать, и нажмите кнопку "Далее>сохранить".
  
  Убедитесь, что установлен флажок Enable autodeployment для обязательных моделей, если отсутствуют значения по умолчанию. Этот выбор гарантирует, что ресурс полностью настроен с необходимыми моделями GPT-4.1, GPT-4.1-mini и text-embedding-3-large. Для различных предварительно созданных анализаторов требуются разные модели.
Выполнив эти действия, вы настроите подключение между моделями Content Understanding и Foundry в ресурсе Foundry.
1. В вашем ресурсе Foundry создайте развертывания моделей Foundry для моделей GPT-4.1, GPT-4.1-mini, и text-embedding-3-large. Дополнительные сведения о развертывании этих моделей см. в статье Создание развертываний моделей на портале Microsoft Foundry. Для разных предварительно созданных анализаторов требуются разные модели, поэтому необходимо установить все три модели.
2. Определите развертывания модели по умолчанию на уровне ресурсов. Перед выполнением следующей cURL команды внесите следующие изменения в HTTP-запрос:
  1. Замените {endpoint} и {key} соответствующими значениями из экземпляра Foundry на портале Azure.
  2. Замените {myGPT41Deployment}, {myGPT41MiniDeployment} и {myEmbeddingDeployment} фактическими именами развертывания моделей из вашего ресурса Foundry.
```
curl -i -X PATCH "{endpoint}/contentunderstanding/defaults?api-version=2025-11-01" \
  -H "Ocp-Apim-Subscription-Key: {key}" \
  -H "Content-Type: application/json" \
  -d '{
        "modelDeployments": {
          "gpt-4.1": "{myGPT41Deployment}",
          "gpt-4.1-mini": "{myGPT41MiniDeployment}",
          "text-embedding-3-large": "{myEmbeddingDeployment}"
        }
      }'
```
cURL установлен для вашей среды разработки (для вкладки REST API).

Шаг 1. Создание базового классификатора

Базовый классификатор классифицирует документы по пользовательским категориям контента. Вы определяете категории с именами и описаниями, а служба использует эти определения для классификации входных файлов. Параметр enableSegment определяет, разбивает ли классификатор многодокументные файлы на сегменты или обрабатывает весь файл как один документ.

Студия анализа контента
REST API

Перейдите на портал Content Understanding Studio и войдите в систему, используя свои учетные данные. Если вы знакомы с классическим опытом работы с Azure Document Intelligence в Foundry Tools Studio, функция "Понимание содержимого" расширяет возможности извлечения содержимого и полей во всех модальностях— документе, изображении, видео и аудио. Выберите вариант, чтобы попробовать новый интерфейс "Распознавание содержимого" для доступа к мультимодальным возможностям.

Создание проекта классификатора

Начните с нового проекта: выберите "Создать проект " на домашней странице.
Выберите тип проекта: выберите параметр Classify and route with custom categories.
Отправка данных: отправка фрагмента примеров данных для начала классификации.
Создайте правила маршрутизации: на вкладке "Правила маршрутизации " выберите Add category. Присвойте категории имя и описание. Для базового классификатора можно пропустить назначение определенного анализатора каждой категории.
Протестируйте рабочий процесс классификации. Когда пользовательские правила маршрутизации готовы к тестированию, выберите "Выполнить анализ ", чтобы просмотреть выходные данные правил данных.
Создайте анализатор классификации: Когда вы удовлетворены выходными данными, нажмите кнопку "Собрать анализатор" в верхней части страницы. Присвойте анализатору имя и нажмите кнопку "Сохранить".

Перед запуском любых из следующих команд cURL замените {endpoint} и {key} соответствующими значениями из вашего экземпляра Foundry на портале Azure.

Определение классификатора

Определите contentCategories в конфигурации анализатора. Каждая категория имеет имя и описание, которое служба использует для классификации входных файлов.

Создайте JSON-файл classifier.json с именем со следующим содержимым:

{
  "baseAnalyzerId": "prebuilt-document",
  "description": "Custom classifier for document categorization",
  "config": {
    "returnDetails": true,
    "enableSegment": true,
    "contentCategories": {
      "Loan application": {
        "description": "Documents submitted by individuals or businesses to request funding, typically including personal or business details, financial history, loan amount, purpose, and supporting documentation."
      },
      "Invoice": {
        "description": "Billing documents issued by sellers or service providers to request payment for goods or services, detailing items, prices, taxes, totals, and payment terms."
      },
      "Bank_Statement": {
        "description": "Official statements issued by banks that summarize account activity over a period, including deposits, withdrawals, fees, and balances."
      }
    }
  },
  "models": {"completion": "gpt-4.1"}
}

Ключевые поля в этом определении:

Поле	Описание
`baseAnalyzerId`	Готовый анализатор, который можно расширять. Используется `prebuilt-document` для классификации документов.
`contentCategories`	Словарь до 200 имен и описаний категорий.
`enableSegment`	При `true`, автоматически выполняются разбиение и классификация различных типов документов в одном файле. Когда `false`, файл обрабатывается как один документ.

Создание классификатора

Используйте запрос PUT для создания анализатора классификатора.

curl -i -X PUT "{endpoint}/contentunderstanding/analyzers/{classifierId}?api-version=2025-11-01" \
  -H "Ocp-Apim-Subscription-Key: {key}" \
  -H "Content-Type: application/json" \
  -d @classifier.json

Ответ 201 Created содержит заголовок с URL-адресом Operation-Location , который можно использовать для отслеживания состояния асинхронной операции создания.

201 Created
Operation-Location: {endpoint}/contentunderstanding/analyzers/{classifierId}/operations/{operationId}?api-version=2025-11-01

После завершения операции запрос HTTP GET по URL-адресу расположения операции возвращает "status": "succeeded".

curl -i -X GET "{endpoint}/contentunderstanding/analyzers/{classifierId}/operations/{operationId}?api-version=2025-11-01" \
  -H "Ocp-Apim-Subscription-Key: {key}"

Справочник. Анализаторы содержимого — создание или замена

Классификация документа

Отправьте документ для классификации с использованием конечной точки :analyze. Замените {classifierId} именем созданного классификатора.

curl -i -X POST "{endpoint}/contentunderstanding/analyzers/{classifierId}:analyze?api-version=2025-11-01" \
  -H "Ocp-Apim-Subscription-Key: {key}" \
  -H "Content-Type: application/json" \
  -d '{
        "inputs": [
          {
            "url": "https://github.com/Azure-Samples/azure-ai-content-understanding-python/raw/refs/heads/main/data/mixed_financial_docs.pdf"
          }
        ]
      }'

Ответ содержит Operation-Location заголовок. Используйте этот URL-адрес для получения результатов анализа.

Получение результатов классификации

curl -i -X GET "{Operation-Location}" \
  -H "Ocp-Apim-Subscription-Key: {key}"

Успешный ответ возвращает "status": "Succeeded" с результатами классификации в объекте result. Каждый сегмент включает category, startPageNumber и endPageNumber в себя.

Ссылка: Результаты анализатора - Получение

Очистка

Удалите классификатор после завершения.

curl -i -X DELETE "{endpoint}/contentunderstanding/analyzers/{classifierId}?api-version=2025-11-01" \
  -H "Ocp-Apim-Subscription-Key: {key}"

Шаг 2. Классификация и маршрутизация с помощью пользовательских анализаторов

Чтобы выйти за пределы базовой классификации, можно направлять каждую категорию к конкретному анализатору для извлечения полей. Этот подход объединяет классификацию с извлечением данных в одном конвейере: классификатор определяет тип документа, а затем направляет его в правильный анализатор, который извлекает поля, адаптированные к этой категории.

Студия анализа контента
REST API

Чтобы успешно перенаправить данные, создайте пользовательские анализаторы для каждой категории. Дополнительные сведения о создании пользовательских анализаторов см. в статье "Создание и улучшение пользовательского анализатора" в Studio Content Understanding Studio.

Сначала создайте настраиваемые анализаторы: создайте настраиваемые анализаторы для каждого типа документа, который требуется маршрутизировать. Например, создайте пользовательский анализатор для приложений кредитов с схемой извлечения полей, относящуюся к данному типу документа.
Создайте или обновите правила маршрутизации: на вкладке "Правила маршрутизации " выберите Add category. Присвойте категории имя и описание и выберите анализатор, соответствующий этой маршруту. Это средство позволяет предварительно просмотреть схему для каждого анализатора, чтобы удостовериться, что он подходит.
Проверьте рабочий процесс классификации: выберите "Выполнить анализ ", чтобы просмотреть выходные данные правил данных. Вы можете отправить дополнительные примеры данных для тестирования, чтобы узнать, как он работает с несколькими различными правилами.
Создайте анализатор классификации: Когда вы удовлетворены выходными данными, нажмите кнопку "Собрать анализатор" в верхней части страницы. Присвойте анализатору имя и нажмите кнопку "Сохранить".
Используйте анализатор классификации. Теперь у вас есть конечная точка анализатора, которую можно использовать в собственном приложении с помощью REST API.

Создание пользовательского анализатора для категории

Сначала создайте пользовательский анализатор, который извлекает поля, относящиеся к категории документов. В этом примере определяется анализатор заявок на кредиты с функцией извлечения полей.

Создайте JSON-файл loan-analyzer.json с именем со следующим содержимым:

{
  "baseAnalyzerId": "prebuilt-document",
  "description": "Loan application analyzer - extracts key information from loan applications",
  "config": {
    "returnDetails": true,
    "enableLayout": true,
    "enableFormula": false,
    "estimateFieldSourceAndConfidence": true
  },
  "fieldSchema": {
    "fields": {
      "ApplicationDate": {
        "type": "date",
        "method": "generate",
        "description": "The date when the loan application was submitted."
      },
      "ApplicantName": {
        "type": "string",
        "method": "generate",
        "description": "Full name of the loan applicant or company."
      },
      "LoanAmountRequested": {
        "type": "number",
        "method": "generate",
        "description": "The total loan amount requested by the applicant."
      },
      "LoanPurpose": {
        "type": "string",
        "method": "generate",
        "description": "The stated purpose or reason for the loan."
      },
      "Summary": {
        "type": "string",
        "method": "generate",
        "description": "A brief summary overview of the loan application details."
      }
    }
  },
  "models": {"completion": "gpt-4.1"}
}

Создайте пользовательский анализатор с запросом PUT :

curl -i -X PUT "{endpoint}/contentunderstanding/analyzers/{loanAnalyzerId}?api-version=2025-11-01" \
  -H "Ocp-Apim-Subscription-Key: {key}" \
  -H "Content-Type: application/json" \
  -d @loan-analyzer.json

Применяйте запросы к URL-адресу, указанному в заголовке ответа, до тех пор, пока состояние не станет Operation-Location.

Справочник. Анализаторы содержимого — создание или замена

Определение расширенного классификатора с помощью маршрутизации

Создайте классификатор, который направляет каждую категорию в конкретный анализатор. analyzerId Используйте поле в каждой категории для указания анализатора, обрабатывающего эту категорию.

Создайте JSON-файл с именем enhanced-classifier.json со следующим содержимым. Замените {loanAnalyzerId} на идентификатор анализатора, который вы использовали на предыдущем шаге.

{
  "baseAnalyzerId": "prebuilt-document",
  "description": "Enhanced classifier with custom loan analyzer",
  "config": {
    "returnDetails": true,
    "enableSegment": true,
    "contentCategories": {
      "Loan application": {
        "description": "Documents submitted by individuals or businesses to request funding, typically including personal or business details, financial history, loan amount, purpose, and supporting documentation.",
        "analyzerId": "{loanAnalyzerId}"
      },
      "Invoice": {
        "description": "Billing documents issued by sellers or service providers to request payment for goods or services, detailing items, prices, taxes, totals, and payment terms."
      },
      "Bank_Statement": {
        "description": "Official statements issued by banks that summarize account activity over a period, including deposits, withdrawals, fees, and balances."
      }
    }
  },
  "models": {"completion": "gpt-4.1"}
}

Ключевым отличием от базового классификатора является analyzerId свойство в Loan application категории. Это указывает службе направлять документы, классифицированные как заявки на кредит, через пользовательский анализатор для извлечения полей. Категории без analyzerId, хотя и классифицированы, не направляются в конкретный анализатор.

Создание расширенного классификатора

curl -i -X PUT "{endpoint}/contentunderstanding/analyzers/{enhancedClassifierId}?api-version=2025-11-01" \
  -H "Ocp-Apim-Subscription-Key: {key}" \
  -H "Content-Type: application/json" \
  -d @enhanced-classifier.json

Анализ документа с помощью расширенного классификатора

curl -i -X POST "{endpoint}/contentunderstanding/analyzers/{enhancedClassifierId}:analyze?api-version=2025-11-01" \
  -H "Ocp-Apim-Subscription-Key: {key}" \
  -H "Content-Type: application/json" \
  -d '{
        "inputs": [
          {
            "url": "https://github.com/Azure-Samples/azure-ai-content-understanding-python/raw/refs/heads/main/data/mixed_financial_docs.pdf"
          }
        ]
      }'

Получение расширенных результатов классификации

Operation-Location Используйте URL-адрес из заголовка ответа, чтобы получить результаты.

curl -i -X GET "{Operation-Location}" \
  -H "Ocp-Apim-Subscription-Key: {key}"

Успешный ответ возвращает "status": "Succeeded" результаты классификации вместе с извлеченными полями. Документы, перенаправленные в пользовательский анализатор кредитов, включают извлеченные значения полей, например ApplicantName, LoanAmountRequestedи LoanPurpose в fields объекте для этого сегмента.

Ссылка: Результаты анализатора - Получение

Очистка

Удалите анализаторы после завершения работы.

curl -i -X DELETE "{endpoint}/contentunderstanding/analyzers/{enhancedClassifierId}?api-version=2025-11-01" \
  -H "Ocp-Apim-Subscription-Key: {key}"

curl -i -X DELETE "{endpoint}/contentunderstanding/analyzers/{loanAnalyzerId}?api-version=2025-11-01" \
  -H "Ocp-Apim-Subscription-Key: {key}"

Совет

Для полного сквозного Python-ноутбука см. пример классификатора на GitHub.

Дальнейшие действия

Дополнительные сведения о передовых методах распознавания содержимого Azure в инструментах Foundry.
Следуйте инструкциям из руководства по созданию пользовательского анализатора с помощью REST API.
Изучите основные понятия классификатора для расширенных сценариев.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-21