Классификация и маршрутизация данных с помощью распознавания содержимого

Понимание содержимого позволяет создавать пользовательские рабочие процессы классификации, которые классифицируют содержимое и направляют его в правильный анализатор. С помощью маршрутизации можно отправить несколько потоков данных через один конвейер и убедиться, что данные обрабатываются лучшим анализатором для его типа.

В этом руководстве описаны два шага.

  1. Создайте базовый классификатор, который классифицирует документы в пользовательские категории.
  2. Классификация и маршрутизация с помощью пользовательских анализаторов , которые объединяют классификацию с извлечением полей для каждой категории.

Необходимые условия

Чтобы приступить к работе, убедитесь, что у вас есть следующие ресурсы и разрешения:

  • Подписка Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись.
  • Ресурс Microsoft Foundry на портале Azure, созданном в поддерживаемом регионе.
    • Этот ресурс указан в разделе Foundry>Foundry на портале.
  • Настройте развертывания моделей по умолчанию для ресурса Content Understanding. По умолчанию вы создаете подключение к моделям Microsoft Foundry, используемым для запросов на распознавание контента. Выберите один из следующих методов:
    1. Перейдите на страницу параметров распознавания содержимого.

    2. Нажмите кнопку +Добавить ресурс в левом верхнем углу.

    3. Выберите ресурс Foundry, который вы хотите использовать, и нажмите кнопку "Далее>сохранить".

      Убедитесь, что установлен флажок Enable autodeployment для обязательных моделей, если отсутствуют значения по умолчанию. Этот выбор гарантирует, что ресурс полностью настроен с необходимыми моделями GPT-4.1, GPT-4.1-mini и text-embedding-3-large. Для различных предварительно созданных анализаторов требуются разные модели.

    Выполнив эти действия, вы настроите подключение между моделями Content Understanding и Foundry в ресурсе Foundry.
  • cURL установлен для вашей среды разработки (для вкладки REST API).

Шаг 1. Создание базового классификатора

Базовый классификатор классифицирует документы по пользовательским категориям контента. Вы определяете категории с именами и описаниями, а служба использует эти определения для классификации входных файлов. Параметр enableSegment определяет, разбивает ли классификатор многодокументные файлы на сегменты или обрабатывает весь файл как один документ.

Войдите в Content Understanding Studio

Перейдите на портал Content Understanding Studio и войдите в систему, используя свои учетные данные. Если вы знакомы с классическим опытом работы с Azure Document Intelligence в Foundry Tools Studio, функция "Понимание содержимого" расширяет возможности извлечения содержимого и полей во всех модальностях— документе, изображении, видео и аудио. Выберите вариант, чтобы попробовать новый интерфейс "Распознавание содержимого" для доступа к мультимодальным возможностям.

Создание проекта классификатора

  1. Начните с нового проекта: выберите "Создать проект " на домашней странице.

  2. Выберите тип проекта: выберите параметр Classify and route with custom categories.

  3. Отправка данных: отправка фрагмента примеров данных для начала классификации.

  4. Создайте правила маршрутизации: на вкладке "Правила маршрутизации " выберите Add category. Присвойте категории имя и описание. Для базового классификатора можно пропустить назначение определенного анализатора каждой категории.

  5. Протестируйте рабочий процесс классификации. Когда пользовательские правила маршрутизации готовы к тестированию, выберите "Выполнить анализ ", чтобы просмотреть выходные данные правил данных.

    Снимок экрана: Студия распознавания содержимого с выделенной кнопкой

  6. Создайте анализатор классификации: Когда вы удовлетворены выходными данными, нажмите кнопку "Собрать анализатор" в верхней части страницы. Присвойте анализатору имя и нажмите кнопку "Сохранить".

Шаг 2. Классификация и маршрутизация с помощью пользовательских анализаторов

Чтобы выйти за пределы базовой классификации, можно направлять каждую категорию к конкретному анализатору для извлечения полей. Этот подход объединяет классификацию с извлечением данных в одном конвейере: классификатор определяет тип документа, а затем направляет его в правильный анализатор, который извлекает поля, адаптированные к этой категории.

Чтобы успешно перенаправить данные, создайте пользовательские анализаторы для каждой категории. Дополнительные сведения о создании пользовательских анализаторов см. в статье "Создание и улучшение пользовательского анализатора" в Studio Content Understanding Studio.

  1. Сначала создайте настраиваемые анализаторы: создайте настраиваемые анализаторы для каждого типа документа, который требуется маршрутизировать. Например, создайте пользовательский анализатор для приложений кредитов с схемой извлечения полей, относящуюся к данному типу документа.

  2. Создайте или обновите правила маршрутизации: на вкладке "Правила маршрутизации " выберите Add category. Присвойте категории имя и описание и выберите анализатор, соответствующий этой маршруту. Это средство позволяет предварительно просмотреть схему для каждого анализатора, чтобы удостовериться, что он подходит.

    Снимок экрана пользовательского интерфейса маршрутов, предназначенного для классификации.

  3. Проверьте рабочий процесс классификации: выберите "Выполнить анализ ", чтобы просмотреть выходные данные правил данных. Вы можете отправить дополнительные примеры данных для тестирования, чтобы узнать, как он работает с несколькими различными правилами.

    Снимок экрана: Студия распознавания содержимого с выделенной кнопкой

  4. Создайте анализатор классификации: Когда вы удовлетворены выходными данными, нажмите кнопку "Собрать анализатор" в верхней части страницы. Присвойте анализатору имя и нажмите кнопку "Сохранить".

  5. Используйте анализатор классификации. Теперь у вас есть конечная точка анализатора, которую можно использовать в собственном приложении с помощью REST API.

Совет

Для полного сквозного Python-ноутбука см. пример классификатора на GitHub.

Дальнейшие действия