Создайте и улучшите ваш пользовательский анализатор в Content Understanding Studio

Content Understanding Studio позволяет создавать анализаторы содержимого, которые извлекают содержимое и поля, адаптированные к вашим потребностям. Выполните следующие действия, чтобы создать пользовательский анализатор в Content Understanding Studio.

Предпосылки

Чтобы приступить к работе, убедитесь, что у вас есть следующие ресурсы и разрешения:

  • Подписка Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись.
  • Ресурс Microsoft Foundry на портале Azure, созданный в поддерживаемом регионе.
    • Этот ресурс указан в разделе Foundry>Foundry на портале.
  • Настройте модели развертывания по умолчанию для ресурса Content Understanding. Задав значения по умолчанию, вы создаете подключение к моделям Microsoft Foundry, используемым для запросов на понимание содержимого. Выберите для этого один из следующих методов:
    1. Перейдите на страницу параметров распознавания содержимого.

    2. Нажмите кнопку +Добавить ресурс в левом верхнем углу.

    3. Выберите ресурс Foundry, который вы хотите использовать, и нажмите кнопку "Далее>сохранить".

      Убедитесь, что установлен флажок Включить автоматическое развертывание для обязательных моделей, если доступных значений по умолчанию нет. Этот выбор гарантирует, что ресурс полностью настроен с необходимыми моделями GPT-4.1, GPT-4.1-mini и text-embedding-3-large. Для различных предварительно созданных анализаторов требуются разные модели.

    Выполнив эти действия, вы настроите подключение между моделями Content Understanding и Foundry в ресурсе Foundry.

Вход в Студию распознавания содержимого

Перейдите на портал Content Understanding Studio и войдите с помощью учетных данных для начала работы. Если вы знакомы с классической функцией Анализ документов Azure в Студии инструментов Foundry, функция "Понимание содержимого" расширяет тот же контент и извлечение полей для всех модальностей — документ, изображение, видео и звук. Выберите вариант, чтобы попробовать новый интерфейс "Распознавание содержимого" для доступа к мультимодальным возможностям.

Создание пользовательского анализатора

  1. Начните с нового проекта: чтобы приступить к созданию пользовательского анализатора, выберите Create project на домашней странице.

  2. Выберите тип проекта: в этом руководстве выберите параметр Extract content and fields with a custom schema. Дополнительные сведения о классификации и маршрутизации данных см. в руководстве по классификации и маршрутизации данных с помощью Content Understanding.

  3. Создайте проект: присвойте проекту понятное имя и выберите Create.

  4. Отправка примеров данных. Теперь, когда проект настроен, вы можете приступить к созданию пользовательского анализатора. Отправьте пример данных в инструмент, а content Understanding классифицирует данные и рекомендует шаблоны анализаторов, чтобы дать вам отправную точку.

Снимок экрана предлагаемых шаблонов для понимания содержимого.

  1. Выберите шаблон сценария: выберите шаблон, который лучше всего подходит для вашего сценария. Все поля схемы можно настроить в соответствии с конкретными потребностями на следующем шаге.

  2. Используйте предлагаемые поля: Если для вашего сценария требуются настраиваемые поля, используйте функцию предложений ИИ для анализа ваших данных и получения полной схемы с полями, которые вас могут заинтересовать для извлечения. Это средство позволяет сохранить предложения, которые подходят и отменить те, которые не нужны.

Снимок экрана: предлагаемые схемы с помощью средства предложения ИИ.

  1. Определите схему: просмотрите предложенные поля схемы или те, которые являются частью шаблона. Если есть дополнительные поля, которые нужно добавить или изменить, используйте функции редактирования для уточнения полей схемы. Вы можете легко вернуться к уточнению схемы после тестирования и после сборки исходного анализатора. После завершения изменений выберите Save.

  2. Проверьте схему: когда схема готова к тестированию, выберите run analysis , чтобы просмотреть выходные данные схемы в данных. При необходимости можно отправить дополнительные фрагменты примеров данных для тестирования, чтобы узнать, как выполняется схема.

  3. Выполните итерацию схемы: повторите шаги 6–8, чтобы улучшить выходные данные схемы.

  4. Необязательный шаг: Контекстное обучение (только для документов): Для дальнейшего улучшения качества выходных данных вашей схемы можно включить контекстное обучение. Этот шаг позволяет использовать базу данных знаний, на которую модель будет ссылаться и из которой учиться.

Чтобы приступить к работе, отправьте данные обучения в учетную запись облачного хранилища объектов BLOB. Перейдите на вкладку "Знания" и выберите контейнер хранилища BLOB-объектов, содержащий набор обучающих данных примеров документов. На основе только что определенного анализатора модель назначает метки документу. Подтвердите правильность обучающих данных, проверяя и исправляя метки, которые дали неправильный результат, или добавляя отсутствующие результаты.

  1. Создайте анализатор: когда вы удовлетворены выходными данными анализатора, нажмите Build analyzer кнопку в верхней части страницы. Присвойте анализатору имя и выберите Build.

  2. Используйте анализатор. После успешного создания анализатора выберите Jump to analyzer list, чтобы просмотреть полный список всех созданных анализаторов. Выберите только что созданный анализатор, и вы увидите пример кода с ключом и конечной точкой, готовыми к началу работы. Теперь у вас есть конечная точка анализатора, которую можно использовать в собственном приложении с помощью REST API. В этой статье представлена инструкция по использованию Content Understanding Studio для создания пользовательского анализатора.

Дальнейшие шаги