Поделиться через


Использование добавочных классификаторов аналитики документов

Это содержимое относится к: флажок версии 4.0 (предварительная версия) флажок

Azure AI Document Intelligence — это облачная служба ИИ Azure, которая позволяет создавать интеллектуальные решения для обработки документов. API аналитики документов анализируют изображения, PDF-файлы и другие файлы документов для извлечения и обнаружения различных содержимого, макета, стиля и семантических элементов.

Пользовательские модели классификации аналитики документов — это типы моделей глубокого обучения, которые объединяют функции макета и языка для точного обнаружения и идентификации документов, обрабатываемых в приложениях. Пользовательские модели классификации выполняют классификацию входных файлов на одну страницу за раз, чтобы определить документы внутри, а также определить несколько документов или несколько экземпляров одного документа в входном файле.

Классификаторы документов аналитики документов определяют известные типы документов в файлах. При обработке входного файла с несколькими типами документов или если вы не знаете тип документа, используйте классификатор для идентификации документа. Классификаторы должны периодически обновляться всякий раз, когда происходят следующие изменения:

  • Вы добавляете новые шаблоны для существующего класса.
  • Вы добавляете новые типы документов для распознавания.
  • Достоверность классификатора низка.

В некоторых сценариях вы больше не можете использовать исходный набор документов, используемый для обучения классификатора. При добавочном обучении можно обновить классификатор только с новыми помеченными примерами.

Примечание.

Добавочное обучение применяется только к моделям классификатора документов, а не к пользовательским моделям.

Добавочное обучение полезно, если вы хотите улучшить качество пользовательского классификатора. Добавление новых примеров обучения для существующих классов повышает достоверность модели для существующих типов документов. Например, если добавлена новая версия существующей формы или есть новый тип документа. Пример может быть, когда приложение начинает поддерживать новый тип документа в качестве допустимых входных данных.

Начало работы с добавочным обучением

  • Добавочное обучение не вводит новые конечные точки API.

  • Полезные documentClassifiers:build данные запроса изменяются для поддержки добавочного обучения.

  • Добавочное обучение приводит к созданию новой модели классификатора с существующим классификатором.

  • Новый классификатор содержит все примеры документов и типы старого классификатора вместе с новыми предоставленными примерами. Необходимо убедиться, что приложение обновляется для работы с недавно обученным классификатором.

    Примечание.

    Операция копирования для классификаторов в настоящее время недоступна.

Создание запроса на сборку добавочного классификатора

Запрос добавочного классификатора сборки аналогичен classify document запросу на сборку, но включает новое baseClassifierId свойство. Задано baseClassifierId значение существующего классификатора, который требуется расширить. Кроме того, необходимо указать docTypes различные типы документов в примере набора. Предоставив объект docType , который существует в baseClassifier, примеры, предоставленные в запросе, добавляются в примеры, предоставленные при подготовке базового классификатора. Новые docType значения, добавленные в добавочное обучение, добавляются только в новый классификатор. Процесс указания примеров остается неизменным. Дополнительные сведения см. в обучении модели классификатора.

Пример запроса POST

Пример POST запроса на создание добавочного классификатора документов

POST {your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "baseClassifierId": "myOriginalClassifier",
  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "fileList": "formB.jsonl"
      }
    }
  }
}

Ответ POST

Все API аналитики документов являются асинхронными, опрос возвращаемого расположения операции предоставляет состояние операции сборки. Классификаторы быстро обучаются, и классификатор может быть готов к использованию в минуту или два.

После успешного завершения:

  • Успешный POST метод возвращает код ответа, указывающий 202 OK , что служба создала запрос.
  • Переведенные документы находятся в целевом контейнере.
  • Запрос POST также возвращает заголовки ответа, включая Operation-Location. Значение этого заголовка содержит запрос resultId , который можно запросить, чтобы получить состояние асинхронной операции и получить результаты с помощью запроса с тем же ключом GET подписки ресурса.

Пример запроса GET

Пример GET запроса на получение результата добавочного классификатора документов

GET {your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview


{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "createdDateTime": "2022-07-30T00:00:00Z",
  "expirationDateTime": "2023-01-01T00:00:00Z",
  "apiVersion": "2024-02-29-preview",

  "baseClassifierId": "myOriginalClassifier",

  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "fileList": "formB.jsonl"
      }
    }
  }
}

ОТВЕТ GET

Ответ GET от добавочного обученного классификатора отличается от ответа стандартного классификатора GET . Добавочный обученный классификатор не возвращает все поддерживаемые типы документов. Он возвращает типы документов, добавленные или обновленные в шаге добавочного обучения, и расширенный базовый классификатор. Чтобы получить полный список типов документов, необходимо указать базовый классификатор. Удаление базового классификатора не влияет на использование добавочного обученного классификатора.

Ограничения

  • Добавочное обучение работает только в том случае, если базовый классификатор и добавочный обученный классификатор обучаются в одной версии API. В результате постепенно обученный классификатор имеет тот же жизненный цикл модели, что и базовый классификатор.

  • Ограничения размера набора данных обучения для добавочного классификатора совпадают с другими классификаторами модели. Ознакомьтесь с ограничениями службы для полного списка применимых ограничений.

Следующие шаги