Использование добавочных классификаторов аналитики документов
Это содержимое относится к: версии 4.0 (предварительная версия)
Azure AI Document Intelligence — это облачная служба ИИ Azure, которая позволяет создавать интеллектуальные решения для обработки документов. API аналитики документов анализируют изображения, PDF-файлы и другие файлы документов для извлечения и обнаружения различных содержимого, макета, стиля и семантических элементов.
Пользовательские модели классификации аналитики документов — это типы моделей глубокого обучения, которые объединяют функции макета и языка для точного обнаружения и идентификации документов, обрабатываемых в приложениях. Пользовательские модели классификации выполняют классификацию входных файлов на одну страницу за раз, чтобы определить документы внутри, а также определить несколько документов или несколько экземпляров одного документа в входном файле.
Классификаторы документов аналитики документов определяют известные типы документов в файлах. При обработке входного файла с несколькими типами документов или если вы не знаете тип документа, используйте классификатор для идентификации документа. Классификаторы должны периодически обновляться всякий раз, когда происходят следующие изменения:
- Вы добавляете новые шаблоны для существующего класса.
- Вы добавляете новые типы документов для распознавания.
- Достоверность классификатора низка.
В некоторых сценариях вы больше не можете использовать исходный набор документов, используемый для обучения классификатора. При добавочном обучении можно обновить классификатор только с новыми помеченными примерами.
Примечание.
Добавочное обучение применяется только к моделям классификатора документов, а не к пользовательским моделям.
Добавочное обучение полезно, если вы хотите улучшить качество пользовательского классификатора. Добавление новых примеров обучения для существующих классов повышает достоверность модели для существующих типов документов. Например, если добавлена новая версия существующей формы или есть новый тип документа. Пример может быть, когда приложение начинает поддерживать новый тип документа в качестве допустимых входных данных.
Начало работы с добавочным обучением
Добавочное обучение не вводит новые конечные точки API.
Полезные
documentClassifiers:build
данные запроса изменяются для поддержки добавочного обучения.Добавочное обучение приводит к созданию новой модели классификатора с существующим классификатором.
Новый классификатор содержит все примеры документов и типы старого классификатора вместе с новыми предоставленными примерами. Необходимо убедиться, что приложение обновляется для работы с недавно обученным классификатором.
Примечание.
Операция копирования для классификаторов в настоящее время недоступна.
Создание запроса на сборку добавочного классификатора
Запрос добавочного классификатора сборки аналогичен classify document
запросу на сборку, но включает новое baseClassifierId
свойство. Задано baseClassifierId
значение существующего классификатора, который требуется расширить. Кроме того, необходимо указать docTypes
различные типы документов в примере набора. Предоставив объект docType
, который существует в baseClassifier, примеры, предоставленные в запросе, добавляются в примеры, предоставленные при подготовке базового классификатора. Новые docType
значения, добавленные в добавочное обучение, добавляются только в новый классификатор. Процесс указания примеров остается неизменным. Дополнительные сведения см. в обучении модели классификатора.
Пример запроса POST
Пример POST
запроса на создание добавочного классификатора документов
POST
{your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"fileList": "formB.jsonl"
}
}
}
}
Ответ POST
Все API аналитики документов являются асинхронными, опрос возвращаемого расположения операции предоставляет состояние операции сборки. Классификаторы быстро обучаются, и классификатор может быть готов к использованию в минуту или два.
После успешного завершения:
- Успешный
POST
метод возвращает код ответа, указывающий202 OK
, что служба создала запрос. - Переведенные документы находятся в целевом контейнере.
- Запрос
POST
также возвращает заголовки ответа, включаяOperation-Location
. Значение этого заголовка содержит запросresultId
, который можно запросить, чтобы получить состояние асинхронной операции и получить результаты с помощью запроса с тем же ключомGET
подписки ресурса.
Пример запроса GET
Пример GET
запроса на получение результата добавочного классификатора документов
GET
{your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"createdDateTime": "2022-07-30T00:00:00Z",
"expirationDateTime": "2023-01-01T00:00:00Z",
"apiVersion": "2024-02-29-preview",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"fileList": "formB.jsonl"
}
}
}
}
ОТВЕТ GET
Ответ GET
от добавочного обученного классификатора отличается от ответа стандартного классификатора GET
. Добавочный обученный классификатор не возвращает все поддерживаемые типы документов. Он возвращает типы документов, добавленные или обновленные в шаге добавочного обучения, и расширенный базовый классификатор. Чтобы получить полный список типов документов, необходимо указать базовый классификатор. Удаление базового классификатора не влияет на использование добавочного обученного классификатора.
Ограничения
Добавочное обучение работает только в том случае, если базовый классификатор и добавочный обученный классификатор обучаются в одной версии API. В результате постепенно обученный классификатор имеет тот же жизненный цикл модели, что и базовый классификатор.
Ограничения размера набора данных обучения для добавочного классификатора совпадают с другими классификаторами модели. Ознакомьтесь с ограничениями службы для полного списка применимых ограничений.
Следующие шаги
- Дополнительные сведения о классификации документов