Поделиться через


Возможности надстройки аналитики документов

Внимание

  • Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке. Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
  • Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует REST API версии 2024-07-31-preview.
  • Общедоступная предварительная версия 2024-07-31-preview в настоящее время доступна только в следующих регионах Azure. Обратите внимание, что пользовательская модель создания (извлечение полей документов) в AI Studio доступна только в регионе "Северная часть США":
    • Восточная часть США
    • Западная часть США2
    • Западная Европа
    • Северная часть США

Это содержимое относится к: версии 4.0 (предварительная версия) | Предыдущие версии:синяя галочка флажок v3.1 (GA)

Это содержимое относится к: версия 3.1 (GA) | Последняя версия: фиолетовый флажокфлажок версия 4.0 (предварительная версия)

Примечание.

Возможности надстройки доступны во всех моделях, кроме модели визитной карточки.

Возможности

Аналитика документов поддерживает более сложные и модульные возможности анализа. Используйте функции надстройки, чтобы расширить результаты, чтобы включить дополнительные функции, извлеченные из документов. Некоторые функции надстройки требуют дополнительных затрат. Эти необязательные функции можно включить и отключить в зависимости от сценария извлечения документов. Чтобы включить функцию, добавьте связанное имя функции в features свойство строки запроса. Вы можете включить несколько функций надстройки по запросу, предоставив разделенный запятыми список функций. Следующие возможности надстройки доступны для 2023-07-31 (GA) и более поздних выпусков.

Для 2024-07-31-preview выпуска и более поздних версий модель чтения поддерживает доступные для поиска выходные данные PDF:

Примечание.

  • Не все возможности надстройки поддерживаются всеми моделями. Дополнительные сведения см. в статье об извлечении данных модели.

  • Возможности надстройки в настоящее время не поддерживаются для типов файлов Microsoft Office.

Аналитика документов поддерживает дополнительные функции, которые можно включить и отключить в зависимости от сценария извлечения документов. Для и более поздних выпусков доступны 2023-10-31-previewследующие возможности надстройки:

Примечание.

Реализация полей запроса в API предварительной версии 2023-10-30 отличается от последнего предварительного выпуска. Новая реализация является менее дорогой и хорошо работает с структурированными документами.

Доступность версий

Возможность надстройки Надстройка или бесплатная 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Извлечение свойств шрифта Надстройка ✔️ ✔️ Недоступно Недоступно
Извлечение формул Надстройка ✔️ ✔️ Недоступно Недоступно
Извлечение высокого разрешения Надстройка ✔️ ✔️ Недоступно Недоступно
Извлечение штрихкодов Бесплатно ✔️ ✔️ Недоступно Недоступно
Распознавание языка Бесплатно ✔️ ✔️ Недоступно Недоступно
Пары "ключ — значение" Бесплатно ✔️ Недоступно н/д Недоступно
Поля запроса Надстройка* ✔️ Недоступно н/д Недоступно

✱ Надстройка — поля запросов отличаются от других функций надстройки. Подробные сведения см. в разделе Цены.

Поддерживаемые типы файлов

  • PDF

  • Изображения: JPEG/JPG, , BMP, TIFFPNGHEIF

✱ Файлы Microsoft Office в настоящее время не поддерживаются.

Извлечение высокого разрешения

Задача распознавания небольшого текста из документов большого размера, таких как инженерные рисунки, является проблемой. Часто текст смешан с другими графическими элементами и имеет различные шрифты, размеры и ориентации. Кроме того, текст можно разбить на отдельные части или подключиться к другим символам. Аналитика документов теперь поддерживает извлечение содержимого из этих типов документов с ocr.highResolution возможностью. Вы получаете улучшенное качество извлечения содержимого из документов A1/A2/A3, включив эту возможность надстройки.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Извлечение формул

Возможность ocr.formula извлекает все определенные формулы, такие как математические уравнения, в коллекции как formulas объект верхнего уровня в разделе content. Внутри contentобнаруженные формулы представлены как :formula:. Каждая запись в этой коллекции представляет формулу, которая включает тип формулы как inline или display, а также его представление LaTeX, как value и его polygon координаты. Изначально формулы отображаются в конце каждой страницы.

Примечание.

Оценка confidence жестко закодирована.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Извлечение свойств шрифта

Функция ocr.font извлекает все свойства шрифта текста, извлеченного в коллекции, styles как объект верхнего уровня в разделе content. Каждый объект стиля задает одно свойство шрифта, диапазон текста, к нему применяется и соответствующая оценка достоверности. Существующее свойство стиля расширяется с большим количеством свойств шрифта, таких как similarFontFamily шрифт текста, fontStyle для стилей, таких как курсив и обычный, полужирный или обычныйcolor, fontWeight для цвета текста и backgroundColor цвета ограничивающего текста поля.

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Извлечение свойств Штрихкода

Функция ocr.barcode извлекает все определенные штрихкоды в barcodes коллекции как объект верхнего уровня в разделе content. Внутри , обнаруженные contentштрихкоды представлены как :barcode:. Каждая запись в этой коллекции представляет штрихкод и включает тип штрихкода как kind и внедренное содержимое штрихкода, как value и его polygon координаты. Изначально штрихкоды отображаются в конце каждой страницы. Жестко confidence закодирован для 1.

Поддерживаемые типы штрихкодов

Тип штрихкода Пример
QR Code Снимок экрана: QR-код.
Code 39 Снимок экрана: код 39.
Code 93 Снимок экрана: код 93.
Code 128 Снимок экрана: код 128.
UPC (UPC-A & UPC-E) Снимок экрана: КОД JSON.
PDF417 Снимок экрана: PDF417.
EAN-8 Снимок экрана: штрихкод европейского номера статьи ean-8.
EAN-13 Снимок экрана: штрихкод европейского номера статьи ean-13.
Codabar Снимок экрана: Codabar.
Databar Снимок экрана: панель данных.
Databar Расширенный Снимок экрана: развернутая панель данных.
ITF Снимок экрана: чередование двух из пяти штрихкодов (ITF).
Data Matrix Снимок экрана: матрица данных.
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Распознавание языка

languages Добавление функции в analyzeResult запрос прогнозирует обнаруженный первичный язык для каждой текстовой строки вместе с confidence коллекцией в languages разделе analyzeResult.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Pdf-файл, доступный для поиска

Возможность PDF с возможностью поиска позволяет преобразовать аналоговый PDF-файл( например, сканированный PDF-файл в PDF-файл с внедренным текстом). Внедренный текст позволяет выполнять поиск глубокого текста в извлеченных содержимом PDF путем перекладывания обнаруженных текстовых сущностей на вершину файлов изображений.

Внимание

  • В настоящее время возможность поиска PDF поддерживается только моделью prebuilt-readчтения OCR. При использовании этой функции укажите modelId значение as prebuilt-read, так как другие типы моделей возвращают ошибку для этой предварительной версии.
  • Доступный для поиска PDF-файл входит в модель 2024-07-31-preview prebuilt-read без затрат на использование общего использования PDF.

Использование PDF с возможностью поиска

Чтобы использовать pdf-файл, доступный POST для поиска, выполните запрос с помощью Analyze операции и укажите выходной формат следующим образом pdf:


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

Analyze После завершения операции выполните GET запрос на получение Analyze результатов операции.

После успешного завершения PDF-файл можно получить и скачать как application/pdf. Эта операция позволяет напрямую загружать внедренную текстовую форму PDF вместо JSON в кодировке Base64.


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

Пары "Ключ-значение"

В более ранних версиях prebuilt-document API модель извлекла пары "ключ-значение" из форм и документов. При добавлении функции к предварительно созданному макету модель макета keyValuePairs теперь выдает те же результаты.

Пары "ключ-значение" — это отдельные фрагменты внутри документа, которые определяют метку или ключ и связанный с ними ответ или значение. В структурированной форме эти пары могут быть меткой и значением, которое пользователь указал для данного поля. В неструктурированном документе они могут быть датой подписания договора на основании текста в абзаце. Модель искусственного интеллекта предназначена для извлечения идентифицируемых ключей и значений на основе широкого спектра типов документов, форматов и структур.

Ключи также могут существовать в изоляции, когда модель обнаруживает, что ключ существует, но с ним не связано ни одно значение, или при обработке необязательных полей. Например, поле промежуточного имени можно оставить пустым в форме в некоторых экземплярах. Пары "ключ-значение" всегда представляют собой фрагменты текста, содержащиеся в документе. Для документов, в которых одно и то же значение описано разными способами, например клиент или пользователь, связанный ключ является клиентом или пользователем (в зависимости от контекста).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Поля запроса

Поля запросов — это возможность расширения схемы, извлеченной из любой предварительно созданной модели, или определения определенного имени ключа при переменной имени ключа. Чтобы использовать поля запроса, задайте функции queryFields и укажите список имен полей с разделием запятыми в свойстве queryFields .

  • Аналитика документов теперь поддерживает извлечение полей запросов. При извлечении поля запроса можно добавлять поля в процесс извлечения с помощью запроса без необходимости в добавленном обучении.

  • Используйте поля запроса, если необходимо расширить схему предварительно созданной или пользовательской модели или извлечь несколько полей с выходными данными макета.

  • Поля запросов — это возможность надстройки уровня "Премиум". Для получения наилучших результатов определите поля, которые требуется извлечь с помощью имен полей верблюдьего регистра или Pascal для имен полей с несколькими словами.

  • Поля запросов поддерживают не более 20 полей на запрос. Если документ содержит значение для поля, возвращается поле и значение.

  • Этот выпуск имеет новую реализацию возможностей полей запроса, которая имеет более низкую цену, чем более ранняя реализация, и должна быть проверена.

Примечание.

Извлечение поля запросов Document Intelligence Studio в настоящее время доступно с ПОМОЩЬЮ API макетов и предварительно созданных моделей 2024-02-29-preview 2023-10-31-preview и более поздних выпусков, кроме US tax моделей (W2, 1098s и 1099s).

Извлечение поля запроса

Для извлечения полей запроса укажите поля, которые необходимо извлечь, и аналитика документов анализирует документ соответствующим образом. Приведем пример:

  • Если вы обрабатываете контракт в Студии аналитики документов, используйте 2024-02-29-preview 2023-10-31-preview следующие версии:

    Снимок экрана: кнопка полей запроса в Document Intelligence Studio.

  • Вы можете передать список меток полей, например Party1, Party2, TermsOfUse, PaymentTermsи PaymentDateTermEndDate как часть analyze document запроса.

    Снимок экрана: окно выбора полей запроса в Document Intelligence Studio.

  • Аналитика документов может анализировать и извлекать данные поля и возвращать значения в структурированных выходных данных JSON.

  • В дополнение к полям запроса ответ включает текст, таблицы, метки выделения и другие соответствующие данные.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Следующие шаги

Дополнительные сведения: чтение модели макета модели

Примеры пакета SDK: Python

Дополнительные примеры: возможности надстройки

Дополнительные примеры: возможности надстройки