Поделиться через


Извлечение поля документа — настраиваемая модель создания ИИ

Внимание

  • Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке. Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
  • Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию используется rest API версии 2024-07-31-preview и в настоящее время доступна только в следующих регионах Azure.
    • Восточная часть США
    • Северная часть США

Модель извлечения полей документа (настраиваемая модель создания искусственного интеллекта) использует сгенерированный ИИ для извлечения полей, указанных пользователем, из документов в различных визуальных шаблонах. Пользовательская модель создания искусственного интеллекта объединяет возможности распознавания документов с большими языковыми моделями (LLMs) и строгостью и схемой из пользовательских возможностей извлечения для создания модели с высокой точностью в минутах. С помощью этого типа генерирующей модели можно начать с одного документа и перейти к процессу создания схемы и создания модели с минимальными метками. Настраиваемая модель создания позволяет разработчикам и предприятиям легко автоматизировать рабочие процессы извлечения данных с большей точностью и скоростью для любого типа документа. Пользовательская модель создания ИИ позволяет извлекать простые поля из документов без помеченных примеров. Однако предоставление нескольких помеченных примеров повышает точность извлечения сложных полей и определяемых пользователем полей, таких как таблицы. Rest API или клиентские библиотеки можно использовать для отправки документа для анализа с помощью сборки модели и использования пользовательского процесса создания.

Преимущества пользовательской модели создания ИИ

  • Автоматическая маркировка. Используйте большие языковые модели (LLM) и извлеките пользовательские поля для различных типов документов и визуальных шаблонов.

  • Улучшенная обобщение. Извлеките данные из неструктурированных данных и различных шаблонов документов с более высокой точностью.

  • Заземленные результаты. Локализация данных, извлеченных в документах. Пользовательские модели создания создают результаты, в которых применимо, обеспечивая создание ответа из содержимого и включение рабочих процессов проверки человека.

  • Оценки достоверности. Используйте оценки достоверности для каждого извлеченного поля, отфильтруйте высококачественные извлеченные данные, максимальное максимальное количество путем обработки документов и свести к минимуму затраты на проверку человека.

Распространенные варианты использования

  • Управление жизненным циклом контракта. Создайте созданную модель и извлеките поля, предложения и обязательства из широкого спектра типов контрактов.

  • Кредитные и ипотечные заявки. Автоматизация процесса кредитования и ипотеки позволяет банкам, кредиторам и государственным организациям быстро обрабатывать кредиты и ипотечные заявки.

  • Финансовые услуги. С помощью пользовательской модели создания искусственного интеллекта анализируйте сложные документы, такие как финансовые отчеты и отчеты по управлению активами.

  • Управление расходами. Для проверки расходов необходимо проанализировать квитанции и счета от различных розничных торговцев и предприятий. Пользовательская модель создания ИИ может извлекать расходы в разных форматах и документах с различными шаблонами.

Управление набором данных для обучения

С помощью других пользовательских моделей необходимо поддерживать набор данных, добавлять новые примеры и обучать модель для улучшения точности. С помощью пользовательской модели создания искусственного интеллекта помеченные документы преобразуются, шифруются и хранятся в рамках модели. Этот процесс гарантирует, что модель может постоянно использовать помеченные образцы для улучшения качества извлечения. Как и в случае с другими пользовательскими моделями, модели хранятся в хранилище Майкрософт и их можно удалять в любое время.

Служба аналитики документов управляет наборами данных, но ваши документы хранятся в зашифрованном виде и используются только для улучшения результатов модели для конкретной модели. Ключ, управляемый службой, можно использовать для шифрования данных или его можно при необходимости шифровать с помощью управляемого клиентом ключа. Изменение управления и жизненного цикла набора данных применяется только к пользовательским моделям создания.

Возможности модели

В настоящее время пользовательская модель извлечения полей поддерживает динамическую таблицу со 2024-07-31-preview следующими полями:

Поля формы Метки выделения Табличные поля Подпись Метки регионов Перекрывающиеся поля
Поддерживается Поддерживаемые Поддерживается Не поддерживается Не поддерживается Поддерживается

Режим сборки

Операция build custom model поддерживает пользовательские модели, нейронные и генеривные модели, см. в режиме сборки пользовательской модели. Ниже приведены различия в типах моделей:

  • Пользовательские модели создания ИИ могут обрабатывать сложные документы с различными форматами, различными шаблонами и неструктурированными данными.

  • Пользовательские нейронные модели поддерживают сложную обработку документов, а также поддерживают более дисперсию на страницах структурированных и полуструктурированных документов.

  • Пользовательские модели шаблонов используют согласованные визуальные шаблоны, такие как анкеты или приложения, для извлечения помеченных данных.

Поддержка языков и языков

Версия пользовательской модели 2024-07-31-preview извлечения полей поддерживает языковой стандарт en-us . Дополнительные сведения о поддержке языка см. в разделе "Поддержка языка" — пользовательские модели.

Поддержка регионов

Версия настраиваемой 2024-07-31-preview модели извлечения полей доступна только в "Восточная часть США" и North Central US.  

Требования к входным данным

  • Поддерживаемые форматы файлов:

    Модель PDF Изображение:
    JPEG/JPG, , BMPPNGTIFFHEIF
    Microsoft Office:
    Word (), Excel (XLSXDOCX), PowerPoint (PPTX), HTML
    Читать
    Макет ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Документ общего назначения
    Готовое
    Настраиваемая функция извлечения
    Настраиваемая классификация ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

  • Для PDF и TIFF можно обрабатывать до 2000 страниц (с подпиской на бесплатный уровень только первые две страницы обрабатываются).

  • Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).

  • Размеры изображения должны составлять от 50 пикселей до 50 пикселей и 10 000 пикселей x 10 000 пикселей.

  • Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.

  • Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту 8 точки в 150 точек на дюйм (DPI).

  • Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.

    • Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.

    • Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1 ГБ не более 10 000 страниц. Для 2024-07-31-preview и более поздних версий общий размер обучающих данных составляет 2 ГБ с максимальным количеством 10 000 страниц.

Рекомендации

  • Репрезентативные данные. Используйте репрезентативные документы, предназначенные для фактического распределения данных, и обучайте высококачественную пользовательскую модель создания. Например, если целевой документ содержит частично заполненные табличные поля, добавьте учебные документы, состоящие из частично заполненных таблиц. Или если поле имеет имя даты, значения для этого поля должны быть датой, так как случайные строки могут повлиять на производительность модели.

  • Именование полей. Выберите точное имя поля, представляющее значения полей. Например, для значения поля, содержащего дату транзакции, рассмотрите возможность именования поля TransactionDate вместо Date1.

  • Описание поля. Укажите более контекстную информацию в описании, чтобы уточнить поле, которое необходимо извлечь. Примеры включают расположение в документе, потенциальные метки полей, с которыми он может быть связан, и способы отличия с другими терминами, которые могут быть неоднозначными.

  • Вариант. Пользовательские модели создания могут обобщать разные шаблоны документов одного типа документа. Рекомендуется создать единую модель для всех вариантов типа документа. Чтобы повысить точность и согласованность модели в создании или обработке документов, включите визуальный шаблон для каждого типа, особенно для конкретных элементов форматирования и/или структурных элементов.

Руководства по службам

  • Пользовательская модель создания предварительной версии в настоящее время не поддерживает исправленную таблицу и извлечение подписей.

  • Вывод одного документа может немного отличаться от вызовов и является известным ограничением текущих GPT моделей.

  • Оценки достоверности для каждого поля могут отличаться. Мы рекомендуем протестировать с помощью репрезентативных данных, чтобы установить пороговые значения достоверности для вашего сценария.

  • Приземление, особенно для табличных полей, является сложным и может быть не идеальным в некоторых случаях.

  • Задержка для больших документов высока, и известное ограничение в предварительной версии.

  • Созданные модели не поддерживают настраиваемое извлечение генерированных данных.

Обучение модели

Пользовательские модели создания доступны с 2024-07-31-preview версией и более поздними моделями.

Для build operation обучения модели поддерживается buildMode свойство, для обучения настраиваемой модели создания, задайте для нее значение buildMode generative.


https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "generative",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Следующие шаги