Модель распознавания интеллекта документов

Это содержимое относится к:checkmarkверсии 4.0 (GA) | Предыдущие версии:blue-checkmarkверсии 3.1 (GA)red-checkmark версии 3.0 (вывод из эксплуатации)red-checkmarkверсии 2.1 (вывод из эксплуатации)

Это содержимое относится к:галочкаверсии 3.1 (GA) | Последняя версия:фиолетовая-галочкаверсии 4.0 (GA) | Предыдущие версии:синяя-галочкаверсии 3.0синяя-галочкаверсии 2.1

Это содержимое относится к:red-checkmarkверсии 3.0 (удаление)Последние версии:purple-checkmarkверсия 4.0 (GA)purple-checkmarkверсия 3.1Предыдущая версия:blue-checkmarkверсия 2.1 (удаление)

Это содержимое относится к:красная галочкаверсия 2.1 | Последняя версия:синяя галочкаверсия 4.0 (GA)

Модель обработки документов для анализа квитанций объединяет мощные возможности оптического распознавания символов (OCR) с моделями глубокого обучения для анализа и извлечения ключевой информации из кассовых чеков. Квитанции могут быть различными форматами и качеством, включая печатные и рукописные квитанции. API извлекает ключевые сведения, такие как имя продавца, номер телефона продавца, дата транзакции, налог и сумма транзакций, а также возвращает структурированные данные JSON. Модель квитанций версии 4.0 (GA) поддерживает другие поля, в том числе ReceiptType, TaxDetails.NetAmountTaxDetails.DescriptionTaxDetails.RateиCountryRegion, а также извлечение таблиц НДС по общим квитанциям отеля.

Извлечение данных из квитанции

Оцифровка квитанций включает преобразование различных типов квитанций, включая сканированные, сфотографированные и печатные копии, в цифровой формат для упрощенной обработки нижестоящего потока. Примеры включают управление затратами, анализ поведения потребителей, автоматизацию налогов и т. д. Использование технологии аналитики документов с OCR (оптическое распознавание символов) может извлекать и интерпретировать данные из этих различных форматов квитанций. Обработка аналитики документов упрощает процесс преобразования, но также значительно сокращает необходимое время и усилия, что упрощает эффективное управление данными и получение.

Пример квитанции, обработанный с помощью Document Intelligence Studio:

Снимок экрана: пример квитанции, обработанный в Студии аналитики документов.

Образец квитанции, обработанный с помощью средства разметки данных аналитики документов:

Снимок экрана: пример квитанции, обработанный с помощью средства маркировки образца формы.

Варианты разработки

Аналитика документов версии 4.0: 2024-11-30 (GA) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Идентификатор модели
Модель получения Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
предварительно созданная квитанция

Аналитика документов версии 3.1 поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Идентификатор модели
Модель получения Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
предварительно созданная квитанция

Аналитика документов версии 3.0 поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Идентификатор модели
Модель получения Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
предварительно созданная квитанция

Аналитика документов версии 2.1 поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы
Модель получения Средство маркировки документов
REST API
SDK библиотека клиента
Контейнер Docker для разметки документов

Требования к входным данным

Поддерживаются следующие форматы файлов.

Модель PDF Изображение:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Прочитать
Макет
Общий документ
Предварительно собранный
Настраиваемое извлечение
Настраиваемая классификация
  • Фотографии и сканы: для получения наилучших результатов предоставьте одну четкую фотографию или высококачественный скан на каждый документ.
  • PDF и TIFF: для PDF и TIFF можно обрабатывать до 2000 страниц. (С подпиской на бесплатный уровень обрабатываются только первые две страницы.)
  • Размер файла: размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
  • Размеры изображения: размеры должны находиться в диапазоне от 50 пикселей до 10 000 пикселей x 10 000 пикселей.
  • Блокировки паролей. Если pdf-файлы заблокированы паролем, необходимо удалить блокировку перед отправкой.
  • Высота текста: минимальная высота извлеченного текста составляет 12 пикселей для изображения 1024 x 768 пикселей. Это измерение соответствует примерно 8-точечному тексту при 150 точках на дюйм.
  • Обучение пользовательской модели: максимальное количество страниц для обучающих данных составляет 500 для пользовательской модели шаблона и 50 000 для пользовательской нейронной модели.
  • Обучение пользовательской модели извлечения: общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.
  • Обучение пользовательской модели классификации: общий размер обучающих данных составляет 1 ГБ, не более 10 000 страниц. Для 2024-11-30 (GA) общий размер обучающих данных составляет 2 ГБ с максимум 10 000 страниц.
  • Типы файлов Office (DOCX, XLSX, PPTX): максимальная длина строки составляет 8 миллионов символов.
  • Поддерживаемые форматы файлов: JPEG, PNG, PDF и TIFF.
  • Поддерживаемая квота на страницы для PDF и TIFF: Аналитика документов может обрабатывать до 2000 страниц для подписчиков уровня "Стандартный" или только первые две страницы для подписчиков бесплатного уровня.
  • Поддерживаемый размер файла: менее 50 МБ; минимум пикселей 50 x 50 пикселей; максимум пикселей 10 000 x 10 000 пикселей.

Извлечение данных модели чека

Узнайте, как аналитика документов извлекает данные, включая время и дату транзакций, сведения о продавце и суммы из квитанций. Вам потребуются следующие ресурсы:

  • Подписка Azure — вы можете создать её бесплатно.

  • Экземпляр Document Intelligence на портале Microsoft Azure. Вы можете использовать бесплатную ценовую категорию (F0) для пробной службы. После развертывания ресурса выберите "Перейти к ресурсу" , чтобы получить ключ и конечную точку.

Снимок экрана с ключами и местоположением конечной точки на портале Azure.

Примечание

Document Intelligence Studio доступна с API версии 3.1 и версии 3.0 и более поздними версиями.

  1. На домашней странице Document Intelligence Studio выберите "Квитанции".

  2. Вы можете проанализировать пример квитанции или отправить собственные файлы.

  3. Нажмите кнопку "Выполнить анализ ", а при необходимости настройте параметры анализа:

    Снимок экрана: кнопки

Средство разметки образцов для анализа документов

  1. Перейдите к инструменту аналитики документов.

  2. На домашней странице инструмента выберите элемент Использовать предварительно созданную модель для получения данных.

    Снимок экрана: процесс анализа результатов модели макета.

  3. Выберите тип формы для анализа из раскрывающегося меню.

  4. Выберите URL-адрес файла, который вы хотите проанализировать из следующих параметров:

  5. В поле "Источник" выберите URL-адрес в раскрывающемся меню, вставьте выбранный URL-адрес и нажмите кнопку "Получить ".

    Снимок экрана: раскрывающееся меню исходного расположения.

  6. В поле конечной точки службы аналитики документов вставьте конечную точку, полученную в подписке Аналитики документов.

  7. В поле ключа вставьте ключ, полученный из ресурса аналитики документов.

    Снимок экрана выпадающего меню выбора типа формы.

  8. Выберите "Выполнить анализ". Средство аналитики документов вызывает предварительно созданный API анализа и анализирует документ.

  9. Просмотрите результаты: пары "ключ-значение", извлеченные элементы строк, выделенный текст и обнаруженные таблицы.

    Снимок экрана: операция анализа результатов модели макета.

Примечание

Инструмент маркировки образцов не поддерживает формат файла BMP. Это ограничение средства, а не службы аналитики документов.

Поддерживаемые языки и локали

Для получения полного списка поддерживаемых языков см. на странице поддержки языков готовых моделей.

Извлечение полей

Сведения о поддерживаемых полях извлечения документов см. на странице схемы модели receipt в нашем примере репозитория GitHub

Имя Тип Описание Стандартные выходные данные
Тип квитанции Строка Тип квитанции о продажах Составление по пунктам
MerchantName Строка Имя продавца, выдавшего квитанцию
НомерТелефонаПродавца номер телефона Указанный номер телефона продавца +1 xxx xxx xxxx
АдресТорговца Строка Указанный адрес продавца
Дата транзакции Дата Дата выдачи квитанции гггг-мм-дд
ВремяТранзакции Время Время выдачи квитанции hh-mm-ss (24-часовой формат)
Всего Число (USD) Итоговая сумма транзакции на чеке Число с плавающей запятой с двумя десятичными знаками
Промежуточный итог Число (USD) Промежуточный итог квитанции, часто перед применением налогов Десятичное число с двумя знаками после запятой (float)
Налог Число (USD) Общий налог на получение (часто налог на продажу или эквивалентный). Переименовано в TotalTax в версии 2022-06-30. Двух десятичный с плавающей запятой
Совет Число (USD) Чаевые, добавленные покупателем Число с плавающей запятой с двумя десятичными знаками
Элементы Массив объектов Извлеченные позиции с именем, количеством, ценой за единицу и общей стоимостью.
Имя Строка Описание элемента. Переименовано в Description в версии 2022-06-30.
Количество Номер Количество каждого элемента Число с плавающей запятой с двумя десятичными знаками
Цена Номер Отдельная цена каждого единицы элемента Двух десятичный с плавающей запятой
ОбщаяЦена Номер Общая цена позиции в списке Двух десятичный с плавающей запятой

Руководство по миграции и REST API версии 3.1

Дальнейшие действия