Прочитать на английском

Поделиться через


Модель визитной карточки аналитики документов

Важно!

Начиная с Document Intelligence версии 4.0 и идти вперед, модель визитной карточки (предварительно созданная бизнес-карта) устарела. Чтобы извлечь данные из форматов визитных карточек, используйте следующее:

Функция версия Model ID
Модель визитных карточек • v3.1:2023-07-31 (GA)• v3.0:2022-08-31 (GA)

• версии 2.1 (GA)
prebuilt-businessCard

Это содержимое относится к: версии 3.1 (GA) | Предыдущие версии:флажоксиняя галочкаверсии 3.0синяя галочкаверсии 2.1

Это содержимое относится к: версия 3.0 (GA) | Последние версии:флажокфиолетовый флажокверсия 4.0 (GA) фиолетовый флажокверсии 3.1 | Предыдущая версия:синяя галочкаверсия 2.1

[! INCLUDE [относится к версии 2.1].. /(includes/applies-to-v21.md)]

Модель бизнес-карты аналитики документов объединяет мощные возможности оптического распознавания символов (OCR) с моделями глубокого обучения для анализа и извлечения данных из образов визитных карточек. API анализирует печатные визитные карточки; извлекает ключевые сведения, такие как имя, фамилия, имя компании, адрес электронной почты и номер телефона; и возвращает структурированное представление данных JSON.

Извлечение данных визитной карточки

Визитные карточки — отличный способ представить бизнес или профессионала. Логотип компании, шрифты и фоновые изображения, найденные в визитных карточках, помогают повысить фирменную символику компании и отличить его от других. Применение методов OCR и машинного обучения для автоматизации сканирования визитных карточек — это распространенный сценарий обработки изображений. Корпоративные системы, используемые группами продаж и маркетинга, обычно имеют возможность извлечения данных визитной карточки в пользу своих пользователей.

Пример визитной карточки, обработанной с помощью Document Intelligence Studio

Снимок экрана: образец визитной карточки, проанализированный в Студии аналитики документов.

Пример бизнес-процессов, обработанный с помощью средства аналитики документов

Снимок экрана: образец визитной карточки, проанализированный с помощью средства проверки меток аналитики документов.

Варианты разработки

Аналитика документов версии 3.1:2023-07-31 (GA) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель визитных карточек Document Intelligence Studio
REST API
Пакет SDK для C#
Пакет SDK для Python
Пакет SDK для Java
Пакет SDK для JavaScript
prebuilt-businessCard

Аналитика документов версии 3.0:2022-08-31 (GA) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель визитных карточек Document Intelligence Studio
REST API
Пакет SDK для C#
Пакет SDK для Python
Пакет SDK для Java
Пакет SDK для JavaScript
prebuilt-businessCard

Аналитика документов версии 2.1 (GA) поддерживает следующие средства, приложения и библиотеки:

Попробуйте извлечь данные визитной карточки

Узнайте, как данные, включая имя, название задания, адрес, электронную почту и название компании, извлекаются из визитных карточек. Вам потребуются следующие ресурсы:

  • Подписка Azure — создайте бесплатную учетную запись

  • Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Снимок экрана: расположение ключей и конечной точки на портале Azure.

Document Intelligence Studio

Примечание

Document Intelligence Studio доступен с API версии 3.1 и версии 3.0.

  1. На домашней странице Document Intelligence Studio выберите визитные карточки.

  2. Вы можете проанализировать образец визитной карточки или отправить собственные файлы.

  3. Нажмите кнопку "Выполнить анализ ", а при необходимости настройте параметры анализа:

    Снимок экрана: кнопки

Средство разработки меток аналитики документов

  1. Перейдите к инструменту аналитики документов.

  2. На домашней странице примера инструмента выберите предварительно созданную модель, чтобы получить плитку данных .

    Снимок экрана: операция анализа результатов модели макета.

  3. Выберите тип формы для анализа из раскрывающегося меню.

  4. Выберите URL-адрес для файла, который необходимо проанализировать, в одном из следующих вариантов:

  5. В поле Источник выберите URL-адрес в раскрывающемся меню, вставьте выбранный URL-адрес и нажмите кнопку Получить.

    Снимок экрана с раскрывающимся меню расположения источника.

  6. В поле конечной точки службы аналитики документов вставьте конечную точку, полученную в подписке Аналитики документов.

  7. В поле ключа вставьте ключ, полученный из ресурса аналитики документов.

    Снимок экрана: раскрывающееся меню

  8. Щелкните элемент Run analysis (Выполнить анализ). Средство аналитики документов вызывает предварительно созданный API анализа и анализирует документ.

  9. Просмотрите результаты. Просмотрите пары "ключ-значение", извлеченные, элементы строки, извлеченные текст и обнаруженные таблицы.

    Снимок экрана: операция анализа результатов модели визитной карточки.

Примечание

Пример средства маркировки данных не поддерживает файлы в формате BMP. Это ограничение средства, а не службы аналитики документов.

Требования к входным данным

Поддерживаемые форматы файлов:

Модель PDF Изображение:
JPEG/JPG, , BMPPNGTIFFHEIF
Microsoft Office:
Word (), Excel (XLSXDOCX), PowerPoint (PPTX), HTML
Читать
Макет
Документ общего назначения
Готовое
Настраиваемая функция извлечения
Настраиваемая классификация
  • Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

  • Для PDF и TIFF можно обрабатывать до 2000 страниц (с подпиской на бесплатный уровень только первые две страницы обрабатываются).

  • Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).

  • Размеры изображения должны составлять от 50 пикселей до 50 пикселей и 10 000 пикселей x 10 000 пикселей.

  • Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.

  • Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту 8 точки в 150 точек на дюйм (DPI).

  • Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.

    • Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.

    • Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1 ГБ не более 10 000 страниц. Для 2024-11-30 (GA) общий размер обучающих данных составляет 2 ГБ с не более чем 10 000 страниц.

  • Поддерживаемые форматы файлов: JPEG, PNG, PDF и TIFF
  • Pdf и TIFF обрабатываются до 2000 страниц. Для подписчиков уровня "Бесплатный" обрабатываются только две первые страницы.
  • Размер файла должен быть меньше 50 МБ и размер по крайней мере 50 x 50 пикселей и не более 10 000 x 10 000 пикселей.

Поддерживаемые языки и языковые стандарты

Полный список поддерживаемых языков см . на странице поддержки языка предварительно созданной модели.

Извлечение полей

Поддерживаемые поля извлечения документов см . на странице схемы модели визитных карточек в нашем примере репозитория GitHub.

Извлеченные поля

Имя. Тип Описание Текст
ContactNames массив объектов Имя контакта, извлеченное из визитной карточки [{ "FirstName": "John" "LastName", : "Doe" }]
FirstName строка Имя контакта "John"
LastName строка Фамилия контакта "Doe"
CompanyNames массив строк Название компании, извлеченное из визитной карточки ["Contoso"]
Отделы массив строк Отдел или организация контакта ["R&D"]
JobTitles массив строк Должность контакта ["Software Engineer"]
Сообщения электронной почты массив строк Контактная электронная почта, извлеченная из визитной карточки ["johndoe@contoso.com"]
Веб-сайты массив строк Веб-сайт извлеченный из визитной карточки ["https://www.contoso.com"]
Адреса массив строк Адрес, извлеченный из визитной карточки ["123 Main Street, Редмонд, Вашингтон 98052"]
MobilePhones Массив номеров телефонов Номер мобильного телефона, извлеченный из визитной карточки ["+19876543210"]
Факсы Массив номеров телефонов Номер телефона факса, извлеченный из визитной карточки ["+19876543211"]
WorkPhones Массив номеров телефонов Номер служебного телефона, извлеченный из визитной карточки ["+19876543231"]
OtherPhones Массив номеров телефонов Другой номер телефона, извлеченный с визитной карточки ["+19876543233"]

Поддерживаемые языковые стандарты

Предварительно созданные визитные карточки версии 2.1 поддерживают следующие языковые стандарты:

  • en-us
  • en-au
  • en-ca
  • en-gb
  • en-in

Руководство по миграции и REST API версии 3.1

  • Следуйте руководству по миграции с помощью аналитики документов версии 3.1, чтобы узнать, как использовать версию версии 3.0 в приложениях и рабочих процессах.

Следующие шаги

  • Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio

  • Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.