Заметка о прозрачности и варианты использования для аналитики документов

Важно

Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.

Что такое заметка о прозрачности?

Система ИИ включает не только технологию, но и людей, которые будут использовать его, людей, которые будут затронуты им, и среды, в которой она развернута. Для создания системы, которая подходит для ее целевой цели, требуется понимание того, как работает технология, ее возможности и ограничения, а также как достичь оптимальной производительности.

Microsoft предоставляет заметки о прозрачности, чтобы помочь вам понять, как работает наша технология ИИ. К ним относятся выборы владельцев системы, которые могут повлиять на производительность и поведение системы, а также о значении комплексного подхода к системе, включая технологию, людей и окружающую среду. При разработке или развертывании собственной системы можно использовать заметки о прозрачности, а также предоставлять им общий доступ к пользователям, которые будут использовать или влиять на систему.

Заметки о прозрачности являются частью более широких усилий по Microsoft по внедрению принципов ИИ на практике. Дополнительные сведения см. в принципах ИИ Microsoft.

Основы аналитики документов

Введение

Аналитика документов осуществляется через набор API и позволяет разработчикам легко извлекать текст, структуру и поля из документов. Он состоит из таких функций, как:

Читать для извлечения текста.
Макет и общие документы для структурных аналитических сведений и общих ке-значений и сущностей, таких как имена, места и вещи.
Предварительно созданные модели для определенных типов документов, таких как счета, квитанции, визитные карточки, W2s и идентификаторы.
Настраиваемые модели для создания моделей по типам документов.

Аналитика документов поддерживает один или несколько языков и языковых стандартов для каждой функции, как указано в статье "Поддерживаемые языки ".

Ключевые термины

Термин	Определение
Прочитать	Эта функция извлекает текстовые строки, слова и их расположения из изображений и документов, а также другие сведения, такие как обнаруженные языки.
Макет	Эта функция извлекает текст, знаки выделения и структуру таблицы (номера строк и столбцов, связанные с текстом). См. макет аналитики документов.
Общие документы	Анализ документов и связывание значений с ключами и записями с таблицами, обнаруженными им. Дополнительные сведения см. в разделе "Общие документы аналитики документов".
Предварительно созданные модели	Предварительно созданные модели — это модели, относящиеся к документу, для уникальных типов форм. Для использования этих моделей не требуется дополнительной настройки. Например, предварительно созданная модель счета извлекает ключевые поля из счетов. Дополнительные сведения см. в предварительно созданной модели счета для аналитики документов.
Настраиваемые модели	Аналитика документов позволяет обучить пользовательскую модель, адаптированную к формам и документам. Эта модель извлекает текст, пары "ключ-значение", "метки выделения" и данные таблицы. Пользовательские модели можно улучшить с помощью отзывов пользователей, применяя человеческую проверку, обновляя метки и переобучая модель с помощью API.
Значение достоверности	Все операции получения результатов анализа возвращают значения достоверности в диапазоне от 0 до 1 для всех извлеченных слов и сопоставлений значений ключа. Это значение представляет собой оценку, предоставляемую службой, о том, сколько раз из 100 она правильно извлекает слово или правильно сопоставляет пары "ключ-значение". Например, слово, которое, по оценкам, будет извлечено правильно в 82% случаев, приводит к значению уверенности 0,82.
Дополнительные функции	Аналитика документов предлагает набор дополнительных функций, чтобы расширить результаты, добавив больше элементов из ваших документов. Некоторые функции надстройки требуют дополнительных затрат и могут быть включены и отключены в зависимости от сценария извлечения документов. В настоящее время мы предлагаем высокий уровень разрешения, формулу, styleFont, штрихкоды, языки, keyValuePairs и возможности извлечения queryFields. Дополнительные сведения см. в статье о возможностях надстройки аналитики документов.

Возможности

Системное поведение

Azure Аналитика документов в средстве Foundry — это облачное средство Foundry, созданное с помощью оптического распознавания символов (OCR), Анализ текста и пользовательского текста из средств Foundry. Пользовательские модели в настоящее время используют модель GPT-3.5 службы Azure OpenAI. OCR используется для извлечения шрифтов и рукописных текстовых документов. Аналитика документов использует OCR для обнаружения и извлечения информации из форм и документов, поддерживаемых ИИ, чтобы обеспечить большую структуру и информацию для извлечения текста.

Варианты использования

Предполагаемое использование

Аналитика документов включает функции, позволяющие клиентам из различных отраслей извлекать данные из своих документов. Ниже приведены примеры соответствующих вариантов использования.

Счета к оплате: Компания может повысить эффективность клерков, занимающихся расчетами по счетам, с помощью предварительно созданной модели счета и пользовательских форм для ускорения записи данных счета с участием человека. Предварительно созданная модель счета может извлекать ключевые поля, такие как "Итог счета " и "Адрес доставки".
Обработка страховых форм: Клиент может обучить модель с использованием пользовательских форм для извлечения пар "ключ-значение" в страховых формах, а затем передавать данные в свой бизнес-поток, чтобы повысить точность и эффективность процесса. Для уникальных форм клиенты могут создавать собственную модель, извлекающую ключевые значения с помощью пользовательских форм. Затем эти извлеченные значения становятся практическими данными для различных рабочих процессов в своей бизнес-среде.
Обработка банковских форм: Банк может использовать предварительно созданную модель идентификаторов и пользовательские формы для ускорения ввода данных для документации "know your customer", или для ускорения ввода данных для пакета ипотеки. Если банку требуется, чтобы клиенты отправляли личную идентификацию в рамках процесса, предварительно созданная модель идентификаторов может извлекать ключевые значения, такие как "Имя " и "Номер документа", ускоряя общее время ввода данных.
Автоматизация роботизированных процессов (RPA): С помощью пользовательской модели извлечения клиенты могут извлекать определенные данные из различных типов документов. Затем извлеченные пары "ключ-значение" можно ввести в различные системы, такие как базы данных или системы CRM, с помощью RPA, заменяя ввод данных вручную. Клиенты также могут использовать пользовательскую модель классификации для категоризации документов на основе их содержимого и их размещения в нужном месте. Таким образом, упорядоченный набор данных, извлеченных из пользовательской модели, может быть важным первым шагом для документирования сценариев RPA для предприятий, которые регулярно обрабатывают большие объемы документов.

Ограничения

Технические ограничения, операционные факторы и диапазоны

Предварительно созданные ограничения модели

Предустановленные модели для аналитики документов используются для обработки определенных типов документов и предобучены на тысячах форм. Эта возможность позволяет разработчикам приступить к работе и получить результаты в течение нескольких минут без необходимых обучающих данных или меток. Для предварительно созданных моделей важно отметить список входных требований, поддерживаемых типов документов и языковых стандартов для каждой предварительно созданной модели для оптимальных результатов. Например, ознакомьтесь с предварительно созданными требованиями к входным данным счета.

Ограничения пользовательской модели

Пользовательские модели аналитики документов обучаются с использованием ваших собственных данных, чтобы модель могла адаптироваться к вашим конкретным формам и документам. Эта возможность сильно зависит от способа маркировки данных, а также типа предоставленного набора данных обучения. Для пользовательских моделей важно отметить ограничения размера набора данных обучения, ограничения страниц документа и минимальное количество примеров, необходимых для каждого типа документа. В настоящее время пользовательские модели используют модель GPT-3.5 от сервиса Azure OpenAI. Дополнительные сведения о моделях Azure OpenAI можно найти в заметке о прозрачности Azure OpenAI.

На странице ограничений службы содержатся дополнительные сведения о квотах и ограничениях службы аналитики документов для всех ценовых категорий. Он также содержит ограничения модели и лучшие практики по использованию модели, а также методы избежания ограничения скорости запросов.

Поддержка функций

См. таблицу функций анализа для списка различных операций, которые могут выполнять модели аналитики документов.

Производительность системы

Точность

Текст состоит из строк и слов на базовом уровне и сущностях, таких как имена, цены, суммы, имена компаний и продукты на уровне понимания документов.

точность на уровне слова

Популярной мерой точности для OCR является ошибка на слово (WER), то есть количество слов, которые были неправильно выведены в извлеченных результатах. Чем ниже WER, тем выше точность.

WER определяется следующим образом:

Иллюстрация, показывающая определение WER.

Где:

Термин	Определение	Пример
S	Количество неправильных слов ("заменено") в выходных данных.	"Бархат" извлекается как "Veivet", потому что "l" распознается как "i".
D	Количество отсутствующих слов ("удалено") в выходных данных.	Для текста "Название компании: Microsoft", Microsoft не удается извлечь, так как название написано от руки или его трудно прочитать.
Я	Количество несуществующих (вставленных) слов в выходных данных.	"«Департамент» неправильно сегментирован на три слова как «Dep artm ent». В этом случае результатом является одно удалённое слово и три добавленных слова."
C	Количество правильно извлеченных слов в выходных данных.	Все правильно извлеченные слова.
N	Количество всех слов в эталоне (N=S+D+C), за исключением I, потому что эти слова отсутствовали в исходном эталоне и были неправильно предсказаны как присутствующие.	Рассмотрим изображение с предложением: "Microsoft, штаб-квартира в Редмонде, WA, объявила о новом продукте под названием Бархат для финансовых отделов." Предположим, что выход OCR: " , штаб-квартира в Редмонде, WA объявила о новом продукте под названием Veivet для финансовых подразделений." В этом случае S (Бархат) = 1, D (Microsoft) = 1, I (подразделений) = 3, C (11) и N = S + D + C = 13. Поэтому WER = (S + D + I) / N = 5 / 13 = 0,38 или 38% (из 100).

Использование значения достоверности

Как описано в предыдущем разделе, служба предоставляет значение достоверности для каждого прогнозируемого слова в выходных данных OCR. Клиенты используют это значение, чтобы настроить пользовательские пороговые значения для их содержимого и сценариев, чтобы маршрутизировать содержимое либо для прямой обработки, либо для передачи в процесс с участием человека. Полученные измерения определяют точность конкретного сценария.

Последствия для производительности системы OCR могут отличаться в сценариях, в которых применяется технология OCR. Мы рассмотрим несколько примеров, чтобы проиллюстрировать это понятие.

Соответствие медицинских устройств. В этом первом примере многонациональная фармацевтическая компания с разнообразным портфелем продуктов патентов, устройств, лекарств и лечения должна анализировать информацию о этикетке продукта и результаты анализа, соответствующие FDA. Компания может предпочесть низкий порог значения доверия для применения системы "человек в цикле," так как стоимость ошибочно извлеченных данных может оказать значительное влияние на потребителей и привести к штрафам со стороны регулирующих учреждений.
Обработка изображений и документов: в этом втором примере компания выполняет обработку страховых и кредитных приложений. Клиент, использующий OCR, может предпочесть порог средней достоверности, так как автоматическое извлечение текста интегрируется в общий поток с другими источниками информации и этапами с участием человека для комплексного обзора приложений.
Модерация содержимого: Для большого объема данных каталога электронной коммерции, импортированных от поставщиков в большом масштабе, клиент может предпочесть высокий порог достоверности с высокой точностью, так как даже небольшой процент ложно помеченного содержимого может привести к значительным нагрузкам на команды по человеческому анализу и на поставщиков.

Точность на уровне документа и сущностей

На уровне документа, например, в случае счета или квитанции, ошибка даже в одном символе во всем документе может быть оценена как незначительная. Но если эта ошибка находится в тексте, представляющего платную сумму, весь счет или квитанция могут быть помечены как неверные.

Еще одна полезная метрика — частота ошибок сущности (EER). Это процент неправильно извлеченных сущностей, таких как имена, цены, суммы и номера телефонов, из общего числа соответствующих сущностей в одном или нескольких документах. Например, для общей сложности 30 слов, представляющих 10 имен, 2 неправильных слова из 30 равно 0,06 (6%) WER. Но если это приводит к тому, что 2 из 10 имен неправильные, показатель EER для имени равен 0,20 (20%), что гораздо выше, чем WER.

Измерение точности документации как по показателю WER, так и EER — полезное упражнение для получения полноценного представления о точности понимания документов.

Оценка аналитики документов

Производительность аналитики документов зависит от реальных решений, для которых она реализована. Чтобы обеспечить оптимальную производительность в своих сценариях, клиенты должны проводить собственные оценки. Служба предоставляет значение достоверности в диапазоне от 0 до 1 для каждого извлеченного слова и сопоставления ключ-значение. Клиенты должны запустить пилотный проект или доказательство концепции, представляющей свой вариант использования, чтобы понять диапазон значений достоверности и качество извлечения из аналитики документов. Затем они могут оценить пороговые значения достоверности для результатов, которые будут отправлены для прямой обработки (STP) или проверены человеком. Например, клиент может отправлять результаты с значениями достоверности, превышающими или равными 80 для прямой обработки, и применять проверку человека к результатам с значениями достоверности меньше 80.

Оценка и интеграция интеллектуальных систем обработки документов для вашего использования

Microsoft хочет помочь вам ответственно разрабатывать и развертывать решения, использующие аналитику документов. Мы принимаем принципиальный подход к поддержанию личных возможностей и достоинства, учитывая справедливость систем ИИ, надежность и безопасность, конфиденциальность, включённость, прозрачность и подотчетность человека. Эти соображения соответствуют нашей приверженности разработке ответственного искусственного интеллекта.

Когда вы готовитесь к развертыванию продуктов или функций, на основе искусственного интеллекта, следующие действия помогут настроить вас для успешного выполнения:

Понять, что это может сделать: Полностью оцените потенциал аналитики документов для понимания его возможностей и ограничений. Узнайте, как он будет выполняться в определенном сценарии и контексте. Например, если вы используете предварительно созданную модель счета, проверьте с помощью реальных счетов из бизнес-процессов для анализа и оценки результатов по существующим метрикам процесса.
Уважайте право человека на конфиденциальность: Собирайте данные и сведения от физических лиц только для законных и оправданных целей. Используйте только данные и сведения, которые у вас есть согласие на использование для этой цели.
Юридическая проверка: Получите соответствующую юридическую проверку, особенно если планируете использовать ее в конфиденциальных или высокориском приложениях. Узнайте, какие ограничения могут потребоваться для работы, и ваша ответственность за решение любых проблем, которые могут возникнуть в будущем.
Человек в контуре: Поддерживайте участие человека в контуре и внедряйте человеческий надзор как область для постоянного изучения. Это означает обеспечение постоянного человеческого контроля над продуктом или компонентом на основе искусственного интеллекта, а также поддержание роли человека в принятии решений. Убедитесь, что у вас есть возможность обеспечить вмешательство человека в режиме реального времени в решение, чтобы предотвратить вред. Участие человека позволяет вам управлять ситуациями, когда интеллектуальные технологии обработки документов не выполняют свои функции должным образом.
Безопасности: Убедитесь, что решение безопасно и имеет надлежащие элементы управления, чтобы сохранить целостность содержимого и предотвратить несанкционированный доступ.

Дополнительные сведения об ответственном ИИ

Дополнительные сведения об аналитике документов

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-02-28