Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Важно
Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.
Что такое заметка о прозрачности?
Система ИИ включает не только технологию, но и людей, которые будут использовать его, людей, которые будут затронуты им, и среды, в которой она развернута. Создание системы, которая подходит для ее целевой цели, требует понимания того, как работает технология, какие возможности и ограничения существуют, а также как достичь оптимальной производительности. Заметки о прозрачности Microsoft призваны помочь вам понять, как работает наша технология ИИ, какие выборы могут делать владельцы системы, чтобы влиять на производительность и поведение системы, и насколько важно рассматривать всю систему в целом, включая технологию, людей и окружающую среду. При разработке или развертывании собственной системы можно использовать заметки о прозрачности или делиться ими с людьми, которые будут использовать систему или на которых она будет влиять.
Заметки о прозрачности Microsoft являются частью более широких усилий Microsoft по внедрению в практику наших принципов ИИ. Дополнительные сведения см. в принципах Microsoft ИИ.
Основы Azure распознавания содержимого
Введение
Понимание содержимого получает неструктурированное содержимое в любой модальности, например, в документах, изображениях, видео, и аудио, для создания структурированных выходных данных на основе предварительно созданных или определяемых пользователем схем, чтобы наилучшим образом представлять сценарии, специфичные для задач, на основе содержимого. Затем эти выходные данные могут использоваться вторичными приложениями, например, сохранением их в базе данных, отправкой выводов в систему, разработанную для клиента, для обработки с помощью LLM (т. е. извлечения дополненного поколения или RAG), построения конкретных моделей ИИ/МО на основе данных, или использования в рабочих процессах для автоматизации бизнес-процессов. Понимание содержимого расширит область Azure Аналитика документов в средствах Foundry и использует возможности Azure Open Foundry Tool, Azure речь в средствах Foundry и Azure Распознавание в средстве Foundry для поддержки одномодальных и многомодальных сценариев.
Ключевые термины
| Термин | Определение |
|---|---|
| Классифицировать | Это тип категории полей. Поле классифицирует значение из входных данных с помощью имени поля. В качестве примера можно привести классификацию изображений по наличию дефектов или наличию/отсутствию очков на лице. |
| Значение достоверности | Все выходные данные Content Understanding возвращают значения достоверности в диапазоне от 0 до 1 для всех извлеченных слов и сопоставлений значений ключа. Это значение представляет собой оценочный процент, сколько раз из 100 случаев правильно извлекается слово или правильно сопоставляются пары "ключ-значение". Например, слово, которое, по оценкам, будет извлечено правильно в 82% случаев, приводит к значению уверенности 0,82. |
| Диаризация | Диаризация различает отдельных говорящих в каждой аудиозаписи, назначая временную анонимную метку каждому говорящему (например, GUEST1, GUEST2, GUEST3 и т. д.), чтобы указать, кто говорит в аудиофайле. Все API-интерфейсы распознавания содержимого, поддерживающие транскрибирование, также поддерживают диаризацию. |
| Извлечь | Это тип категории полей. Поле напрямую извлекает значение из входных данных. Примером будет извлечение дат из счетов или подписей из документов. |
| Обнаружение лиц | Находит человеческие лица в изображении и возвращает ограничивающие прямоугольники, указывающие, где находятся лица. Модели обнаружения лиц находят только ограничивающий прямоугольник, охватывающий всё лицо, и не выявляют отдельные идентифицирующие признаки. Для всех обнаруженных лиц идентификатор лица назначается на основе внедрения. Дополнительные сведения см. в документации по концепции обнаружения лиц . |
| Группирование лиц | После обнаружения лиц идентифицированные лица фильтруются в локальные группы. Если пользователь обнаруживается несколько раз, для этого человека создаются более наблюдаемые экземпляры лиц. Дополнительные сведения смотрите в [документации по группированию лиц](/azure/ai-services/computer-vision/overview-identity" \l "group-faces"). |
| Создать | Это тип категории полей. Поле создаст значение из содержимого родительского поля. Примером будет создание описания сцены из видео или сводка из звука вызова. |
| Схемы | Схема — это термин, используемый для имен полей и описаний, которые клиенты должны предоставить нам для извлечения значений из входных данных. Content Understanding предоставляет набор предварительно созданных схем для соответствия сценариям. В зависимости от сценария служба "Понимание содержимого" содержит предварительно определенный список полей, которые будут заполнены на основе входных данных. Эти предварительно созданные схемы можно использовать для быстрого начала работы над проектом без необходимости самостоятельного определения полей. |
| Транскрипция | Функция автоматического преобразования речи в текст в системе понимания содержания, иногда называемая машинной транскрипцией или автоматическим распознаванием речи (ASR). Транскрипция использует Azure Speech и полностью автоматизирована. Все API-интерфейсы распознавания содержимого, поддерживающие транскрибирование, также поддерживают диаризацию. |
Возможности
Системное поведение
Распознавание содержимого — это облачное средство Foundry, которое использует различные модели ИИ/ML (например, доступные через Служба Azure OpenAI, Azure Face службу и Azure речь) для извлечения, классификации и создания полей из входного файла клиента. Понимание содержимого не поддерживает интеграцию моделей, которые клиенты приносят.
Система понимания содержимого вначале преобразует содержимое в структурированный выходной формат. Затем она использует большую языковую модель (LLM) для создания полей и назначения оценки достоверности применимым полям.
В настоящее время распознавание содержимого может получать данные следующих типов: документ, изображение, текст, видео и звук. В зависимости от типа передаваемых пользователем данных служба Content Understanding автоматически предлагает пользователям стандартные предварительно созданные схемы. Пользователи также могут настроить схему самостоятельно, что позволяет получить более полную возможность приема данных. В случае, когда пользователь отправляет вредное содержимое, Content Understanding выдает предупреждение в выходных данных, чтобы сообщить пользователям, что входной файл содержит вредное содержимое, но он по-прежнему выводит поля.
Цель сервиса — предоставить нормализованное, ориентированное на задачу представление входных данных для реализации извлекательных и генеративных сценариев для клиентов, обеспечивая согласованность работы со всеми модальностями. Обратите внимание, что понимание содержимого не предназначено для поддержки необоснованных выводов, и оно будет создавать только выходные данные на основе информации и контекста, заданных пользователями.
Примечание
Размытие лица
Для входящих данных в GPT-4 Turbo с Vision и GPT-4o, которые содержат изображения или видео людей, система сначала размывает лица перед обработкой, чтобы получить запрошенные результаты. Размытие помогает защитить конфиденциальность лиц и групп, участвующих. Размытие не должно влиять на качество завершений, но вы можете увидеть, что система ссылается на размытие лиц в некоторых случаях.
Важно
Любое определение личности не является результатом распознавания лиц, а также создания и сравнения шаблонов лиц. Идентификация является результатом обучения модели для связывания изображений человека с тем же именем с помощью тегов изображений, в результате чего модель возвращает имя с любыми последующими входными данными изображения этого человека. Модель также может принимать контекстные подсказки, отличные от лица, то есть модель по-прежнему может связать изображение с отдельным лицом, даже если лицо размыто. Например, если изображение содержит фотографию популярного спортсмена в форме своей команды с своим конкретным номером, модель по-прежнему может обнаружить этого человека на основе контекстных подсказок.
Фильтрация содержимого
Azure служба анализа содержимого включает систему фильтрации, которая обнаруживает и блокирует определенные категории потенциально вредного содержимого как в запросах ввода, так и в результатах обработки. Варианты конфигураций API и проектирования приложений могут повлиять на завершение и таким образом фильтрацию. Утвержденные клиенты могут настроить систему фильтрации содержимого по умолчанию для аннотирования вместо блокировки потенциально опасных результатов.
Примечание
Отключение фильтра содержимого может препятствовать эффективной блокировке вредного содержимого, в том числе, но не ограничивается категориями ненависти и связанными с вопросами справедливости, сексуальными, насилия и самоповреждений. Дополнительные сведения см. в разделе"Фильтрация содержимого".
Отключение защиты от запроса косвенной атаки может потенциально сделать систему уязвимой, где третьи лица могут внедрять вредоносные инструкции в документы, которые доступны системе и обрабатываются системой генеративного ИИ. Аналогичные уязвимости могут возникать из попыток взлома, которые напрямую стремятся обойти и переопределить встроенные меры защиты с помощью конкретных запросов.
Ограниченный доступ к пониманию содержимого
Функция группирования лиц в Content Understanding — это служба ограниченного доступа и регистрация требуется для доступа к нему. Дополнительные сведения см. в политике ограниченного доступа Microsoft и получите доступ к регистрации Face API. Некоторые функции доступны только для Microsoft управляемых клиентов и утвержденных партнеров, а также только для определенных вариантов использования, выбранных во время регистрации. Обратите внимание, что для обнаружения лиц, атрибутов лиц и ретуши лиц регистрация не требуется.
Примечание
11 июня 2020 года Microsoft объявила, что не будет продавать технологию распознавания лиц полицейским департаментам Соединённых Штатов до принятия строгого регулирования, основанного на правах человека. Таким образом, клиенты не могут использовать функции распознавания лиц или функциональные возможности, включенные в службы Azure, такие как Face, Video Indexer или Content Understanding, если клиент является или разрешает использование таких служб полицейским департаментом в Соединенных Штатах.
Варианты использования
Предполагаемое использование
Ниже приведены некоторые примеры использования службы "Понимание содержимого".
- Автоматизация налогового процесса: вы можете использовать функцию извлечения документов Content Understanding для извлечения полей из налоговых форм. Независимо от различных шаблонов, вы сможете извлекать ключевые данные из налоговых форм для создания единого представления информации, которая приводит к автоматизации налогового процесса.
- Аналитика звонков в контакт-центре после завершения вызова: предприятия могут генерировать аналитику из записей звонков. Входные данные звука преобразуются в выходные данные транскрибирования текста, которые можно использовать для извлечения ценных аналитических сведений, которые приводят к повышению эффективности центра обработки вызовов и работе с клиентами.
- Маркетинговая автоматизация и DAM (Digital Asset Management): чтобы создать решение для управления ресурсами мультимедиа, вы можете использовать Content Understanding для извлечения полей, определенных в схеме из изображений и видео, чтобы получить аналитические сведения для повышения релевантности целевой рекламы.
- Поиск контента и обнаружение с помощью RAG (усиленной генерации): клиенты, которым необходимо искать и обнаруживать содержимое любой модальности (например, текст, изображения, аудио, видео или смешанные медиа), основываясь на их содержимом, метаданных или функциях, могут использовать структурированные выходные данные из Content Understanding, чтобы реализовывать последующие сценарии RAG.
- Сводка контента или медиа: например, медийная компания может использовать аналитику контента для создания сводки и ключевых моментов спортивного мероприятия.
- Понимание диаграмм и графов: финансовые формы или академические журналы, содержащие диаграммы и графы, обычно трудно понять, когда извлекается только текст. Понимание содержимого решает проблему, интерпретируя диаграммы и графы в контексте данного документа или изображения, и пользователи могут легко извлекать нужную информацию, например тип диаграммы или графа, сводку и общее значение.
Рекомендации при выборе других вариантов использования
При выборе варианта использования учитывайте следующие факторы:
-
Избегайте сценариев, когда использование или неправильное использование может привести к физическому или психологическому ущербу. Например, использование Content Understanding для диагностики пациентов или назначения лекарств может привести к значительному вреду.
Осторожно
Понимание содержимого не разработано, не предназначено и не может использоваться в качестве медицинского устройства. Оно не предназначено для замены профессиональной медицинской консультации, диагностики, лечения или заключения и не должно использоваться в этих целях.
-
Не подходит для биометрической идентификации или проверки. Например, распознавание содержимого не было разработано или предназначено для уникальной идентификации или проверки отдельных лиц на основе их геометрии лиц, шаблонов голоса или других физических, физиологических или поведенческих характеристик.
Важно
Если вы используете Microsoft продукты или службы для обработки биометрических данных, вы несете ответственность за: (i) предоставление уведомления субъектам данных, в том числе в отношении периодов хранения и уничтожения; (ii) получение согласия от субъектов данных; и (iii) удаление биометрических данных, все в соответствии с соответствующими и обязательными в соответствии с применимыми требованиями к защите данных. "Биометрические данные" будут иметь значение, заданное в статье 4 GDPR, и, если применимо, эквивалентные термины в других требованиях к защите данных. Дополнительные сведения см. в разделе "Данные и конфиденциальность лиц".
- Избегайте использования для отслеживания людей в реальных контекстах. Примеры включают использование распознавания содержимого для наблюдения за отдельными лицами в реальных контекстах или использование распознавания содержимого, чтобы убедиться, что отдельные лица, изображенные в разных местах, являются одинаковыми. Эта рекомендация не применяется к использованию контекстного понимания для творческих целей, например, чтобы найти различные сцены фильма с тем же актером.
- Избегайте сценариев, когда использование или неправильное использование системы может иметь следовательное влияние на возможности жизни или правовой статус. Примеры включают в себя сценарии, в которых использование content Understanding может повлиять на правовое состояние человека, юридические права или их доступ к кредитам, образованию, занятости, здравоохранению, жилищному страхованию, страхованию, социальным пособиям, услугам, возможностям или условиям, по которым они предоставляются. Рассмотрите возможность включения значимых человеческих обзоров и надзора, чтобы помочь снизить риск вредных результатов.
- Тщательно рассмотрите варианты использования в областях или отраслях с высокой ответственностью. Примеры включают в себя, но не ограничиваются здравоохранением, медициной, финансами или юридическими.
- Избегайте использования для систем мониторинга задач, которые могут повлиять на конфиденциальность. Базовые модели ИИ для распознавания содержимого не предназначены для отслеживания отдельных шаблонов для вывода интимной личной информации, например сексуальной или политической ориентации человека.
- Избегайте сценариев, в которых использование или неправильное использование системы может распространять ложные повествования о конфиденциальных темах или людях. Примеры включают создание и распространение ложной информации о событиях с высокой степенью конфиденциальности или создании информации о реальных людях в обстоятельствах, которые отражают ложное повествование.
- Внимательно рассмотрите поддерживаемые локали и языки: модель понимания содержимого поддерживает различные локали и языки. Например, в самом английском языке существуют различные локали, такие как в США, Великобритании и Австралии, которые имеют различия в форматировании времени, а также правописание некоторых слов. Обязательно тщательно проверьте официально поддерживаемые языковые стандарты и языки для каждой модальности.
- Избегайте использования, когда недоступно участие человека в процессе или вторичный метод проверки. Безотказные механизмы (например, резервный метод, доступный пользователю, если технология дает сбой), помогают предотвратить отказ в основных услугах или другие проблемы из-за ошибок в результатах.
- Не подходит для сценариев, где актуальная, фактически точная информация имеет решающее значение, если у вас нет человеческих рецензентов или если вы не используете модели для поиска по собственным документам и не проверили их пригодность для вашего сценария. Служба "Понимание содержимого" не содержит сведений о событиях, происходящих после даты ее обучения, возможно, не располагает полными сведениями о некоторых темах и может не всегда предоставлять фактически точную информацию.
- Транскрибирование бесед с распознаванием говорящего: Понимание содержания не предназначено для диаризации с распознаванием говорящего и не может быть использовано для идентификации отдельных лиц. Другими словами, докладчики будут представлены как Guest1, Guest2, Guest3 и т. д. в транскрибировании. Они будут случайным образом назначены и могут не использоваться для идентификации отдельных докладчиков в беседе. Для каждой транскрипции разговора присвоение ролей Guest1, Guest2, Guest3 и т. д. будет случайным.
- Юридические и нормативные рекомендации. Организациям необходимо оценить потенциальные юридические и нормативные обязательства при использовании распознавания содержимого. Понимание содержимого не подходит для использования в каждой отрасли или сценарии. Всегда используйте понимание содержимого в соответствии с применимыми условиями обслуживания и соответствующими кодексами поведения, в том числе сгенерируемым кодексом поведения ИИ.
Ограничения
Технические ограничения, операционные факторы и диапазоны
Как и во всех системах ИИ, существуют некоторые ограничения на понимание содержимого, о том, что клиенты должны знать.
Если очень тревожные входные файлы загружаются в Content Understanding, он может вернуть вредное и оскорбительное содержимое в рамках результатов. Для устранения этого непреднамеренного результата рекомендуется контролировать доступ к системе и обучать людей, которые будут использовать его о соответствующем использовании.
Группирование лиц
Лица размываются перед отправкой изображения или видео в модель для анализа, таким образом, анализ лиц, включая определение эмоций, не будет выполняться ни на изображениях, ни на видео. Только модальность видео поддерживает группировку лиц, которая предоставляет только группы похожих лиц без дополнительного анализа.
Важно
Функция группирования лиц в Content Understanding ограничена на основе критериев соответствия и использования. для поддержки наших принципов ответственного ИИ. Служба распознавания лиц доступна только для Microsoft управляемых клиентов и партнеров. Используйте форму заявки на доступ для распознавания лиц для получения доступа. Дополнительные сведения см. на странице с ограниченным доступом для лиц.
Документ
Возможность извлечения документов сильно зависит от того, как вы называете поля и описание полей. Кроме того, продукт требует обоснования — привязки выходных данных к тексту входных документов — и не будет возвращать ответы, если они не могут быть обоснованы. Поэтому в некоторых случаях значение поля может быть пропущено. В связи с характером заземленного извлечения система вернет содержимое из документа, даже если документ неверный или содержимое не видно человеческому глазу. Документы также должны иметь разумное разрешение, при котором текст не слишком размыт для модели макета для распознавания.
Видео
Понимание содержимого не предназначено для замены полного просмотра видео, особенно для содержимого, в котором детали и нюансы важны. Он также не предназначен для суммирования высокочувствительных или конфиденциальных видео, где контекст и конфиденциальность являются важными.
- Качество видео: всегда загружайте высококачественное видео и звуковое содержимое. Рекомендуемый максимальный размер кадра — HD и частота кадров — 30 FPS. Кадр должен содержать не более 10 человек. При передаче кадров из видео в модели ИИ следует отправлять только около одного кадра в секунду. Обработка 10 или более кадров может отложить результат ИИ. Для выполнения анализа требуется не менее 1 минуты спонтанной речи. Обнаружение звуковых сигналов, отличных от речи, таких как звуковые эффекты и пение, не поддерживается.
- Низкая точность полученной информации может наблюдаться, когда лица, записанные камерами, установлены высоко с наклоном вниз или с широким полем зрения (FOV), и могут иметь меньшее количество пикселей.
- Детекторы могут неправильно классифицировать объекты на видео, которые сняты в виде сверху, так как они были обучены на видах спереди объектов.
- Языки, отличные от английского языка: понимание содержимого было в основном протестировано и оптимизировано для английского языка. При применении к языкам, не являющихся английскими, точность и качество сводок могут отличаться. Чтобы устранить это ограничение, пользователи, использующие функцию для языков, отличных от английского языка, должны проверить созданные сводки для точности и полноты.
- Видео с несколькими языками: если видео включает речь на нескольких языках, сводка текстовых видео может бороться, чтобы точно распознать все языки, которые представлены в видеоконтенте. Пользователи должны знать об этом потенциальном ограничении при использовании функции суммирования текстовых видео для многоязычных видео.
- Высокоспециализированные или технические видеоролики: Видеократкие модели обучены с помощью различных видео, включая новости, фильмы и другой контент общего характера. Если видео является высоко специализированным или техническим, модель может не иметь возможности точно извлечь сводку видео.
- Видео с плохим качеством звука и (оптическое распознавание символов) OCR: модели текстового видео сводки ИИ используют аудио и другие аналитические сведения, чтобы извлечь сводку из видео или на OCR, чтобы извлечь текст, отображаемый на экране. Если качество звука плохое, и не существует определенного текста, модель может не иметь возможности точно извлечь сводку из видео.
- Видео с низким освещением или быстрым движением: видео, которые сняты в низком освещении или имеют быстрое движение, может быть трудно для модели обрабатывать аналитические сведения, что приводит к низкой производительности.
- Видео с необычными акцентами или диалектами: модели ИИ обучаются на широком спектре речи, включая различные акценты и диалекты. Однако если видео содержит речь с акцентом или диалектом, который недостаточно хорошо представлен в обучающих данных, модель может испытывать трудности, чтобы точно извлечь транскрипцию из видео.
Аудио
Для аудиофайлов может потребоваться указать языковой стандарт для каждого входного звука. Языковой стандарт должен соответствовать фактическому языку, на котором говорят во входном голосе. Content Understanding поддерживает автоматическое обнаружение языка для некоторых вариантов использования. Дополнительные сведения см. в списке поддерживаемых локалей.
- Акустическое качество: Приложения и устройства с функцией преобразования речи в текст могут использовать широкий спектр типов микрофонов и спецификаций. Унифицированные модели распознавания речи были обучены в различных сценариях голосовых устройств, таких как телефоны, мобильные телефоны и динамики. Качество голоса может быть понижено, так как пользователь разговаривает с микрофоном, даже если они используют высококачественный микрофон. Например, если динамик находится далеко от микрофона, качество ввода может быть слишком низким. Динамик, который слишком близок к микрофону, также может привести к ухудшению качества звука. В таких случаях, а также в любых случаях, когда качество аудиофайла ухудшается, может негативно повлиять на точность речи в тексте.
- Неречевой шум: если входной звук содержит определенный уровень шума, поражается точность. Шум, поступающий от звуковых устройств, которые используются для записи, или самого звукового ввода может содержать шум, например фоновый или экологический шум.
- Перекрывающаяся речь: в зоне досягаемости аудиовхода может находиться несколько говорящих, и они могут говорить одновременно. Аудиофайлы, в которых в фоновом режиме записаны голоса других спикеров, в то время как основной докладчик записывает свой голос, также приводят к созданию файла с наложением речи. Кроме того, несмотря на отсутствие ограничений на количество докладчиков в беседе, система работает лучше, если число докладчиков составляет менее 30.
- Словари: если слово, которое не существует в модели, встречается в аудио, результатом является ошибка в транскрипции.
- Accents: даже в пределах одного языкового стандарта, например на английском языке - США (en-US), многие люди имеют разные акценты. Очень конкретные акценты также могут привести к ошибке в транскрибировании.
- Языки или локали с несоответствием: если вы указали английский - США (en-US) для звукового ввода, но говорящий говорил на шведском языке, например, точность снизится.
- Ошибки вставки: иногда модель может создавать ошибки вставки в присутствии шума или мягкой фоновой речи.
Изображение
- Распознавание объектов: распознавание определенных неоднозначных продуктов может быть не точным, если оно не может быть распознано моделью. Абстрактные понятия, которые не соответствуют изображению, например пол и эмоции, также не могут быть распознаны.
Производительность системы
Метрики производительности отличаются для каждой модальности в рамках понимания контента. Каждая модальность будет иметь различные отраслевые стандарты для измерения производительности ИИ.
Одна общая метрика, предоставляемая в разделе "Понимание содержимого" во всех модальности, — это оценка достоверности полей. По состоянию на данный момент только поля типа "extract" и "generate" будут иметь оценки достоверности.
Отличительной особенностью понимания контента является поддержка оценки заземления и достоверности, которые доступны только для модальности документа, но планируется их будущее расширение. Привязка в документах включает номера страниц и ограничивающие прямоугольники для извлеченных значений, помогая пользователю, выделяя местоположения для проверки и корректировки вручную. Оценки достоверности, в диапазоне от 0 до 1, оценивают точность извлеченных значений на основе проанализированных или обучающих документов, выражая большую уверенность при более высоких значениях. Рекомендации по использованию оценки достоверности см. в разделе "Оценка содержимого".
Ниже приведены общие метрики производительности, которые можно использовать для каждого модальности:
Документ
Точность
Текст состоит из строк и слов на базовом уровне и сущностях, таких как имена, цены, суммы, имена компаний и продукты на уровне понимания документов.
точность на уровне слова
Мера точности для OCR — это уровень ошибок в словах (WER) или количество слов, которые были неправильно выведены в извлечённых данных. Чем ниже WER, тем выше точность.
WER определяется следующим образом:
Где:
| Термин | Определение | Пример |
|---|---|---|
| S | Количество неправильных слов ("заменено") в выходных данных. | "Бархат" извлекается как "Veivet", потому что "l" распознается как "i". |
| D | Количество отсутствующих слов ("удалено") в выходных данных. | Для текста "Название компании: Microsoft", Microsoft не удается извлечь, так как название написано от руки или его трудно прочитать. |
| Я | Количество несуществующих (вставленных) слов в выходных данных. | "«Департамент» неправильно сегментирован на три слова как «Dep artm ent». В этом случае результатом является одно удалённое слово и три добавленных слова." |
| C | Количество правильно извлеченных слов в выходных данных. | Все правильно извлеченные слова. |
| N | Количество всех слов в эталоне (N=S+D+C), за исключением I, потому что эти слова отсутствовали в исходном эталоне и были неправильно предсказаны как присутствующие. | Рассмотрим изображение с предложением: "Microsoft, штаб-квартира в Редмонде, WA, объявила о новом продукте под названием Бархат для финансовых отделов." Предположим, что выход OCR: " , штаб-квартира в Редмонде, WA объявила о новом продукте под названием Veivet для финансовых подразделений." В этом случае S (Бархат) = 1, D (Microsoft) = 1, I (подразделений) = 3, C (11) и N = S + D + C = 13. Поэтому WER = (S + D + I) / N = 5 / 13 = 0,38 или 38% (из 100). |
Точность на уровне документа и сущности Например, на уровне документа, в случае счета или квитанции, ошибка всего одного символа во всем документе может считаться незначительной. Если эта ошибка находится в тексте, представляющего платную сумму, весь счет или квитанция могут быть помечены как неверные.
Другая метрика — частота ошибок сущностей (EER). Это процент неправильно извлеченных сущностей, таких как имена, цены, суммы и номера телефонов, из общего числа соответствующих сущностей в одном или нескольких документах. Например, для общей сложности 30 слов, представляющих 10 имен, 2 неправильных слова из 30 равно 0,06 (6%) WER. Но если это приводит к тому, что 2 из 10 имен неправильные, показатель EER для имени равен 0,20 (20%), что гораздо выше, чем WER.
Измерение точности документации как по показателю WER, так и EER — полезное упражнение для получения полноценного представления о точности понимания документов.
Видео
Точность анализа видео зависит от нескольких факторов, включая размещение камеры и интерпретацию выходных данных системы. Точность должна оцениваться насколько точно результаты значения поля режима соответствуют фактическому содержимому видео. Например, когда пользователь ищет сущности в видео, ожидается, что он возвращает полный список сущностей, найденных в видео. Для оценки точности используются определенные тестовые наборы данных, представляющие различные сценарии и условия из реального мира. Эти наборы данных включают широкий спектр типов видеоконтентов и сценариев взаимодействия с пользователем.
| Термин | Определение |
|---|---|
| Истинно положительное | Выходные данные, созданные системой, правильно соответствуют реальному событию. |
| Истинно отрицательный результат | Система правильно не создает событие, если реальное событие не произошло. |
| Ложное срабатывание | Система неправильно создает или извлекает/классифицирует выходные данные, когда не произошло реального события. |
| Ложный отрицательный | Система неправильно создает выходные данные при возникновении реального события. |
Аудио
Производительность системы измеряется этими ключевыми факторами:
- Коэффициент ошибок в словах (ВОК)
- Коэффициент ошибок символов (TER)
- Задержка среды выполнения
Модель считается лучшей, только если она показывает значительные улучшения (например, 5% относительное улучшение WER) во всех сценариях (например, транскрибирование речи, транскрибирование центра вызовов, диктовку и голосовой помощник) в соответствии с целями использования ресурсов и задержки ответа.
Для диаризации мы измеряем качество с помощью частоты ошибок диаризации слов (WDER). Чем ниже WDER, тем лучше качество диаризации.
Изображение
Точность анализа изображений — это мера того, насколько хорошо выходные данные соответствуют фактическому визуальному содержимому, которое присутствует в изображениях. Чтобы оценить точность анализа изображений, вы можете сопоставить изображение с эталонными данными и сравнить выходные данные модели ИИ. Сравнивая истину с результатами, созданными СИ, можно классифицировать события в два типа правильных ("true") результатов и два типа неверных ("false") результатов:
| Термин | Определение |
|---|---|
| Истинно положительное | Выходные данные, созданные системой, правильно соответствуют эталонным данным. Например, система правильно отмечает изображение собаки как собака. |
| Истинно отрицательный результат | Система корректно не генерирует результаты, которые отсутствуют в эталонных данных. Например, система правильно не помечает изображение как собаку, когда в изображении нет собаки. |
| Ложное срабатывание | Система неправильно генерирует выходные данные, которые отсутствуют в эталонных данных. Например, система помечает изображение кота как собаку. |
| Ложный отрицательный | Система не может генерировать результаты, которые присутствуют в эталонных данных. Например, система не может пометить изображение собаки, которая присутствовала на изображении. |
Эти категории событий используются для вычисления точности и отзыва:
| Термин | Определение |
|---|---|
| Точность | Мера правильности извлеченного содержимого. На изображении, содержающем несколько объектов, вы узнаете, сколько из этих объектов было правильно извлечено. |
| Вспомнить | Мера общего содержимого, извлеченного. На изображении, содержающем несколько объектов, вы узнаете, сколько объектов было обнаружено в целом, без учета их правильности. |
Определения точности и отзыва подразумевают, что в некоторых случаях может быть трудно оптимизировать как точность, так и отзыв одновременно. В зависимости от вашего сценария может потребоваться определить приоритеты одного из них. Например, если вы разрабатываете решение для обнаружения только самых точных тегов или меток в содержимом, например для отображения результатов поиска изображений, вы будете оптимизировать для повышения точности. Но если вы пытаетесь пометить все возможное визуальное содержимое в изображениях для индексирования или внутреннего каталога, вы будете оптимизировать для более высокого отзыва.
Рекомендации по улучшению производительности системы
В большинстве случаев повышение производительности системы сильно зависит от пользователя, предоставляющего данные, которые достаточно понятны для распознавания содержимого для извлечения значений.
Убедитесь, что поля, созданные из содержимого, относятся к вашим подчиненным приложениям. Например, если вы хотите найти "собаки, играющие на заднем дворе", убедитесь, что выходные данные поля включают эти понятия и обновите определение схемы, например имя поля и описания полей, чтобы исправить его, если это не так.
Сведения о изображениях см. в следующей документации для конкретных требований к входным данным. Изображения должны иметь разумное качество, свет и контрастность.
Для звука несоответствие языковых стандартов снижает точность, поэтому важно сопоставить языковые параметры ввода с языком говорящих в файле. Используйте звуковые файлы с разумными акустическими условиями и избегайте файлов с фоновым шумом, речью на стороне, расстоянием к микрофону и стилям речи, которые могут негативно повлиять на точность.
Учитывание ограничений каждой модальности в отношении текущих поддерживаемых входов, языков и локалей, а также сценариев, также поможет повысить производительность системы.
Однако для извлечения документов существуют способы улучшения качества анализатора, который заключается в обновлении или исправлении результатов метки поля при необходимости с каждым документом, добавляемого в набор данных. Функция извлечения документов поддерживает обучение в контексте, поэтому больше наборов данных и точных меток полей приведет к повышению производительности системы в целом. Для заполненных форм также рекомендуется использовать примеры, в которых все поля заполнены и содержат ожидаемые реальные значения для каждого поля.
Оценка понимания содержимого
Методы оценки
Чтобы создать представление о содержимом, мы подготовили наборы данных, предназначенные для распространенных вариантов использования клиентов. Они подготовлены независимо Microsoft, и мы не используем данные клиентов, отправленные нашим службам для обучения или оценки.
Эффективность распознавания содержимого будет зависеть от конкретных приложений, для которых его используют. Клиенты должны выполнять собственные тесты, чтобы гарантировать лучшие результаты.
Например, при извлечении документов служба назначает значение достоверности от 0 до 1 для каждого слова и поля. Запуск пилотного проекта может помочь клиентам определить диапазоны доверия и качество извлечения. Затем они могут задать пороговые значения, такие как отправка результатов с значениями достоверности 0,80 или выше для автоматической обработки, и тех, которые ниже, для проверки человеком.
Результаты оценки
Чтобы обеспечить производительность службы, мы регулярно проводим оценки и анализ ошибок, используя результаты для улучшения наших предложений. Многие из этих оценок адаптированы к сценариям клиентов и помогают определить ограничения, такие как количество полей и объем обучающих данных. Эти ограничения задокументированы для ознакомления клиента. Из-за многочисленных возможных сценариев мы не можем протестировать все. Например, мы часто тестируем финансовые домены, но имеют меньше покрытия в медицинских областях.
Соображения о справедливости
Одним из важных аспектов, которые следует учитывать при использовании систем ИИ, является то, насколько хорошо система выполняется для разных групп людей. Исследования показали, что без сознательных усилий, направленных на улучшение производительности для всех групп, системы ИИ могут демонстрировать различные уровни производительности в различных демографических факторах, таких как раса, этническое происхождение, пол и возраст.
В рамках оценки понимания содержимого мы провели анализ для оценки потенциального вреда справедливости. Мы рассмотрели производительность системы в разных демографических группах, стремясь определить какие-либо различия или различия, которые могут существовать и могут повлиять на справедливость.
В некоторых случаях могут существовать оставшиеся различия в производительности. Важно отметить, что эти различия могут превышать целевые показатели, и мы активно работаем над решением и минимизацией потенциальных предвзятости или пробелов в производительности и искать различные перспективы с различных фонов.
В отношении репрезентативного ущерба, такого как стереотипия, унижание или удаление выходных данных, мы признаем риски, связанные с этими проблемами. Хотя наш процесс оценки направлен на устранение таких рисков, мы рекомендуем пользователям тщательно рассмотреть свои конкретные варианты использования и реализовать дополнительные меры по устранению рисков. Наличие человека в процессе может обеспечить дополнительный уровень надзора для решения любых потенциальных предвзятостей или непреднамеренных последствий.
Мы стремимся постоянно улучшать оценки справедливости, чтобы получить более глубокое представление о производительности системы в различных демографических группах и потенциальных проблемах справедливости. Процесс оценки продолжается, и мы активно работаем над повышением справедливости и инклюзивности и устранением любых определенных различий. Более справедливое тестирование, связанное с речью, можно найти в этой документации.
Оценка и интеграция анализа изображений для ваших нужд
При интеграции возможностей "Понимания контента" в вашем случае использования, знание того, что "Понимание контента" подчиняется Кодексу поведения служб генеративного ИИ компании Microsoft, обеспечит успешную интеграцию.
Когда вы будете готовы интегрировать Content Understanding с вашим продуктом или функциями, следующие действия помогут настроить вас для успешного выполнения:
- Понять, что это может сделать: полностью оценить потенциал Content Understanding, чтобы понять его возможности и ограничения. Узнайте, как он будет выполняться в вашем сценарии и контексте. Например, если вы используете извлечение аудиоконтентов, проверьте реальные записи из бизнес-процессов, чтобы проанализировать и проверить результаты по существующим метрикам процесса.
- Уважайте право человека на конфиденциальность: собираются только данные и сведения от лиц, от которых вы получили согласие, и для законных и оправданных целей.
- Юридические и нормативные рекомендации. Организациям необходимо оценить потенциальные юридические и нормативные обязательства при использовании распознавания содержимого. Понимание содержимого не подходит для использования в каждой отрасли или сценарии. Всегда используйте понимание контента в соответствии с применимыми условиями обслуживания и Кодексом поведения для генеративных AI-сервисов Microsoft.
- Человек в контуре: сохранять участие человека в контуре и включать человеческий контроль как согласованную область для изучения. Это означает обеспечение постоянного человеческого контроля над продуктом или компонентом на основе искусственного интеллекта, а также поддержание роли человека в принятии решений. Убедитесь, что у вас есть возможность обеспечить вмешательство человека в режиме реального времени в решение, чтобы предотвратить вред. Человек в процессе позволяет управлять ситуациями, когда понимание контента работает не так, как ожидалось.
- Безопасность. Убедитесь, что решение безопасно и имеет надлежащие элементы управления для сохранения целостности содержимого и предотвращения несанкционированного доступа.
Дополнительные сведения об ответственном ИИ
- Принципы Microsoft ИИ
- Ресурсы Microsoft по ответственному использованию ИИ
- Microsoft Azure учебные курсы по ответственному ИИ
Дополнительные сведения о понимании содержимого
- Обзор Azure OpenAI
- Обзор аналитики документов
- Обзор Azure Speech
- Обзор системы зрения
- Обзор службы Azure AI Face
- Обзор Индексатор видео ИИ Azure