Система понимания содержимого Azure в режимах стандартном и профессиональном средств Foundry (предварительная версия)

Замечание

Версии 2024-12-01-preview API для распознавания содержимого и 2025-05-01-preview в настоящее время находятся в общедоступной предварительной версии. Эти предварительные версии предоставляются без соглашения об уровне обслуживания и не рекомендуется для рабочих нагрузок. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews и Microsoft Products and Services Data Protection Addendum (DPA).

Azure Понимание содержимого в инструментах Foundry — это генеративная служба искусственного интеллекта, предназначенная для получения структурированных данных из многомодального содержимого, например, документов, изображений, видео и аудио. При внедрении 2025-05-01-preview версии служба предлагает два режима: standard и pro.

  • Стандартный: этот режим используется по умолчанию для обработки различных типов контента. Она оптимизирована для обеспечения эффективного извлечения схем, адаптированного к конкретным задачам в форматах данных. В этом режиме подчеркивается эффективность затрат и снижение задержки.

  • Pro: этот режим предназначен для расширенных вариантов использования, требующих многошагового рассуждения и сложного принятия решений (например, обнаружения несоответствий, построения выводов и принятия решений). Режим pro поддерживает несколько входных документов и позволяет предоставлять справочные данные во время создания анализатора. В настоящее время профессиональный режим доступен только для данных документа.

Общие сведения о стандартном режиме

Стандартный режим "Понимание содержимого" предоставляет структурированные аналитические сведения по различным типам данных, включая документы, видео, изображения, звук и текст. Хотя он не поддерживает вывод данных, он сводит к минимуму затраты и задержки, что делает его идеальным для широких, ориентированных на данные сценариев. Этот режим позволяет создавать или настраивать схемы для извлечения точных аналитических сведений, адаптированных к вашим потребностям. Кроме того, он включает метки данных для данных документа, позволяя человеческим данным повысить качество выходных данных.

Стандартный режим: вариант использования

Стандартный режим идеально подходит для извлечения точных аналитических сведений, необходимых для любого типа данных. Если необходимо получить доступ к данным, ваш сценарий может не требовать сложных рассуждений или принятия решений. Сценарии, для которых хорошо подходит стандартный режим, включают следующие:

  • Структурирование данных для поддержки рабочих процессов поиска RAG и интеграции с AI Search.
  • Извлечение данных для интеграции с Microsoft Fabric.
  • Анализ рекламных видео для проверки соответствия правилам контента.
  • Сегментирование видеоматериалов для создания глав и выявления идеальных рекламных разрывов.
  • Извлечение важных данных из спортивных игр и предоставление после матчевых обзоров.

Обзор режима Pro

Режим Content Understanding pro mode предназначен для клиентов со сложными вариантами использования, предлагая возможности многошагового анализа и поддержку многовходных документов. Он позволяет анализировать как входное содержимое, так и справочные данные, что делает его идеальным для сценариев, требующих сложного анализа. Включив эталонные данные, профессиональный режим добавляет контекст к каждому запросу, помогая таким задачам, как проверка и обогащение. В настоящее время профессиональный режим доступен исключительно для данных документа.

Справочные данные в режиме Pro

Во время создания анализатора можно указать справочные документы, добавляющие контекст во время анализа. Например, чтобы проанализировать счета для согласованности с договорным соглашением, можно указать счет и связанные документы (например, заказ на покупку) в качестве входных данных и предоставить файлы контракта в качестве эталонных данных. Служба применяет анализ для проверки входных документов в соответствии с вашей схемой, например, чтобы выявить несоответствия, которые необходимо отметить для проверки. Если документы находятся в пределах ограничений входных документов в режиме pro, попробуйте предоставить все связанные документы в качестве входных данных, если возникают проблемы с качеством.

Многошаговое рассуждение

Поэтапное рассуждение разлагает сложные проблемы на более простые задачи. Он принимает анализ данных за рамки извлечения и агрегирования структурированных данных и позволяет делать выводы по этим данным, минимизируя потребность в анализе человека. Вот примеры вопросов, на которые может ответить pro режим:

  • Соответствует ли x y?
  • Соответствует ли x указанным критериям?
  • Соответствует ли документ x необходимым рекомендациям?
  • Является ли общая сумма равной сумме всех элементов?
  • Найдите все несоответствия между счетом и контрактом.

Функции стандартного и профессионального режима

Не знаете, какой режим подходит для вашего сценария? На следующих диаграммах сравниваются стандартные и профессиональные функции режима.

Функция Стандартный режим Профессиональный режим
Большие документы
Режим поля
Извлечение, классификация и создание полей
Оценки заземления и достоверности
Тип входного документа Документы, изображения, видео, звук Документы
Максимальное число полей 100 100
Обработка нескольких входных документов
Интеграция с эталонным набором данных
Многоэтапное рассуждение

Применение стандартного или pro режима к сценариям

К многим сценариям можно применять стандартные и профессиональные режимы распознавания контента. Как вы создаете решение, зависит от вопросов, которые вы стремитесь ответить. Вот примеры таких ситуаций.

Сценарий Стандартный режим Профессиональный режим
Анализ счетов Извлекайте ценные сведения о данных счета в крупном масштабе и включайте поиск по модели RAG (если применимо), а также последующий анализ и визуализацию данных. Ответы на такие вопросы:
• Извлеките номер заказа на покупку, общую сумму, срок оплаты и линии заказа для ввода в базу данных.
Анализировать счета и договорные соглашения с клиентами и применять многоступенчатое рассуждение для получения выводов из этих данных. Ответы на такие вопросы:
• Выполняет ли этот счет договорное соглашение, которое у нас есть с этим клиентом?
• Требуется ли в этом счете дальнейшая проверка?
Аналитика расшифровки в центре обработки вызовов Получите знания из больших массивов данных колл-центра, чтобы получить ценные выводы о настроении, понять проблемы клиента и разработать целевое обучение для решения основных проблемных точек. Ответы на такие вопросы:
• Каковы основные проблемы, о которых звонят клиенты?
• Какова средняя длина звонков, сделанных о проблеме x?
Анализ данных транскрипции колл-центра и применение многошагового анализа, чтобы понять, как сотрудники колл-центра удовлетворяют потребности клиентов и следуют ли они рекомендациям. Ответы на такие вопросы:
• Представился ли сотрудник центра обработки вызовов?
• Этот ответ соответствует определенным критериям?
Обработка ипотечных приложений Извлеките ключевые значения из данных приложения ипотеки и сделайте его доступным для поиска и более удобным. Ответы на такие вопросы:
• В каком году была подана заявка на ипотеку?
Каковы имена, указанные в заявлении?
Проанализируйте вспомогательную документацию и ипотечные заявки, чтобы выяснить, предоставляет ли потенциальный покупатель всю необходимую документацию для получения ипотеки. Ответы на такие вопросы:
• Соответствуют ли имена и номера социального обеспечения заявке на ипотеку вспомогательной документации?

Попробуйте режим Про

Вы можете попробовать функции стандартных и профессиональных режимов распознавания содержимого с помощью Microsoft Foundry. Служба позволяет использовать собственные данные и экспериментировать со всеми функциями обоих режимов в упрощенном подходе без кода, чтобы помочь вам найти оптимальный вариант для уникального сценария.

Известные ограничения и рекомендации по режиму Pro

  • В настоящее время режим "Понимание содержимого" не предлагает оценки достоверности или заземления. Он поддерживает classify и generate поля, но не поддерживает extract поля.

  • Режим "Распознавание содержимого" в настоящее время доступен только для документов.

  • Система работает в режиме поиска при ссылке на документы. Если требуется исчерпывающее восстановление данных, включите содержимое в входной набор.

  • Схемы должны быть разработаны с максимальным уровнем специфики. Например, вместо представления обобщенного списка несоответствий рекомендуется создавать отдельные поля для каждого типа несоответствия, а также подробные описания. Кроме того, при необходимости следует включить ссылки на конкретные разделы соответствующих документов, которые должны быть рассмотрены.

  • Справочные документы должны быть краткими и сосредоточенными. Определите приоритет важных документов и убедитесь, что они максимально кратки для повышения срока хранения и отзыва.

Дальнейшие шаги

Дополнительные сведения об обработке документов см. в обзоре обработки документов.