Многомодальный поиск в Поиск с использованием ИИ Azure

Многомодальный поиск ссылается на возможность приема, понимания и получения информации в нескольких типах контента, включая текст, изображения, видео и звук. В Поиск с использованием ИИ Azure многомодальный поиск изначально поддерживает прием документов, содержащих текст и изображения, и получение их содержимого, что позволяет выполнять поиск, объединяющий оба модальности.

Создание надежного многомодального конвейера обычно включает в себя:

  1. Извлечение встроенных изображений и текстов страниц из документов.

  2. Описание изображений на естественном языке.

  3. Внедрение текста и изображений в общее векторное пространство.

  4. Хранение изображений для последующего использования в качестве заметок.

Многомодальный поиск также требует сохранения порядка сведений, отображаемых в документах и выполнения гибридных запросов , которые объединяют полнотекстовый поиск с векторным поиском и семантическим ранжированием.

На практике приложение, использующее многомодальный поиск, может отвечать на такие вопросы, как "Что такое процесс утверждения формы кадров?", даже если единственное достоверное описание процесса находится внутри внедренной схемы в PDF-файле.

Традиционно многомодальный поиск требует отдельных систем для обработки текста и изображений, часто требуя пользовательского кода и низкоуровневых конфигураций от разработчиков. Поддержание этих систем вызывает более высокие затраты, сложность и усилия.

Поиск с использованием ИИ Azure решает эти проблемы путем интеграции изображений в тот же конвейер извлечения, что и текст. С помощью одного многомодального конвейера можно упростить настройку и разблокировать сведения, находящиеся на диаграммах, снимках экранах, инфографиках, сканированных формах и других сложных визуальных элементах.

Многомодальный поиск идеально подходит для сценариев генерации с дополнением поиска (RAG). Интерпретируя структурную логику изображений, многомодальный поиск делает ваше приложение RAG или агента искусственного интеллекта с меньшей вероятностью упускающим важные визуальные сведения. Он также предоставляет пользователям подробные ответы, которые можно отследить до исходных источников независимо от модальности источника.

Как работает многомодальный поиск?

Чтобы упростить создание многомодального конвейера, Поиск с использованием ИИ Azure предлагает мастер импорт данных на портале Azure. Мастер помогает настроить источник данных, определить параметры извлечения и обогащения и создать многомодальный индекс, содержащий текст, внедренные ссылки на изображения и векторные внедрения. Дополнительные сведения см. в разделе Quickstart: Многомодальный поиск на портале Azure.

Мастер выполняет следующие действия, чтобы создать многомодальный конвейер:

  1. Извлечение содержимого: Выберите из навыка извлечения документов или навык макета документов , чтобы получить текст страницы, встроенные изображения и структурные метаданные. Каждый навык предлагает различные возможности для извлечения метаданных, обработки таблиц и поддержки формата файлов. Подробные сравнения см. в разделе "Параметры для извлечения многомодального содержимого".

  2. Фрагмент текста:Навык разделения текста разбивает извлеченный текст на удобоваримые блоки для использования в оставшемся конвейере, например навык встраивания.

  3. Создание описаний изображений:Навык запроса GenAI словесно описывает изображения, создавая краткие описания на естественном языке для поиска текста и встраивания с помощью крупной языковой модели (LLM).

  4. Создайте эмбеддинги: Навык создания эмбеддингов создает векторные представления текста и изображений, обеспечивая сходство и гибридное извлечение. Вы можете нативно вызывать модели встраивания Azure OpenAI, Microsoft Foundry или Azure Vision.

    Кроме того, можно пропустить вербализацию изображения и передать извлеченный текст и изображения непосредственно в модель многомодальных встраиваний с помощью навыка AML или навыка Azure Vision многомодальных встраиваний. Дополнительные сведения см. в разделе "Параметры многомодального внедрения содержимого".

  5. Сохраните извлеченные изображения:Хранилище знаний содержит извлеченные образы, которые можно вернуть непосредственно клиентским приложениям. При использовании мастера расположение образа хранится непосредственно в многомодальном индексе, что позволяет удобно извлекать данные во время запроса.

Совет

Чтобы увидеть многомодальный поиск в действии, подключите индекс, созданный с помощью мастера, к multimodal RAG sample application. В примере показано, как приложение RAG использует многомодальный индекс и отображает как текстовые ссылки, так и связанные фрагменты изображения в ответе. В этом примере также показан процесс приема и индексирования данных на основе кода.

Параметры для извлечения мультимодального содержимого

Многомодальный конвейер начинается с взлома каждого исходного документа на фрагменты текста, встроенные изображения и связанные метаданные. Для этого шага Поиск с использованием ИИ Azure предоставляет три встроенных навыка:

Характеристика Навык извлечения документов Навык оформления документа Навык анализа содержимого Azure
Извлечение метаданных расположения текста (страницы и ограничивающие многоугольники) Нет Да Да
Извлечение метаданных пространственного положения изображения (страницы и граничащие многоугольники) Да Да Да
Извлечение и сохранение таблиц Нет Нет Да (включая межстраничные таблицы)
Межстраничные семантические единицы Неприменимо Только одна страница Да (охватывает границы страницы)
Извлечение метаданных расположения на основе типа файла Только PDF-файлы. Несколько поддерживаемых типов файлов в соответствии с моделью макета Azure Интеллектуальный анализ документов в средствах Foundry. Несколько поддерживаемых типов файлов, включая PDF, DOCX, XLSX и PPTX.
Выставление счетов за извлечение данных Выставление счетов за извлечение изображений осуществляется в соответствии с Поиск с использованием ИИ Azure ценами. Выставлены счета в соответствии с ценами на макет документа. Cчет выставляется в соответствии с тарифами Azure Content Understanding.
Встроенное фрагментирование Нет (используйте навык разделения текста) Да (на основе границ абзаца) Да (семантическое сегментирование)
Рекомендуемые сценарии Быстрое прототипирование или производственные процессы, для которых не требуется точное расположение или подробные сведения о модели. Потоки данных RAG и процесс работы агента, в которых требуются точные номера страниц, выделения элементов на странице или наложение схем или диаграмм в клиентских приложениях. Расширенный анализ документов, требующий извлечения межстраничных таблиц, семантического фрагментирования или согласованной обработки в форматах документов (PDF, DOCX, XLSX, PPTX).

Параметры внедрения мультимодального содержимого

В Поиск с использованием ИИ Azure извлечение знаний из изображений может осуществляться по двум взаимодополняющим путям: вербализации изображений или прямых встраиваний. Понимание различий помогает выровнять затраты, задержку и качество ответа с потребностями вашего приложения.

Вербализация в изображениях, за которой следует встраивание текста

С помощью этого метода навык подсказки GenAI Prompt вызывает LLM во время поглощения, чтобы создать краткое описание на естественном языке каждого извлеченного изображения, например, "Рабочий процесс доступа к персоналу на пяти шагах, начинающийся с утверждения руководителя". Описание хранится как текст и внедрено вместе с окружающим текстом документа, который затем можно векторизировать, вызвав модели внедрения Azure OpenAI, Microsoft Foundry или Azure Vision.

Так как изображение теперь выражается на языке, Поиск с использованием ИИ Azure может:

  • Интерпретация связей и сущностей, показанных на схеме.

  • Предоставьте готовые подписи, которые LLM может цитировать дословно в ответе.

  • Возвращает соответствующие фрагменты для приложений RAG или сценариев агента ИИ с заземленными данными.

Добавленная семантическая глубина подразумевает вызов LLM для каждого изображения и незначительное увеличение времени индексирования.

Прямые многомодальные внедрения

Второй вариант — передать извлеченные документом изображения и текст в многомодальную модель внедрения, которая создает векторные представления в одном пространстве векторов. Конфигурация проста, и во время индексирования не требуется LLM. Прямые встраивания хорошо подходят для визуального сходства и сценариев "найди мне что-то, что выглядит так".

Поскольку представление является чисто математическим, он не передает, почему два изображения связаны, и он не предлагает готовый контекст LLM для ссылок или подробных объяснений.

Объединение обоих подходов

Многие решения нуждаются в обоих путях кодирования. Схемы, блок-диаграммы и другие визуальные элементы с расширенными объяснениями переведены в словесную форму, чтобы семантическая информация была доступна для RAG и агента искусственного интеллекта. Снимки экрана, фотографии продуктов или рисунки внедрены непосредственно для эффективного поиска сходства. Вы можете настроить индекс Поиск с использованием ИИ Azure и конвейер навыков индексатора, чтобы он мог сохранять два набора векторов и извлекать их параллельно.

Параметры запроса мультимодального содержимого

Если ваш многомодальный конвейер работает с помощью навыка "GenAI Prompt", вы можете выполнять гибридные запросы как по простому тексту, так и по вербализированным изображениям в индексе поиска. Фильтры также можно использовать для сужения результатов поиска к определенным типам контента, таким как только текст или только изображения.

Хотя навык запроса GenAI поддерживает текстовые запросы к вектору через гибридный поиск, он не поддерживает запросы изображений к вектору. Только модели многомодального внедрения предоставляют векторизаторы, преобразующие изображения в векторы во время запроса.

Чтобы использовать изображения в качестве входных данных запроса для мультимодального индекса, необходимо использовать навык AML или Azure навык мультимодальных построений для Vision с эквивалентным векторизатором. Дополнительные сведения см. в разделе "Настройка векторизатора" в индексе поиска.

Руководства и примеры

Чтобы приступить к работе с многомодальным поиском в Поиск с использованием ИИ Azure, ниже приведена коллекция контента, демонстрирующая создание и оптимизацию многомодальных индексов с помощью функций Azure.

Контент Описание
Quickstart: многомодальный поиск на портале Azure Создайте и проверьте многомодальный индекс на портале Azure с помощью мастера и обозревателя поиска.
Руководство по многомодальному использованию Извлечение текста и изображений, фрагментов данных и векторизация блоков для поиска сходства и других шаблонов извлечения.
Образец приложения: репозиторий GitHub для многомодальных RAG Комплексное приложение RAG, готовое к использованию кода, с многомодальными возможностями, предоставляющее как текстовые фрагменты, так и аннотации изображений. Идеально подходит для ускоренного старта корпоративных помощников.