Поделиться через


Многомодальный поиск в поиске ИИ Azure

Многомодальный поиск ссылается на возможность приема, понимания и получения информации в нескольких типах контента, включая текст, изображения, видео и звук. В службе "Поиск ИИ Azure" многомодальный поиск изначально поддерживает прием документов, содержащих текст и изображения, и получение их содержимого, что позволяет выполнять поиски, которые объединяют оба модальности.

Создание надежного многомодального конвейера обычно включает в себя:

  1. Извлечение текста страниц и встроенных изображений из документов.

  2. Описание изображений на естественном языке.

  3. Внедрение текста и изображений в общее векторное пространство.

  4. Хранение изображений для последующего использования в качестве заметок.

Многомодальный поиск также требует сохранения порядка сведений, отображаемых в документах и выполнения гибридных запросов , которые объединяют полнотекстовый поиск с векторным поиском и семантическим ранжированием.

На практике приложение, использующее многомодальный поиск, может отвечать на такие вопросы, как "Что такое процесс утверждения формы кадров?", даже если единственное достоверное описание процесса находится внутри внедренной схемы в PDF-файле.

Традиционно многомодальный поиск требует отдельных систем для обработки текста и изображений, часто требуя пользовательского кода и низкоуровневых конфигураций от разработчиков. Поддержание этих систем вызывает более высокие затраты, сложность и усилия.

Поиск ИИ Azure решает эти проблемы путем интеграции изображений в тот же конвейер извлечения, что и текст. С помощью одного многомодального конвейера можно упростить настройку и разблокировать сведения, находящиеся на диаграммах, снимках экранах, инфографиках, сканированных формах и других сложных визуальных элементах.

Многомодальный поиск идеально подходит для сценариев извлечения с дополнением для генерации (RAG). Интерпретируя структурную логику изображений, многомодальный поиск снижает вероятность того, что ваше приложение RAG или агент ИИ упустят важные визуальные детали. Он также предоставляет пользователям подробные ответы, которые можно отследить до исходных источников независимо от модальности источника.

Как работает многомодальный поиск?

Чтобы упростить создание многомодального конвейера, служба "Поиск ИИ Azure" предлагает мастер импорта данных на портале Azure. Мастер помогает настроить источник данных, определить параметры извлечения и обогащения и создать многомодальный индекс, содержащий текст, внедренные ссылки на изображения и векторные внедрения. Для получения дополнительной информации см. Краткое руководство: Многомодальный поиск на портале Azure.

Мастер выполняет следующие действия, чтобы создать многомодальный конвейер:

  1. Извлечение содержимого: Выберите из навыка извлечения документов, навыка разметки документов или навыка "Распознавание содержимого Azure ", чтобы получить текст страницы, встроенные изображения и структурные метаданные. Каждый навык предлагает различные возможности для извлечения метаданных, обработки таблиц и поддержки формата файлов. Подробные сравнения см. в разделе "Параметры для извлечения многомодального содержимого".

  2. Фрагмент текста:Умение разделения текста разбивает извлеченный текст на блоки, с которыми удобно работать, для использования в оставшемся конвейере, например, умение встраивания.

  3. Создание описаний изображений:Навык запросов GenAI описывает изображения, создавая краткие описания на естественном языке для текстового поиска и встраивания с помощью крупной языковой модели (LLM).

  4. Создание эмбеддингов: Технология создания эмбеддингов формирует векторные представления текста и изображений, обеспечивая возможность поиска по сходству и гибридное извлечение. Вы можете нативно использовать встраиваемые модели Azure OpenAI, Microsoft Foundry или Azure Vision.

    Кроме того, можно пропустить словизацию изображений и передать извлеченный текст и изображения непосредственно в многомодальную модель встраивания с помощью навыка AML или навыка многомодального встраивания Azure Vision. Дополнительные сведения см. в разделе "Параметры многомодального внедрения содержимого".

  5. Сохраните извлеченные изображения:Хранилище знаний содержит извлеченные образы, которые можно вернуть непосредственно клиентским приложениям. При использовании мастера расположение образа хранится непосредственно в многомодальном индексе, что позволяет удобно извлекать данные во время запроса.

Tip

Чтобы просмотреть многомодальный поиск в действии, подключите созданный мастером индекс к примеру приложения многомодальной RAG. В примере показано, как приложение RAG использует многомодальный индекс и отображает как текстовые ссылки, так и связанные фрагменты изображения в ответе. В этом примере также показан процесс приема и индексирования данных на основе кода.

Параметры для извлечения мультимодального содержимого

Многомодальный конвейер начинается с взлома каждого исходного документа на фрагменты текста, встроенные изображения и связанные метаданные. На этом шаге служба "Поиск ИИ Azure" предоставляет три встроенных навыка.

Characteristic Навык извлечения документов Навык макета документа Навык понимания содержимого Azure
Извлечение метаданных расположения текста (страницы и ограничивающие многоугольники) No Yes Yes
Извлечение метаданных расположения изображения (страницы и ограничивающие многоугольники) Yes Yes Yes
Извлечение и сохранение таблиц No No Да (включая межстраничные таблицы)
Межстраничные семантические единицы Неприменимо Только одна страница Да (охватывает границы страницы)
Извлечение метаданных расположения на основе типа файла Только PDF-файлы. Несколько поддерживаемых типов файлов согласно модели макета Foundry Tools в Azure Document Intelligence. Несколько поддерживаемых типов файлов, включая PDF, DOCX, XLSX и PPTX.
Выставление счетов за извлечение данных Извлечение изображений взимается в соответствии с ценами на поиск в Azure AI. Расчет осуществляется в соответствии с ценами на оформление документов. Плата взимается в соответствии с ценами на Azure Content Understanding.
Встроенное фрагментирование Нет (используйте навык разделения текста) Да (на основе границ абзаца) Да (семантическое разбиение)
Рекомендуемые сценарии Быстрое прототипирование или производственные процессы, в которых не требуется точное расположение или документированные сведения о макете. Конвейеры RAG и агентские рабочие процессы, требующие точных номеров страниц, выделения на странице или наложения диаграмм в клиентских приложениях. Расширенный анализ документов, требующий извлечения межстраничных таблиц, семантического фрагментирования или согласованной обработки в форматах документов (PDF, DOCX, XLSX, PPTX).

Параметры внедрения мультимодального содержимого

В службе "Поиск ИИ Azure" извлечение знаний из изображений может следовать двумя взаимодополняющими путями: вербализация изображений или прямое встраивание. Понимание различий помогает выровнять затраты, задержку и качество ответа с потребностями вашего приложения.

Словесность изображений, за которой следует внедрение текста

С помощью этого метода навык запроса GenAI вызывает LLM во время поглощения данных, чтобы создать краткое естественно-языковое описание каждого извлеченного изображения, например, "Рабочий процесс доступа к персоналу на пяти шагах, начинающийся с утверждения руководителя". Описание хранится как текст и внедряется вместе с текстом окружающего документа, который затем можно преобразовать в векторный формат, вызвав модели внедрения Azure OpenAI, Microsoft Foundry или Azure Vision.

Поскольку изображение теперь выражается с помощью языка, Azure AI Search может:

  • Интерпретация связей и сущностей, показанных на схеме.

  • Предоставьте готовые подписи, которые LLM может дословно цитировать в ответе.

  • Возвращает соответствующие фрагменты для приложений RAG или сценариев агента ИИ с заземленными данными.

Добавленная семантическая глубина подразумевает вызов LLM для каждого изображения и незначительное увеличение времени индексирования.

Прямые многомодальные внедрения

Второй вариант — передать извлеченные документом изображения и текст в многомодальную модель внедрения, которая создает векторные представления в одном пространстве векторов. Конфигурация проста, и во время индексирования не требуется LLM. Прямые встраивания хорошо подходят для визуального сходства и сценариев "найди что-то похожее на это".

Поскольку представление является чисто математическим, он не передает, почему два изображения связаны, и он не предлагает готовый контекст LLM для ссылок или подробных объяснений.

Объединение обоих подходов

Многие решения нуждаются в обоих путях кодирования. Схемы, блок-диаграммы и другие визуальные элементы с подробными объяснениями переданы словесно, чтобы семантическая информация была доступна для RAG и агентов ИИ. Снимки экрана, фотографии продуктов или рисунки внедрены непосредственно для эффективного поиска сходства. Вы можете настроить индекс и конвейер набора навыков Azure AI Search таким образом, чтобы они могли хранить две группы векторов и извлекать их параллельно.

Параметры запроса мультимодального содержимого

Если ваш многомодальный конвейер управляется навыком GenAI Prompt, вы можете выполнять гибридные запросы как по обычному тексту, так и по вербализованным изображениям в индексе поиска. Фильтры также можно использовать для сужения результатов поиска к определенным типам контента, таким как только текст или только изображения.

Хотя навык запроса GenAI поддерживает текстовые запросы к вектору через гибридный поиск, он не поддерживает запросы изображений к вектору. Только модели многомодального внедрения предоставляют векторизаторы, преобразующие изображения в векторы во время запроса.

Чтобы использовать изображения в качестве входных данных запроса для многомодального индекса, необходимо использовать навык AML или навык многомодального внедрения Azure Vision с эквивалентным векторизатором. Дополнительные сведения см. в разделе "Настройка векторизатора" в индексе поиска.

Руководства и примеры

Чтобы приступить к работе с многомодальным поиском в службе "Поиск ИИ Azure", вот коллекция содержимого, демонстрирующая создание и оптимизацию многомодальных индексов с помощью функций Azure.

Content Description
Краткое руководство. Многомодальный поиск на портале Azure Создайте и проверьте многомодальный индекс на портале Azure с помощью мастера и обозревателя поиска.
Руководство по многомодальному использованию Извлечение текста и изображений, фрагментов данных и векторизация блоков для поиска сходства и других шаблонов извлечения.
Пример приложения: репозиторий GitHub Multimodal RAG Комплексное приложение RAG, готовое к использованию кода, с многомодальными возможностями, предоставляющее как текстовые фрагменты, так и аннотации изображений. Идеально подходит для быстрого запуска корпоративных помощников.