Многомодальный поиск в поиске ИИ Azure

2025-05-29

Многомодальный поиск ссылается на возможность приема, понимания и получения информации в нескольких типах контента, включая текст, изображения, видео и звук. В службе "Поиск ИИ Azure" многомодальный поиск изначально поддерживает прием документов, содержащих текст и изображения, и получение их содержимого, что позволяет выполнять поиски, которые объединяют оба модальности.

Создание надежного многомодального конвейера обычно включает в себя:

Извлечение текста страниц и встроенных изображений из документов.
Описание изображений на естественном языке.
Внедрение текста и изображений в общее векторное пространство.
Хранение изображений для последующего использования в качестве заметок.

Многомодальный поиск также требует сохранения порядка сведений, отображаемых в документах и выполнения гибридных запросов , которые объединяют полнотекстовый поиск с векторным поиском и семантическим ранжированием.

На практике приложение, использующее многомодальный поиск, может отвечать на такие вопросы, как "Что такое процесс утверждения формы кадров?", даже если единственное достоверное описание процесса находится внутри внедренной схемы в PDF-файле.

Почему используйте многомодальный поиск?

Традиционно многомодальный поиск требует отдельных систем для обработки текста и изображений, часто требуя пользовательского кода и низкоуровневых конфигураций от разработчиков. Поддержание этих систем вызывает более высокие затраты, сложность и усилия.

Поиск ИИ Azure решает эти проблемы путем интеграции изображений в тот же конвейер извлечения, что и текст. С помощью одного многомодального конвейера можно упростить настройку и разблокировать сведения, находящиеся на диаграммах, снимках экранах, инфографиках, сканированных формах и других сложных визуальных элементах.

Многомодальный поиск идеально подходит для сценариев извлечения с дополнением для генерации (RAG). Интерпретируя структурную логику изображений, многомодальный поиск снижает вероятность того, что ваше приложение RAG или агент ИИ упустят важные визуальные детали. Он также предоставляет пользователям подробные ответы, которые можно отследить до исходных источников независимо от модальности источника.

Как работает многомодальный поиск в службе "Поиск ИИ Azure"

Чтобы упростить создание многомодального конвейера, служба "Поиск ИИ Azure" предлагает мастер импорта и векторизации данных на портале Azure. Мастер помогает настроить источник данных, определить параметры извлечения и обогащения и создать многомодальный индекс, содержащий текст, внедренные ссылки на изображения и векторные внедрения. Для получения дополнительной информации см. Краткое руководство: Многомодальный поиск на портале Azure.

Мастер выполняет следующие действия, чтобы создать многомодальный конвейер:

Извлечение содержимого:Навык Извлечения Документов или Навык Макета Документов получает текст страницы, встроенные изображения и метаданные о структуре. Навык извлечения документов не извлекает многоугольники или номера страниц, а поддерживаемые типы файлов различаются. Дополнительные сведения см. в разделе "Параметры для извлечения многомодального содержимого".

Эти встроенные навыки не поддерживают извлечение таблиц или сохранение структуры таблиц. Чтобы использовать эти возможности, необходимо создать пользовательский навык веб-API, который вызывает Azure AI Content Understanding.
Фрагмент текста:Умение разделения текста разбивает извлеченный текст на блоки, с которыми удобно работать, для использования в оставшемся конвейере, например, умение встраивания.
Создание описаний изображений:Навык запросов GenAI описывает изображения, создавая краткие описания на естественном языке для текстового поиска и встраивания с помощью крупной языковой модели (LLM).
Создание эмбеддингов: Технология создания эмбеддингов формирует векторные представления текста и изображений, обеспечивая возможность поиска по сходству и гибридное извлечение. Вы можете вызывать Azure OpenAI, Azure AI Foundry или Azure AI Vision , внедряя модели в собственном коде.

Кроме того, можно пропустить озвучивание изображений и передать извлеченный текст и изображения непосредственно в модель многомодальных встраиваний с помощью навыка AML или многомодальных встраиваний Azure AI Vision. Дополнительные сведения см. в разделе "Параметры многомодального внедрения содержимого".
Сохраните извлеченные изображения:Хранилище знаний содержит извлеченные образы, которые можно вернуть непосредственно клиентским приложениям. При использовании мастера расположение образа хранится непосредственно в многомодальном индексе, что позволяет удобно извлекать данные во время запроса.

Подсказка

Чтобы просмотреть многомодальный поиск в действии, подключите созданный мастером индекс к примеру приложения многомодальной RAG. В примере показано, как приложение RAG использует многомодальный индекс и отображает как текстовые ссылки, так и связанные фрагменты изображения в ответе. В этом примере также показан процесс приема и индексирования данных на основе кода.

Параметры для извлечения мультимодального содержимого

Многомодальный конвейер начинается с взлома каждого исходного документа на фрагменты текста, встроенные изображения и связанные метаданные. На этом шаге служба "Поиск ИИ Azure" предоставляет два встроенных навыка: навык извлечения документов и навык макета документов. Оба навыка позволяют извлекать текст и изображения, но они отличаются в деталях макета, возвращаемых метаданных и выставлении счетов.

Характеристика	Навык извлечения документов	Навык макета документа
Извлечение метаданных расположения текста (страницы и ограничивающие многоугольники)	нет	Да
Извлечение метаданных расположения изображения (страницы и ограничивающие многоугольники)	Да	Да
Извлечение метаданных расположения на основе типа файла	Только PDF-файлы.	Несколько поддерживаемых типов файлов в соответствии с моделью макета аналитики документов Azure.
Выставление счетов за извлечение данных	Извлечение изображений взимается в соответствии с ценами на поиск в Azure AI.	Расчет осуществляется в соответствии с ценами на оформление документов.
Рекомендуемые сценарии	Быстрое прототипирование или производственные процессы, в которых не требуется точное расположение или документированные сведения о макете.	Конвейеры RAG и агентские рабочие процессы, требующие точных номеров страниц, выделения на странице или наложения диаграмм в клиентских приложениях.

Вы также можете использовать пользовательский навык, чтобы напрямую вызвать Службу "Понимание содержимого Azure AI", которую "Поиск ИИ Azure" не поддерживает по умолчанию, для извлечения многомодального содержимого.

Параметры внедрения мультимодального содержимого

В службе "Поиск ИИ Azure" извлечение знаний из изображений может следовать двумя взаимодополняющими путями: вербализация изображений или прямое встраивание. Понимание различий помогает выровнять затраты, задержку и качество ответа с потребностями вашего приложения.

Словесность изображений, за которой следует внедрение текста

С помощью этого метода навык подсказок GenAI вызывает LLM во время импорта, чтобы создать краткое описание на естественном языке для каждого извлеченного изображения, например, "Пятишаговый рабочий процесс доступа HR, начинающийся с утверждения руководителя". Описание сохраняется в виде текста и интегрируется вместе с окружающим текстом документа, который затем можно векторизировать, вызвав модели встраивания Azure OpenAI, Azure AI Foundry или Azure AI Vision.

Поскольку изображение теперь выражается с помощью языка, Azure AI Search может:

Интерпретация связей и сущностей, показанных на схеме.
Предоставьте готовые подписи, которые LLM может дословно цитировать в ответе.
Возвращает соответствующие фрагменты для приложений RAG или сценариев агента ИИ с заземленными данными.

Добавленная семантическая глубина подразумевает вызов LLM для каждого изображения и незначительное увеличение времени индексирования.

Прямые многомодальные внедрения

Второй вариант — передать извлеченные документом изображения и текст в многомодальную модель внедрения, которая создает векторные представления в одном пространстве векторов. Конфигурация проста, и во время индексирования не требуется LLM. Прямые встраивания хорошо подходят для визуального сходства и сценариев "найди что-то похожее на это".

Поскольку представление является чисто математическим, он не передает, почему два изображения связаны, и он не предлагает готовый контекст LLM для ссылок или подробных объяснений.

Объединение обоих подходов

Многие решения нуждаются в обоих путях кодирования. Схемы, блок-диаграммы и другие визуальные элементы с подробными объяснениями переданы словесно, чтобы семантическая информация была доступна для RAG и агентов ИИ. Снимки экрана, фотографии продуктов или рисунки внедрены непосредственно для эффективного поиска сходства. Вы можете настроить индекс и конвейер набора навыков Azure AI Search таким образом, чтобы они могли хранить две группы векторов и извлекать их параллельно.

Параметры запроса мультимодального содержимого

Если ваш многомодальный конвейер управляется навыком GenAI Prompt, вы можете выполнять гибридные запросы как по обычному тексту, так и по вербализованным изображениям в индексе поиска. Фильтры также можно использовать для сужения результатов поиска к определенным типам контента, таким как только текст или только изображения.

Хотя навык запроса GenAI поддерживает текстовые запросы к вектору через гибридный поиск, он не поддерживает запросы изображений к вектору. Только модели многомодального внедрения предоставляют векторизаторы, преобразующие изображения в векторы во время запроса.

Чтобы использовать изображения в качестве входных данных запросов для мультимодального индекса, необходимо использовать навык AML или многомодальный встраивающий навык Azure AI Vision с эквивалентным векторизатором. Дополнительные сведения см. в разделе "Настройка векторизатора" в индексе поиска.

Руководства и примеры

Чтобы приступить к работе с многомодальным поиском в службе "Поиск ИИ Azure", вот коллекция содержимого, демонстрирующая создание и оптимизацию многомодальных индексов с помощью функций Azure.

Содержимое	Описание
Краткое руководство. Многомодальный поиск на портале Azure	Создайте и проверьте многомодальный индекс на портале Azure с помощью мастера и обозревателя поиска.
Руководство по вербализации изображений и извлечению информации из документов	Извлекайте текст и изображения, преобразуйте схемы в текстовое описание и интегрируйте полученные описания и текст в индекс, доступный для поиска.
Учебное руководство: многомодальные встраивания и навык извлечения документов	Используйте модель визуального текста для непосредственного внедрения текста и изображений, что позволяет выполнять поиск визуального сходства по сканированным PDF-файлам.
Руководство по описанию изображений и навыку работы с макетом документов	Примените макетно-ориентированное разделение и описание схем, захватите метаданные местоположения и сохраните обрезанные изображения для точных ссылок и выделения на страницах.
Руководство: Многомодальное встраивание и умение макета документов	Объедините разбиение на блоки с учетом макета с унифицированными интеграциями для гибридного поиска по семантике и ключевым словам, возвращающего точные места совпадений.
Пример приложения: репозиторий GitHub Multimodal RAG	Комплексное приложение RAG, готовое к использованию кода, с многомодальными возможностями, предоставляющее как текстовые фрагменты, так и аннотации изображений. Идеально подходит для быстрого запуска корпоративных помощников.