Поделиться через


Многомодальные внедрения (версия 4.0)

Многомодальное внедрение — это процесс создания векторного представления изображения, который фиксирует его функции и характеристики. Эти векторы кодируют содержимое и контекст изображения таким образом, который совместим с текстовым поиском по одному и тому же векторному пространству.

Системы извлечения изображений традиционно используют функции, извлеченные из изображений, например метки содержимого, теги и дескрипторы изображений, для сравнения изображений и ранжирования их по сходству. Однако поиск сходства векторов предлагает ряд преимуществ по сравнению с традиционным поиском на основе ключевых слов и становится важным компонентом в популярных службах поиска контента.

Поиск ключевых слов — это самый базовый и традиционный метод получения информации. В этом подходе поисковая система ищет точное соответствие ключевых слов или фраз, введенных пользователем в поисковом запросе, и сравнивает его с метками и тегами, предоставленными для изображений. Затем поисковая система возвращает изображения, содержащие эти точные ключевые слова в виде тегов содержимого и меток изображений. Поиск ключевых слов сильно зависит от возможности пользователя использовать соответствующие и конкретные условия поиска.

Поиск векторов выполняет поиск больших коллекций векторов в высокомерном пространстве, чтобы найти векторы, аналогичные заданному запросу. Поиск векторов ищет семантические сходства путем записи контекста и значения поискового запроса. Этот подход часто более эффективен, чем традиционные методы извлечения изображений, так как это может уменьшить пространство поиска и повысить точность результатов.

Бизнес-приложения.

Многомодальное внедрение имеет различные приложения в различных полях, включая:

  • Управление цифровыми активами: многомодальное внедрение можно использовать для управления большими коллекциями цифровых изображений, например в музеях, архивах или онлайн-галереях. Пользователи могут искать изображения на основе визуальных функций и извлекать изображения, соответствующие их критериям.
  • Безопасность и наблюдение: векторизация может использоваться в системах безопасности и наблюдения для поиска изображений на основе определенных функций или шаблонов, таких как, отслеживание людей и объектов, или обнаружение угроз.
  • Получение судебно-медицинских изображений: векторизация может использоваться в судебно-медицинских расследованиях для поиска изображений на основе их визуального содержимого или метаданных, таких как в случаях кибер-преступности.
  • Электронная коммерция: векторизация может использоваться в онлайн-магазинах для поиска похожих продуктов на основе их функций или описаний или предоставления рекомендаций на основе предыдущих покупок.
  • Мода и дизайн: векторизация может использоваться в моде и дизайне для поиска изображений на основе их визуальных признаков, таких как цвет, шаблон или текстура. Это может помочь дизайнерам или розничным продавцам определить аналогичные продукты или тенденции.

Внимание

Многомодальное встраивание не предназначено для анализа медицинских изображений с целью выявления диагностических признаков или паттернов заболеваний. Не используйте многомодальное внедрение для медицинских целей.

Что такое векторные внедрения?

Векторные внедрения — это способ представления содержимого ( текста или изображений) в виде векторов реальных чисел в высокомерном пространстве. Векторные представления часто обучаются на больших объемах текстовых и визуальных данных с помощью алгоритмов машинного обучения, таких как нейронные сети.

Каждое измерение вектора соответствует другому признаку или атрибуту содержимого, например его семантическому значению, синтаксической роли или контексту, в котором он обычно отображается. В Azure Vision в инструментах Foundry внедренные изображения и текстовые векторы имеют 1024 измерения.

Внимание

Векторные внедрения можно сравнить только и сопоставить, если они совпадают с тем же типом модели. Изображения, векторизированные одной моделью, нельзя будет найти, используя другую модель. Последняя версия API анализа изображений предлагает две модели, которая 2023-04-15 поддерживает поиск текста на многих языках и устаревшую 2022-04-11 модель, которая поддерживает только английский язык.

Процесс извлечения изображения

Ниже приведены основные шаги процесса поиска изображений с помощью многомодальных внедрений.

Схема процесса многомодального внедрения / извлечения изображений.

  1. Векторизация изображений и текста: API-интерфейсы многомодальных внедрения, VectorizeImage и VectorizeText можно использовать для извлечения векторов признаков из изображения или текста соответственно. API возвращают один вектор признаков, представляющий весь вход.

    Примечание.

    Мультимодальное встраивание не выполняет биометрической обработки человеческих лиц. Сведения об обнаружении и идентификации лиц см. в службе распознавания лиц Azure AI.

  2. Измерение сходства: системы поиска в векторов обычно используют метрики расстояния, такие как расстояние косинуса или Евклиданское расстояние, для сравнения векторов и ранжирования их по подобию. В демонстрации Vision Studio используется косинусное расстояние для измерения сходства.
  3. Получение изображений. Используйте верхние N-векторы , аналогичные поисковому запросу, и извлеките изображения, соответствующие этим векторам из библиотеки фотографий, чтобы предоставить в качестве окончательного результата.

Оценка релевантности

Служба извлечения изображений возвращает поле с именем "релевантность". Термин "релевантность" обозначает меру сходства между внедренными запросами и изображениями. Оценка релевантности состоит из двух частей:

  1. Косинусное сходство (которое находится в диапазоне [0,1]) между встраиваниями запросов и изображений.
  2. Оценка метаданных, которая отражает сходство между запросом и метаданными, связанными с изображением.

Внимание

Оценка релевантности является хорошей мерой для ранжирования результатов, таких как изображения в отношении одного запроса. Однако оценка релевантности не может быть точно сравниваема между запросами. Поэтому невозможно легко сопоставить оценку релевантности с уровнем достоверности. Кроме того, не удается тривиально создать алгоритм порогового значения, чтобы исключить неуместные результаты, основанные исключительно на оценке релевантности.

Требования к входным данным

Ввод изображения

  • Размер файла изображения должен быть меньше 20 МБ
  • Размеры изображения должны быть больше 10 x 10 пикселей и менее 16 000 x 16 000 пикселей

Ввод текста

  • Текстовая строка должна быть от одного до 70 слов.

Следующий шаг

Включите многомодальные внедрения для службы поиска и выполните действия по созданию векторных внедрений для текста и изображений.