Поделиться через


Что такое анализ изображений?

Служба "Анализ изображений" в "Foundry Tools" Azure может извлекать различные визуальные характеристики из ваших изображений. Например, служба может определить, есть ли на изображении содержимое для взрослых, конкретные торговые марки или объекты, или найти человеческие лица.

Последняя версия анализа изображений версии 4.0, которая теперь общедоступна, имеет новые функции, такие как синхронное обнаружение OCR и людей. Используйте эту версию в дальнейшем.

Вы можете использовать Анализ изображений с помощью пакета SDK для клиентской библиотеки или посредством прямого вызова REST API. Чтобы приступить к работе, ознакомьтесь с быстрым запуском.

Кроме того, вы можете быстро и легко попробовать возможности анализа изображений в браузере с помощью Vision Studio.

Эта документация включает статьи следующих видов:

Для более структурированного подхода следуйте модулю обучения для анализа изображений.

Версии анализа изображений

Important

Выберите версию API анализа изображений, которая лучше всего соответствует вашим требованиям.

Version Доступные функции Recommendation
версия 4.0 Чтение текста, надписи, плотные надписи, теги, обнаружение объектов, люди, интеллектуальная обрезка Лучшие модели; используйте версию 4.0, если она поддерживает вариант использования.
версия 3.2 Теги, объекты, описания, бренды, лица, тип изображения, цветовая схема, ориентиры, знаменитости, содержимое для взрослых, смарт-обрезка Более широкий спектр функций; используйте версию 3.2, если вариант использования еще не поддерживается в версии 4.0

Рекомендуется использовать API анализа изображений 4.0, если он поддерживает вариант использования. Используйте версию 3.2, если вариант использования еще не поддерживается 4.0.

Кроме того, вам потребуется использовать версию 3.2, если вы хотите сделать подпись изображений, а ресурс Визуального зрения находится за пределами поддерживаемых регионов Azure. Функция подписи изображений в Анализе изображений 4.0 поддерживается только в определенных регионах Azure. Подпись изображения в версии 3.2 доступна во всех регионах Azure Vision. Смотрите сведения о доступности региона.

Analyze Image

Вы можете анализировать изображения, чтобы получить аналитические сведения об их визуальных функциях и характеристиках. API анализа изображений предоставляет все функции в этой таблице. Чтобы приступить к работе, следуйте краткому руководству.

Name Description Страница концепции
Настройка модели (только предварительная версия версии 4.0) (не рекомендуется) Создание и обучение пользовательских моделей для классификации изображений или обнаружения объектов. Приведите собственные изображения, пометьте их настраиваемыми тегами, а анализ изображений обучает модель, настраиваемую для вашего варианта использования. Настройка модели
Чтение текста из изображений (только версия 4.0) Предварительная версия 4.0 анализа изображений позволяет извлекать доступный для чтения текст из изображений. По сравнению с асинхронным API для чтения 3.2 в службе компьютерного зрения, новая версия предлагает знакомый механизм OCR в едином API с улучшенной производительностью, что упрощает получение OCR вместе с другой аналитической информацией в одном вызове API. OCR для изображений
Обнаружение людей в изображениях (только версия 4.0) Версия 4.0 анализа изображений позволяет обнаруживать людей, отображаемых на изображениях. API возвращает координаты ограничивающего прямоугольника каждого обнаруженного человека, а также оценку достоверности. Обнаружение людей
Создание подписей изображений Создайте подпись изображения на удобочитаемом языке, используя полные предложения. алгоритмы Компьютерное зрение создают подписи на основе объектов, определенных на изображении.

Модель заголовка изображений версии 4.0 является более расширенной реализацией и работает с более широким диапазоном входных изображений. Он доступен только в определенных географических регионах. Смотрите сведения о доступности региона.

Версия 4.0 также позволяет использовать плотную подпись, которая создает подробные субтитры для отдельных объектов, найденных на изображении. API возвращает координаты ограничивающего поля (в пикселях) каждого объекта, найденного на изображении, а также подпись. Эту функцию можно использовать для создания описания отдельных частей изображения.

Фотография коров с простым описанием справа.
Создание подписей изображений (версия 3.2)
(v4.0)
Обнаружение объектов Обнаружение объекта похоже на добавление тегов, но API возвращает координаты ограничивающего прямоугольника для каждого примененного тега. Например, если изображение содержит собаку, кота и человека, операция обнаружения перечисляет эти объекты вместе с их координатами на изображении. Эту функциональность можно использовать, чтобы обрабатывать дальнейшие отношения между объектами изображения. Это также позволяет определить множество экземпляров одного тега на изображении.

Фотография офиса с прямоугольником, нарисованным вокруг ноутбука.
Обнаружение объектов (версия 3.2)
(v4.0)
Добавление тегов к визуальным компонентам Определяйте визуальные компоненты на изображении и добавляйте к ним теги из набора тысяч распознаваемых объектов, живых существ, пейзажей и действий. В случаях, когда теги могут быть неоднозначными или не общеизвестными, в ответ API входят подсказки, уточняющие содержимое тега. Добавление тегов не ограничивается основным предметом, например человеком на переднем плане, но также включает параметр (внутри помещения или снаружи), мебель, инструменты, растения, животных, аксессуары, гаджеты и т. д.

Фотография скейтбордера с тегами, перечисленными справа.
Визуальные функции тегов (версия 3.2)
(v4.0)
Получить область интереса / интеллектуальную обрезку Проанализируйте содержимое изображения, чтобы вернуть координаты интересующей области , которая соответствует указанному пропорции. Компьютерное зрение возвращает координаты ограничивающей рамки области, поэтому вызывающее приложение может изменить исходное изображение при необходимости.

Модель интеллектуальной обрезки версии 4.0 является более расширенной реализацией и работает с более широким диапазоном входных изображений. Он доступен только в определенных географических регионах. Смотрите сведения о доступности региона.
Создание эскиза (версия 3.2)
(предварительная версия версии 4.0)
Обнаружение брендов (только для версии 3.2) Определяет торговые марки в изображениях или видео из базы данных тысяч глобальных логотипов. Вы можете использовать эту функцию, например, чтобы узнать, какие торговые марки наиболее популярны в социальных сетях или наиболее распространены при размещении медиа-продуктов. Обнаружение брендов
Классификация изображения (только для версии 3.2) Определение и классификация всего изображения с помощью классификации категорий с родительскими или дочерними наследственными иерархиями. Категории могут использоваться отдельно или с новыми моделями добавления тегов.

В настоящее время единственным поддерживаемым языком для добавления тегов и классификации изображений является английский.
Классификация изображения
Обнаружение лиц (только для версии 3.2) Обнаружение лиц на изображении, а также предоставление сведений о каждом обнаруженном лице. Azure Vision возвращает координаты, прямоугольник, пол и возраст для каждого обнаруженного лица.

Для этих целей также можно использовать отдельный API Распознавания лиц . Его можно использовать для более глубокого анализа, например для идентификации по лицу и определении позы.
Обнаружение лиц
Обнаружение типов изображений (только версия 3.2) Определение характеристик изображения, таких как то, является ли изображение линейным рисунком или какова вероятность того, что это картинка-клипарт. Обнаружение типов изображения
Обнаружение содержимого для конкретного домена (только версия 3.2) Использование модели предметной области для обнаружения и идентификации отдельного предметного содержимого в изображении, например знаменитостей и достопримечательностей. Например, если изображение содержит людей, Azure Vision может использовать модель обработки изображений для распознавания знаменитостей, чтобы определить, являются ли обнаруженные на изображении люди известными знаменитостями. Обнаружение содержимого, связанного с определенными сферами
Обнаружение цветовой схемы (только версия 3.2) Анализ использования цвета в изображении. Azure Vision может определить, является ли изображение черным и белым или цветом, а для цветных изображений и определять доминирующие и акцентные цвета. Обнаружение цветовой схемы
Умеренное содержимое в изображениях (только версия 3.2) Используйте Azure Vision для обнаружения содержимого взрослых в изображении и возврата оценки достоверности для различных классификаций. Порог для отметки содержания может быть установлен на скользящей шкале, чтобы учитывать ваши предпочтения. Обнаружение содержимого для взрослых

Распознавание продуктов (только предварительная версия версии 4.0) (не рекомендуется)

Important

Эта функция теперь прекращена. 31 марта 2025 года API предварительной версии AI анализа изображений Azure 4.0, пользовательская классификация изображений, определение пользовательских объектов, обнаружение пользовательских объектов и распознавание продуктов были прекращены. Вызовы API к этим службам завершаются сбоем.

Переход на Пользовательское визуальное распознавание Azure AI, который общедоступен. Пользовательское визуальное распознавание предоставляет аналогичные функциональные возможности к этим устаревающим функциям.

API распознавания продуктов позволяют анализировать фотографии полков в розничном магазине. Вы можете обнаружить наличие или отсутствие продуктов и получить их координаты ограничивающего прямоугольника. Используйте его в сочетании с настройкой модели для обучения модели для идентификации конкретных продуктов. Вы также можете сравнить результаты распознавания продуктов с документом планограммы магазина.

Распознавание продуктов

Многомодальные внедрения (только версия 4.0)

API многомодальные встраивания позволяют векторизацию изображений и текстовых запросов. Они преобразуют изображения в координаты в многомерном векторном пространстве. Затем можно преобразовать входящие текстовые запросы в векторы и сопоставить изображения с текстом на основе семантической близости. Эта возможность позволяет выполнять поиск по набору изображений с помощью текста без использования тегов изображений или других метаданных. Семантическая близость часто дает лучшие результаты в поиске.

API 2024-02-01 включает многоязычную модель, которая поддерживает поиск текста на 102 языках. Исходная модель только на английском языке по-прежнему доступна, но ее нельзя объединить с новой моделью в том же индексе поиска. Если вы векторизировали текст и изображения с помощью модели только на английском языке, эти векторы несовместимы с многоязычным текстом и векторами изображений.

Эти API доступны только в определенных географических регионах. Смотрите сведения о доступности региона.

Многомодальные внедрения

Удаление фона (только предварительная версия версии 4.0)

Important

Эта функция теперь прекращена. 31 марта 2025 г. API сегмента Azure AI Analysis 4.0 и служба удаления фона были прекращены. Вызовы API к этим службам завершаются сбоем.

Функция сегментации модели с открытым исходным кодом Флоренция 2 может соответствовать вашим потребностям. Она возвращает альфа-карту, которая помечает разницу между передним планом и фоном, но не изменяет исходное изображение, чтобы удалить фон. Установите модель Флоренции 2 и попробуйте использовать ее регион для функции сегментации.

Для полноценного удаления фона используйте сторонние программы, такие как BiRefNet.

Ограничения сервисов

Требования к входным данным

Анализ изображений работает на изображениях, которые отвечают следующим требованиям:

  • Изображение должно быть в формате JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF или MPO
  • Размер файла изображения должен быть меньше 20 МБ
  • Размеры изображения должны быть более 50 x 50 пикселей и менее 16 000 x 16 000 пикселей

Tip

Требования к входным данным для многомодальных внедрения отличаются и перечислены в многомодальных внедрениях.

Поддержка языков

Различные функции анализа изображений доступны на разных языках. Посмотрите страницу Поддержка языка.

Доступность по регионам

Чтобы использовать API анализа изображений, необходимо создать ресурс Azure Vision in Foundry Tools в поддерживаемом регионе. Функции анализа изображений доступны в следующих регионах:

Region Analyze Image
(4.0 минус субтитры)
Analyze Image
(включая 4.0 субтитры)
Распознавание продуктов Многомодальные внедрения
East US
West US
Западная часть США 2
France Central
North Europe
West Europe
Sweden Central
Switzerland North
Australia East
Southeast Asia
East Asia
Korea Central
Japan East

Конфиденциальность и безопасность данных

Как и во всех средствах Foundry, разработчики, использующие службу Распознавания Azure, должны учитывать политики Майкрософт по данным клиентов. Дополнительную информацию см. на странице "Инструменты Foundry" в Центре доверия Microsoft.

Дальнейшие шаги

Приступая к работе с анализом изображений, выполните краткое руководство по выбранному языку разработки и версии API: