Azure Content Understanding в видео-решениях Foundry Tools

Важно

Предварительные версии API 2024-12-01-preview и 2025-05-01-preview будут прекращены 15 июля 2026 г. Если вы по-прежнему используете API предварительной версии, обновите код, чтобы выбрать последнюю версию 2025-11-01 (GA)API.

Версии 2024-12-01-preview API и 2025-05-01-preview доступны в общедоступной предварительной версии. Эти предварительные версии предоставляются без соглашения об уровне обслуживания и не рекомендуются для использования в продуктивной среде. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews и Microsoft Products and Services Data Protection Addendum (DPA).

Azure Распознавание контента позволяет создавать стандартный набор метаданных видео и создавать настраиваемые поля для конкретного варианта использования с помощью формируемых моделей. Понимание содержимого помогает управлять, классифицировать, извлекать и создавать рабочие процессы для видеоматериалов. Она улучшает библиотеку ресурсов мультимедиа, поддерживает такие функции, как генерация ключевых моментов, классификация содержимого и функции, такие как генерация, дополненная извлечением (RAG).

Иллюстрация процесса обработки видео для понимания контента.

Предварительно собранный видеоанализатор (prebuilt-videoAnalysis) выводит выходные данные, готовые для RAG. В Markdown выводится следующее:

Стенограмма: Встроенные расшифровки в стандартном формате WEBVTT
Ключевые кадры: Организованные миниатюры ключевых кадров, которые позволяют более глубокий анализ

И схема JSON содержит дополнительные сведения из визуального анализа.

Описание: Описания сегментов естественного языка с визуальным и речевым контекстом
Сегментации: Автоматическое сегментирование сцены, разбивающая видео на логические блоки на основе категорий, которые вы определяете

Этот формат может напрямую попасть в векторное хранилище, чтобы активировать рабочий процесс агента или RAG — постобработка не требуется.

Оттуда можно настроить анализатор для более точного управления выходными данными. Можно определить настраиваемые поля и сегменты. Настройка позволяет использовать полную мощность генеративных моделей для получения глубоких инсайтов из визуальных и аудиодеталей видео.

Например, настройка позволяет:

Определите настраиваемые поля: чтобы определить, какие продукты и бренды отображаются или упоминаются в видео.
Создание пользовательских сегментов: деление новостной трансляции на главы на основе обсуждаемых тем или новостных сюжетов.
Определите видных людей с помощью описания лица: что позволяет клиенту пометить знаменитостей в кадрах с именем и заголовком на основе знаний мира генерирующей модели, например Satya Nadella.

Зачем использовать понимание содержимого для видео?

Понимание содержимого для видео имеет широкий потенциал использования. Например, можно настроить метаданные для тегов определенных сцен в обучаемом видео, что упрощает поиск и пересмотр важных разделов сотрудникам. Вы также можете использовать настройку метаданных для идентификации размещения продуктов в рекламных видео, что помогает маркетинговым командам анализировать воздействие бренда. К другим вариантам использования относятся:

Широковещательные средства массовой информации и развлечения: Управление большими библиотеками шоу, фильмов и клипов путем создания подробных метаданных для каждого ресурса.
Образование и электронное обучение: Индексирование и извлечение определенных моментов в учебных видео или лекциях.
Корпоративная подготовка: Упорядочивайте обучающие видео по ключевым темам, сценам или важным моментам.
Маркетинг и реклама: Анализ рекламных видеороликов для извлечения продуктового размещения, появления брендов и ключевых сообщений.

Пример предварительно созданного видеоанализатора

С помощью предварительно созданного видеоаналитика (prebuilt-videoSearch) вы можете загрузить видео и сразу же получить готовый к использованию информационный актив. Эта служба упаковывает содержимое в форматы с богатым оформлением Markdown и JSON. Этот процесс позволяет индексу поиска или чат-агенту обрабатывать содержимое без настраиваемого кода для интеграции.

Например, вызов анализатора, предназначенного для извлечения с дополнением генерации для видео prebuilt-videoSearch. Дополнительные сведения см. в кратком руководстве по REST API .

Анализ 30-секундного рекламного видео производит следующие выходные данные:

  # Video: 00:00.000 => 00:06.000
  A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.

  Transcript

  WEBVTT

  00:03.600 --> 00:06.000
  <Speaker 1>Get new years ready.

  Key Frames
  - 00:00.600 ![](keyFrame.600.jpg)
  - 00:01.200 ![](keyFrame.1200.jpg)

  ## Video: 00:06.000 => 00:10.080
  The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.

  Transcript

  WEBVTT

  00:03.600 --> 00:06.000
  <Speaker 1>Go team!

  Key Frames
  - 00:06.200 ![](keyFrame.6200.jpg)
  - 00:07.080 ![](keyFrame.7080.jpg)

     *…additional data omitted for brevity…*

Пошаговое руководство

См. следующее пошаговое руководство по RAG на видео с использованием функции "Понимание содержания".

RAG на видео с помощью Azure распознавания содержимого

Примечание

Возможности идентификации лиц и группирования доступны только в предварительной версии API и не включены в выпуск общедоступной версии.

Два этапа преобразуют необработанное видео в структурированную аналитику. На следующей схеме показано, как извлечение содержимого переходит в извлечение полей.

Снимок экрана: поток видеоанализатора.

Служба работает на двух этапах. Первый этап извлечения содержимого включает захват базовых метаданных, таких как расшифровки и снимки. Второй этап, извлечение полей, использует созданную модель для создания настраиваемых полей и выполнения сегментации.

Возможности извлечения содержимого

Первый проход заключается в извлечении первого набора деталей - кто говорит и где сокращения. Он создает надежную основу метаданных, на основе которой могут основываться последующие шаги.

Транскрипции: Преобразует аудиозапись беседы в доступные для поиска и анализируемые текстовые расшифровки в формате WebVTT. Метки времени на уровне предложения доступны, если "returnDetails": true задано. Понимание контента поддерживает полный набор языков аудиозаписи в Azure Speech для преобразования речи в текст в инструментах Foundry. Сведения о поддержке языка видео совпадают с звуком, см. в разделе "Обработка речи аудио ". Для рассмотрения важны следующие сведения о транскрибировании:
- Диаризация: Различает говорящих в беседе в результатах, приписывая части стенограммы конкретным говорящим.
- Многоязычное транскрибирование: Создает многоязычные расшифровки. Язык или локаль применяются для любой фразы в транскрипции. Фразы выводятся, когда "returnDetails": true задан. Эта функция активируется в обход обнаружения языка, если язык или региональный стандарт не указаны, либо если язык установлен на auto.
  
  Примечание
  
  При использовании многоязычного транскрибирования все файлы с неподдерживаемыми локалями создают результат на основе ближайшей поддерживаемой локали, который, скорее всего, будет неверным. Это известное поведение. Избегайте проблем с качеством транскрибирования, тщательно настраивая языковые стандарты, если не используете языковой стандарт, поддерживаемый многоязычным транскрибированием.
- Извлечение ключевых кадров: Извлекает ключевые кадры из видео, чтобы представить каждый снимок полностью, обеспечивая достаточное количество ключевых кадров для эффективной обработки.
- Обнаружение кадра: Определяет сегменты видео, выровненные с границами кадров, что позволяет точно редактировать и перепаковывать содержимое с паузами в местах уже существующих монтажей. Результат — это список временных меток в миллисекундах cameraShotTimesMs. Выходные данные возвращаются только когда "returnDetails": true установлен.

Извлечение и сегментация полей

Затем модель генерации добавляет теги сценам, подводит итоги действий и разрезает материалы на сегменты по вашему запросу. Это действие превращает запросы в структурированные данные.

Настраиваемые поля

Настройте выходные данные в соответствии с вашим деловым словарём. fieldSchema Используйте объект, в котором каждая запись определяет имя, тип и описание поля. Во время выполнения генерируемая модель заполняет эти поля для каждого сегмента.

Управление ресурсами мультимедиа:
- Категория видео: Помогает редакторам и продюсерам упорядочивать содержимое, классифицируя его как Новости, Спорт, Интервью, Документальный фильм или реклама. Полезно для тегирования метаданных, ускоренной фильтрации и извлечения содержимого.
- Цветовая схема: Передает настроение и атмосферу, важную для согласованности повествования и участия зрителей. Определение цветовой темы помогает найти соответствующие клипы для ускорения редактирования видео.
Рекламы:
- Бренд: Определяет присутствие бренда, критическое для анализа влияния рекламы, видимости бренда и связи с продуктами. Эта возможность позволяет рекламодателям оценивать фирменное значение и обеспечивать соответствие рекомендациям по фирменной символичности.
- Категории объявлений: Классифицирует типы объявлений по отрасли, типу продукта или сегменту аудитории, который поддерживает целевые стратегии рекламы, классификацию и анализ производительности.

Примере:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Поля описания лиц

Примечание

Эта функция имеет ограниченный доступ; клиентам необходимо запросить отключение размытия лиц для моделей OpenAI Azure через запрос в поддержку Azure. Узнайте больше Управление запросом в службу поддержки Azure.

Возможность распознавания можно опционально улучшить, чтобы предоставить подробные описания лиц в видео. Эта возможность включает такие атрибуты, как волосы лица, выражение лица и присутствие знаменитостей, которые могут быть важными для различных аналитических и индексирования целей. Чтобы включить возможности описания лиц, установите disableFaceBlurring : true в конфигурации анализатора.

Примеры:

Пример поля: facialHairDescription: Описывает тип волос лица (например, , beard, mustacheclean-shaven)
Пример поля: nameOfProminentPerson: Предоставляет имя, если возможно знаменитость в видео (например, Satya Nadella)
Пример поля: faceSmilingFrowning: Предоставляет описание того, улыбается ли человек или хмурится

Режим сегментации

Примечание

Установка сегментации будет использовать генеративную модель, потребляя токены, даже при отсутствии определённых полей.

Понимание содержимого предлагает два способа срезать видео, позволяя получить выходные данные, необходимые для целых видео или коротких клипов. Указанные параметры можно использовать, установив свойство enableSegment для пользовательского анализатора.

Весь видео — enableSegment : false служба обрабатывает весь видеофайл как один сегмент и извлекает метаданные в течение полной длительности.

Варианты использования:
- Проверка соответствия требованиям для поиска конкретных проблем с фирменной безопасностью в любом месте рекламы
- полные описательные резюме
Настраиваемое сегментирование — enableSegment : true вы описываете логику на естественном языке, а модель создает сегменты для сопоставления. Задайте contentCategories строку, описывающую сегментирование видео. Пользовательская настройка позволяет устанавливать сегменты различной длины - от секунд до минут, в зависимости от запроса. В этой версии видео поддерживает только один contentCategories объект.

Пример: Разделите новостную трансляцию на отдельные сюжеты.
```
{
  "config": {
    "enableSegment": true,
    "contentCategories": {
      "news-story": { 
      "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.",
      "analyzerId": "NewsAnalyzer"
      }         
    }
  }
}
```

Ключевые преимущества

Понимание содержимого обеспечивает несколько ключевых преимуществ по сравнению с другими решениями для анализа видео:

Многокадровый сегментный анализ: Определение действий, событий, тем путем анализа нескольких кадров из каждого сегмента видео, а не отдельных кадров.
Настройки: Настройте поля и сегментацию, создаваемые путем изменения схемы в соответствии с конкретным вариантом использования.
Генеривные модели: Описать на естественном языке, какое содержимое нужно извлечь, и Content Understanding использует генеривные модели для извлечения метаданных.
Оптимизированная предварительная обработка: Выполните несколько этапов предварительной обработки извлечения содержимого, таких как транскрибирование и обнаружение сцены, оптимизированные для обеспечения полного контекста для моделей создания ИИ.

Технические ограничения и лимитации

Конкретные ограничения обработки видео следует учитывать:

Выборка кадра (~ 1 FPS): анализатор проверяет около одного кадра в секунду. Быстрые движения или однокадровые события могут быть пропущены.
Разрешение кадров (512 × 512 пикселей): выбранные кадры изменяются до размера 512 на 512 пикселей. Малый текст или удаленные объекты могут быть потеряны.
Речь: транскрибируются только слова. Музыка, звуковые эффекты и внешний шум игнорируются.

Требования к входным данным

Поддерживаемые форматы см. в разделе "Квоты и ограничения службы".

Поддерживаемые языки и регионы

См. раздел поддержки языка и региона.

Конфиденциальность и безопасность данных

Как и во всех инструментах Foundry, ознакомьтесь с документацией Microsoft по защите данных и конфиденциальности.

Важно

Если вы обрабатываете биометрические данные (например, включите описание лиц), необходимо выполнить все уведомления, согласие и удаление в соответствии с применимыми законами. См. Данные и конфиденциальность для лиц.

Попробуйте анализировать видео в Content Understanding Studio.
Ознакомьтесь с кратким руководством по Content Understanding Studio.
Дополнительные сведения об анализе видеосодержимого с помощью шаблонов анализаторов.
Образцы:
- записная книжка для извлечения видео-контента
- Видео поиск с запросами естественного языка
- Шаблоны Analyzer

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-05-08

Azure Content Understanding в видео-решениях Foundry Tools

Зачем использовать понимание содержимого для видео?

Пример предварительно созданного видеоанализатора

Пошаговое руководство

Возможности

Возможности извлечения содержимого

Извлечение и сегментация полей

Настраиваемые поля

Поля описания лиц

Режим сегментации

Ключевые преимущества

Технические ограничения и лимитации

Требования к входным данным

Поддерживаемые языки и регионы

Конфиденциальность и безопасность данных

Связанное содержимое

Обратная связь

Дополнительные ресурсы