Поделиться через


Индексатор видео Azure с запросами LLM

Обзор

Индексатор видео Azure ai интегрируется с крупными языковыми моделями (LLM). LLM — это модели искусственного интеллекта естественного языка, которые можно использовать для получения вопросов о видеоконтенте и многое другое. Извлеките аналитические сведения индексатора видео Azure в готовый формат запроса, который можно легко использовать с LLM. Вам не нужно переиндексировать видео, чтобы создать готовый к запросу формат видео.

Варианты использования

Создание сводки видео. Вы можете попросить модель LLM создать сводки целых видео или сегментов видео. Эти сегменты можно объединить для создания нескольких типов сводок, таких как информативная сводка, тизер или другая сводка в зависимости от ваших потребностей.

Возможность поиска. Преобразовав видеоконтент в текстовый, готовый к запросу формат, вы можете выполнять подробные поиски на естественном языке в видеоконтенте. Это может значительно улучшить обнаружение в больших видеотеках на основе конкретных запросов.

Создание содержимого. Вы можете запросить видеотеку для определенных моментов в видео, связанных с определенными эмоциями или событиями. Например, вы можете получить "смешные" или "грустные" моменты из серии видео и использовать это для создания промо или выделения. Аналогичным образом можно получить моменты, связанные с конкретными событиями интереса, такими как "прошлые землетрясения в течение последнего десятилетия".

Учебные цели: создание сводок из видео лекции, чтобы упростить изучение и понимание материала учащимся. Учащиеся также могут задавать конкретные вопросы, связанные с материалом лекции. Вы можете обратиться к точной части видео, в котором рассматривается статья, что делает опыт обучения более эффективным.

Интерактивные интерфейсы. Вы можете создавать интерактивные интерфейсы, такие как чат-боты на основе видео или виртуальные помощники, которые могут отвечать на запросы пользователей на основе содержимого видео.

Принцип работы

Чтобы выходные данные были готовы к запросу, видео разделено на последовательные разделы, которые соответствуют как сути видео, так и размеру запроса. Разделы разделены на основе сегментации сцены индексатора видео в Azure ИИ и других аналитических сведений. Результаты содержимого запроса объединяются и создаются отдельно для каждого сегмента. Например:

Аналитические выводы (Insights)

В следующей таблице содержатся аналитические сведения, используемые для создания запросов.

Vi Insights Тег и формат
Название видео [Название видео] <название видео>
Обнаружение объектов [Обнаруженные объекты] <объект 1>, <объект 2>, ...
Наклейки [Визуальные метки] <метка 1>, <метка 2>, ...
OCR [OCR] <ocr cluster1><ocr cluster2> ...
Транскрибирование и динамики [Транскрибирование] <имя>> говорящего: <транскрибирование строк>\n<говорящего: <строки> расшифровки\n ...
Лица [Известные люди] <лицо 1>, <лицо 2>, ...
Звуковые эффекты (AED) [Звуковые эффекты] < эффект 1>, <эффект 2>, ...
Позиция сегмента в видео [Теги] [Начало, средний, конец, скользящей кредиты]

Создание содержимого запроса для видео

Используйте API содержимого запроса в индексируемом видео, чтобы получить формат "Готово к запросу" для каждого сегмента.

Примечание.

Аналитика содержимого запроса применяется к определенному предварительному набору, используемому для индексирования видео.

Пример запроса

Используйте идентификатор учетной записи AVI и идентификатор видео.

POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent

Пример отклика

index
{
  "algoVersion": "2.0.0",
  "schemaVersion": "0.0.1",
  "partition": null,
  "name": "10_best_dressed_grammy",
  "sections": [
    {
      "id": 0,
      "start": "0:00:00",
      "end": "0:00:40.915875",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY

 CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
    },
    {
      "id": 1,
      "start": "0:00:40.915875",
      "end": "0:01:17.202125",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
    },
}

Проверка состояния задания

Выполнение задания запроса занимает несколько минут. Если вы хотите проверить состояние задания, можно использовать запрос на получение состояния задания.

Использование ключевых кадров для визуального запроса большой языковой модели

Запрос содержимого запроса на запрос запроса поддерживает языковые модели, которые могут использовать визуальные входные данные в запросах. При выборе модели GPT-4V можно включить ключевые кадры в качестве части запроса, предоставленного модели. Кадры, возвращаемые в ответе на содержимое запроса, представляют ключевые кадры из видео. Эта функция рекомендуется для видео с ограниченными или без расшифровки видео или если требуется предоставить дополнительный контекст языковой модели, чтобы улучшить результаты.

Создание и отправка запроса на содержимое запроса на запрос

Как описано выше, текстовое содержимое запроса находится в ответе JSON. Каждая строка в части "кадров" ответа JSON является идентификатором ключевого кадра. Используйте эскиз видео, эскиз эскиза — frameId из содержимого запроса. После получения текстового содержимого и артефактов ключевых кадров их можно объединить в качестве запросов для выбранной модели ИИ.

Ограничения

Функция запроса оптимизирована для видео, содержащих максимальное количество аналитических сведений.