Поделиться через


Индексатор видео Azure с подсказками LLM

Индексатор видео Azure ai интегрируется с крупными языковыми моделями (LLM). LLM — это модели искусственного интеллекта естественного языка, которые можно использовать для того, чтобы задавать вопросы о видеоконтенте и многом другом. Извлеките аналитические сведения индексатора видео Azure в готовый формат запроса, который можно легко использовать с LLM. Вам не нужно переиндексировать видео, чтобы создать готовый к запросу формат видео.

Запросы LLM можно использовать с индексатором видео Azure AI в облаке или в вашем центре обработки данных с помощью индексатора видео Azure AI, активированного Arc.

Случаи использования

Создание сводки видео. Вы можете попросить модель LLM создать сводки целых видео или сегментов видео. Эти сегменты можно объединить для создания нескольких типов сводок, таких как информативная сводка, тизер или другая сводка в зависимости от ваших потребностей.

Возможность поиска. Преобразовав видеоконтент в текстовый, готовый к запросу формат, вы можете выполнять подробные поиски на естественном языке в видеоконтенте. Это может значительно улучшить обнаружение в больших видеотеках на основе конкретных запросов.

Создание контента: Вы можете искать в видеотеке определенные моменты в ваших видео, связанные с определенными эмоциями или событиями. Например, вы можете получить смешные или печальные моменты из серии видео и использовать это для создания промо или выделения. Аналогичным образом можно получить моменты, связанные с конкретными событиями интереса, такими как "прошлые землетрясения в течение последнего десятилетия".

Учебные цели: создание сводок из видео лекции, чтобы упростить изучение и понимание материала учащимся. Учащиеся также могут задавать конкретные вопросы, связанные с материалом лекции. Вы можете обратиться к точной части видео, в котором рассматривается статья, что делает опыт обучения более эффективным.

Интерактивные интерфейсы. Вы можете создавать интерактивные интерфейсы, такие как чат-боты на основе видео или виртуальные помощники, которые могут отвечать на запросы пользователей на основе содержимого видео.

Принцип работы

Чтобы выходные данные были готовы к запросу, видео разделено на последовательные разделы, которые соответствуют как сути видео, так и размеру запроса. Разделы разделены на основе сегментации сцен с помощью Видео Индексатора Azure ИИ и других аналитических данных. Результаты содержимого запроса консолидируются и генерируются отдельно для каждого сегмента. Например:

Инсайты

В следующей таблице содержится информация, используемая для создания подсказок.

Vi Insights Тег и формат
Название видео [Название видео] <название видео>
Обнаружение объектов [Обнаруженные объекты] <объект 1>, <объект 2>, ...
Наклейки [Визуальные метки] <метка 1>, <метка 2>, ...
оптическое распознавание символов (OCR) [OCR] <ocr cluster1><ocr cluster2> ...
Транскрипция и спикеры [Транскрибирование] <имя говорящего>: <строки транскрипта>\n<имя говорящего>: <строки транскрипта>\n ...
Лица [Известные люди] <лицо 1>, <лицо 2>, ...
Звуковые эффекты (AED) [Звуковые эффекты] < эффект 1>, <эффект 2>, ...
Позиция сегмента в видео [Теги] [Начало, середина, конец, финальные титры]

Создайте контент для видео

Используйте API содержимого запроса в индексируемом видео, чтобы получить формат "Готово к запросу" для каждого сегмента.

Примечание.

Аналитика содержимого запроса связана с конкретной предустановкой, используемой для индексирования видео.

  • Чтобы сгенерировать API содержимого подсказки, используйте запрос POST Create Prompt Content API.
  • Чтобы просмотреть содержимое запроса, используйте запрос API Get PromptContent .

Пример запроса

Используйте идентификатор учетной записи AVI и идентификатор видео.

POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent

Пример отклика

index
{
  "algoVersion": "2.0.0",
  "schemaVersion": "0.0.1",
  "partition": null,
  "name": "10_best_dressed_grammy",
  "sections": [
    {
      "id": 0,
      "start": "0:00:00",
      "end": "0:00:40.915875",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY

 CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
    },
    {
      "id": 1,
      "start": "0:00:40.915875",
      "end": "0:01:17.202125",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
    },
}

Проверка состояния задания

Выполнение задания с подсказкой занимает несколько минут. Если вы хотите проверить состояние задания, можно использовать запрос API Get Job Status.

Использование ключевых кадров для визуального запроса LLM

Запрос содержимого подсказки поддерживает языковые модели, которые могут использовать визуальный ввод в запросах. При выборе модели GPT-4V можно включить ключевые кадры в качестве части запроса, предоставленного модели. Кадры, возвращаемые в ответе на содержимое запроса, представляют ключевые кадры из видео. Эта функция рекомендуется для видео с ограниченной или отсутствующей расшифровкой, либо когда требуется предоставить языковой модели дополнительный контекст для повышения её эффективности.

Создайте и отправьте запрос на содержание.

Как описано ранее, текстовое содержимое запроса находится в ответе JSON. Каждая строка в части "кадров" ответа JSON является идентификатором ключевого кадра. Получите миниатюру видео. ThumbnailId — это FrameId из содержимого запроса. После того как вы получите текстовое содержимое и ключевые кадры, их можно объединить для использования в качестве подсказок для выбранной вами модели ИИ.

Ограничения

Функция запроса оптимизирована для видео, содержащих максимальное количество аналитических сведений.