Поделиться через


Получение аналитических сведений об обнаружении звуковых эффектов

Обнаружение звуковых эффектов обнаруживает акустические события и классифицирует их в категории, такие как смех, реакция толпы, тревоги или сирены.

Варианты использования звуковых эффектов

  • Улучшение доступности путем предоставления большего контекста для аудитории с нарушением слуха через транскрибирование неговорящих эффектов.
  • Повышение эффективности при создании необработанных данных для создателей контента. Важные моменты в промоакциях и трейлерах, такие как смех, реакции толпы, выстрелы или взрывы, можно определить, например, в медиа и на развлекательных платформах.
  • Обнаруживайте и классифицируйте огнестрельные выстрелы, взрывы и разбитие стекла в интеллектуальной городской системе или в других общественных пространствах, которые включают камеры и микрофоны.

Поддерживаемые категории аудио

Обнаружение звуковых эффектов может обнаруживать и классифицировать эффекты в стандартные и расширенные категории. Дополнительные сведения см. на странице цен.

В следующей таблице показано, какие категории поддерживаются в зависимости от названия предустановки (только аудио / видео + аудио и расширенное аудио / расширенное видео + аудио). При использовании расширенного индексирования категории отображаются на панели "Аналитика" веб-сайта.

Класс Стандартная индексация Расширенная индексация
Реакции толпы ✔️
Тишина ✔️ ✔️
Выстрел или взрыв ✔️
Бьющееся стекло ✔️
Сигнализация или сирена ✔️
Смех ✔️
Собака ✔️
Звон колокола ✔️
Птица ✔️
Автомобиль ✔️
Двигатель ✔️
Плачущий ✔️
Играет музыка ✔️
Кричащий ✔️
Гроза ✔️

Просмотрите данные JSON с помощью веб-портала

После отправки и индексирования видео скачайте аналитические сведения в формате JSON с веб-портала.

  1. Перейдите на вкладку "Библиотека ".
  2. Выберите нужный носитель.
  3. Выберите "Скачать", а затем выберите "Аналитика" (JSON). Файл JSON открывается на новой вкладке браузера.
  4. Найдите пару ключей, описанную в примере ответа.

Использование API

  1. Используйте запрос на получение индекса видео . Передайте &includeSummarizedInsights=false.
  2. Найдите пары ключей, описанные в примере ответа.

Пример отклика

    "audioEffects": [
      {
        "id": 1,
        "type": "Silence",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:01:46.243",
            "adjustedEnd": "0:01:50.434",
            "start": "0:01:46.243",
            "end": "0:01:50.434"
          }
        ]
      },
      {
        "id": 2,
        "type": "Speech",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:01:43.06",
            "start": "0:00:00",
            "end": "0:01:43.06"
          }
        ]
      }
    ]

Внимание

Ознакомьтесь с обзором заметок о прозрачности всех функций VI. Каждая идея также сопровождается собственной заметкой о прозрачности.

Заметки об обнаружении звуковых эффектов

  • Избегайте использования коротких или низкокачественных аудиозаписей, обнаружение несмысловой аудио обеспечивает вероятностные и частичные данные об обнаруженных несмысловых звуковых событиях. Для обеспечения точности обнаружение звуковых эффектов требует как минимум 2 секунды чистого неголосового звука. Голосовые команды или пение не поддерживаются.  
  • Избегайте использования звука с громкой фоновой музыкой или музыкой с повторяющейся и /или линейно сканированной частотой, обнаружение звуковых эффектов предназначено только для неписуемых звуков и поэтому не может классифицировать события в громкой музыке. Музыка с повторяющейся и/или линейно сканированной частотой может быть неправильно классифицирована как тревога или сирена.
  • Чтобы повысить точность вероятностных данных, убедитесь, что:
    • Звуковые эффекты можно обнаружить только в несловесных сегментах.
    • Длительность неразговорного раздела должна составлять не менее 2 секунд.
    • Низкое качество звука может повлиять на результаты обнаружения.
    • События в громкой фоновой музыке не классифицируются.
    • Музыка с повторяющейся и /или линейно сканированной частотой может быть неправильно классифицирована как тревога или сирена.
    • Стук или хлопок дверью может быть воспринято как выстрел или взрыв.
    • Длительные крики или звуки физических усилий человека могут быть неправильно классифицированы.
    • Группа смеющихся людей может быть отнесена как к смеху, так и к толпе.
    • Поддерживаются звуки выстрелов и взрывов, если они естественные и не синтетические.

Компоненты обнаружения звуковых эффектов

Во время процедуры обнаружения звуковых эффектов звук в файле мультимедиа обрабатывается следующим образом:

Компонент Определение
Исходный файл Пользователь отправляет исходный файл для индексирования.
Сегментация Звук анализируется. Неисписуемый звук определяется, а затем разбивается на короткие перекрывающиеся внутренние элементы.
Классификация Процесс искусственного интеллекта анализирует каждый сегмент и классифицирует его содержимое в категории событий, такие как реакция толпы или смех. Затем создается список вероятностей для каждой категории событий в соответствии с правилами, определенными отделом.
Уровень достоверности Предполагаемый уровень достоверности каждого звукового эффекта вычисляется как диапазон от 0 до 1. Оценка достоверности представляет уверенность в точности результата. Например, 82% определенности представлена как оценка 0,82.

Пример кода

См. все примеры для VI


Скрытые субтитры

Звуковые эффекты в файлах с закрытыми субтитрами отображаются как квадратные скобки:

Тип Пример
SRT 00:00:00,000 00:00:03,671
[Выстрел или взрыв]
VTT 00:00:00.000 00:00:03.671
[Выстрел или взрыв]
TTML Достоверность: 0.9047
<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>
ТЕКСТ [Выстрел или взрыв]
CSV 0.9047,00:00:00.000,00:00:03.671, [Выстрел или взрыв]

Примечание.

  • Silence Тип события не добавляется в закрытые субтитры.
  • Минимальная длительность таймера для отображения события составляет 700 миллисекунда.

Добавление звуковых эффектов в закрытые файлы субтитров

интерфейс прикладного программирования (API)

Вы можете добавить звуковые эффекты в файлы закрытых субтитров с помощью запроса "Получить субтитры видео" и установки параметра в includeAudioEffects.

Примечание.

При использовании обновления расшифровки из файлов с закрытыми субтитрами или обновления пользовательской языковой модели из тех же файлов звуковые эффекты, включенные в эти файлы, игнорируются.

Веб-портал

Вы также можете использовать веб-портал, выбрав "Скачать ->Закрытые субтитры ->Включить звуковые эффекты.