Поделиться через


Получение аналитических сведений о транскрибировании мультимедиа, переводе и идентификации языка

Функции расшифровки, перевода и идентификации языка обнаруживают, транскрибировать и переводить речь в файлах мультимедиа более чем на 50 языков.

Индексатор видео Azure ИИ (VI) обрабатывает речь в аудиофайле, чтобы извлечь транскрипцию, которая затем переводится на многие языки. При выборе для перевода на определенный язык транскрибирование и аналитические сведения, такие как ключевые слова, разделы, метки или OCR, переводятся на указанный язык. Транскрибирование можно использовать как есть или сочетать с аналитическими сведениями о спикерах, которые сопоставляют и назначают расшифровки говорящим. В звуковом файле можно обнаружить несколько динамиков. Идентификатор назначается каждому докладчику и отображается под их транскрибируемой речью.

Идентификация языка (LID) распознает поддерживаемый доминирующий язык в видеофайле. Дополнительные сведения см. в разделе "Применение LID".

Многоязычная идентификация (MLID) автоматически распознает языки в разных сегментах звукового файла и отправляет каждый сегмент, который будет транскрибирован на определенных языках. В конце этого процесса все транскрибирования объединяются в один файл. Дополнительные сведения см. в разделе "Применение MLID". Полученные данные создаются в категоризированном списке в JSON-файле, включающем идентификатор, язык, транскрибированный текст, длительность и оценку достоверности.

Когда индексатор видео Azure AI индексирует файлы мультимедиа с несколькими динамиками, он выполняет диаризацию говорящего. Он идентифицирует каждого говорящего в видео и назначает каждую транскрибированную строку соответствующему говорящему. Докладчики получают уникальное удостоверение, например говорящего #1 и докладчика #2. Он позволяет идентифицировать докладчиков во время беседы и может быть полезным в различных сценариях, таких как беседы с врачом-пациентом, взаимодействие с агентом и клиентом и судебные разбирательства.

Варианты использования транскрибирования мультимедиа, перевода и идентификации языка

  • Обеспечение доступности для людей с нарушениями слуха с помощью использования Индексатора видео Azure для преобразования речи в текст и перевода на несколько языков.
  • Улучшение распространения контента для различных аудиторий в разных регионах и языках. Доставляйте содержимое на нескольких языках с помощью возможностей транскрибирования и перевода Индексатора видео Azure.
  • Улучшение и улучшение создания субтитров и субтитров вручную. Использует возможности транскрибирования и перевода видео в Azure AI Video Indexer и использует закрытые субтитры, созданные Индексатором видео Azure в одном из поддерживаемых форматов.
  • Использование идентификации языка (LID) или многоязычной идентификации (MLID) для транскрибирования видео на неизвестных языках, чтобы позволить Индексатору видео Azure AI автоматически определять языки, отображаемые в видео, и создавать транскрибирование соответствующим образом.

Откройте JSON с аналитикой с помощью веб-портала

После отправки и индексирования видео скачайте аналитические сведения в формате JSON с веб-портала.

  1. Перейдите на вкладку "Библиотека ".
  2. Выберите нужный носитель.
  3. Выберите "Скачать", а затем выберите "Аналитика" (JSON). Файл JSON открывается на новой вкладке браузера.
  4. Найдите пару ключей, описанную в примере ответа.

Использование API

  1. Используйте запрос на получение индекса видео . Передайте &includeSummarizedInsights=false.
  2. Найдите пары ключей, описанные в примере ответа.

Пример отклика

Все языки, обнаруженные в видео, находятся sourceLanguage в списке, и каждый экземпляр в разделе транскрибирования включает транскрибированные языки.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Внимание

Ознакомьтесь с обзором заметок о прозрачности всех функций VI. Каждая идея также сопровождается собственной заметкой о прозрачности.

Заметки о транскрибировании, переводе и идентификации языка

При ответственном и внимательном использовании Azure AI Video Indexer является ценным инструментом для многих отраслей. Вы всегда должны уважать конфиденциальность и безопасность других лиц, а также соблюдать местные и глобальные правила. Примите во внимание следующие рекомендации.

  • Тщательно рассмотрите точность результатов, чтобы повысить точность данных, проверить качество звука, низкое качество звука может повлиять на обнаруженные аналитические данные.
  • Индексатор видео не выполняет распознавание спикеров, поэтому для спикеров не назначаются идентификаторы в нескольких файлах. Вы не можете искать отдельного оратора в нескольких файлах или расшифровках.
  • Идентификаторы говорящего назначаются случайным образом и могут использоваться только для различения разных динамиков в одном файле.
  • Перекрестные и перекрывающие друг друга речи: когда несколько говорящих говорят одновременно или прерывают друг друга, модели трудно точно различить и привязать правильный текст к соответствующим говорящим.
  • Наложение речи: иногда говорящие могут иметь аналогичные шаблоны речи, акценты или использовать схожий словарь, что затрудняет модели различать их.
  • Шумный звук: плохое качество звука, фоновый шум или низкое качество записи могут препятствовать способности модели правильно идентифицировать и транскрибировать динамики.
  • Эмоциональная речь: эмоциональные вариации речи, такие как крики, плач или крайнее волнение, могут повлиять на способность модели точно отделять речь говорящих.
  • Маскировка или олицетворение говорящего: если говорящий намеренно пытается имитировать или замаскировать свой голос, модель может неправильно определить говорящего.
  • Неоднозначная идентификация говорящего: некоторые сегменты речи могут не иметь достаточно уникальных характеристик для модели, чтобы уверенно атрибутировать конкретному говорящему.
  • Звук, содержащий языки, отличные от выбранных, создает непредвиденные результаты.
  • Минимальная длина сегмента для обнаружения каждого языка составляет 15 секунд.
  • Смещение обнаружения языка составляет 3 секунды в среднем.
  • Предполагается, что речь будет непрерывной. Частые изменения между языками могут повлиять на производительность модели.
  • Речь людей, не являющихся носителями языка, может повлиять на производительность модели (например, когда говорящие используют свой родной язык и переходят на другой язык).
  • Модель предназначена для распознавания спонтанной разговорной речи с разумными аудио-акустическими характеристиками, не для голосовых команд, пения и т. д.
  • Создание и редактирование проекта недоступны для видео с несколькими языками.
  • Пользовательские языковые модели недоступны при обнаружении нескольких языков.
  • Добавление ключевых слов не поддерживается.
  • Указание языка не включается в экспортируемый файл закрытого заголовка.
  • Расшифровка обновления в API не поддерживает несколько файлов языков.
  • Модель предназначена для распознавания спонтанной речи (а не голосовых команд, пения и т. д.).
  • Если индексатор видео Azure AI не может определить язык с достаточной уверенностью (больше 0,6), резервный язык — английский.

Ниже приведен список поддерживаемых языков.

Компоненты расшифровки, перевода и идентификации языка

Во время транскрибирования, преобразования и идентификации языка речь в файле мультимедиа обрабатывается следующим образом:

Компонент Определение
Исходный язык Пользователь отправляет исходный файл для индексирования и либо:
— указывает исходный язык видео.
— выбирает автоматическое обнаружение одного языка (LID), чтобы определить язык файла. Выходные данные сохраняются отдельно.
— выбирает автоматическое обнаружение нескольких языков (MLID), чтобы определить несколько языков в файле. Выходные данные каждого языка сохраняются отдельно.
API транскрибирования Звуковой файл отправляется службам ИИ Azure, чтобы получить транскрибированные и переведенные выходные данные. Если указан язык, он обрабатывается соответствующим образом. Если язык не указан, процесс LID или MLID выполняется для идентификации языка, после которого обрабатывается файл.
Объединение выходных данных Транскрибированные и переведенные файлы объединяются в один и тот же файл. Выходные данные включают идентификатор говорящего каждого извлеченного предложения вместе с уровнем достоверности.
Значение достоверности Предполагаемый уровень достоверности каждого предложения вычисляется как диапазон от 0 до 1. Оценка достоверности представляет уверенность в точности результата. Например, 82% определенности представлена как оценка 0,82.

Пример кода

См. все примеры для VI