Получение аналитических сведений о транскрибировании мультимедиа, переводе и идентификации языка

2025-06-05

Функции расшифровки, перевода и идентификации языка обнаруживают, транскрибировать и переводить речь в файлах мультимедиа более чем на 50 языков.

Индексатор видео Azure ИИ (VI) обрабатывает речь в аудиофайле, чтобы извлечь транскрипцию, которая затем переводится на многие языки. При выборе для перевода на определенный язык транскрибирование и аналитические сведения, такие как ключевые слова, разделы, метки или OCR, переводятся на указанный язык. Транскрибирование можно использовать как есть или сочетать с аналитическими сведениями о спикерах, которые сопоставляют и назначают расшифровки говорящим. В звуковом файле можно обнаружить несколько динамиков. Идентификатор назначается каждому докладчику и отображается под их транскрибируемой речью.

Идентификация языка (LID) распознает поддерживаемый доминирующий язык в видеофайле. Дополнительные сведения см. в разделе "Применение LID".

Многоязычная идентификация (MLID) автоматически распознает языки в разных сегментах звукового файла и отправляет каждый сегмент, который будет транскрибирован на определенных языках. В конце этого процесса все транскрибирования объединяются в один файл. Дополнительные сведения см. в разделе "Применение MLID". Полученные данные создаются в категоризированном списке в JSON-файле, включающем идентификатор, язык, транскрибированный текст, длительность и оценку достоверности.

Когда индексатор видео Azure AI индексирует файлы мультимедиа с несколькими динамиками, он выполняет диаризацию говорящего. Он идентифицирует каждого говорящего в видео и назначает каждую транскрибированную строку соответствующему говорящему. Докладчики получают уникальное удостоверение, например говорящего #1 и докладчика #2. Он позволяет идентифицировать докладчиков во время беседы и может быть полезным в различных сценариях, таких как беседы с врачом-пациентом, взаимодействие с агентом и клиентом и судебные разбирательства.

Варианты использования транскрибирования мультимедиа, перевода и идентификации языка

Обеспечение доступности для людей с нарушениями слуха с помощью использования Индексатора видео Azure для преобразования речи в текст и перевода на несколько языков.
Улучшение распространения контента для различных аудиторий в разных регионах и языках. Доставляйте содержимое на нескольких языках с помощью возможностей транскрибирования и перевода Индексатора видео Azure.
Улучшение и улучшение создания субтитров и субтитров вручную. Использует возможности транскрибирования и перевода видео в Azure AI Video Indexer и использует закрытые субтитры, созданные Индексатором видео Azure в одном из поддерживаемых форматов.
Использование идентификации языка (LID) или многоязычной идентификации (MLID) для транскрибирования видео на неизвестных языках, чтобы позволить Индексатору видео Azure AI автоматически определять языки, отображаемые в видео, и создавать транскрибирование соответствующим образом.

Откройте JSON с аналитикой с помощью веб-портала

После отправки и индексирования видео скачайте аналитические сведения в формате JSON с веб-портала.

Перейдите на вкладку "Библиотека ".
Выберите нужный носитель.
Выберите "Скачать", а затем выберите "Аналитика" (JSON). Файл JSON открывается на новой вкладке браузера.
Найдите пару ключей, описанную в примере ответа.

Использование API

Используйте запрос на получение индекса видео . Передайте &includeSummarizedInsights=false.
Найдите пары ключей, описанные в примере ответа.

Пример отклика

Все языки, обнаруженные в видео, находятся sourceLanguage в списке, и каждый экземпляр в разделе транскрибирования включает транскрибированные языки.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Внимание

Ознакомьтесь с обзором заметок о прозрачности всех функций VI. Каждая идея также сопровождается собственной заметкой о прозрачности.

Заметки о транскрибировании, переводе и идентификации языка

При ответственном и внимательном использовании Azure AI Video Indexer является ценным инструментом для многих отраслей. Вы всегда должны уважать конфиденциальность и безопасность других лиц, а также соблюдать местные и глобальные правила. Примите во внимание следующие рекомендации.

Тщательно рассмотрите точность результатов, чтобы повысить точность данных, проверить качество звука, низкое качество звука может повлиять на обнаруженные аналитические данные.
Индексатор видео не выполняет распознавание спикеров, поэтому для спикеров не назначаются идентификаторы в нескольких файлах. Вы не можете искать отдельного оратора в нескольких файлах или расшифровках.
Идентификаторы говорящего назначаются случайным образом и могут использоваться только для различения разных динамиков в одном файле.
Перекрестные и перекрывающие друг друга речи: когда несколько говорящих говорят одновременно или прерывают друг друга, модели трудно точно различить и привязать правильный текст к соответствующим говорящим.
Наложение речи: иногда говорящие могут иметь аналогичные шаблоны речи, акценты или использовать схожий словарь, что затрудняет модели различать их.
Шумный звук: плохое качество звука, фоновый шум или низкое качество записи могут препятствовать способности модели правильно идентифицировать и транскрибировать динамики.
Эмоциональная речь: эмоциональные вариации речи, такие как крики, плач или крайнее волнение, могут повлиять на способность модели точно отделять речь говорящих.
Маскировка или олицетворение говорящего: если говорящий намеренно пытается имитировать или замаскировать свой голос, модель может неправильно определить говорящего.
Неоднозначная идентификация говорящего: некоторые сегменты речи могут не иметь достаточно уникальных характеристик для модели, чтобы уверенно атрибутировать конкретному говорящему.
Звук, содержащий языки, отличные от выбранных, создает непредвиденные результаты.
Минимальная длина сегмента для обнаружения каждого языка составляет 15 секунд.
Смещение обнаружения языка составляет 3 секунды в среднем.
Предполагается, что речь будет непрерывной. Частые изменения между языками могут повлиять на производительность модели.
Речь людей, не являющихся носителями языка, может повлиять на производительность модели (например, когда говорящие используют свой родной язык и переходят на другой язык).
Модель предназначена для распознавания спонтанной разговорной речи с разумными аудио-акустическими характеристиками, не для голосовых команд, пения и т. д.
Создание и редактирование проекта недоступны для видео с несколькими языками.
Пользовательские языковые модели недоступны при обнаружении нескольких языков.
Добавление ключевых слов не поддерживается.
Указание языка не включается в экспортируемый файл закрытого заголовка.
Расшифровка обновления в API не поддерживает несколько файлов языков.
Модель предназначена для распознавания спонтанной речи (а не голосовых команд, пения и т. д.).
Если индексатор видео Azure AI не может определить язык с достаточной уверенностью (больше 0,6), резервный язык — английский.

Ниже приведен список поддерживаемых языков.

Компоненты расшифровки, перевода и идентификации языка

Во время транскрибирования, преобразования и идентификации языка речь в файле мультимедиа обрабатывается следующим образом:

Компонент	Определение
Исходный язык	Пользователь отправляет исходный файл для индексирования и либо: — указывает исходный язык видео. — выбирает автоматическое обнаружение одного языка (LID), чтобы определить язык файла. Выходные данные сохраняются отдельно. — выбирает автоматическое обнаружение нескольких языков (MLID), чтобы определить несколько языков в файле. Выходные данные каждого языка сохраняются отдельно.
API транскрибирования	Звуковой файл отправляется службам ИИ Azure, чтобы получить транскрибированные и переведенные выходные данные. Если указан язык, он обрабатывается соответствующим образом. Если язык не указан, процесс LID или MLID выполняется для идентификации языка, после которого обрабатывается файл.
Объединение выходных данных	Транскрибированные и переведенные файлы объединяются в один и тот же файл. Выходные данные включают идентификатор говорящего каждого извлеченного предложения вместе с уровнем достоверности.
Значение достоверности	Предполагаемый уровень достоверности каждого предложения вычисляется как диапазон от 0 до 1. Оценка достоверности представляет уверенность в точности результата. Например, 82% определенности представлена как оценка 0,82.

Пример кода

См. все примеры для VI