Поделиться через


Настройка языковой модели с помощью индексатора видео Azure AI

Индексатор видео Azure AI поддерживает автоматическое распознавание речи благодаря интеграции с пользовательской службой речи Майкрософт. Вы можете настроить языковую модель, загрузив текст адаптации. Этот текст взят из области, словарь которой вы хотели бы, чтобы движок адаптировал к нему. После обучения модели подсистема распознает новые слова, отображаемые в тексте адаптации, предполагая произношение по умолчанию, а языковая модель узнает новые вероятные последовательности слов. См. список языков, поддерживаемых Индексатором видео в Azure AI, на поддерживаемых языках.

Например, Kubernetes (в контексте службы Azure Kubernetes) — это слово, которое очень конкретно. Так как это слово является новым для индексатора видео Azure AI, его признают сообществами. Обучите модель распознавать ее как Kubernetes. В других случаях слова существуют, но языковая модель не ожидает, что они появятся в определенном контексте. Например, служба контейнера — это не последовательность из двух слов, которую неспециализированная языковая модель распознала бы как определенный набор слов.

Существует два способа настройки языковой модели:

  • Вариант 1: Отредактируйте расшифровку, созданную индексатором видео Azure AI. Изменяя и исправляя расшифровку, вы обучаете языковую модель, чтобы обеспечить улучшенные результаты в будущем.
  • Вариант 2: Загрузите текстовые файлы для обучения языковой модели. Файл может содержать список слов в том виде, в каком вы хотите, чтобы они отображались в расшифровке видео Индексатором Azure AI. Или он может содержать соответствующие слова, которые естественным образом включены в предложения и абзацы. По мере достижения лучших результатов с использованием вышеупомянутого подхода, включите в файл загрузки полные предложения или абзацы, относящиеся к вашему содержимому.

Это важно

Не включайте слова или предложения, которые в настоящее время неправильно транскрибированы (например, сообщества) в файл загрузки, так как это включение сводит на нет предполагаемое влияние. Включайте только те слова, как вы хотите, чтобы они отображались (например, Kubernetes).

Оптимизируйте свою пользовательскую языковую модель

Индексатор видео Azure AI обучается на основе вероятностей словосочетаний, поэтому для наилучшего обучения:

  • Приведите достаточно реальных примеров предложений в том виде, в каком они были бы произнесены.
  • Ставьте только одно предложение в строке, не больше. В противном случае система изучает вероятности в предложениях.
  • Это нормально — поставить одно слово в качестве предложения, чтобы усилить слово по сравнению с другими, но система лучше всего учится на полных предложениях.
  • При введении новых слов или аббревиатур, если это возможно, приведите как можно больше примеров использования в полном предложении, чтобы дать как можно больше контекста системе.
  • Попробуйте поставить несколько вариантов адаптации, и посмотрите, как они работают для вас.
  • Избегайте многократного повторения одного и того же предложения. Это может создать предвзятость по отношению к остальной части входных данных.
  • Избегайте включения необычных символов (~, # @ % &), потому что они будут отброшены. Предложения, в которых они отображаются, также удаляются.
  • Избегайте использования входных данных большого объема, таких как сотни тысяч предложений, потому что это разбавляет эффект ускорения.

Предпосылки

  • Учетная запись Azure.
  • Учетная запись индексатора видео Azure AI

Создание языковой модели

  1. Перейдите на веб-сайт Azure AI Video Indexer и войдите.
  2. Чтобы настроить модель в учетной записи, в левой части страницы нажмите кнопку Настройка модели содержимого.
  3. Выберите вкладку Язык . Вы увидите список поддерживаемых языков.
  4. Под нужным языком выберите Добавить модель.
  5. Введите имя для языковой модели и нажмите клавишу Enter. На этом шаге создается модель и предоставляется возможность загрузки текстовых файлов в модель.
  6. Чтобы добавить текстовый файл, выберите Добавить файл. Откроется проводник.
  7. Перейдите к текстовому файлу и выберите его. В языковую модель можно добавить несколько текстовых файлов. Вы также можете добавить текстовый файл, нажав кнопку ... в правой части языковой модели и выбрав Добавить файл.
  8. После завершения загрузки текстовых файлов выберите зеленую опцию «Обучение».

Процесс обучения может занять несколько минут. По завершении обучения обученный отображается рядом с моделью. Вы можете просмотреть, скачать и удалить файл из модели.

Использование языковой модели в новом видео

Чтобы использовать языковую модель в новом видео, выполните одно из следующих действий:

  1. Выберите "Отправить" в верхней части страницы.
  2. Перетащите аудио- или видеофайл или найдите нужный файл.
  3. Выберите созданную языковую модель из списка исходных языков видео .
  4. Выберите параметр "Отправить " в нижней части страницы. Новое видео индексируется с помощью языковой модели.

Использование языковой модели для повторной индексации

  1. Войдите на домашнюю страницу Индексатора видео Azure AI .
  2. Нажмите многоточие (...) на видео, а затем выберите «Переиндексировать».
  3. Выберите список исходных языков видео и выберите созданную языковую модель из списка.
  4. Выберите «Переиндексировать», и ваше видео будет повторно индексировано с использованием вашей языковой модели.

Редактирование языковой модели

Вы можете редактировать языковую модель, изменяя ее имя, добавляя в нее файлы и удаляя из нее файлы. При добавлении или удалении файлов из языковой модели необходимо снова обучить модель, выбрав зеленый параметр "Обучение ".

Переименование языковой модели

Вы можете изменить имя языковой модели, щелкнув многоточие (...) в правой части языковой модели и выбрав Переименовать. Введите новое имя.

Добавление файлов

  1. Выберите Добавить файл. Откроется ваш Проводник файлов.
  2. Перейдите к текстовому файлу и выберите его. В языковую модель можно добавить несколько текстовых файлов.

Вы также можете добавить текстовый файл, нажав кнопку с многоточием (...) в правой части языковой модели и выбрав Добавить файл.

Удаление файлов

Это действие полностью удаляет файл из языковой модели.

  1. Нажмите кнопку с многоточием (...) в правой части текстового файла.
  2. Нажмите кнопку "Удалить". Появится новое окно с сообщением о том, что удаление не может быть отменено.
  3. Выберите опцию «Удалить » в новом окне.

Удаление языковой модели

Это действие удаляет языковую модель из учетной записи. Любое видео, использующее удаленную языковую модель, сохраняет тот же индекс, пока не будет переиндексировано видео. Если вы повторно индексируете видео, вы можете назначить ему новую языковую модель. В противном случае индексатор видео Azure AI использует модель по умолчанию для повторной индексации видео.

  1. Нажмите кнопку с многоточием (...) в правой части диалогового окна Языковая модель.
  2. Нажмите кнопку "Удалить". Появится новое окно с сообщением о том, что удаление не может быть отменено.
  3. Выберите опцию «Удалить » в новом окне.

Настройка языковых моделей путем исправления расшифровок

Индексатор видео Azure AI настраивает языковые модели на основе фактических исправлений, которые пользователи вносят в транскрибирование своих видео. Он захватывает все строки, которые вы исправили в транскрипции вашего видео, и добавляет их в текстовый файл с именем From transcript edits. Эти изменения используются для повторного обучения языковой модели, которая использовалась для индексации видео.

Изменения, внесенные в временную шкалу виджета, также включены.

Если при индексировании этого видео не указана языковая модель, индексатор видео Azure AI сохраняет все изменения для этого видео в языковой модели по умолчанию, вызываемой Account adaptations в пределах обнаруженного языка видео.

При внесении нескольких изменений в одну строку индексатор видео Azure использует только последнюю версию исправленной строки для обновления языковой модели.

Замечание

Для настройки используются только текстовые исправления. Исправления, которые не связаны с реальными словами (например, знаки препинания или пробелы), не включаются.

  1. Выберите видео, которое вы хотите редактировать, из своей медиатеки.
  2. Перейдите на вкладку Временная шкала.
  3. Выберите значок карандаша, чтобы отредактировать расшифровку расшифровки.
  4. Исправления в расшифровке отображаются на вкладке Язык на странице Настройка модели содержимого. Чтобы просмотреть файл "Из изменений расшифровки" для каждой из ваших языковых моделей, выберите его, чтобы открыть.