Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Функции расшифровки, перевода и идентификации языка обнаруживают, транскрибировать и переводить речь в файлах мультимедиа более чем на 50 языков.
Индексатор видео Azure ИИ (VI) обрабатывает речь в аудиофайле, чтобы извлечь транскрипцию, которая затем переводится на многие языки. При выборе для перевода на определенный язык транскрибирование и аналитические сведения, такие как ключевые слова, разделы, метки или OCR, переводятся на указанный язык. Транскрибирование можно использовать как есть или сочетать с аналитическими сведениями о спикерах, которые сопоставляют и назначают расшифровки говорящим. В звуковом файле можно обнаружить несколько динамиков. Идентификатор назначается каждому докладчику и отображается под их транскрибируемой речью.
Идентификация языка (LID) распознает поддерживаемый доминирующий язык в видеофайле. Дополнительные сведения см. в разделе "Применение LID".
Многоязычная идентификация (MLID) автоматически распознает языки в разных сегментах звукового файла и отправляет каждый сегмент, который будет транскрибирован на определенных языках. В конце этого процесса все транскрибирования объединяются в один файл. Дополнительные сведения см. в разделе "Применение MLID". Полученные данные создаются в категоризированном списке в JSON-файле, включающем идентификатор, язык, транскрибированный текст, длительность и оценку достоверности.
Когда индексатор видео Azure AI индексирует файлы мультимедиа с несколькими динамиками, он выполняет диаризацию говорящего. Он идентифицирует каждого говорящего в видео и назначает каждую транскрибированную строку соответствующему говорящему. Докладчики получают уникальное удостоверение, например говорящего #1 и докладчика #2. Он позволяет идентифицировать докладчиков во время беседы и может быть полезным в различных сценариях, таких как беседы с врачом-пациентом, взаимодействие с агентом и клиентом и судебные разбирательства.
Варианты использования транскрибирования мультимедиа, перевода и идентификации языка
- Обеспечение доступности для людей с нарушениями слуха с помощью использования Индексатора видео Azure для преобразования речи в текст и перевода на несколько языков.
- Улучшение распространения контента для различных аудиторий в разных регионах и языках. Доставляйте содержимое на нескольких языках с помощью возможностей транскрибирования и перевода Индексатора видео Azure.
- Улучшение и улучшение создания субтитров и субтитров вручную. Использует возможности транскрибирования и перевода видео в Azure AI Video Indexer и использует закрытые субтитры, созданные Индексатором видео Azure в одном из поддерживаемых форматов.
- Использование идентификации языка (LID) или многоязычной идентификации (MLID) для транскрибирования видео на неизвестных языках, чтобы позволить Индексатору видео Azure AI автоматически определять языки, отображаемые в видео, и создавать транскрибирование соответствующим образом.
Откройте JSON с аналитикой с помощью веб-портала
После отправки и индексирования видео скачайте аналитические сведения в формате JSON с веб-портала.
- Перейдите на вкладку "Библиотека ".
- Выберите нужный носитель.
- Выберите "Скачать", а затем выберите "Аналитика" (JSON). Файл JSON открывается на новой вкладке браузера.
- Найдите пару ключей, описанную в примере ответа.
Использование API
- Используйте запрос на получение индекса видео . Передайте
&includeSummarizedInsights=false
. - Найдите пары ключей, описанные в примере ответа.
Пример отклика
Все языки, обнаруженные в видео, находятся sourceLanguage
в списке, и каждый экземпляр в разделе транскрибирования включает транскрибированные языки.
"insights": {
"version": "1.0.0.0",
"duration": "0:01:50.486",
"sourceLanguage": "en-US",
"sourceLanguages": [
"es-ES",
"en-US"
],
"language": "en-US",
"languages": [
"en-US"
],
"transcript": [
{
"id": 1,
"text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:05.75",
"start": "0:00:00",
"end": "0:00:05.75"
}
]
},
{
"id": 2,
"text": "Emily Tran, with office graphics.",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:05.75",
"adjustedEnd": "0:00:07.01",
"start": "0:00:05.75",
"end": "0:00:07.01"
}
]
},
Внимание
Ознакомьтесь с обзором заметок о прозрачности всех функций VI. Каждая идея также сопровождается собственной заметкой о прозрачности.
Заметки о транскрибировании, переводе и идентификации языка
При ответственном и внимательном использовании Azure AI Video Indexer является ценным инструментом для многих отраслей. Вы всегда должны уважать конфиденциальность и безопасность других лиц, а также соблюдать местные и глобальные правила. Примите во внимание следующие рекомендации.
- Тщательно рассмотрите точность результатов, чтобы повысить точность данных, проверить качество звука, низкое качество звука может повлиять на обнаруженные аналитические данные.
- Индексатор видео не выполняет распознавание спикеров, поэтому для спикеров не назначаются идентификаторы в нескольких файлах. Вы не можете искать отдельного оратора в нескольких файлах или расшифровках.
- Идентификаторы говорящего назначаются случайным образом и могут использоваться только для различения разных динамиков в одном файле.
- Перекрестные и перекрывающие друг друга речи: когда несколько говорящих говорят одновременно или прерывают друг друга, модели трудно точно различить и привязать правильный текст к соответствующим говорящим.
- Наложение речи: иногда говорящие могут иметь аналогичные шаблоны речи, акценты или использовать схожий словарь, что затрудняет модели различать их.
- Шумный звук: плохое качество звука, фоновый шум или низкое качество записи могут препятствовать способности модели правильно идентифицировать и транскрибировать динамики.
- Эмоциональная речь: эмоциональные вариации речи, такие как крики, плач или крайнее волнение, могут повлиять на способность модели точно отделять речь говорящих.
- Маскировка или олицетворение говорящего: если говорящий намеренно пытается имитировать или замаскировать свой голос, модель может неправильно определить говорящего.
- Неоднозначная идентификация говорящего: некоторые сегменты речи могут не иметь достаточно уникальных характеристик для модели, чтобы уверенно атрибутировать конкретному говорящему.
- Звук, содержащий языки, отличные от выбранных, создает непредвиденные результаты.
- Минимальная длина сегмента для обнаружения каждого языка составляет 15 секунд.
- Смещение обнаружения языка составляет 3 секунды в среднем.
- Предполагается, что речь будет непрерывной. Частые изменения между языками могут повлиять на производительность модели.
- Речь людей, не являющихся носителями языка, может повлиять на производительность модели (например, когда говорящие используют свой родной язык и переходят на другой язык).
- Модель предназначена для распознавания спонтанной разговорной речи с разумными аудио-акустическими характеристиками, не для голосовых команд, пения и т. д.
- Создание и редактирование проекта недоступны для видео с несколькими языками.
- Пользовательские языковые модели недоступны при обнаружении нескольких языков.
- Добавление ключевых слов не поддерживается.
- Указание языка не включается в экспортируемый файл закрытого заголовка.
- Расшифровка обновления в API не поддерживает несколько файлов языков.
- Модель предназначена для распознавания спонтанной речи (а не голосовых команд, пения и т. д.).
- Если индексатор видео Azure AI не может определить язык с достаточной уверенностью (больше 0,6), резервный язык — английский.
Ниже приведен список поддерживаемых языков.
Компоненты расшифровки, перевода и идентификации языка
Во время транскрибирования, преобразования и идентификации языка речь в файле мультимедиа обрабатывается следующим образом:
Компонент | Определение |
---|---|
Исходный язык | Пользователь отправляет исходный файл для индексирования и либо: — указывает исходный язык видео. — выбирает автоматическое обнаружение одного языка (LID), чтобы определить язык файла. Выходные данные сохраняются отдельно. — выбирает автоматическое обнаружение нескольких языков (MLID), чтобы определить несколько языков в файле. Выходные данные каждого языка сохраняются отдельно. |
API транскрибирования | Звуковой файл отправляется службам ИИ Azure, чтобы получить транскрибированные и переведенные выходные данные. Если указан язык, он обрабатывается соответствующим образом. Если язык не указан, процесс LID или MLID выполняется для идентификации языка, после которого обрабатывается файл. |
Объединение выходных данных | Транскрибированные и переведенные файлы объединяются в один и тот же файл. Выходные данные включают идентификатор говорящего каждого извлеченного предложения вместе с уровнем достоверности. |
Значение достоверности | Предполагаемый уровень достоверности каждого предложения вычисляется как диапазон от 0 до 1. Оценка достоверности представляет уверенность в точности результата. Например, 82% определенности представлена как оценка 0,82. |