Распознавание содержимого Azure в звуковых решениях средств Foundry

Аудиоанализаторы позволяют выполнять транскрипцию и диаризацию для разговорного аудио, а также извлекать структурированные поля, такие как сводки, тональность и ключевые темы. Настройте шаблон аудиоанализатора для ваших потребностей на портале Foundry , чтобы начать создавать результаты.

Ниже приведены распространенные сценарии обработки аудиоданных беседы:

Получите аналитические сведения о клиентах с помощью анализа сводных данных и анализа тональности.
Оценка и проверка качества звонков и соответствия в центрах вызовов.
Создание автоматических сводок и метаданных для публикации podcast.

Возможности анализатора звука

Распознавание содержимого служит краеугольным камнем для решений службы "Аналитика речи", что позволяет использовать следующие возможности для аудиофайлов:

Извлечение содержимого

Извлечение аудиоконтентного содержимого транскрибирует звуковые файлы. Он может разделить расшифровку по говорящему и использовать дополнительные функции, такие как обнаружение ролей для сопоставления говорящего с значимыми ролями. Вы также можете запросить подробные результаты, такие как метки времени на уровне слов.

Обработка языка

Content Understanding поддерживает различные варианты обработки языка во время транскрибирования.

В следующей таблице представлен обзор параметров, которые контролирует конфигурация locales.

Настройка региона	Размер файла	Поддерживаемая обработка	Поддерживаемые локали	Задержка результатов
автоматическое или пустое	≤ 300 МБ или ≤ 2 часа	Многоязычное транскрибирование	`de-DE` `en-AU`, `en-CAen-GBen-INen-USes-ESes-MXfr-CAfr-FRhi-INit-ITja-JPko-KRzh-CN`	Почти в режиме реального времени
автоматическое или пустое	> 300 МБ и > 2 часа, ≤ 4 часа	Многоязычное транскрибирование	`en-US`, `es-ES`, `es-MXfr-FRhi-INit-ITja-JPko-KRpt-BRzh-CN`	Обычный
одна локаль	≤ 1 ГБ или ≤ 4 часа	Одноязычное транскрибирование	Все поддерживаемые локали[^1]	• ≤ 300 МБ или ≤ 2 часа: почти в режиме реального времени • > 300 МБ и > 2 часа, ≤ 4 часа: стандартный
несколько локалей	≤ 1 ГБ или ≤ 4 часа	Одноязычное транскрибирование (на основе обнаружения языка)	Все поддерживаемые локали[^1]	• ≤ 300 МБ или ≤ 2 часа: почти в режиме реального времени • > 300 МБ и > 2 часа, ≤ 4 часа: стандартный

[^1]. Распознавание содержимого поддерживает полный набор языков распознавания речи Azure Speech в средствах Foundry. Для языков с поддержкой быстрого транскрибирования и файлов ≤ 300 МБ и(или) ≤ 2 часа время транскрибирования значительно сокращается.

Транскрипция. Преобразует аудиозапись беседы в доступные для поиска и анализируемые текстовые расшифровки в формате WebVTT. Настраиваемые поля можно создать из данных транскрибирования. Метки времени уровня предложения и уровня слова доступны по запросу.
Диаризация. Различает говорящих в беседе, приписывая части текста конкретным ораторам.
Распознавание роли говорящего. Определяет роли агента и клиента в контактных данных центра звонков.
Многоязычное транскрибирование. Генерирует многоязычные транскрипции и применяет язык и региональные настройки для каждой фразы. Эта функция включается, если вы не указываете язык или региональные настройки, или если locales установлено на auto.

Замечание

При использовании многоязычного транскрибирования файлы с неподдерживаемыми языковыми стандартами могут привести к результату на основе самого близкого поддерживаемого языка, который, возможно, окажется неправильным. Это поведение является ожидаемым.

Чтобы избежать проблем с качеством транскрибирования, настройте, locales если не используется многоязычное транскрибирование.

Определение языка. Автоматически обнаруживает доминирующий язык или языковой стандарт и использует его для транскрибирования файла. Укажите несколько локалей для включения обнаружения языка.

Извлечение полей

Извлечение полей позволяет извлекать структурированные данные из звуковых файлов, таких как сводки, тональности и упомянутые сущности из журналов вызовов. Сначала можно настроить рекомендуемый шаблон анализатора или создать его с нуля.

Ключевые преимущества

Расширенные возможности звука, в том числе:

Настраиваемое извлечение данных. Настройте выходные данные в соответствии с вашими потребностями, изменив схему поля, что позволяет точно создавать и извлекать данные.
Генеривные модели. Используйте модели создания ИИ, чтобы описать содержимое, которое вы хотите извлечь на естественном языке, и служба создает выходные данные.
Встроенная предварительная обработка. Преимущества встроенных шагов предварительной обработки, таких как транскрибирование, диаризация и обнаружение ролей, которые обеспечивают широкий контекст для генеривных моделей.
Адаптация сценария. Адаптируйте службу к вашим требованиям, создав настраиваемые поля и извлекая соответствующие данные.

Готовые звуковые анализаторы

Предварительно созданные анализаторы позволяют извлекать ценные сведения о звуковом содержимом без необходимости создавать настройку анализатора.

Все звуковые анализаторы создают расшифровки в стандартном формате WEBVTT, разделенном динамиком.

Замечание

Предварительно созданные анализаторы настроены на использование многоязычного транскрибирования, и функция returnDetails включена.

Доступны следующие предварительно созданные анализаторы:

Анализ после вызова (предварительно настроенный колл-центр) Анализ записей звонков для генерации отчетов:

Транскрипции бесед с результатами определения ролей участников.
Сводка по вызову.
Тональность вызова.
Первые пять статей, которые упоминаются.
Список упомянутых компаний.
Список людей (имя и название или роль), которые упоминаются.
Список соответствующих категорий вызовов.

Пример результата:

{
  "id": "bc36da27-004f-475e-b808-8b8aead3b566",
  "status": "Succeeded",
  "result": {
    "analyzerId": "prebuilt-callCenter",
    "apiVersion": "2025-11-01",
    "createdAt": "2025-05-06T22:53:28Z",
    "stringEncoding": "utf8",
    "warnings": [],
    "contents": [
      {
        "markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Agent>Good day.\n\n00:00.960 --> 00:02.240\n<v Agent>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Agent>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Agent>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Agent>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Agent>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Agent>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Agent>No problem.\n\n00:12.880 --> 00:13.920\n<v Agent>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Agent>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Agent>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Agent>Great.\n\n00:20.800 --> 00:24.160\n<v Agent>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Agent>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Agent>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Agent>That was all.\n\n00:28.720 --> 00:29.280\n<v Agent>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Agent>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Agent>Goodbye at Contoso.\n```",
        "fields": {
          "Summary": {
            "type": "string",
            "valueString": "Maria Smith contacted Contoso to inquire about her current point balance. After confirming her identity with her date of birth, the agent, John Doe, informed her that her balance was 599 points. Maria did not require any further assistance, and the call concluded politely."
          },
          "Topics": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Point balance inquiry"
              },
              {
                "type": "string",
                "valueString": "Identity confirmation"
              },
              {
                "type": "string",
                "valueString": "Customer service"
              }
            ]
          },
          "Companies": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Contoso"
              }
            ]
          },
          "People": {
            "type": "array",
            "valueArray": [
              {
                "type": "object",
                "valueObject": {
                  "Name": {
                    "type": "string",
                    "valueString": "John Doe"
                  },
                  "Role": {
                    "type": "string",
                    "valueString": "Agent"
                  }
                }
              },
              {
                "type": "object",
                "valueObject": {
                  "Name": {
                    "type": "string",
                    "valueString": "Maria Smith"
                  },
                  "Role": {
                    "type": "string",
                    "valueString": "Customer"
                  }
                }
              }
            ]
          },
          "Sentiment": {
            "type": "string",
            "valueString": "Positive"
          },
          "Categories": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Business"
              }
            ]
          }
        },
        "kind": "audioVisual",
        "startTimeMs": 0,
        "endTimeMs": 32183,
        "transcriptPhrases": [
          {
            "speaker": "Agent",
            "startTimeMs": 80,
            "endTimeMs": 640,
            "text": "Good day.",
            "words": []
          }, ...
          {
            "speaker": "Customer",
            "startTimeMs": 5440,
            "endTimeMs": 6320,
            "text": "Yes, good day.",
            "words": []
          }, ...
        ]
      }
    ]
  }
}

Анализ беседы (готовый к использованию аудиопоиск). Проанализировать записи для создания:

Расшифровки бесед
Сводка беседы

Пример результата:

{
  "id": "9624cc49-b6b3-4ce5-be6c-e895d8c2484d",
  "status": "Succeeded",
  "result": {
    "analyzerId": "prebuilt-audioSearch",
    "apiVersion": "2025-11-01",
    "createdAt": "2025-05-06T23:00:12Z",
    "stringEncoding": "utf8",
    "warnings": [],
    "contents": [
      {
        "markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Speaker 1>Good day.\n\n00:00.960 --> 00:02.240\n<v Speaker 1>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Speaker 1>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Speaker 1>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Speaker 1>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Speaker 1>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Speaker 1>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Speaker 1>No problem.\n\n00:12.880 --> 00:13.920\n<v Speaker 1>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Speaker 1>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Speaker 1>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Speaker 1>Great.\n\n00:20.800 --> 00:24.160\n<v Speaker 1>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Speaker 1>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Speaker 1>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Speaker 1>That was all.\n\n00:28.720 --> 00:29.280\n<v Speaker 1>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Speaker 1>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Speaker 1>Goodbye at Contoso.\n```",
        "fields": {
          "Summary": {
            "type": "string",
            "valueString": "Maria Smith contacted Contoso to inquire about her current point balance. John Doe assisted her by confirming her identity using her date of birth and informed her that her balance was 599 points. Maria expressed no further inquiries, and the conversation concluded politely."
          }
        },
        "kind": "audioVisual",
        "startTimeMs": 0,
        "endTimeMs": 32183,
        "transcriptPhrases": [
          {
            "speaker": "Speaker 1",
            "startTimeMs": 80,
            "endTimeMs": 640,
            "text": "Good day.",
            "words": []
          }, ...
          {
            "speaker": "Speaker 2",
            "startTimeMs": 5440,
            "endTimeMs": 6320,
            "text": "Yes, good day.",
            "words": []
          }, ...
        ]
      }
    ]
  }
}

Вы также можете настроить предварительно созданные анализаторы для более точного управления выходными данными, определив настраиваемые поля. Настройка позволяет использовать полную мощность создаваемых моделей для извлечения глубоких аналитических сведений из звука. Например, настройка позволяет:

Создайте другие инсайты.
Контроль над языком результатов извлечения полей.
Настройте поведение транскрибирования.

Акселератор решения для интеллектуального анализа данных из разговоров

Руководство по быстрому старту для решений по анализу речи см. в акселераторе решения интеллектуального анализа данных по разговорам.

Получайте полезные сведения из больших объемов общения, определяя ключевые темы, шаблоны и связи. Используя Microsoft Foundry, Azure Content Understanding in Foundry Tools, Azure OpenAI в microsoft Foundry Models и Поиск с использованием ИИ Azure, это решение анализирует неструктурированный диалог и сопоставляет его с значимыми, структурированными аналитическими сведениями.

Такие возможности, как моделирование тем, извлечение ключевых фраз, транскрибирование речи в текст и интерактивный чат позволяют пользователям изучать данные естественным образом и принимать более обоснованные решения.

Аналитики, работающие с большими объемами беседных данных, могут использовать это решение для извлечения аналитических сведений с помощью взаимодействия с естественным языком. Она поддерживает такие задачи, как определение тенденций поддержки клиентов, улучшение качества контактного центра и обнаружение оперативной аналитики, что позволяет командам выявлять закономерности, действовать на отзыве и принимать обоснованные решения быстрее.

Требования к входным данным

Подробный список поддерживаемых аудиоформатов см. в разделе"Ограничения службы" и кодеки.

Поддерживаемые языки и регионы

Полный список поддерживаемых регионов, языков и языковых стандартов см. в разделе "Поддержка языков и регионов".

Конфиденциальность и безопасность данных

Разработчики, использующие эту службу, должны просматривать политики Майкрософт по данным клиентов. Дополнительные сведения см. в разделе"Данные", "Защита" и "Конфиденциальность".

Следующие шаги

Попробуйте обработать звуковое содержимое на портале Microsoft Foundry.
Узнайте, как анализировать звуковое содержимое с помощью шаблонов анализаторов.
Просмотрите примеры кода:
- Извлечение звукового содержимого.
- Шаблоны анализаторов.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-01-29