Речь LLM для транскрибирования речи и перевода (предварительная версия)

Замечание

Эта функция сейчас доступна в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания и не рекомендуется для использования в рабочей среде. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Для получения дополнительной информации см. Дополнительные условия использования для предварительных версий Microsoft Azure.

Речь LLM поддерживается моделью речи, улучшенной за счет больших языковых моделей, которая обеспечивает улучшенное качество, глубокое контекстное понимание, многоязычную поддержку и возможности настройки ответов. Он использует ускорение GPU для ультра-быстрого вывода, что делает его идеальным для широкого спектра сценариев, включая создание подписей и субтитров из аудиофайлов, сводку заметок на собраниях, помощь агентов центра вызовов, транскрибирование голосовых сообщений и многое другое.

API распознавания речи LLM в настоящее время поддерживает следующие задачи речи:

transcribe
translate

Предпосылки

Ресурс Службы "Речь Azure" в средствах Foundry в одном из регионов, где доступен API распознавания речи LLM. Для получения текущего списка поддерживаемых регионов см. раздел Регионы службы распознавания речи.
Звуковой файл (менее 2 часов и менее 300 МБ в размере) в одном из форматов и кодеков, поддерживаемых API пакетной транскрибирования: WAV, MP3, OPUS/OGG, FLAC, WMA, AAC, ALAW в контейнере WAV, MULAW в контейнере WAV, AMR, WebM и SPEEX. Для получения дополнительной информации о поддерживаемых аудиоформатах см. поддерживаемые аудиоформаты.

Использование API распознавания речи LLM

Поддерживаемые языки

В настоящее время для обоих transcribetranslate задач поддерживаются следующие языки:

English, Chinese, German, FrenchItalianJapaneseSpanishPortugueseи .Korean

Отправка звука

Звуковые данные можно предоставлять следующим образом:

Передайте встроенные звуковые данные.

  --form 'audio=@"YourAudioFile"'

Загрузить аудиофайл из общедоступного audioUrl.

  --form 'definition": "{\"audioUrl\": \"https://crbn.us/hello.wav"}"'

В разделах ниже в качестве примера используется загрузка звука напрямую.

Вызов API распознавания речи LLM

Отправьте multipart/form-data POST-запрос к конечной точке transcriptions с аудиофайлом и свойствами тела запроса.

Следующий пример показывает, как транскрибировать аудиофайл с указанием региона. Если вы знаете локаль звукового файла, можно указать её, чтобы повысить точность транскрибирования и минимизировать задержку.

Замените YourSpeechResoureKey на ключ вашего ресурсного блока речи.
Замените YourServiceRegion регионом ресурса 'Речь'.
Замените YourAudioFile на путь к вашему аудиофайлу.

Это важно

Для рекомендуемой бесключевой аутентификации с использованием Microsoft Entra ID замените --header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey' на --header "Authorization: Bearer YourAccessToken". Дополнительные сведения о проверке подлинности без ключа см. в руководстве по управлению доступом на основе ролей .

Использование речи LLM для транскрибирования звука

Вы можете транскрибировать звук на исходном языке, не указывая код языкового стандарта. Модель автоматически обнаруживает и выбирает соответствующий язык на основе звукового содержимого.

curl --location 'https://<YourServiceRegion>.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: <YourSpeechResourceKey>' \
--form 'audio=@"YourAudioFile.wav"' \
--form 'definition={
  "enhancedMode": {
    "enabled": true,
    "task": "transcribe"
  }
}'

Использование речи LLM для перевода звукового файла

Вы можете перевести звук на указанный целевой язык. Чтобы включить перевод, необходимо указать целевой языковой код в запросе.

curl --location 'https://<YourServiceRegion>.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: <YourSpeechResourceKey>' \
--form 'audio=@"YourAudioFile.wav"' \
--form 'definition={
  "enhancedMode": {
    "enabled": true,
    "task": "translate",
    "targetLanguage": "ko"
  }
}'

Используйте настройку подсказок для изменения производительности

Можно указать необязательный текст, чтобы задать стиль вывода для задачи transcribe или translate.

curl --location 'https://<YourServiceRegion>.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: <YourSpeechResourceKey>' \
--form 'audio=@"YourAudioFile.wav"' \
--form 'definition={
  "enhancedMode": {
    "enabled": true,
    "task": "transcribe",
    "prompt": ["Output must be in lexical format."]
  }
}'

Вот лучшие практики для подсказок:

Запросы имеют максимальную длину 4096 символов.
Запросы должны быть написаны на английском языке.
Запросы могут направлять форматирование выходных данных. По умолчанию ответы используют формат отображения, оптимизированный для удобства чтения. Чтобы применить лексическое форматирование, включите: Output must be in lexical format.
Запросы могут усиливать восприятие определённых фраз или аббревиатур, повышая вероятность их распознавания. Используйте: Pay attention to *phrase1*, *phrase2*, …. Для получения наилучших результатов ограничьте количество фраз на запрос.
Запросы, которые не связаны с задачами речи (например, Tell me a story.обычно игнорируются).

Дополнительные параметры конфигурации

Дополнительные параметры конфигурации можно объединить с быстрым транскрибированием , чтобы включить расширенные функции, такие как diarization, profanityFilterModeи channels.

curl --location 'https://<YourServiceRegion>.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: <YourSpeechResourceKey>' \
--form 'audio=@"YourAudioFile.wav"' \
--form 'definition={
  "enhancedMode": {
    "enabled": true,
    "task": "transcribe",
    "prompt": ["Output must be in lexical format."]
  },
  "diarization": {
    "maxSpeakers": 2,
    "enabled": true
  },
  "profanityFilterMode": "Masked"
}'

Некоторые параметры конфигурации, такие как locales и phraseLists, не являются обязательными или не применимыми к речи LLM, и могут быть опущены из запроса. Дополнительные сведения о параметрах конфигурации быстрого транскрибирования.

Пример ответа

В ответе JSON свойство combinedPhrases содержит полный транскрибированный или переведенный текст, а свойство phrases содержит сведения о сегментах и словах.

{
    "durationMilliseconds": 57187,
    "combinedPhrases": [
        {
            "text": "With custom speech,you can evaluate and improve the microsoft speech to text accuracy for your applications and products 现成的语音转文本,利用通用语言模型作为一个基本模型,使用microsoft自有数据进行训练,并反映常用的口语。此基础模型使用那些代表各常见领域的方言和发音进行了预先训练。 Quand vous effectuez une demande de reconnaissance vocale, le modèle de base le plus récent pour chaque langue prise en charge est utilisé par défaut. Le modèle de base fonctionne très bien dans la plupart des scénarios de reconnaissance vocale. A custom model can be used to augment the base model to improve recognition of domain specific vocabulary specified to the application by providing text data to train the model. It can also be used to improve recognition based for the specific audio conditions of the application by providing audio data with reference transcriptions."
        }
    ],
    "phrases": [
        {
            "offsetMilliseconds": 80,
            "durationMilliseconds": 6960,
            "text": "With custom speech,you can evaluate and improve the microsoft speech to text accuracy for your applications and products.",
            "words": [
                {
                    "text": "with",
                    "offsetMilliseconds": 80,
                    "durationMilliseconds": 160
                },
                {
                    "text": "custom",
                    "offsetMilliseconds": 240,
                    "durationMilliseconds": 480
                },

                {
                    "text": "speech",
                    "offsetMilliseconds": 720,
                    "durationMilliseconds": 360
                },,
		// More transcription results...
	    // Redacted for brevity
            ],
            "locale": "en-us",
            "confidence": 0
        },
        {
            "offsetMilliseconds": 8000,
            "durationMilliseconds": 8600,
            "text": "现成的语音转文本,利用通用语言模型作为一个基本模型,使用microsoft自有数据进行训练,并反映常用的口语。此基础模型使用那些代表各常见领域的方言和发音进行了预先训练。",
            "words": [
                {
                    "text": "现",
                    "offsetMilliseconds": 8000,
                    "durationMilliseconds": 40
                },
                {
                    "text": "成",
                    "offsetMilliseconds": 8040,
                    "durationMilliseconds": 40
                },
		// More transcription results...
	    // Redacted for brevity
                {
                    "text": "训",
                    "offsetMilliseconds": 16400,
                    "durationMilliseconds": 40
                },
                {
                    "text": "练",
                    "offsetMilliseconds": 16560,
                    "durationMilliseconds": 40
                },
            ],
            "locale": "zh-cn",
            "confidence": 0
		// More transcription results...
	    // Redacted for brevity
                {
                    "text": "with",
                    "offsetMilliseconds": 54720,
                    "durationMilliseconds": 200
                },
                {
                    "text": "reference",
                    "offsetMilliseconds": 54920,
                    "durationMilliseconds": 360
                },
                {
                    "text": "transcriptions.",
                    "offsetMilliseconds": 55280,
                    "durationMilliseconds": 1200
                }
            ],
            "locale": "en-us",
            "confidence": 0
        }
    ]
}

Формат отклика согласуется с другими существующими выходными данными для преобразования речи в текст, такими как быстрая транскрипция и пакетная транскрипция. К ключевым различиям относятся:

Уровень durationMilliseconds Word и offsetMilliseconds не поддерживается для translate задачи.
Для задачи translate диаризация не поддерживается, возвращается только метка speaker1.
confidence недоступен и всегда 0.

Замечание

Служба речи - это эластичная служба. Если вы получаете код ошибки 429 (слишком много запросов), пожалуйста, следуйте лучшим практикам для уменьшения нагрузки при автомасштабировании.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-11-05