Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Замечание
Эта функция сейчас доступна в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания и не рекомендуется для использования в рабочей среде. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Для получения дополнительной информации см. Дополнительные условия использования для предварительных версий Microsoft Azure.
Речь LLM поддерживается моделью речи, улучшенной за счет больших языковых моделей, которая обеспечивает улучшенное качество, глубокое контекстное понимание, многоязычную поддержку и возможности настройки ответов. Он использует ускорение GPU для ультра-быстрого вывода, что делает его идеальным для широкого спектра сценариев, включая создание подписей и субтитров из аудиофайлов, сводку заметок на собраниях, помощь агентов центра вызовов, транскрибирование голосовых сообщений и многое другое.
API распознавания речи LLM в настоящее время поддерживает следующие задачи речи:
transcribetranslate
Предпосылки
Ресурс Службы "Речь Azure" в средствах Foundry в одном из регионов, где доступен API распознавания речи LLM. Для получения текущего списка поддерживаемых регионов см. раздел Регионы службы распознавания речи.
Звуковой файл (менее 2 часов и менее 300 МБ в размере) в одном из форматов и кодеков, поддерживаемых API пакетной транскрибирования: WAV, MP3, OPUS/OGG, FLAC, WMA, AAC, ALAW в контейнере WAV, MULAW в контейнере WAV, AMR, WebM и SPEEX. Для получения дополнительной информации о поддерживаемых аудиоформатах см. поддерживаемые аудиоформаты.
Использование API распознавания речи LLM
Поддерживаемые языки
В настоящее время для обоих transcribetranslate задач поддерживаются следующие языки:
-
English,Chinese,German,FrenchItalianJapaneseSpanishPortugueseи .Korean
Отправка звука
Звуковые данные можно предоставлять следующим образом:
- Передайте встроенные звуковые данные.
--form 'audio=@"YourAudioFile"'
- Загрузить аудиофайл из общедоступного
audioUrl.
--form 'definition": "{\"audioUrl\": \"https://crbn.us/hello.wav"}"'
В разделах ниже в качестве примера используется загрузка звука напрямую.
Вызов API распознавания речи LLM
Отправьте multipart/form-data POST-запрос к конечной точке transcriptions с аудиофайлом и свойствами тела запроса.
Следующий пример показывает, как транскрибировать аудиофайл с указанием региона. Если вы знаете локаль звукового файла, можно указать её, чтобы повысить точность транскрибирования и минимизировать задержку.
- Замените
YourSpeechResoureKeyна ключ вашего ресурсного блока речи. - Замените
YourServiceRegionрегионом ресурса 'Речь'. - Замените
YourAudioFileна путь к вашему аудиофайлу.
Это важно
Для рекомендуемой бесключевой аутентификации с использованием Microsoft Entra ID замените --header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey' на --header "Authorization: Bearer YourAccessToken". Дополнительные сведения о проверке подлинности без ключа см. в руководстве по управлению доступом на основе ролей .
Использование речи LLM для транскрибирования звука
Вы можете транскрибировать звук на исходном языке, не указывая код языкового стандарта. Модель автоматически обнаруживает и выбирает соответствующий язык на основе звукового содержимого.
curl --location 'https://<YourServiceRegion>.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: <YourSpeechResourceKey>' \
--form 'audio=@"YourAudioFile.wav"' \
--form 'definition={
"enhancedMode": {
"enabled": true,
"task": "transcribe"
}
}'
Использование речи LLM для перевода звукового файла
Вы можете перевести звук на указанный целевой язык. Чтобы включить перевод, необходимо указать целевой языковой код в запросе.
curl --location 'https://<YourServiceRegion>.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: <YourSpeechResourceKey>' \
--form 'audio=@"YourAudioFile.wav"' \
--form 'definition={
"enhancedMode": {
"enabled": true,
"task": "translate",
"targetLanguage": "ko"
}
}'
Используйте настройку подсказок для изменения производительности
Можно указать необязательный текст, чтобы задать стиль вывода для задачи transcribe или translate.
curl --location 'https://<YourServiceRegion>.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: <YourSpeechResourceKey>' \
--form 'audio=@"YourAudioFile.wav"' \
--form 'definition={
"enhancedMode": {
"enabled": true,
"task": "transcribe",
"prompt": ["Output must be in lexical format."]
}
}'
Вот лучшие практики для подсказок:
- Запросы имеют максимальную длину 4096 символов.
- Запросы должны быть написаны на английском языке.
- Запросы могут направлять форматирование выходных данных. По умолчанию ответы используют формат отображения, оптимизированный для удобства чтения. Чтобы применить лексическое форматирование, включите:
Output must be in lexical format. - Запросы могут усиливать восприятие определённых фраз или аббревиатур, повышая вероятность их распознавания. Используйте:
Pay attention to *phrase1*, *phrase2*, …. Для получения наилучших результатов ограничьте количество фраз на запрос. - Запросы, которые не связаны с задачами речи (например,
Tell me a story.обычно игнорируются).
Дополнительные параметры конфигурации
Дополнительные параметры конфигурации можно объединить с быстрым транскрибированием , чтобы включить расширенные функции, такие как diarization, profanityFilterModeи channels.
curl --location 'https://<YourServiceRegion>.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: <YourSpeechResourceKey>' \
--form 'audio=@"YourAudioFile.wav"' \
--form 'definition={
"enhancedMode": {
"enabled": true,
"task": "transcribe",
"prompt": ["Output must be in lexical format."]
},
"diarization": {
"maxSpeakers": 2,
"enabled": true
},
"profanityFilterMode": "Masked"
}'
Некоторые параметры конфигурации, такие как locales и phraseLists, не являются обязательными или не применимыми к речи LLM, и могут быть опущены из запроса. Дополнительные сведения о параметрах конфигурации быстрого транскрибирования.
Пример ответа
В ответе JSON свойство combinedPhrases содержит полный транскрибированный или переведенный текст, а свойство phrases содержит сведения о сегментах и словах.
{
"durationMilliseconds": 57187,
"combinedPhrases": [
{
"text": "With custom speech,you can evaluate and improve the microsoft speech to text accuracy for your applications and products 现成的语音转文本,利用通用语言模型作为一个基本模型,使用microsoft自有数据进行训练,并反映常用的口语。此基础模型使用那些代表各常见领域的方言和发音进行了预先训练。 Quand vous effectuez une demande de reconnaissance vocale, le modèle de base le plus récent pour chaque langue prise en charge est utilisé par défaut. Le modèle de base fonctionne très bien dans la plupart des scénarios de reconnaissance vocale. A custom model can be used to augment the base model to improve recognition of domain specific vocabulary specified to the application by providing text data to train the model. It can also be used to improve recognition based for the specific audio conditions of the application by providing audio data with reference transcriptions."
}
],
"phrases": [
{
"offsetMilliseconds": 80,
"durationMilliseconds": 6960,
"text": "With custom speech,you can evaluate and improve the microsoft speech to text accuracy for your applications and products.",
"words": [
{
"text": "with",
"offsetMilliseconds": 80,
"durationMilliseconds": 160
},
{
"text": "custom",
"offsetMilliseconds": 240,
"durationMilliseconds": 480
},
{
"text": "speech",
"offsetMilliseconds": 720,
"durationMilliseconds": 360
},,
// More transcription results...
// Redacted for brevity
],
"locale": "en-us",
"confidence": 0
},
{
"offsetMilliseconds": 8000,
"durationMilliseconds": 8600,
"text": "现成的语音转文本,利用通用语言模型作为一个基本模型,使用microsoft自有数据进行训练,并反映常用的口语。此基础模型使用那些代表各常见领域的方言和发音进行了预先训练。",
"words": [
{
"text": "现",
"offsetMilliseconds": 8000,
"durationMilliseconds": 40
},
{
"text": "成",
"offsetMilliseconds": 8040,
"durationMilliseconds": 40
},
// More transcription results...
// Redacted for brevity
{
"text": "训",
"offsetMilliseconds": 16400,
"durationMilliseconds": 40
},
{
"text": "练",
"offsetMilliseconds": 16560,
"durationMilliseconds": 40
},
],
"locale": "zh-cn",
"confidence": 0
// More transcription results...
// Redacted for brevity
{
"text": "with",
"offsetMilliseconds": 54720,
"durationMilliseconds": 200
},
{
"text": "reference",
"offsetMilliseconds": 54920,
"durationMilliseconds": 360
},
{
"text": "transcriptions.",
"offsetMilliseconds": 55280,
"durationMilliseconds": 1200
}
],
"locale": "en-us",
"confidence": 0
}
]
}
Формат отклика согласуется с другими существующими выходными данными для преобразования речи в текст, такими как быстрая транскрипция и пакетная транскрипция. К ключевым различиям относятся:
- Уровень
durationMillisecondsWord иoffsetMillisecondsне поддерживается дляtranslateзадачи. - Для задачи
translateдиаризация не поддерживается, возвращается только меткаspeaker1. -
confidenceнедоступен и всегда0.
Замечание
Служба речи - это эластичная служба. Если вы получаете код ошибки 429 (слишком много запросов), пожалуйста, следуйте лучшим практикам для уменьшения нагрузки при автомасштабировании.