Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Примечание
Эта функция сейчас доступна в общедоступной предварительной версии. Эта предварительная версия предоставляется без гарантий по обслуживанию и не рекомендуется для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.
MAI-Transcribe-1 — это модель распознавания речи, разработанная командой Microsoft ИИ (MAI) Superintelligence. Модель имеет двойной фокус: высокую точность и высокую эффективность. Модель MAI-Transcribe-1 можно использовать с API распознавания речи LLM.
Необходимые условия
- Подписка Azure. Вы можете создать его бесплатно.
- Ресурс Microsoft Foundry для работы с речью на портале Azure.
- Ключ ресурса системы "Речь" и регион. После развертывания речевого ресурса выберите «Перейти к ресурсу», чтобы просмотреть ключи и управлять ими. Текущий список поддерживаемых регионов смотрите в разделе регионов службы "Речь".
- Звуковой файл (менее 300 МБ в размере) в одном из следующих форматов: WAV, MP3 или FLAC.
Использование модели MAI-Transcribe-1
Обратите внимание на следующие ограничения при использовании модели MAI-Transcribe-1:
Диаризация не поддерживается.
Настройка запроса не поддерживается.
Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем укажите mai-transcribe-1 в качестве модели.
Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM.
Чтобы использовать модель MAI-Transcribe-1, задайте model свойство соответствующим образом в запросе.
curl --location 'https://<YourServiceRegion>.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: <YourSpeechResourceKey>' \
--form 'audio=@"YourAudioFile.wav"' \
--form 'definition={
"locales": ["en"],
"enhancedMode": {
"enabled": true,
"model":"mai-transcribe-1"
}
}'
Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем укажите mai-transcribe-1 как model в свойстве enhancedMode .
Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем укажите mai-transcribe-1 как Model в свойстве EnhancedMode .
Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем укажите модель mai-transcribe-1 в свойстве enhancedMode.
Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем в объекте mai-transcribe-1 укажите модель EnhancedModeOptions.
Поддержка языка
При использовании модели MAI-Transcribe-1 функции диаризации и функций подсказок не поддерживаются.
При необходимости укажите код языка в locales, чтобы обеспечить распознавание только на одном языке (например, en). Если язык не указан, служба автоматически обнаруживает его. В настоящее время поддерживаются следующие языки:
| Языковой код | Язык |
|---|---|
ar |
Арабский |
zh |
Китайский |
cs |
Чешский |
da |
Датский |
nl |
Нидерландский |
en |
Английский |
fi |
Финский |
fr |
Французский |
de |
Немецкий |
hi |
Хинди |
hu |
Венгерский |
id |
Индонезийский |
it |
Итальянский |
ja |
Японский |
ko |
Корейский |
nb |
Норвежский Bokmål |
pl |
Польский |
pt |
Португальский |
ro |
Румынский |
ru |
Русский |
es |
Испанский |
sv |
Шведский |
th |
Тайский |
tr |
Турецкий |
vi |
Вьетнамский |
Связанное содержимое
- Дополнительные сведения об использовании API распознавания речи LLM см. в статье LLM Speech API
- MAI-Voice-1 в Azure речи