MAI-Transcribe-1 в Azure Speech (предварительный просмотр)

Примечание

Эта функция сейчас доступна в общедоступной предварительной версии. Эта предварительная версия предоставляется без гарантий по обслуживанию и не рекомендуется для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

MAI-Transcribe-1 — это модель распознавания речи, разработанная командой Microsoft ИИ (MAI) Superintelligence. Модель имеет двойной фокус: высокую точность и высокую эффективность. Модель MAI-Transcribe-1 можно использовать с API распознавания речи LLM.

Необходимые условия

Подписка Azure. Вы можете создать его бесплатно.
Ресурс Microsoft Foundry для работы с речью на портале Azure.
Ключ ресурса системы "Речь" и регион. После развертывания речевого ресурса выберите «Перейти к ресурсу», чтобы просмотреть ключи и управлять ими. Текущий список поддерживаемых регионов смотрите в разделе регионов службы "Речь".
Звуковой файл (менее 300 МБ в размере) в одном из следующих форматов: WAV, MP3 или FLAC.

Использование модели MAI-Transcribe-1

Обратите внимание на следующие ограничения при использовании модели MAI-Transcribe-1:

Диаризация не поддерживается.
Настройка запроса не поддерживается.

Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем укажите mai-transcribe-1 в качестве модели.

Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM.

Чтобы использовать модель MAI-Transcribe-1, задайте model свойство соответствующим образом в запросе.

curl --location 'https://<YourServiceRegion>.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: <YourSpeechResourceKey>' \
--form 'audio=@"YourAudioFile.wav"' \
--form 'definition={
  "locales": ["en"],
  "enhancedMode": {
    "enabled": true,
    "model":"mai-transcribe-1"
  }
}'

Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем укажите mai-transcribe-1 как model в свойстве enhancedMode .

Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем укажите модель mai-transcribe-1 в свойстве enhancedMode.

Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем в объекте mai-transcribe-1 укажите модель EnhancedModeOptions.

Поддержка языка

При использовании модели MAI-Transcribe-1 функции диаризации и функций подсказок не поддерживаются.

При необходимости укажите код языка в locales, чтобы обеспечить распознавание только на одном языке (например, en). Если язык не указан, служба автоматически обнаруживает его. В настоящее время поддерживаются следующие языки:

Языковой код	Язык
`ar`	Арабский
`zh`	Китайский
`cs`	Чешский
`da`	Датский
`nl`	Нидерландский
`en`	Английский
`fi`	Финский
`fr`	Французский
`de`	Немецкий
`hi`	Хинди
`hu`	Венгерский
`id`	Индонезийский
`it`	Итальянский
`ja`	Японский
`ko`	Корейский
`nb`	Норвежский Bokmål
`pl`	Польский
`pt`	Португальский
`ro`	Румынский
`ru`	Русский
`es`	Испанский
`sv`	Шведский
`th`	Тайский
`tr`	Турецкий
`vi`	Вьетнамский

Дополнительные сведения об использовании API распознавания речи LLM см. в статье LLM Speech API
MAI-Voice-1 в Azure речи

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-30