MAI-Transcribe-1 в Azure Speech (предварительный просмотр)

Примечание

Эта функция сейчас доступна в общедоступной предварительной версии. Эта предварительная версия предоставляется без гарантий по обслуживанию и не рекомендуется для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

MAI-Transcribe-1 — это модель распознавания речи, разработанная командой Microsoft ИИ (MAI) Superintelligence. Модель имеет двойной фокус: высокую точность и высокую эффективность. Модель MAI-Transcribe-1 можно использовать с API распознавания речи LLM.

Необходимые условия

  • Подписка Azure. Вы можете создать его бесплатно.
  • Ресурс Microsoft Foundry для работы с речью на портале Azure.
  • Ключ ресурса системы "Речь" и регион. После развертывания речевого ресурса выберите «Перейти к ресурсу», чтобы просмотреть ключи и управлять ими. Текущий список поддерживаемых регионов смотрите в разделе регионов службы "Речь".
  • Звуковой файл (менее 300 МБ в размере) в одном из следующих форматов: WAV, MP3 или FLAC.

Использование модели MAI-Transcribe-1

Обратите внимание на следующие ограничения при использовании модели MAI-Transcribe-1:

  • Диаризация не поддерживается.

  • Настройка запроса не поддерживается.

Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем укажите mai-transcribe-1 в качестве модели.

Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM.

Чтобы использовать модель MAI-Transcribe-1, задайте model свойство соответствующим образом в запросе.

curl --location 'https://<YourServiceRegion>.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: <YourSpeechResourceKey>' \
--form 'audio=@"YourAudioFile.wav"' \
--form 'definition={
  "locales": ["en"],
  "enhancedMode": {
    "enabled": true,
    "model":"mai-transcribe-1"
  }
}'

Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем укажите mai-transcribe-1 как model в свойстве enhancedMode .

Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем укажите mai-transcribe-1 как Model в свойстве EnhancedMode .

Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем укажите модель mai-transcribe-1 в свойстве enhancedMode.

Чтобы начать использовать транскрибирование с расширенным режимом, сначала следуйте краткому руководству по распознаванию речи LLM. Затем в объекте mai-transcribe-1 укажите модель EnhancedModeOptions.

Поддержка языка

При использовании модели MAI-Transcribe-1 функции диаризации и функций подсказок не поддерживаются.

При необходимости укажите код языка в locales, чтобы обеспечить распознавание только на одном языке (например, en). Если язык не указан, служба автоматически обнаруживает его. В настоящее время поддерживаются следующие языки:

Языковой код Язык
ar Арабский
zh Китайский
cs Чешский
da Датский
nl Нидерландский
en Английский
fi Финский
fr Французский
de Немецкий
hi Хинди
hu Венгерский
id Индонезийский
it Итальянский
ja Японский
ko Корейский
nb Норвежский Bokmål
pl Польский
pt Португальский
ro Румынский
ru Русский
es Испанский
sv Шведский
th Тайский
tr Турецкий
vi Вьетнамский