Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Для быстрого транскрибирования, пакетного транскрибирования и кастомизированной речи используйте REST API для преобразования речи в текст. В этой статье описываются изменения версии 2024-11-15 до версии 2025-10-15.
Это важно
Версия REST API 2025-10-15 преобразования речи в текст — это последняя версия, общедоступная.
-
API преобразования речи в текст версия
2024-05-15-previewбудет прекращена на дату, которая будет объявлена. - API REST для преобразования речи в текст
v3.0,v3.1,v3.2,3.2-preview.1и3.2-preview.2были выведены из эксплуатации 31 марта 2026 года.
Дополнительные сведения об обновлении см. в руководствах по миграции службы "Речь на текст" REST API версии 3.0 до версии 3.1, версии 3.1 до версии 3.2 и версии 3.2 до 2024-11-15.
Чтобы суммировать изменения в этой версии, выполните следующие действия.
- API транскрибирования имеет новые функции расширенного режима и списка фраз.
- API проектов восстанавливается (не будет в версии 2024-11-15) и содержит некоторые изменения.
Изменения API транскрибирования
Структура запроса
-
Новая конечная точка:
POST <your_endpoint>/speechtotext/transcriptions:transcribe?api-version=2025-10-15 -
Заголовки и данные формы:
Content-Type: multipart/form-dataOcp-Apim-Subscription-Key: $KEY- Поля формы:
definition,audio
Example:
curl --request POST \
--url '<your_endpoint>/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: $KEY' \
--form 'definition=$DEFINITION' \
--form 'audio=@C:\workspace\audios\test.wav'
Обновления объектов определения
-
Удалено:
-
"models"словарь (больше не используется в определении запроса)
-
-
Добавили:
-
"phraseList": теперь поддерживаетсяbiasingWeightнастройка предвзятости распознавания -
"enhancedMode"Объект включает:-
enabled(логическое) -
task(например"translate") -
targetLanguage(например"ko") -
prompt(массив инструкций или лексических импульсов)
-
-
Example:
{
"locales": ["en-US"],
"profanityFilterMode": "Masked",
"diarization": {
"enabled": true,
"maxSpeakers": 6
},
"channels": [0],
"enhancedMode": {
"enabled": true,
"task": "translate",
"targetLanguage": "ko",
"prompt": [
"Provide lexical output",
"Boost the terms: CONTOSO, AAZZ; Replace ‘50cents’ to ’50-Cents’"
]
},
"phraseList": {
"phrases": ["Kenichi Kumatani", "John McDonough", "Bhiksha Raj"],
"biasingWeight": 1.6
}
}
Структура результатов
-
Выход данных через канал:
- Результаты организованы по каналам
-
Сегментация фраз:
- Каждая фраза включает канал, время начала и окончания, говорящего, текст и доверие на уровне слов.
Изменения API проектов
Новые возможности
-
Имя проекта Foundry:
- Новое свойство:
foundryProjectNameв create, Get, Update, List API
- Новое свойство:
-
Создание проекта:
- Проекты создаются с помощью соглашений Azure Resource Manager (ARM)
-
localeтеперь обязателен для пользовательских речевых проектов
Example:
POST {endpoint}/speechtotext/projects?api-version=2025-10-15
Headers:
Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>
Content-Type: application/json
Body:
{
"locale": "en-US",
"displayName": "My speech project",
"foundryProjectName": "MyFoundrySpeechProject"
}
Список проектов и фильтрация
-
Фильтрация по имени проекта Foundry:
GET {endpoint}/speechtotext/projects?filter=foundryProjectName eq 'MyFoundrySpeechProject'&api-version=2025-10-15