Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
REST API преобразования речи в текст используется для быстрого транскрибирования, пакетной транскрибирования и пользовательской речи. Изменения версии 3.0 до 3.1 описаны в следующих разделах.
Внимание
Версия REST API 2025-10-15 преобразования речи в текст — это последняя версия, общедоступная.
-
API преобразования речи в текст REST версия
2024-05-15-previewбудет прекращена к дате, которая будет объявлена. - Речь в текст REST API
v3.0,v3.1,v3.2,3.2-preview.1и3.2-preview.2была прекращена 31 марта 2026 года.
Дополнительные сведения об обновлении см. в руководствах по миграции службы "Речь" на текст REST API версии 3.0 до версии 3.1, версии 3.2до 2024-11-15 и 2024-11-15 до 2025-10-15 .
Базовый путь
Необходимо обновить базовый путь в коде с /speechtotext/v3.0 на /speechtotext/v3.1. Например, чтобы получить базовые модели в регионе eastus, используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base.
Обратите внимание на следующие другие изменения:
- Операция
/models/{id}/copyto(включая "/") в версии 3.0 заменяется/models/{id}:copytoоперацией (включает ":") в версии 3.1. - Операция
/webhooks/{id}/ping(включая "/") в версии 3.0 заменяется/webhooks/{id}:pingоперацией (включает ":") в версии 3.1. - Операция
/webhooks/{id}/test(включая "/") в версии 3.0 заменяется/webhooks/{id}:testоперацией (включает ":") в версии 3.1.
Дополнительные сведения см. в разделе Идентификаторы операций далее в этом руководстве.
Пакетное транскрибирование
Примечание.
Не используйте преобразование речи в текст REST API версии 3.0 для получения транскрибирования, созданного с помощью преобразования речи в текст REST API версии 3.1. Вы увидите сообщение об ошибке, например следующее: "Версия API не может использоваться для доступа к этому транскрибированию. Используйте API версии 3.1 или более поздней.
В операции Transcriptions_Create добавляются следующие три свойства:
- Это свойство
displayFormWordLevelTimestampsEnabledможно использовать для включения представления временных меток на уровне слова в формате отображения результатов транскрибирования. Результаты возвращаются вdisplayWordsсвойстве файла транскрибирования. - Свойство
diarizationможно использовать для указания минимального и максимального количества меток говорящего для создания при выполнении необязательной диаризации (разделение говорящего). Благодаря этой функции служба теперь может генерировать метки динамика для более чем двух динамиков. Чтобы использовать это свойство, необходимо также установить свойствоdiarizationEnabledнаtrue. С помощью API версии 3.1 мы увеличили число динамиков, которые можно определить путем диаризации из двух динамиков, поддерживаемых API версии 3.0. Рекомендуется сохранить количество докладчиков в возрасте до 30 для повышения производительности. - Свойство
languageIdentificationможно использовать для указания параметров идентификации языка для входных данных перед транскрибированием. Для идентификации языка поддерживается до 10 кандидатов языковых регионов. Возвращаемый транскрипт включает новое свойствоlocaleдля распознанного языка или локали, предоставленной вами.
Свойство filter добавляется в операции Transcriptions_List, Transcriptions_ListFiles и Projects_ListTranscriptions . Выражение filter можно использовать для выбора подмножества доступных ресурсов. Вы можете фильтровать по displayName, , description, createdDateTimelastActionDateTimeиstatuslocale. Например: filter=createdDateTime gt 2022-02-01T11:00:00Z
Если вы используете веб-перехватчик для получения уведомлений о состоянии транскрибирования, обратите внимание, что веб-перехватчики, созданные через API версии 3.0, не могут получать уведомления для запросов транскрибирования версии 3.1. Для получения уведомлений о запросах транскрибирования в версии 3.1, необходимо создать новую конечную точку веб-перехватчика, используя API версии 3.1.
Настраиваемая речь
Наборы данных
Для отправки и управления несколькими блоками данных для набора данных добавляются следующие операции:
- Datasets_UploadBlock — загрузка блока данных для набора данных. Максимальный размер блока составляет 8МиБ.
- Datasets_GetBlocks. Получение списка загруженных блоков для этого набора данных.
- Datasets_CommitBlocks - Зафиксируйте список блоков для завершения отправки набора данных.
Для поддержки адаптации модели с структурированным текстом в данных формата Markdown операция Datasets_Create теперь поддерживает тип данных LanguageMarkdown. Дополнительные сведения см. в разделе "Отправка наборов данных".
Модели
Операции Models_ListBaseModels и Models_GetBaseModel возвращают сведения о типе адаптации, поддерживаемом каждой базовой моделью.
"features": {
"supportsAdaptationsWith": [
"Acoustic",
"Language",
"LanguageMarkdown",
"Pronunciation"
]
}
Операция Models_Create имеет новое customModelWeightPercent свойство, в котором можно указать вес, используемый при использовании пользовательской языковой модели (обученной из простых или структурированных текстовых данных) в сочетании с базовой языковой моделью. Допустимые значения — целые числа от 1 до 100. В настоящее время значение по умолчанию равно 30.
Свойство filter добавляется в следующие операции:
- Datasets_List
- Datasets_ListFiles
- Endpoints_List
- Список_Оценок
- Evaluations_ListFiles
- Models_ListBaseModels
- Models_ListCustomModels
- Projects_List
- Projects_ListDatasets
- Projects_ListEndpoints
- Проекты_СписокОценок
- Projects_ListModels
Выражение filter можно использовать для выбора подмножества доступных ресурсов. Вы можете фильтровать по displayName, , description, createdDateTimelastActionDateTime, statuslocaleи kind. Например: filter=locale eq 'en-US'
Добавлена операция Models_ListFiles для получения файлов модели, определяемой указанным идентификатором.
Добавлена операция Models_GetFile, чтобы получить один конкретный файл (идентифицируемый с помощью fileId) из модели (идентифицируется идентификатором). Это позволяет получить файл ModelReport, содержащий информацию о данных, обработанных во время обучения.
Идентификаторы операций
Необходимо обновить базовый путь в коде с /speechtotext/v3.0 на /speechtotext/v3.1. Например, чтобы получить базовые модели в регионе eastus, используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base.
Имя каждого из них operationId в версии 3.1 префиксируется именем объекта. Например, operationId для "Создать модель" было изменено с CreateModel в версии 3.0 на Models_Create в версии 3.1.
Операция /models/{id}/copyto (включая "/") в версии 3.0 заменяется /models/{id}:copyto операцией (включает ":") в версии 3.1.
Операция /webhooks/{id}/ping (включая "/") в версии 3.0 заменяется /webhooks/{id}:ping операцией (включает ":") в версии 3.1.
Операция /webhooks/{id}/test (включая "/") в версии 3.0 заменяется /webhooks/{id}:test операцией (включает ":") в версии 3.1.