Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
REST API преобразования речи в текст используется для быстрого транскрибирования, пакетной транскрибирования и пользовательской речи. В этой статье описываются изменения версии 3.1 до 3.2.
Внимание
Версия REST API 2025-10-15 преобразования речи в текст — это последняя версия, общедоступная.
-
API преобразования речи в текст REST версия
2024-05-15-previewбудет прекращена к дате, которая будет объявлена. - Речь в текст REST API
v3.0,v3.1,v3.2,3.2-preview.1и3.2-preview.2была прекращена 31 марта 2026 года.
Дополнительные сведения об обновлении см. в руководствах по миграции службы "Речь" на текст REST API версии 3.0 до версии 3.1, версии 3.2до 2024-11-15 и 2024-11-15 до 2025-10-15 .
Базовый путь
Необходимо обновить базовый путь в коде с /speechtotext/v3.1 на /speechtotext/v3.2. Например, чтобы получить базовые модели в регионе eastus, используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base.
Дополнительные сведения см. в разделе Идентификаторы операций далее в этом руководстве.
Пакетное транскрибирование
Внимание
Новая цена действует для пакетной транскрибирования с помощью преобразования речи в текст REST API версии 3.2. Дополнительные сведения см. в руководстве по ценам.
Ограничения обратной совместимости
Не используйте преобразование речи в текст REST API версии 3.0 или версии 3.1 для получения транскрибирования, созданного с помощью преобразования речи в текст REST API версии 3.2. Может появиться сообщение об ошибке, например "Версия API не может использоваться для доступа к этому транскрибированию. Используйте API версии 3.2 или более поздней.
Режим идентификации языка
LanguageIdentificationMode добавляется к LanguageIdentificationProperties как одноуровневый элемент с candidateLocales и speechModelMapping. Режимы, доступные для идентификации языка, это Continuous или Single. Непрерывная идентификация языка — это значение по умолчанию. Дополнительные сведения см. в разделе Идентификация языка.
Модели Whisper
Служба Azure Speech в инструментах Foundry теперь поддерживает модель Whisper OpenAI через API преобразования речи в текст версии 3.2. Дополнительные сведения см. в руководстве по созданию пакетной транскрипции.
Примечание.
Azure OpenAI в Microsoft Foundry Models также поддерживает модель OpenAI Whisper для преобразования речи в текст с синхронным REST API. Дополнительные сведения см. в кратком руководстве. Ознакомьтесь с Что такое модель Whisper? чтобы узнать, когда лучше использовать Azure Speech или Azure OpenAI в моделях Microsoft Foundry.
Настраиваемая речь
Внимание
Вы будете оплачивать обучение пользовательской модели речи, если базовая модель была создана 1 октября 2023 г. или позже. Плата за обучение не взимается, если базовая модель была создана до октября 2023 года. Для получения дополнительной информации см. цены на службу Azure Speech.
Чтобы программно определить, была ли модель создана до или после 1 октября 2023 г., используйте chargedForAdaptation новое свойство в версии 3.2.
Форматирование текста пользовательского отображения
Для поддержки адаптации модели с данными, имеющими пользовательское форматирование текста, операция Datasets_Create поддерживает тип данных OutputFormatting. Дополнительные сведения см. в разделе "Отправка наборов данных".
Добавлено определение для OutputFormatType с перечисляемыми значениями Lexical и Display.
"OutputFormatType": {
"title": "OutputFormatType",
"enum": [
"Lexical",
"Display"
],
"type": "string",
"x-ms-enum": {
"name": "OutputFormatType",
"modelAsString": true,
"values": [
{
"value": "Lexical",
"description": "Model provides the transcription output without formatting."
},
{
"value": "Display",
"description": "Model supports display formatting transcriptions output or endpoints."
}
]
}
},
Значение OutputFormattingData перечисления добавляется в FileKind (тип входных данных).
Свойство supportedOutputFormat добавляется в BaseModelFeatures. Это свойство находится в определении BaseModel .
"BaseModelFeatures": {
"title": "BaseModelFeatures",
"description": "Features supported by the model.",
"type": "object",
"allOf": [
{
"$ref": "#/definitions/SharedModelFeatures"
}
],
"properties": {
"supportsAdaptationsWith": {
"description": "Supported dataset kinds to adapt the model.",
"type": "array",
"items": {
"$ref": "#/definitions/DatasetKind"
},
"readOnly": true
},
"supportedOutputFormat": {
"description": "Supported output formats.",
"type": "array",
"items": {
"$ref": "#/definitions/OutputFormatType"
},
"readOnly": true
}
}
},
Плата за адаптацию
Свойство chargeForAdaptation добавляется в BaseModelProperties. Это свойство находится в определении BaseModel .
Внимание
Вы будете оплачивать обучение пользовательской модели речи, если базовая модель была создана 1 октября 2023 г. или позже. Плата за обучение не взимается, если базовая модель была создана до октября 2023 года. Для получения дополнительной информации см. цены на службу Azure Speech.
Если значение chargeForAdaptation равно true, плата взимается за обучение модели. Если значение равно false, плата за обучение модели взимается.
chargeForAdaptation Используйте свойство вместо созданной даты, чтобы программно определить, взимается ли плата за обучение модели.
"BaseModelProperties": {
"title": "BaseModelProperties",
"type": "object",
"properties": {
"deprecationDates": {
"$ref": "#/definitions/BaseModelDeprecationDates"
},
"features": {
"$ref": "#/definitions/BaseModelFeatures"
},
"chargeForAdaptation": {
"description": "A value indicating whether model adaptation is charged.",
"type": "boolean",
"readOnly": true
}
}
},
Нормализация текста
Свойство textNormalizationKind добавляется в DatasetProperties.
Определение сущности для TextNormalizationKind: тип нормализации текста.
- По умолчанию: нормализация текста по умолчанию (например, "два-три" заменяет "2–3" в en-US).
- Нет: к входной тексту не применяется нормализация текста. Это значение является переопределением, которое следует использовать только при нормализации текста перед отправкой.
Свойства оценки
Добавлены свойства количества токенов и свойства ошибки токена для EvaluationProperties :
-
correctTokenCount1: число правильно распознанных маркеров по модели1. -
tokenCount1: количество обработанных токенов моделью1. -
tokenDeletionCount1: число распознанных маркеров по модели1, которые являются удалениями. -
tokenErrorRate1: частота ошибок токенов распознавания моделью 1. -
tokenInsertionCount1: число распознанных маркеров по модели1, которые являются вставками. -
tokenSubstitutionCount1: число распознанных слов по модели1, которые являются подстановками. -
correctTokenCount2: число правильно распознанных маркеров по модели2. -
tokenCount2: количество обработанных маркеров по модели2. -
tokenDeletionCount2: число распознанных маркеров по модели2, которые являются удалениями. -
tokenErrorRate2: частота ошибок токенов распознавания модели 2. -
tokenInsertionCount2: число распознанных маркеров по модели2, которые являются вставками. -
tokenSubstitutionCount2: число распознанных слов по модели2, которые являются подстановками.
Копирование модели
Следующие изменения предназначены для сценария копирования модели.
- Добавлена новая операция Models_Copy . Ниже приведена схема в новой операции копирования:
"$ref": "#/definitions/ModelCopyAuthorization" - Не рекомендуется использовать операцию Models_CopyTo . Схема для устаревшей операции копирования:
"$ref": "#/definitions/ModelCopy" - Добавлена новая операция Models_AuthorizeCopy , которая возвращается
"$ref": "#/definitions/ModelCopyAuthorization". Эта возвращаемая сущность может использоваться в новой операции Models_Copy .
Добавлено новое определение сущности для ModelCopyAuthorization:
"ModelCopyAuthorization": {
"title": "ModelCopyAuthorization",
"required": [
"expirationDateTime",
"id",
"sourceResourceId",
"targetResourceEndpoint",
"targetResourceId",
"targetResourceRegion"
],
"type": "object",
"properties": {
"targetResourceRegion": {
"description": "The region (aka location) of the target speech resource (e.g., westus2).",
"minLength": 1,
"type": "string"
},
"targetResourceId": {
"description": "The Azure Resource ID of the target speech resource.",
"minLength": 1,
"type": "string"
},
"targetResourceEndpoint": {
"description": "The endpoint (base url) of the target resource (with custom domain name when it is used).",
"minLength": 1,
"type": "string"
},
"sourceResourceId": {
"description": "The Azure Resource ID of the source speech resource.",
"minLength": 1,
"type": "string"
},
"expirationDateTime": {
"format": "date-time",
"description": "The expiration date of this copy authorization.",
"type": "string"
},
"id": {
"description": "The ID of this copy authorization.",
"minLength": 1,
"type": "string"
}
}
},
Добавлено новое определение сущности для ModelCopyAuthorizationDefinition:
"ModelCopyAuthorizationDefinition": {
"title": "ModelCopyAuthorizationDefinition",
"required": [
"sourceResourceId"
],
"type": "object",
"properties": {
"sourceResourceId": {
"description": "The Azure Resource ID of the source speech resource.",
"minLength": 1,
"type": "string"
}
}
},
Свойства копирования CustomModelLinks
Добавлено новое copy свойство.
-
copyToURI: расположение устаревшего действия копирования модели. Дополнительные сведения см. в операции Models_CopyTo . -
copyURI: местоположение действия копирования модели. Дополнительные сведения см. в операции Models_Copy .
"CustomModelLinks": {
"title": "CustomModelLinks",
"type": "object",
"properties": {
"copyTo": {
"format": "uri",
"description": "The location to the obsolete model copy action. See operation \"Models_CopyTo\" for more details.",
"type": "string",
"readOnly": true
},
"copy": {
"format": "uri",
"description": "The location to the model copy action. See operation \"Models_Copy\" for more details.",
"type": "string",
"readOnly": true
},
"files": {
"format": "uri",
"description": "The location to get all files of this entity. See operation \"Models_ListFiles\" for more details.",
"type": "string",
"readOnly": true
},
"manifest": {
"format": "uri",
"description": "The location to get a manifest for this model to be used in the on-prem container. See operation \"Models_GetCustomModelManifest\" for more details.",
"type": "string",
"readOnly": true
}
},
"readOnly": true
},
Идентификаторы операций
Необходимо обновить базовый путь в коде с /speechtotext/v3.1 на /speechtotext/v3.2. Например, чтобы получить базовые модели в регионе eastus, используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base.