Перенос кода из версии 3.1 в версию 3.2 REST API
REST API преобразования речи в текст используется для быстрого транскрибирования, пакетной транскрибирования и пользовательской речи. В этой статье описываются изменения версии 3.1 до 3.2.
Внимание
Версия REST API 2024-11-15
преобразования речи в текст — это последняя версия, общедоступная.
- Версия
2024-05-15-preview
REST API преобразования речи в текст будет прекращена в датах, которые будут объявлены. - Речь в REST API
v3.0
,v3.1
,v3.2
3.2-preview.1
и3.2-preview.2
будет прекращена 1 апреля 2026 года.
Дополнительные сведения об обновлении см. в руководствах по миграции службы "Речь на текст" REST API версии 3.0 до версии 3.1, версии 3.1 до версии 3.2 и версии 3.2 до 2024-11-15.
Базовый путь
Необходимо обновить базовый путь в коде/speechtotext/v3.2
./speechtotext/v3.1
Например, чтобы получить базовые модели в регионе eastus
, используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base
вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
него.
Дополнительные сведения см . в разделе идентификаторы операций далее в этом руководстве.
Пакетное транскрибирование
Внимание
Новая цена действует для пакетной транскрибирования с помощью преобразования речи в текст REST API версии 3.2. Дополнительные сведения см. в руководстве по ценам.
Обратная совместимость ограничений
Не используйте преобразование речи в текст REST API версии 3.0 или версии 3.1 для получения транскрибирования, созданного с помощью преобразования речи в текст REST API версии 3.2. Может появиться сообщение об ошибке, например "Версия API не может использоваться для доступа к этому транскрибированию. Используйте API версии 3.2 или более поздней.
Режим идентификации языка
Добавляется LanguageIdentificationMode
как LanguageIdentificationProperties
одноуровневый candidateLocales
элемент и speechModelMapping
. Режимы, доступные для идентификации языка, или Continuous
Single
. Непрерывная идентификация языка — это значение по умолчанию. Дополнительные сведения см. в разделе Идентификация языка.
Модели Whisper
Служба "Речь ИИ Azure" теперь поддерживает модель Whisper OpenAI с помощью преобразования речи в текст REST API версии 3.2. Дополнительные сведения см. в руководстве по созданию пакетной транскрибирования .
Примечание.
Служба Azure OpenAI также поддерживает модель Whisper OpenAI для преобразования речи в текст с синхронным REST API. Дополнительные сведения см. в кратком руководстве. Ознакомьтесь с тем, что такое модель Whisper? Чтобы узнать больше об использовании службы "Речь ИИ Azure" и "Служба OpenAI Azure".
Настраиваемая речь
Внимание
Вы будете взимать плату за обучение пользовательской модели речи, если базовая модель была создана 1 октября 2023 г. и более поздних версий. Плата за обучение не взимается, если базовая модель была создана до октября 2023 года. Дополнительные сведения см. в разделе о ценах на службы "Речь" в Azure AI.
Чтобы программно определить, была ли модель создана до или после 1 октября 2023 г., используйте chargedForAdaptation
новое свойство в версии 3.2.
Форматирование текста пользовательского отображения
Для поддержки адаптации модели с пользовательскими данными форматирования текста Datasets_Create поддерживает тип данных OutputFormatting. Дополнительные сведения см. в разделе "Отправка наборов данных".
Добавлено определение для OutputFormatType
Lexical
значений перечисления и Display
перечисления.
"OutputFormatType": {
"title": "OutputFormatType",
"enum": [
"Lexical",
"Display"
],
"type": "string",
"x-ms-enum": {
"name": "OutputFormatType",
"modelAsString": true,
"values": [
{
"value": "Lexical",
"description": "Model provides the transcription output without formatting."
},
{
"value": "Display",
"description": "Model supports display formatting transcriptions output or endpoints."
}
]
}
},
Значение OutputFormattingData
перечисления добавляется в FileKind
(тип входных данных).
Свойство supportedOutputFormat
добавляется в BaseModelFeatures
. Это свойство находится в определении BaseModel
.
"BaseModelFeatures": {
"title": "BaseModelFeatures",
"description": "Features supported by the model.",
"type": "object",
"allOf": [
{
"$ref": "#/definitions/SharedModelFeatures"
}
],
"properties": {
"supportsAdaptationsWith": {
"description": "Supported dataset kinds to adapt the model.",
"type": "array",
"items": {
"$ref": "#/definitions/DatasetKind"
},
"readOnly": true
},
"supportedOutputFormat": {
"description": "Supported output formats.",
"type": "array",
"items": {
"$ref": "#/definitions/OutputFormatType"
},
"readOnly": true
}
}
},
Плата за адаптацию
Свойство chargeForAdaptation
добавляется в BaseModelProperties
. Это свойство находится в определении BaseModel
.
Внимание
Вы будете взимать плату за обучение пользовательской модели речи, если базовая модель была создана 1 октября 2023 г. и более поздних версий. Плата за обучение не взимается, если базовая модель была создана до октября 2023 года. Дополнительные сведения см. в разделе о ценах на службы "Речь" в Azure AI.
Если значение chargeForAdaptation
равно true
, плата взимается за обучение модели. Если значение равно false
, плата за обучение модели взимается. chargeForAdaptation
Используйте свойство вместо созданной даты, чтобы программно определить, взимается ли плата за обучение модели.
"BaseModelProperties": {
"title": "BaseModelProperties",
"type": "object",
"properties": {
"deprecationDates": {
"$ref": "#/definitions/BaseModelDeprecationDates"
},
"features": {
"$ref": "#/definitions/BaseModelFeatures"
},
"chargeForAdaptation": {
"description": "A value indicating whether model adaptation is charged.",
"type": "boolean",
"readOnly": true
}
}
},
Нормализация текста
Свойство textNormalizationKind
добавляется в DatasetProperties
.
Определение сущности для TextNormalizationKind: тип нормализации текста.
- По умолчанию: нормализация текста по умолчанию (например, "два-три" заменяет "2–3" в en-US).
- Нет: к входной тексту не применяется нормализация текста. Это значение является переопределением, которое следует использовать только при нормализации текста перед отправкой.
Свойства оценки
Добавлены свойства счетчика маркеров и свойства ошибки маркера EvaluationProperties
:
correctTokenCount1
: число правильно распознанных маркеров по модели1.tokenCount1
: количество обработанных маркеров по модели1.tokenDeletionCount1
: число распознанных маркеров по модели1, которые являются удалениями.tokenErrorRate1
: частота ошибок маркера распознавания с моделью 1.tokenInsertionCount1
: число распознанных маркеров по модели1, которые являются вставками.tokenSubstitutionCount1
: число распознанных слов по модели1, которые являются подстановками.correctTokenCount2
: число правильно распознанных маркеров по модели2.tokenCount2
: количество обработанных маркеров по модели2.tokenDeletionCount2
: число распознанных маркеров по модели2, которые являются удалениями.tokenErrorRate2
: частота ошибок маркера распознавания с моделью 2.tokenInsertionCount2
: число распознанных маркеров по модели2, которые являются вставками.tokenSubstitutionCount2
: число распознанных слов по модели2, которые являются подстановками.
Копирование модели
Следующие изменения предназначены для сценария копирования модели.
- Добавлена новая операция Models_Copy . Ниже приведена схема в новой операции копирования:
"$ref": "#/definitions/ModelCopyAuthorization"
- Не рекомендуется использовать операцию Models_CopyTo . Ниже приведена схема в нерекомендуемой операции копирования:
"$ref": "#/definitions/ModelCopy"
- Добавлена новая операция Models_AuthorizeCopy , которая возвращается
"$ref": "#/definitions/ModelCopyAuthorization"
. Эта возвращаемая сущность может использоваться в новой операции Models_Copy .
Добавлено новое определение сущности для ModelCopyAuthorization
:
"ModelCopyAuthorization": {
"title": "ModelCopyAuthorization",
"required": [
"expirationDateTime",
"id",
"sourceResourceId",
"targetResourceEndpoint",
"targetResourceId",
"targetResourceRegion"
],
"type": "object",
"properties": {
"targetResourceRegion": {
"description": "The region (aka location) of the target speech resource (e.g., westus2).",
"minLength": 1,
"type": "string"
},
"targetResourceId": {
"description": "The Azure Resource ID of the target speech resource.",
"minLength": 1,
"type": "string"
},
"targetResourceEndpoint": {
"description": "The endpoint (base url) of the target resource (with custom domain name when it is used).",
"minLength": 1,
"type": "string"
},
"sourceResourceId": {
"description": "The Azure Resource ID of the source speech resource.",
"minLength": 1,
"type": "string"
},
"expirationDateTime": {
"format": "date-time",
"description": "The expiration date of this copy authorization.",
"type": "string"
},
"id": {
"description": "The ID of this copy authorization.",
"minLength": 1,
"type": "string"
}
}
},
Добавлено новое определение сущности для ModelCopyAuthorizationDefinition
:
"ModelCopyAuthorizationDefinition": {
"title": "ModelCopyAuthorizationDefinition",
"required": [
"sourceResourceId"
],
"type": "object",
"properties": {
"sourceResourceId": {
"description": "The Azure Resource ID of the source speech resource.",
"minLength": 1,
"type": "string"
}
}
},
Свойства копирования CustomModelLinks
Добавлено новое copy
свойство.
copyTo
URI: расположение устаревшего действия копирования модели. Дополнительные сведения см. в операции Models_CopyTo .copy
URI: расположение действия копирования модели. Дополнительные сведения см. в операции Models_Copy .
"CustomModelLinks": {
"title": "CustomModelLinks",
"type": "object",
"properties": {
"copyTo": {
"format": "uri",
"description": "The location to the obsolete model copy action. See operation \"Models_CopyTo\" for more details.",
"type": "string",
"readOnly": true
},
"copy": {
"format": "uri",
"description": "The location to the model copy action. See operation \"Models_Copy\" for more details.",
"type": "string",
"readOnly": true
},
"files": {
"format": "uri",
"description": "The location to get all files of this entity. See operation \"Models_ListFiles\" for more details.",
"type": "string",
"readOnly": true
},
"manifest": {
"format": "uri",
"description": "The location to get a manifest for this model to be used in the on-prem container. See operation \"Models_GetCustomModelManifest\" for more details.",
"type": "string",
"readOnly": true
}
},
"readOnly": true
},
Идентификаторы операций
Необходимо обновить базовый путь в коде/speechtotext/v3.2
./speechtotext/v3.1
Например, чтобы получить базовые модели в регионе eastus
, используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base
вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
него.