Перенос кода из версии 3.0 в версию 3.1 REST API

REST API преобразования речи в текст используется для быстрого транскрибирования, пакетной транскрибирования и пользовательской речи. Изменения версии 3.0 до 3.1 описаны в следующих разделах.

Внимание

Версия REST API 2025-10-15 преобразования речи в текст — это последняя версия, общедоступная.

  • API преобразования речи в текст REST версия 2024-05-15-preview будет прекращена к дате, которая будет объявлена.
  • Речь в текст REST API v3.0, v3.1, v3.2, 3.2-preview.1 и 3.2-preview.2 была прекращена 31 марта 2026 года.

Дополнительные сведения об обновлении см. в руководствах по миграции службы "Речь" на текст REST API версии 3.0 до версии 3.1, версии 3.2до 2024-11-15 и 2024-11-15 до 2025-10-15 .

Базовый путь

Необходимо обновить базовый путь в коде с /speechtotext/v3.0 на /speechtotext/v3.1. Например, чтобы получить базовые модели в регионе eastus, используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base.

Обратите внимание на следующие другие изменения:

  • Операция /models/{id}/copyto (включая "/") в версии 3.0 заменяется /models/{id}:copyto операцией (включает ":") в версии 3.1.
  • Операция /webhooks/{id}/ping (включая "/") в версии 3.0 заменяется /webhooks/{id}:ping операцией (включает ":") в версии 3.1.
  • Операция /webhooks/{id}/test (включая "/") в версии 3.0 заменяется /webhooks/{id}:test операцией (включает ":") в версии 3.1.

Дополнительные сведения см. в разделе Идентификаторы операций далее в этом руководстве.

Пакетное транскрибирование

Примечание.

Не используйте преобразование речи в текст REST API версии 3.0 для получения транскрибирования, созданного с помощью преобразования речи в текст REST API версии 3.1. Вы увидите сообщение об ошибке, например следующее: "Версия API не может использоваться для доступа к этому транскрибированию. Используйте API версии 3.1 или более поздней.

В операции Transcriptions_Create добавляются следующие три свойства:

  • Это свойство displayFormWordLevelTimestampsEnabled можно использовать для включения представления временных меток на уровне слова в формате отображения результатов транскрибирования. Результаты возвращаются в displayWords свойстве файла транскрибирования.
  • Свойство diarization можно использовать для указания минимального и максимального количества меток говорящего для создания при выполнении необязательной диаризации (разделение говорящего). Благодаря этой функции служба теперь может генерировать метки динамика для более чем двух динамиков. Чтобы использовать это свойство, необходимо также установить свойство diarizationEnabled на true. С помощью API версии 3.1 мы увеличили число динамиков, которые можно определить путем диаризации из двух динамиков, поддерживаемых API версии 3.0. Рекомендуется сохранить количество докладчиков в возрасте до 30 для повышения производительности.
  • Свойство languageIdentification можно использовать для указания параметров идентификации языка для входных данных перед транскрибированием. Для идентификации языка поддерживается до 10 кандидатов языковых регионов. Возвращаемый транскрипт включает новое свойство locale для распознанного языка или локали, предоставленной вами.

Свойство filter добавляется в операции Transcriptions_List, Transcriptions_ListFiles и Projects_ListTranscriptions . Выражение filter можно использовать для выбора подмножества доступных ресурсов. Вы можете фильтровать по displayName, , description, createdDateTimelastActionDateTimeиstatuslocale. Например: filter=createdDateTime gt 2022-02-01T11:00:00Z

Если вы используете веб-перехватчик для получения уведомлений о состоянии транскрибирования, обратите внимание, что веб-перехватчики, созданные через API версии 3.0, не могут получать уведомления для запросов транскрибирования версии 3.1. Для получения уведомлений о запросах транскрибирования в версии 3.1, необходимо создать новую конечную точку веб-перехватчика, используя API версии 3.1.

Настраиваемая речь

Наборы данных

Для отправки и управления несколькими блоками данных для набора данных добавляются следующие операции:

  • Datasets_UploadBlock — загрузка блока данных для набора данных. Максимальный размер блока составляет 8МиБ.
  • Datasets_GetBlocks. Получение списка загруженных блоков для этого набора данных.
  • Datasets_CommitBlocks - Зафиксируйте список блоков для завершения отправки набора данных.

Для поддержки адаптации модели с структурированным текстом в данных формата Markdown операция Datasets_Create теперь поддерживает тип данных LanguageMarkdown. Дополнительные сведения см. в разделе "Отправка наборов данных".

Модели

Операции Models_ListBaseModels и Models_GetBaseModel возвращают сведения о типе адаптации, поддерживаемом каждой базовой моделью.

"features": {
    "supportsAdaptationsWith": [
        "Acoustic",
        "Language",
        "LanguageMarkdown",
        "Pronunciation"
    ]
}

Операция Models_Create имеет новое customModelWeightPercent свойство, в котором можно указать вес, используемый при использовании пользовательской языковой модели (обученной из простых или структурированных текстовых данных) в сочетании с базовой языковой моделью. Допустимые значения — целые числа от 1 до 100. В настоящее время значение по умолчанию равно 30.

Свойство filter добавляется в следующие операции:

Выражение filter можно использовать для выбора подмножества доступных ресурсов. Вы можете фильтровать по displayName, , description, createdDateTimelastActionDateTime, statuslocaleи kind. Например: filter=locale eq 'en-US'

Добавлена операция Models_ListFiles для получения файлов модели, определяемой указанным идентификатором.

Добавлена операция Models_GetFile, чтобы получить один конкретный файл (идентифицируемый с помощью fileId) из модели (идентифицируется идентификатором). Это позволяет получить файл ModelReport, содержащий информацию о данных, обработанных во время обучения.

Идентификаторы операций

Необходимо обновить базовый путь в коде с /speechtotext/v3.0 на /speechtotext/v3.1. Например, чтобы получить базовые модели в регионе eastus, используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base.

Имя каждого из них operationId в версии 3.1 префиксируется именем объекта. Например, operationId для "Создать модель" было изменено с CreateModel в версии 3.0 на Models_Create в версии 3.1.

Операция /models/{id}/copyto (включая "/") в версии 3.0 заменяется /models/{id}:copyto операцией (включает ":") в версии 3.1.

Операция /webhooks/{id}/ping (включая "/") в версии 3.0 заменяется /webhooks/{id}:ping операцией (включает ":") в версии 3.1.

Операция /webhooks/{id}/test (включая "/") в версии 3.0 заменяется /webhooks/{id}:test операцией (включает ":") в версии 3.1.

Следующие шаги