Отправка наборов данных для обучения и тестирования для пользовательской речи

Для проверки точности распознавания речи или обучения пользовательских моделей требуются звуковые или текстовые данные. Сведения о типах данных, поддерживаемых для тестирования или обучения модели, приведены в разделе Наборы данных для обучения и тестирования.

Совет

Кроме того, вы можете использовать редактор транскрибирования в Интернете для создания и настройки наборов аудиоданных с метками.

Отправка наборов данных

Выполните следующие действия, чтобы отправить наборы данных для обучения (точной настройки) пользовательской модели речи.

Внимание

Повторите шаги для отправки тестовых наборов данных (например, только аудио ), которые потребуются позже при создании теста. Вы можете отправить несколько наборов данных для обучения и тестирования.

Войдите на портал Microsoft Foundry.
Выберите Тонкая настройка в левой области и выберите Тонкая настройка службы ИИ.
Выберите задачу настраиваемой настройки речи (по имени модели), которую вы запустили, как описано в статье о начале настройки пользовательской речи.
Выберите Управление данными>Добавить набор данных.
В мастере добавления данных выберите тип обучающих данных , которые необходимо добавить. В этом примере мы выбираем транскрибирование аудио + человека. Затем выберите Далее.
На странице "Отправка данных" выберите локальные файлы, Хранилище BLOB-объектов Azure или другие общие веб-расположения. Затем выберите Далее.

Если вы выбираете удаленное расположение и не используете механизм безопасности доверенных служб Azure, удаленное расположение должно быть URL-адресом, который можно получить с помощью простого анонимного запроса GET. Например, URL-адрес SAS или общедоступный URL-адрес. URL-адреса, требующие дополнительной авторизации или ожидающие взаимодействия с пользователем, не поддерживаются.

Примечание.

При использовании URL-адреса BLOB-объектов Azure можно обеспечить максимальную безопасность файлов набора данных с помощью доверенного механизма безопасности служб Azure. Вы используете те же методы, что и для пакетного распознавания речи и обычных URL-адресов учетной записи хранения для файлов набора данных. Дополнительные сведения см. здесь.
Введите имя и описание данных. Затем выберите Далее.
Просмотрите данные и выберите " Отправить". Вы вернелись на страницу "Управление данными". Состояние данных — обработка.
Повторите шаги для отправки тестовых наборов данных (например, только аудио ), которые потребуются позже при создании теста. Вы можете отправить несколько наборов данных для обучения и тестирования.
Повторите предыдущие шаги, чтобы передать звуковые данные , которые вы используете позже для тестирования. В мастере добавления данных выберите "Звук " для типа данных, которые требуется добавить.

Чтобы отправить собственные наборы данных в Speech Studio, выполните следующие действия:

Войдите в службу Speech Studio.
Выберите
Выберите вкладку Данные для обучения или Данные для тестирования.
Выберите тип набора данных и нажмите Далее.
Укажите расположение набора данных и нажмите Далее. Вы можете выбрать локальный файл или ввести удаленное расположение, например URL-адрес BLOB-объектов Azure. Если вы выбираете удаленное расположение и не используете механизм безопасности доверенных служб Azure, удаленное расположение должно быть URL-адресом, который можно получить с помощью простого анонимного запроса GET. Например, URL-адрес SAS или общедоступный URL-адрес. URL-адреса, требующие дополнительной авторизации или ожидающие взаимодействия с пользователем, не поддерживаются.

Примечание.

При использовании URL-адреса BLOB-объектов Azure можно обеспечить максимальную безопасность файлов набора данных с помощью доверенного механизма безопасности служб Azure. Вы используете те же методы, что и для пакетного преобразования речи в текст и обычных URL-адресов учетной записи хранения для файлов набора данных. Дополнительные сведения см. здесь.
Введите имя и описание набора данных и нажмите Далее.
Проверьте параметры, а затем выберите Сохранить и закрыть.

После отправки набора данных перейдите на страницу "Обучение пользовательских моделей ", чтобы обучить пользовательскую модель.

Прежде чем продолжить, убедитесь, что у вас установлен и настроен Speech CLI.

С помощью Speech CLI и Speech to Text REST API, в отличие от портала Microsoft Foundry и Speech Studio, вы не выбираете, является ли набор данных для тестирования или обучения во время загрузки. Вы указываете, как набор данных используется при обучении модели или выполнении теста.

При том, что вы не указываете, предназначен ли набор данных для тестирования или обучения, необходимо указать тип набора данных. Тип набора данных используется для определения типа создаваемого набора данных. В некоторых случаях тип набора данных используется только для тестирования или обучения, но полагаться на это не следует. Значения CLI и REST API для службы "Речь" kind соответствуют параметрам в портале Microsoft Foundry и Speech Studio, как описано в следующей таблице.

Тип интерфейса командной строки и API	Параметры портала
Акустическая	Обучающие данные: аудиоданные и расшифровка, размеченная пользователем Обучающие данные: расшифровка (автоматический синтез аудиоданных) Тестовые данные: аудиоданные и расшифровка, размеченная пользователем
Аудиофайлы	Тестовые данные: аудиоданные
Язык	Обучающие данные: обычный текст
Язык Markdown	Учебные данные: структурированный текст в формате markdown
Произношение	Обучающие данные: произношение
Форматирование вывода	Учебные данные: формат вывода

Внимание

Вы не используете интерфейс командной строки службы "Речь" или REST API для отправки файлов данных напрямую. Сначала вы храните файлы набора данных для обучения или тестирования по URL-адресу, к которому может получить доступ интерфейс командной строки или REST API. После отправки файлов данных можно использовать ИНТЕРФЕЙС командной строки службы "Речь" или REST API для создания набора данных для пользовательского тестирования речи или обучения.

Чтобы создать набор данных и подключить его к существующему проекту, используйте команду spx csr dataset create. Создайте параметры запроса в соответствии со следующими инструкциями:

project Задайте для свойства идентификатор существующего проекта. Рекомендуется использовать это project свойство, чтобы вы также могли управлять тонкой настройкой для пользовательской речи на портале Microsoft Foundry. Чтобы получить идентификатор проекта, ознакомьтесь с идентификатором проекта для документации по REST API.
Задайте обязательное свойство kind. Возможный набор значений для типа набора данных обучения: Acoustic, AudioFiles, Language, LanguageMarkdown и Произношение.
Задайте обязательное свойство contentUrl. Этот параметр является расположением набора данных. Если вы не используете механизм безопасности доверенных служб Azure (см. следующее примечание), contentUrl то это свойство должно быть URL-адресом, который можно получить с помощью простого анонимного запроса GET. Например, URL-адрес SAS или общедоступный URL-адрес. URL-адреса, требующие дополнительной авторизации или ожидающие, что взаимодействие с пользователем не поддерживается.

Примечание.

При использовании URL-адреса BLOB-объектов Azure можно обеспечить максимальную безопасность файлов набора данных с помощью доверенного механизма безопасности служб Azure. Вы используете те же методы, что и для пакетного преобразования речи в текст и обычных URL-адресов учетной записи хранения для файлов набора данных. Дополнительные сведения см. здесь.
Задайте обязательное свойство language. Языковой стандарт набора данных должен соответствовать языковому стандарту проекта. Языковой стандарт нельзя будет изменить позже. Свойство командной строки language службы речевой обработки соответствует свойству locale в запросе и ответе JSON.
Задайте обязательное свойство name. Этот параметр — это имя, отображаемое на портале Microsoft Foundry. Свойство командной строки name службы речевой обработки соответствует свойству displayName в запросе и ответе JSON.

Ниже приведен пример команды интерфейса командной строки речевой службы, которая создает набор данных и подключает его к существующему проекту:

spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Внимание

Необходимо задать --api-version v3.2. Интерфейс командной строки службы "Речь" использует REST API, но пока не поддерживает версии позже v3.2.

Вы должны получить ответ в следующем формате:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/aaaabbbb-0000-cccc-1111-dddd2222eeee",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

Свойство верхнего уровня self в теле ответа представляет собой URI набора данных. Используйте этот URI для получения сведений о проекте и файлах набора данных. Тот же URI используйте для обновления или удаления набора данных.

Для получения справки интерфейса командной строки речевой службы по работе с наборами данных выполните следующую команду:

spx help csr dataset

С помощью Speech CLI и Speech to text REST API, в отличие от портала Microsoft Foundry и Speech Studio, вы не выбираете, будет ли набор данных использоваться для тестирования или обучения на момент его загрузки. Вы указываете, как набор данных используется при обучении модели или выполнении теста.

При том, что вы не указываете, предназначен ли набор данных для тестирования или обучения, необходимо указать тип набора данных. Тип набора данных используется для определения типа создаваемого набора данных. В некоторых случаях тип набора данных используется только для тестирования или обучения, но полагаться на это не следует. Значения CLI и REST API kind соответствуют параметрам на портале Microsoft Foundry и Speech Studio, как показано в таблице ниже.

Тип интерфейса командной строки и API	Параметры портала
Акустическая	Обучающие данные: аудиоданные и расшифровка, размеченная пользователем Обучающие данные: расшифровка (автоматический синтез аудиоданных) Тестовые данные: аудиоданные и расшифровка, размеченная пользователем
Аудиофайлы	Тестовые данные: аудиоданные
Язык	Обучающие данные: обычный текст
Язык Markdown	Учебные данные: структурированный текст в формате markdown
Произношение	Обучающие данные: произношение
Форматирование вывода	Учебные данные: формат вывода

Внимание

Чтобы создать набор данных и подключить его к существующему проекту, используйте Datasets_Create операцию преобразования речи в текстовый REST API. Создайте текст запроса в соответствии со следующими инструкциями:

project Задайте для свойства идентификатор существующего проекта. Рекомендуется использовать это project свойство, чтобы вы также могли управлять тонкой настройкой для пользовательской речи на портале Microsoft Foundry. Чтобы получить идентификатор проекта, ознакомьтесь с идентификатором проекта для документации по REST API.
Задайте обязательное свойство kind. Возможный набор значений для типа набора данных обучения: Acoustic, AudioFiles, Language, LanguageMarkdown и Произношение.
Задайте обязательное свойство contentUrl. Это свойство является расположением набора данных. Если вы не используете механизм безопасности доверенных служб Azure (см. следующее примечание), contentUrl то это свойство должно быть URL-адресом, который можно получить с помощью простого анонимного запроса GET. Например, URL-адрес SAS или общедоступный URL-адрес. URL-адреса, требующие дополнительной авторизации или ожидающие, что взаимодействие с пользователем не поддерживается.

Примечание.

При использовании URL-адреса BLOB-объектов Azure можно обеспечить максимальную безопасность файлов набора данных с помощью доверенного механизма безопасности служб Azure. Вы используете те же методы, что и для пакетного преобразования речи в текст и обычных URL-адресов учетной записи хранения для файлов набора данных. Дополнительные сведения см. здесь.
Задайте обязательное свойство locale. Языковой стандарт набора данных должен соответствовать языковому стандарту проекта. Языковой стандарт нельзя будет изменить позже.
Задайте обязательное свойство displayName. Это свойство — это имя, отображаемое на портале Microsoft Foundry.

Выполните HTTP-запрос POST, используя URI, как показано в следующем примере. Замените YourSpeechResoureKey ключом ресурса службы "Речь" и YourServiceRegion регионом ресурса службы "Речь", а также задайте свойства текста запроса, как описано выше.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"

Вы должны получить ответ в следующем формате:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/aaaabbbb-0000-cccc-1111-dddd2222eeee",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

Свойство верхнего уровня self в теле ответа представляет собой URI набора данных. Используйте этот URI для получения сведений о проекте и файлах набора данных. Этот URI также используется для обновления или удаления набора данных.

Внимание

Подключение набора данных к пользовательскому проекту речи не требуется для обучения и тестирования пользовательской модели с помощью REST API или интерфейса командной строки службы "Речь". Но если набор данных не подключен к любому проекту, его нельзя выбрать для обучения или тестирования на портале Microsoft Foundry.

Следующие шаги

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-05-19

Поделиться через

Отправка наборов данных для обучения и тестирования для пользовательской речи