Настраиваемое преобразование речи в текстовые контейнеры с помощью Docker

Произвольный контейнер для преобразования речи в текст транскрибирует речь в режиме реального времени или обрабатывает пакетные аудиозаписи с промежуточными результатами. Вы можете использовать пользовательскую модель, созданную на пользовательском портале речи. В этой статье вы узнаете, как скачать, установить и запустить настраиваемый контейнер преобразования речи в текст.

Дополнительные сведения о предварительных требованиях, проверке запуска контейнера, выполнении нескольких контейнеров на одном узле и выполнении отключенных контейнеров см. в разделе "Установка и запуск контейнеров службы "Речь" с помощью Docker.

Образы контейнеров

Пользовательский контейнерный образ для преобразования речи в текст для всех поддерживаемых версий и языковых стандартов можно найти в реестре контейнеров Microsoft (MCR). Он находится в репозитории azure-cognitive-services/speechservices/ и называется custom-speech-to-text.

Полностью квалифицированное имя образа контейнера: mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text. Добавьте конкретную версию или :latest, чтобы получить последнюю версию.

Версия	Путь
Последнее	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.12.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.12.0-amd64`

Все теги, кроме latestтегов, имеют следующий формат и чувствительны к регистру:

<major>.<minor>.<patch>-<platform>-<prerelease>

Примечание

Параметры для пользовательских контейнеров преобразования речи в текст определяются пользовательской моделью, используемой контейнером.

Теги также доступны в формате JSON для удобства. Текст содержит путь к контейнеру и список тегов. Теги не отсортированы по версии, но "latest" всегда включаются в конец списка, как показано в этом фрагменте кода:

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    <--redacted for brevity-->
    "4.0.0-amd64",
    "4.1.0-amd64",
    "4.10.0-amd64",
    "4.11.0-amd64",
    "4.12.0-amd64",
    "4.2.0-amd64",
    "4.3.0-amd64",
    "4.4.0-amd64",
    "4.5.0-amd64",
    "4.6.0-amd64",
    "4.7.0-amd64",
    "4.8.0-amd64",
    "4.9.0-amd64",
    "5.0.0-preview-amd64",
    "5.0.1-preview-amd64",
    "latest"
  ]
}

Получение образа контейнера с помощью docker pull

Вам необходимы требования, включая необходимое оборудование. Также см. рекомендуемое распределение ресурсов для каждого контейнера "Речи".

Используйте команду docker pull для скачивания образа контейнера из реестра контейнеров Microsoft:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

Примечание

locale и voice для пользовательских контейнеров Речи определяются пользовательской моделью, использованной контейнером.

Получение идентификатора модели

Прежде чем запустить контейнер, необходимо знать идентификатор модели пользовательской модели или идентификатор базовой модели. При запуске контейнера необходимо указать один из идентификаторов модели для скачивания и использования.

Идентификатор пользовательской модели
Идентификатор базовой модели

Пользовательскую модель необходимо обучить с помощью Speech Studio. Сведения о том, как получить идентификатор модели, см. в разделе жизненного цикла пользовательской модели речи.

Снимок экрана, показывающий страницу обучения пользовательской речи.

Получите идентификатор модели , используемый в качестве аргумента ModelIddocker run для параметра команды.

Снимок экрана: сведения о пользовательской модели речи.

С помощью параметра BaseModelLocale={LOCALE}можно получить доступные сведения о базовой модели. Этот параметр предоставляет список доступных основных моделей для данной локали в вашем учетной записи для выставления счетов.

Чтобы получить идентификаторы базовой docker run модели, используйте команду. Например:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Эта команда проверяет образ контейнера и возвращает доступные базовые модели целевого локала.

Примечание

Хотя вы используете docker run команду, контейнер не запускается для службы.

Результаты предоставляют список базовых моделей с локалью, идентификатором модели и датой и временем создания. Например:

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

Скачивание модели дисплея

Перед запуском контейнера вы можете, опционально, получить информацию о доступных моделях отображения и выбрать их загрузку в контейнер преобразования речи в текст, чтобы значительно улучшить финальный отображаемый результат. Скачивание модели отображения доступно с помощью пользовательского контейнера преобразования речи в текст версии 3.1.0 и более поздних версий.

Примечание

Хотя вы используете docker run команду, контейнер не запускается для службы.

Вы можете запрашивать или скачивать любые или все эти типы моделей отображения: переоценка (Rescore), пунктуация (Punct), ресегментация (Resegment) и wfstitn (Wfstitn). В противном случае можно использовать опцию FullDisplay (с другими типами или без них) для запроса или скачивания всех доступных типов моделей отображения.

Установите BaseModelLocale для запроса самой последней доступной модели отображения в целевом регионе. Если вы включаете несколько типов моделей отображения, команда возвращает последние доступные модели отображения для каждого типа. Например:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

DisplayLocale Задайте для скачивания последнюю доступную модель отображения на целевом языковом стандарте. При установке DisplayLocaleнеобходимо также указать FullDisplay или разделенное пробелами подмножество моделей отображения. Команда скачивает последнюю доступную модель отображения для каждого указанного типа. Например:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Задайте один идентификатор модели, чтобы скачать определенную модель отображения: rescoring (RescoreId), знак препинания (PunctId), resegmentation (ResegmentId) или wfstitn (WfstitnId). Это похоже на скачивание базовой модели с помощью ModelId параметра. Например, чтобы скачать модель повторной оценки отображения, можно использовать следующую команду с параметром RescoreId:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Примечание

Если задано несколько параметров запроса или скачивания, команда будет определять приоритет в этом порядке: BaseModelLocaleидентификатор модели, а затем DisplayLocale (применимо только для моделей отображения).

Запуск контейнера с помощью docker run

Используйте команду docker run для запуска службы в контейнере.

Настраиваемое преобразование речи в текст
Отключенная пользовательская речь к тексту

В следующей таблице представлены различные docker run параметры и их соответствующие описания:

Параметр	Описание
`{VOLUME_MOUNT}`	Хост-компьютер для монтажа тома, который Docker использует для сохранения пользовательской модели. Примером является `c:\CustomSpeech`, где `c:\` диск расположен на хост-компьютере.
`{MODEL_ID}`	Идентификатор пользовательской речевой модели или базовой модели. Дополнительные сведения см. в разделе "Получение идентификатора модели".
`{ENDPOINT_URI}`	Конечная точка необходима для измерения и выставления счетов. Дополнительные сведения см. в разделе аргументов выставления счетов.
`{API_KEY}`	Требуется ключ API. Дополнительные сведения см. в разделе аргументов выставления счетов.

При запуске пользовательской речи в текстовый контейнер настройте порт, память и ЦП в соответствии с пользовательскими требованиями к текстовому контейнеру и рекомендациями.

Ниже приведен пример docker run команды со значениями заполнителей. Необходимо указать значения VOLUME_MOUNT, MODEL_ID, ENDPOINT_URI и API_KEY:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Эта команда:

Запускает настраиваемый контейнер преобразования речи в текст из образа контейнера.
Выделяет 4 ядра ЦП и 8 ГБ памяти.
Загружает пользовательскую модель преобразования речи в текст из подключенного хранилища, например, C:\CustomSpeech.
Предоставляет TCP-порт 5000 и выделяет псевдо-TTY для контейнера.
Загружает модель, указанную ModelId (если она не найдена на смонтированном томе).
Если пользовательская модель была скачана ранее, ModelId она игнорируется.
Автоматически удаляет контейнер после выхода. Образ контейнера по-прежнему доступен на хост-компьютере.

Дополнительные сведения о контейнерах службы "Речь" см. в docker run разделе "Установка и запуск контейнеров службы "Речь" с помощью Docker.

Чтобы запустить отключенные контейнеры (не подключенные к Интернету), необходимо отправить эту форму запроса и ждать утверждения. Дополнительные сведения о применении и приобретении плана обязательств по использованию контейнеров в отключенных средах см. в разделе Использование контейнеров в отключенных средах документации по средствам Foundry.

Если вы получили разрешение на запуск контейнера без подключения к интернету, в следующем примере показано форматирование команды docker run для использования с заменяемыми значениями. Замените эти заполнители собственными значениями.

Чтобы подготовить и настроить отключённый пользовательский контейнер преобразования речи в текст, вам потребуется два отдельных ресурса для работы с речью.

Обычный ресурс Azure Speech в Foundry Tools, настроенный для использования ценовой категории "S0 - Standard" или тарифного плана "Speech to Text (Custom)". Он используется для обучения, скачивания и настройки пользовательских моделей речи для использования в контейнере.
Ресурс Azure для распознавания речи, настроенный для использования тарифного плана "DC0 Commitment (Отключенный)". Это используется для скачивания файла лицензии на отключенный контейнер, необходимый для запуска контейнера в отключенном режиме.

Выполните следующие действия, чтобы скачать и запустить контейнер в отключенных средах.

Скачайте модель для отключенного контейнера. На этом шаге используйте обычный ресурс Azure службы "Речь", настроенный для использования уровня цен "S0 - Standard" или плана "Speech to Text (Custom)" обязательного уровня цен.
Скачайте лицензию отключенного контейнера. На этом шаге используйте ресурс Azure Speech, настроенный для использования ценовой категории "DC0 Commitment (в автономном режиме)".
Запустите контейнер в автономном режиме для обслуживания. На этом шаге используйте ресурс Azure Speech, настроенный для использования тарифного плана "DC0 Commitment (Disconnected)".

Скачивание модели для отключенного контейнера

На этом шаге используйте обычный ресурс службы Azure на базе речевых технологий, настроенный для использования ценовой категории "S0 - Standard" или плана "Speech to Text (Custom)" на основе обязательств.

В следующей таблице представлены различные docker run параметры и их соответствующие описания:

Параметр	Описание
`{VOLUME_MOUNT}`	Подключение тома хост-компьютера, которое Docker использует для сохранения пользовательской модели. Примером является `c:\CustomSpeech`, где `c:\` диск расположен на хост-компьютере.
`{MODEL_ID}`	Идентификатор пользовательской речи или базовой модели. Дополнительные сведения см. в разделе "Получение идентификатора модели".
`{ENDPOINT_URI}`	Конечная точка необходима для измерения и выставления счетов. Дополнительные сведения см. в разделе аргументов выставления счетов.
`{API_KEY}`	Требуется ключ API. Дополнительные сведения см. в разделе аргументов выставления счетов.

При запуске пользовательского контейнера для преобразования речи в текст настройте порт, память и ЦП в соответствии с требованиями и рекомендациями к данному контейнеру.

Вот пример команды docker run со значениями заполнителей. Необходимо указать значения VOLUME_MOUNT, значения MODEL_ID, значения ENDPOINT_URI и значения API_KEY.

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Эта команда:

Выполняет настраиваемую речь в текстовом контейнере из образа контейнера.
Выделяет 4 ядра ЦП и 8 ГБ памяти.
Загружает пользовательскую модель преобразования речи в текст из подключенного тома, например, C:\CustomSpeech.
Предоставляет TCP порт 5000 и выделяет псевдоTTY для контейнера.
Загружает указанную модель ModelId (если она не найдена в точке подключения тома).
Если пользовательская модель была скачана ранее, ModelId она игнорируется.
Автоматически удаляет контейнер после выхода. Образ контейнера по-прежнему доступен на хост-компьютере.

Скачивание лицензии на отключенный контейнер

Затем вы скачайте отключенный файл лицензии. Параметр DownloadLicense=True в docker run команде скачивает файл лицензии, который позволяет контейнеру Docker запускаться, если он не подключен к Интернету. Он также содержит дату окончания срока действия, после чего файл лицензии будет недопустим для запуска контейнера.

Вы можете использовать только файл лицензии с соответствующим контейнером и моделью, для которой вы были утверждены. Например, нельзя использовать файл лицензии для speech-to-text контейнера с контейнером neural-text-to-speech .

плейсхолдер	Описание
`{IMAGE}`	Образ контейнера, который требуется использовать. Например: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	Путь, по которому скачиваются и монтируются лицензии. Например: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Путь, в котором находится модель. Например: `/host/models:/usr/local/models`
`{ENDPOINT_URI}`	Конечная точка для проверки подлинности запроса на обслуживание. Его можно найти на странице Key и endpoint на портале Azure. Например: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Ключ вашего речевого ресурса. Его можно найти на странице Key и endpoint на портале Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Расположение папки лицензии в локальной файловой системе контейнера. Например: `/path/to/license/directory`

На этом шаге используйте ресурс Azure Speech, настроенный для использования ценового плана "DC0 Commitment (Disconnected)".

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Запуск отключенного контейнера

После скачивания файла лицензии можно запустить контейнер в отключенной среде. В следующем примере показано форматирование команды docker run, которую вы используете, со значениями заполнителей. Замените эти заполнители собственными значениями.

При выполнении контейнера файл лицензии должен быть подключен к контейнеру, а расположение папки лицензии в локальной файловой системе контейнера должно быть указано с помощью Mounts:License=. Кроме того, необходимо указать выходную точку монтирования, чтобы записи использования для выставления счетов могли быть записаны.

плейсхолдер	Описание
`{IMAGE}`	Образ контейнера, который требуется использовать. Например: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	Соответствующий размер памяти, выделяемой для контейнера. Например: `4g`
`{NUMBER_CPUS}`	Необходимое количество ЦП, выделяемых для контейнера. Например: `4`
`{LICENSE_MOUNT}`	Путь, по которому загружается лицензия и устанавливается. Например: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Путь, в котором находится модель. Например: `/host/models:/usr/local/models`
`{OUTPUT_PATH}`	Выходной путь для ведения журнала. Например: `/host/output:/path/to/output/directory` Для получения более подробной информации см. записи использования в документации по средствам Foundry.
`{ENDPOINT_URI}`	Конечная точка для проверки подлинности запроса на обслуживание. Его можно найти на странице Key и endpoint на портале Azure. Например: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Ключ для вашего ресурса "Речь". Его можно найти на странице Key и endpoint на портале Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Расположение папки лицензии в локальной файловой системе контейнера. Например: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Расположение выходной папки в локальной файловой системе контейнера. Например: `/path/to/output/directory`

На этом шаге используйте ресурс Azure "Речь", настроенный для использования тарифного плана "DC0 Commitment (отключено)".

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Контейнер преобразования речи в текст предоставляет каталог по умолчанию для записи файла лицензии и журнала выставления счетов во время выполнения. Каталоги по умолчанию — /license и /output соответственно.

При подключении этих каталогов к контейнеру командой docker run -v убедитесь, что локальный каталог компьютера установлен владельцем user:group nonroot:nonroot, перед запуском контейнера.

Ниже приведен пример команды для задания владения файлами и каталогами.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Использование контейнера

Контейнеры для распознавания речи предоставляют конечные точки API запросов, работающих на основе WebSocket, к которым обращаются с помощью SDK и CLI. По умолчанию пакет SDK службы "Речь" и интерфейс командной строки (CLI) службы "Речь" используют общедоступную службу "Речь". Чтобы использовать контейнер, необходимо изменить метод инициализации.

Важно

При использовании службы распознавания речи с контейнерами обязательно используйте проверку подлинности узла. Если вы настроите ключ и регион, запросы будут отправляться в общедоступную службу распознавания речи. Результаты службы распознавания речи могут не соответствовать вашим ожиданиям. Запросы от отключенных контейнеров завершаются ошибкой.