Поделиться через


Вопросы и ответы по тексту

В этой статье приводятся ответы на часто задаваемые вопросы о возможности преобразования речи в текст. Если в этой статье вы не нашли ответы на свои вопросы, ознакомьтесь с другими вариантами поддержки.

Общие

Какова разница между базовой моделью и пользовательской речью в текстовой модели?

Базовая речь в текстовой модели обучена данными майкрософт и уже развернута в облаке. Вы можете создать и использовать пользовательскую модель под конкретную среду с известным уровнем шума или особенностями языка. Например, адаптированная акустическая модель будет полезна в заводских цехах, в автомобиле или на шумной улице. Для таких тем, как биология, физика, радиология, а также при частом использовании названий продуктов или нетипичных сокращений следует создать адаптированную языковую модель. При обучении пользовательской модели следует начать со связанного текста, чтобы улучшить распознавание специальных терминов и фраз.

С чего лучше начинать работу с базовой моделью?

Сначала получите ключ API и регион в портал Azure. Если вы хотите использовать вызовы REST к уже развернутой базовой модели, изучите документацию по REST API. Если вы планируете использовать WebSocket, скачайте пакет SDK для службы "Речь".

Всегда ли мне нужно выполнять сборку пользовательской модели речи?

№ Если ваше приложение использует типичную повседневную речь, вам не обязательно персонализировать модель. Если приложение будет использоваться в среде без значительного фонового шума, вам не обязательно персонализировать модель.

Вы можете развертывать базовые и пользовательские модели на портале, а затем проверять их точность. Такая возможность позволяет сравнить точность базовой и пользовательской моделей.

Разделы справки знать, когда обработка набора данных или модели завершена?

Сейчас это можно проверить только по состоянию модели или набора данных, которое отображается в таблице. Когда обработка завершится, там будет отображено состояние Успешно.

Можно ли создать больше одной модели?

Не существует ограничений на число моделей, размещенных в коллекции.

Я понял, что я сделал ошибку. Как мне теперь отменить процесс импорта данных или создания модели?

Сейчас возможность отмены для процессов акустической или языковой адаптации не поддерживается. Вы сможете удалить импортированные данные и модели после достижения конечного состояния.

Я получаю несколько результатов для каждой фразы в подробном формате. Что же следует использовать?

Всегда следует выбирать первый результат, даже если другой результат ("N-Best") может иметь более высокий уровень достоверности. Служба "Речь" считает, что первый результат является лучшим. Результатом может быть и пустая строка, если речь не распознается.

Другие результаты, скорее всего, хуже и могут не иметь нужных регистров букв и корректной пунктуации. Эти результаты наиболее полезны в особых сценариях, таких как предоставление пользователям возможности выбирать корректировки ошибок из списка или обрабатывать неправильно распознанные команды.

Почему базовых моделей несколько?

В службе "Речь" вы можете выбрать несколько базовых моделей. Имя каждой модели содержит дату, когда она была добавлена. Когда вы начинаете обучать пользовательскую модель используйте последнюю базовую модель, чтобы получить максимальную точность. После появления новой модели более старые базовые модели остаются доступными в течение еще некоторого времени. Вы можете продолжать использовать модель, с которыми вы работали, пока она не будет прекращена (см. раздел " Модель и жизненный цикл конечной точки"). Для повышения точности по-прежнему рекомендуется переключиться на последнюю базовую модель.

Можно ли обновить имеющуюся модель (распределение модели)?

Вы не сможете обновить существующую модель. Но вы можете объединить старый набор данных с новым и выполнить повторную адаптацию.

Старый и новый наборы данных следует объединить в один ZIP-файл (для акустических данных) или TXT-файл (для языковых данных). Когда адаптация завершится, повторно разверните обновленную модель, чтобы получить новую конечную точку.

Обновится ли мое развертывание автоматически при появлении новой версии базовой модели?

Развертывания не обновляются автоматически.

Если вы адаптировали и развернули модель, существующее развертывание остается неизменным. Для повышения точности уже развернутую модель можно вывести из работы, повторно адаптировать с помощью новой версии базовой модели и повторно развернуть.

Базовые модели и пользовательские модели удаляются через некоторое время (см. раздел "Модель" и " Жизненный цикл конечной точки").

Как мне скачать модель для локального выполнения?

Пользовательскую модель можно запустить локально в контейнере Docker.

Можно ли копировать или перемещать наборы данных, модели и развертывания в другой регион или подписку?

С помощью REST API Models_Copy можно скопировать пользовательскую модель в другой регион или подписку. Копирование наборов данных и развертываний невозможно. Вы можете импортировать набор данных еще раз в другую подписку и создать конечные точки с помощью копий модели.

Ведется ли журнал моих запросов?

По умолчанию запросы не регистрируются (ни аудио, ни транскрипция). Если необходимо, вы можете выбрать Содержимое журнала из этой конечной точки при создании пользовательской конечной точки. Также можно включить ведение журнала аудио в пакете SDK для службы "Речь" для каждого запроса, не создавая пользовательскую конечную точку. В обоих случаях, и аудио, и результаты распознавания запросов, будут храниться в безопасном хранилище. Подписки, использующие хранилище Майкрософт, доступны в течение 30 дней.

Вы можете экспортировать файлы журналов на странице Развертывание в Speech Studio, если вы используете пользовательскую конечную точку с включенным Содержимым журнала из этой конечной точки. Если ведение аудио журнала включено через пакет SDK, вызовите API для доступа к файлам. Вы также можете использовать API для удаления журналов в любое время.

Регулируются ли мои запросы?

Дополнительные сведения см. в разделе о квотах и ограничениях службы "Речь".

Как взимается плата за двухканальное аудио?

Если вы отправляете каждый канал отдельно в отдельном файле, плата взимается за продолжительность звука каждого файла. Если вы отправляете один файл с мультиплексированными каналами, плата взимается в течение одного файла. Дополнительные сведения о ценах см. на странице цен на службы искусственного интеллекта Azure.

Внимание

Если у вас есть дополнительные проблемы конфиденциальности, которые препятствуют использованию пользовательской службы распознавания речи, обратитесь к одному из каналов поддержки.

Повышение параллелизма

Дополнительные сведения см. в разделе о квотах и ограничениях службы "Речь".

Импорт данных

Какое существует ограничение на размер набора данных и чем оно обусловлено?

Ограничение связано с предельным значением размера файла для передачи по протоколу HTTP. Действующее ограничение см. в статье Квоты и ограничения службы "Речь". Вы можете разделить ваш объем данных на несколько наборов и выбрать их все для обучения в виде модели.

Могу ли я сжать текстовые файлы, чтобы передать больший размер?

№ В настоящее время поддерживаются только текстовые файлы без сжатия.

В отчете о данных сказано, что при обработке высказываний произошла ошибка. В чем проблема?

Передача менее чем 100 % фраз из файла не является проблемой. Если большинство речевых фрагментов в акустическом или языковом наборе данных (например, более 95 процентов) успешно импортируются, набор данных может использоваться. Но мы советуем в любом случае выяснить, почему эти высказывания не удалось передать, и устранить проблемы. Самые распространенные проблемы, например ошибки форматирования, исправляются легко.

Создание акустической модели

Сколько мне нужно акустических данных?

Рекомендуется начинать с акустических данных продолжительностью от 30 минут до 1 часа.

Какие данные следует собирать?

Собирайте такие данные, которые наиболее точно соответствуют сценарию использования приложения и реальной работы. Сбор данных должен соответствовать целевому приложению и пользователям в контексте устройств, сред и типов говорящих. В общем, следует собирать данные из как можно более широкого диапазона говорящих.

Как следует собирать акустические данные?

Вы можете создать автономное приложение для сбора данных или использовать готовые программы для записи аудио. Также можно создать отдельную версию основного приложения, которая сохраняет аудиоданные и использует их.

Нужно ли самостоятельно транскрибировать данные адаптации?

Да. Их можно транскрибировать самостоятельно или с помощью специальной службы для транскрибирования. Некоторые пользователи предпочитают поручить эту задачу профессионалам, а другие применяют краудсорсинг или делают все самостоятельно.

Сколько времени занимает обучение пользовательской модели с аудиоданными?

Обучение модели с аудиоданными может быть длительным процессом. В зависимости от объема данных, для создания настраиваемой модели может потребоваться несколько дней. Если не удается завершить создание в течение одной недели, служба может прервать обучение и сообщить, что в модели произошел сбой.

Как правило, служба "Речь" обрабатывает примерно 10 часов аудиоданных в день в регионах со специализированным оборудованием. Обучение с текстом выполняется быстрее и обычно завершается в течение нескольких минут.

Используйте один из регионов, где для обучения имеется специализированное оборудование. Служба "Речь" использует до 100 часов звука для обучения в этих регионах.

Тестирование точности

Что такое пословная вероятность ошибки (WER) и как она вычисляется?

Пословная вероятность ошибки — это метрика для оценки качества распознавания речи. WER подсчитывается как общее число ошибок, включая вставки, удаления и замены, деленное на общее число слов в референтной транскрипции. Дополнительные сведения см. в разделе Количественная проверка подели.

Как мне оценить результаты теста на точность?

Эти результаты демонстрируют сравнение между базовой и пользовательской моделями. Чтобы персонализация имела смысл, нужен результат не хуже, чем у базовой модели.

Как определить WER для базовой модели, чтобы оценить наличие улучшений?

Результаты изолированного тестирования демонстрируют точность базовой модели, точность пользовательской модели и улучшение по сравнению с базовой моделью.

Создание языковой модели

Сколько текстовых данных нужно отправить?

Это зависит от того, насколько словарный запас и фразы, используемые в приложении, отличаются от исходных языковых моделей. Для всех новых слов желательно предоставить как можно больше примеров использования. Для обычных фраз, которые используются в приложении, включая фразы в языковых данных, большое количество примеров также будет полезно — они сообщат системе, за чем еще нужно следить. Обычно наборы языковых данных содержат не менее 100 речевых фрагментов, а еще лучше — несколько сотен. Если же ожидается, что некоторые типы запросов будут встречаться чаще других, добавьте в набор данных несколько копий этих "типичных" запросов.

Могу ли я просто передать список слов?

Слова, отправленные простым списком, помещаются в словарь, но это не дает системе информации об их типичном использовании. При наличии полных или частичных речевых фрагментов (предложений или фраз, которые обычно говорят пользователи) языковая модель может изучать новые слова и особенности их применения. Пользовательская языковая модель полезна не только для отправки в систему новых слов, но и для повышения вероятности узнавания в приложении уже известных слов. Система обучается лучше при использовании полных фраз.