Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Распознавание ключевых слов обнаруживает слово или короткую фразу в звуковом потоке. Этот метод также называется распознавание ключевых слов.
Наиболее распространенным вариантом использования распознавания ключевых слов является голосовая активация виртуальных помощников. Например, "Привет, Кортана" — ключевое слово для помощника Кортаны. После распознавания ключевого слова выполняется действие для конкретного сценария. В сценариях виртуального помощника общее результирующее действие — распознавание речи в аудио, которое следует за ключевым словом.
Как правило, виртуальные помощники всегда находятся в режиме прослушивания. Распознавание ключевых слов действует как граница конфиденциальности для пользователя. Требование ключевого слова действует как шлюз, который не позволяет звукам пользователя выйти за пределы локального устройства и попасть в облако.
Чтобы обеспечить баланс между точностью, задержкой и вычислительной сложностью, распознавание ключевых слов реализовано в виде многоэтапной системы. Для всех этапов, превышающих первый, звук обрабатывается только в том случае, если этап до него распознает ключевое слово, интересующее вас.
Текущая система включает несколько этапов, охватывающих все пространство от границы до облака:
Точность распознавания ключевых слов измеряется с помощью следующих метрик:
- Правильная скорость принятия: измеряет способность системы распознавать ключевое слово, произнесенное пользователем. Этот параметр также называют частотой истинноположительных срабатываний.
- Коэффициент ложно распознанных сигналов — измеряет способность системы отфильтровывать звуки, которые не являются ключевыми словами, произнесенными конечным пользователем. Уровень ложного принятия также известен как уровень ложноположительных результатов.
Цель состоит в том, чтобы максимально увеличить коэффициент правильно распознанных сигналов и свести к минимуму коэффициент ложно распознанных сигналов. Текущая система предназначена для обнаружения ключевых слов или фраз, которым предшествует короткая пауза. Обнаружение ключевых слов в середине предложения или речевого фрагмента не поддерживается.
Пользовательское ключевое слово для моделей на устройстве
Портал Пользовательских ключевых слов в Speech Studio позволяет создавать модели распознавания ключевых слов, которые работают на периферии, путем указания любого слова или короткой фразы. Вы можете еще больше персонализировать модель ключевых слов, выбрав правильные варианты произношения.
Цены
Плата за использование настраиваемых ключевых слов для создания базовых или продвинутых моделей не взимается. Кроме того, запуск моделей на устройстве с помощью пакета SDK службы "Речь" при использовании с другими функциями службы, такими как преобразование речи в текст, также не требует затрат.
Типы моделей
Вы можете использовать собственное ключевое слово для создания двух типов моделей на устройстве для любого ключевого слова.
| Тип модели | Описание |
|---|---|
| Базовая | Лучше всего подходит для демонстрации или быстрого создания прототипов. Модели создаются с использованием общей базовой модели, и для их подготовки может потребоваться до 15 минут. Модели могут не иметь оптимальных характеристик точности. |
| Продвинутые | Лучше всего подходит для интеграции продуктов. Модели создаются путем адаптации общей базовой модели с помощью смоделированных обучающих данных для повышения точности. Для подготовки моделей может потребоваться до 48 часов. |
Примечание.
Список регионов, поддерживающих Расширенный тип модели, можно просмотреть в документации по поддержке регионов для распознавания ключевых слов.
Ни один тип модели не требует отправки обучающих данных. Настраиваемые ключевые слова полностью управляют генерацией данных и обучением модели.
Произношение
При создании новой модели, пользовательское ключевое слово автоматически генерируется, с возможными вариантами произношения для указанного ключевого слова. Можно прослушать каждый вариант и выбрать все, которые достаточно точно отражают способ произнесения ключевого слова пользователями. Остальные варианты произношения следует проигнорировать.
Для обеспечения наиболее высокой точности важно вдумчиво подойти к вопросу выбора вариантов произношения. Например, если выбрать больше вариантов произношения, чем требуется, можно получить больше ложноположительных сигналов. Если же выбрать слишком мало вариантов, которые не охватывают все возможные звучания, коэффициент правильно распознанных сигналов может снизиться.
Тестовые модели
После генерации моделей на устройстве с использованием пользовательских ключевых слов, модели можно протестировать непосредственно на портале. Портал позволяет получить результаты распознавания ключевых слов непосредственно в браузере.
Проверка ключевого слова
Проверка ключевых слов — это облачная служба, которая снижает влияние ложных положительных решений на устройствах с помощью надежных моделей, работающих на Azure. Для проверки вашего ключевого слова с помощью этой службы не требуется настройка или обучение. В службе постоянно развертываются добавочные обновления модели, чтобы улучшить показатели точности и задержки. Этот процесс прозрачен для клиентских приложений.
Цены
Проверка ключевых слов всегда используется в сочетании с преобразованием речи в текст. Затраты на использование проверки ключевых слов отсутствуют, кроме затрат на преобразование речи в текст.
Проверка ключевых слов и преобразование речи в текст
При использовании проверки ключевых слов это всегда в сочетании с преобразованием речи в текст. Обе службы выполняются параллельно. Это означает, что звук отправляется обеим службам для одновременной обработки.
Выполнение проверки ключевых слов и преобразования речи в текст параллельно дает следующие преимущества:
- Нет другой задержки при передаче речи в текстовые результаты: параллельное выполнение означает, что проверка ключевых слов не добавляет задержки. Клиент быстро получает результаты преобразования речи в текст. Если проверка ключевых слов определяет, что ключевое слово не присутствует в звуковом коде, преобразование речи в текст завершается. Это действие защищает от ненужной речи в обработке текста. Обработка сетевых и облачных моделей увеличивает заметную для пользователя задержку при голосовом управлении. Дополнительные сведения см. в разделе Рекомендации и инструкции.
- Префикс принудительного ключевого слова в результате преобразования речи в текст: процесс преобразования речи в текст гарантирует, что результаты, отправляемые клиенту, содержат префикс с ключевым словом. Это поведение позволяет повысить точность преобразования речи в текст в результатах для речи, которая следует за ключевым словом.
- Увеличенное время ожидания для преобразования речи в текст: из-за ожидаемого присутствия ключевого слова в начале аудио, преобразование разрешает паузу до пяти секунд после ключевого слова, прежде чем определяет конец речи и завершает обработку речи в текст. Такое поведение гарантирует, что пользовательский опыт будет правильно обработан для поэтапных (<ключевое слово><пауза><команда>) и сцепленных команд (<ключевое слово><команда>).
Ответы на проверку ключевых слов и учёт задержек
Для каждого запроса служба проверки ключевых слов возвращает один из двух ответов: принято или отклонено. Задержка обработки зависит от длины ключевого слова и длины аудиосегмента, который должен его содержать. Задержка обработки не включает задержку сети в соединении между клиентом и службой распознавания речи.
| Ответ проверки ключевых слов | Описание |
|---|---|
| Принято | Указывает, что служба нашла ключевое слово в аудиопотоке, включенном в запрос. |
| Аннулировано | Указывает, что служба не нашла ключевое слово в аудиопотоке, включенном в запрос. |
Отклоненные случаи часто характеризуются более высокой задержкой, так как служба обрабатывает больше аудио, чем принятые случаи. По умолчанию для поиска ключевого слова проверка ключевых слов обрабатывает аудиопоток длительностью не более двух секунд. Если ключевое слово не найдено в течение двух секунд, служба заканчивает работу и подаёт сигнал об отклонении ответа клиенту.
Используйте проверку ключевых слов с моделями, находящимися на устройстве, из настраиваемых ключевых слов.
Пакет SDK службы "Речь" позволяет легко использовать модели на устройстве, созданные с помощью пользовательского ключевого слова с проверкой ключевых слов и речью в тексте. Он обеспечивает прозрачную обработку следующих задач:
- Управление аудиопотоком для проверки ключевых слов и распознавания речи на основе результата модели на устройстве.
- Передача ключевого слова в службу проверки ключевых слов.
- Передача всех дополнительных метаданных в облако для оркестрации комплексного сценария.
Вам не нужно явно указывать какие-либо параметры конфигурации. Вся необходимая информация автоматически извлекается из модели на устройстве, генерируемой из пользовательского ключевого слова.
Интеграция с SDK для речевых технологий и сценарии использования
Speech SDK упрощает использование персонализированных моделей распознавания ключевых слов на устройстве, созданных с помощью пользовательских ключевых слов и проверки ключевых слов. Чтобы обеспечить соответствие требованиям продукта, пакет SDK поддерживает следующий сценарий:
Сценарий распознавания автономных ключевых слов лучше всего подходит для продуктов без сетевого подключения, использующего настраиваемую модель ключевого слова на устройстве из пользовательского ключевого слова.