Обработка звука с помощью стека звука Microsoft

Microsoft Audio Stack (MAS) — это набор улучшений обработки звука, оптимизированных для сценариев обработки речи, таких как распознавание ключевых слов и распознавание речи. Пакет SDK службы "Речь" интегрирует MAS, позволяя любому приложению или продукту использовать свои возможности обработки звука для входного звука.

Конвейеры обработки звука

Стек звука Microsoft предоставляет два конвейера обработки звука, оптимизированные для различных сценариев:

Конвейер на основе DSP (по умолчанию)

Конвейер по умолчанию использует традиционные алгоритмы обработки цифровых сигналов (DSP) и предоставляет полный набор улучшений: формирование диаграммы направленности, удаление реверберации, акустическая компенсация эха, автоматическая регулировка усиления и подавление шума. Вы можете отключить отдельные улучшения, чтобы соответствовать вашему сценарию. Этот конвейер поддерживает все геометрии массива микрофонов и доступен в Windows и Linux.

Дополнительные сведения о усовершенствованиях DSP и примерах кода см. в разделе DSP-обработка звука с помощью Microsoft audio Stack.

Процесс отмены эхо на основе модели

Конвейер на основе модели заменяет эхоподавитель на базе DSP моделью машинного обучения для улучшения подавления эха. Этот канал специально ориентирован на акустическую отмену эха и предназначен для использования в сценариях, где качество подавления эха имеет критически важное значение.

Подробные сведения и примеры кода см. в модельной отмене эха со стеком аудио от Microsoft.

Сравнение конвейеров

Улучшения звука

Функция	На основе DSP (по умолчанию)	На основе модели (версия 2)
Акустическое понижение эхо	✔	✔✔
Подавление шума	✔	✘
Деверберация	✔	✘
Автоматическая регулировка усиления	✔	✘
Лучформирование	✔	✘
Отключение отдельных улучшений	✔	✘

✔✔ = усиленное машинным обучением ✔ = поддерживается ✘ = не поддерживается

Поддержка платформы и языка

Функция	На основе DSP (по умолчанию)	На основе модели (версия 2)
Windows x64	✔	✔
Windows ARM64	✔	✔
Linux	✔	✘
C++	✔	✔
C#	✔	✔
Java	✔	✘

Интеграция SDK для распознавания речи

Оба конвейера доступны через класс AudioProcessingOptions в составе SDK для работы с речью. К ключевым возможностям относятся:

Входные данные микрофона в режиме реального времени и входные данные файлов — обработка звука может применяться к входным данным микрофона в режиме реального времени, потокам и входным данным на основе файлов.
Канал эталонного динамика можно указать для подавления эха, используя SpeakerReferenceChannel.LastChannel этот параметр.

Конфиденциальность и обработка данных

Обработка выполняется полностью локально в месте использования SDK речевых технологий. Звуковые данные не передаются в облачные службы Microsoft для обработки стеком звука Microsoft. Единственным исключением является служба транскрибирования бесед, где необработанный звук отправляется в облачные службы Microsoft для обработки.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-30