Поделиться через


Данные и конфиденциальность для преобразования речи в текст

Important

Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.

Note

Эта статья предоставляется только для информационных целей, а не для предоставления юридических консультаций. Мы настоятельно рекомендуем обратиться к специалистам по юридическим вопросам при реализации служб распознавания речи.

В этой статье приводятся основные сведения о том, как технологии распознавания речи преобразуют данные, предоставляемые клиентами. Обратите внимание, что звуковые данные людей, говорящих и связанные текстовые расшифровки, могут считаться личными данными и /или конфиденциальными данными в соответствии с различными правилами конфиденциальности и законами, поскольку он содержит не только голос людей, но и содержимое звука может также содержать личную информацию в зависимости от контекста, в котором был собран звук. Звуковые данные и связанные расшифровки текста также могут регулироваться в соответствии с различными законами о связи или другими законами и нормативными положениями. В качестве важного напоминания, вы несете ответственность за реализацию этой технологии и обязаны получить все необходимые разрешения для обработки данных, а также любые лицензии, разрешения или другие права собственности, необходимые для содержимого, вводимого в службу преобразования речи в текст. Вы несете ответственность за соблюдение всех применимых законов и положений в вашей юрисдикции.

Какие данные обрабатываются в процессе преобразования речи в текст?

Речь в тексте обрабатывает следующие типы данных:

  • Аудио вход или голосовая аудиозапись: Все функции преобразования речи в текст принимают голосовую аудиозапись в качестве входных данных, которые передаются потоком через набор SDK для распознавания речи или REST API на конечную точку службы. В пакетном транскрибировании аудиовходные данные будут отправляться в место хранения, указанное клиентом, и служба "Речь" получает доступ к аудиовходным данным и обрабатывает их для предоставления запрошенных услуг транскрибирования. Дополнительные сведения о том, как указать хранилище, смотрите в Как использовать пакетную транскрипцию.
  • Текст транскрибирования ввода: При оценке произношения транскрибированные тексты отправляются вместе с входным голосовым звуком как правильный текст. Произношения оцениваются на основе входных транскрипций.
  • Транскрибирование для перевода речи: При использовании функции перевода речи текст, созданный функцией преобразования речи в текст, переводится на указанный язык с помощью службы переводчика.

Служба перевода текста используется только для преобразования текста из одного языка в другой. Входные и выходные данные не сохраняются службой "Речь" после завершения запроса на перевод. Дополнительные сведения о службе перевода текста см. в разделе "Что такое служба переводчика ".

Если пользователям требуется транскрибированный или переведенный текст в аудиоформате, функция отправляет выходной текст в текст в речь. Данные снова не сохраняются при обработке текстовых данных для преобразования в речь.

Как преобразование речи в текст обрабатывает данные?

Преобразование речи в текст в реальном времени

Когда клиентское приложение отправляет звуковые данные для преобразования речи в текст, модуль распознавания речи анализирует звук и преобразует его в текст. Опираясь на свои функции акустического и лингвистического или языкового понимания, система преобразования речи в текст выбирает кандидатные слова и фразы, которые могут быть произнесены в звуковом вводе. Выходные данные транскрибирования представляют собой лучший вывод или прогноз в текстовом формате того, что было произнесено в звуковом вводе.

Для преобразования речи в текст в режиме реального времени входные данные обрабатываются только в памяти сервера Azure и не сохраняются в состоянии покоя. Все передаваемые данные шифруются для защиты. Дополнительные сведения об обеспечении безопасности и конфиденциальности во всех службах Azure см. в разделе Доверенное облако: безопасность, конфиденциальность, соответствие требованиям, устойчивость и интеллектуальная собственность.

Пакетное транскрибирование

В пакетном транскрибировании клиенты указывают выбранное место хранения как входных, так и выходных текстовых файлов транскрибирования для службы "Речь" для доступа, обработки и предоставления выходных данных транскрибирования. Клиент управляет хранилищем этих данных, включая хранение таких данных. Клиенты могут задать время хранения для созданных текстовых файлов транскрибирования с помощью параметра timeToLive. Дополнительные сведения см. в статье Свойства конфигурации пакетного транскрибирования.

См. потоки данных для каждой функции преобразования речи в текст:

Схема потока данных для преобразования речи в текст.

Диаризация и разделение динамиков

Эта функция доступна как для API в режиме реального времени, так и для пакетного API. Когда клиенты включают параметр разделения динамиков (диаризация) (по умолчанию отключено), механизм преобразования речи в текст анализирует и извлекает уникальные характеристики голоса из звукового ввода, чтобы различать речь между разными динамиками. Эти сигналы характеристик голоса используются и временно сохраняются исключительно для того, чтобы аннотировать выходные данные транскрипта маркерами, которые размещены рядом с текстом для говорящего 1 (гостя-1) или говорящего 2 (гостя-2). По завершении процесса все данные сигнала, используемые для разделения динамиков, удаляются. Функция разделения динамиков поддерживает разделение двух или нескольких динамиков в одном звуковом файле. Разделение говорящих не поддерживает распознавание личности для идентификации говорящего или возможность отслеживания уникальных говорящих в нескольких аудиофайлах.

Распознавание языка

Распознавание речи аналогично распознаванию речи, за исключением того, что модель вычисляет вероятности сопоставления между фонемами и языками. Каждый язык имеет определенные фонемы и сочетания фонем, которые характеризуют язык. Модель обнаружения языка определяет характеристики в фонемах для вычисления вероятности языков, используемых в входном голосе.

Перевод речи

При использовании перевода речи сначала аудиовход используется для создания машиной транскрибированного текста методом преобразования речи в текст. Затем машинный транскрибированные текст отправляется в службу перевода текста, чтобы преобразовать текст (на исходном языке) в другой язык. Если клиентам требуется перевод текста в звуковом формате, эта функция может отправлять переведенный текст в речь. У клиентов есть возможность создавать только переведенный текст или переведенный голосовой вывод.

Контейнеры для речи

С помощью контейнеров речи клиенты развертывают API-интерфейсы служб "Речь" в собственной среде с помощью контейнеров Docker. Так как все компоненты речи выполняются в управляемой среде клиентов, входные данные звука и выходные данные транскрибирования обрабатываются в контейнере клиентов и не отправляются в облачную службу "Речь". Дополнительные сведения см. в разделе "Установка и запуск контейнеров Docker" для API-интерфейсов службы "Речь ".

Безопасность данных клиентов в контейнере для обработки речи

Безопасность данных клиента является общей ответственностью. Подробные сведения о модели безопасности контейнеров ИИ Azure, таких как контейнер речи, можно найти в разделе "Безопасность контейнеров Foundry Tools".

Вы несете ответственность за защиту и обслуживание оборудования и инфраструктуры, необходимых для работы контейнеров речи, расположенных в локальной среде, таких как пограничное устройство и сеть.

Дополнительные сведения о конфиденциальности и безопасности корпорации Майкрософт см. в Центре управления безопасностью Майкрософт.

Хранение и период удержания данных

Нет трассировки данных

При выполнении речи в режиме реального времени с текстом, быстрой транскрибированием, оценкой произношения и переводом речи корпорация Майкрософт не сохраняет данные, предоставляемые клиентами. В пакетном транскрибировании клиенты указывают собственные расположения хранилища для отправки входных данных звука. Созданный текст транскрибирования может храниться либо в собственном хранилище клиента, либо в хранилище Майкрософт, если хранилище не указано. Если выходные транскрибирования хранятся в хранилище Майкрософт, клиенты могут удалить данные либо путем вызова API удаления, либо настройки параметра timeToLive для автоматического удаления данных в указанное время. В статье «Как использовать пакетное транскрибирование — служба преобразования речи — Инструменты Foundry» можно узнать подробнее.

Дополнительные сведения о конфиденциальности и безопасности корпорации Майкрософт см. в Центре управления безопасностью Майкрософт.