Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Важно
Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.
Что такое заметка о прозрачности?
Система ИИ включает не только технологию, но и людей, которые будут использовать его, людей, которые будут затронуты им, и среды, в которой она развернута. Создание системы, которая подходит для ее целевой цели, требует понимания того, как работает технология, какие возможности и ограничения существуют, а также как достичь оптимальной производительности. Заметки о прозрачности Microsoft призваны помочь вам понять, как работает наша технология ИИ, какие выборы могут делать владельцы системы, чтобы влиять на производительность и поведение системы, и насколько важно рассматривать всю систему в целом, включая технологию, людей и окружающую среду. При разработке или развертывании собственной системы можно использовать прозрачные заметки или поделиться ими с пользователями, которые будут использовать вашу систему или на которых она повлияет.
Заметки о прозрачности Microsoft являются частью более широких усилий Microsoft по внедрению в практику наших принципов ИИ. Дополнительные сведения см. в принципах Microsoft ИИ.
Основы преобразования речи в текст
Преобразование речи в текст, также известное как автоматическое распознавание речи (ASR), является функцией в службе Azure Speech, которая входит в состав Средств Foundry. Речь в текст преобразует речевой звук в текст. Речь к тексту в Azure поддерживает более 140 языковых стандартов для ввода. Последний список поддерживаемых языковых стандартов см. в разделе "Язык" и "Поддержка голосовой связи" службы "Речь".
Ключевые термины
| Термин | Определение |
|---|---|
| Аудио вход | Потоковые звуковые данные или звуковой файл, используемый в качестве входных данных для функции преобразования речи в текст. Входной аудиосигнал может содержать не только голос, но и молчание и неречевой шум. Распознавание речи преобразует голосовые части аудиовхода в текст. |
| Высказывания | Компонент звукового ввода, который содержит человеческий голос. Одно высказывание может состоять из одного слова или нескольких слов, таких как фраза. |
| Транскрипция | Вывод текста функции преобразования речи в текст. Этот автоматически созданный текстовый вывод использует модели речи и иногда называется транскрибированием компьютера или автоматическим распознаванием речи (ASR). Транскрибирование в этом контексте полностью автоматизировано и поэтому отличается от транскрибирования человека, который является текстом, создаваемым транскриберами человека. |
| Модель распознавания речи | Автоматически полученное посредством машинного обучения числовое представление высказывания, которое используется для получения транскрипции из звукового ввода. Модели речи обучаются на голосовых данных, включая различные стили речи, языки, акценты, диалекты и интонации, а также на акустических вариациях, создаваемых с помощью различных типов устройств записи. Модель речи числовым образом представляет как акустические, так и лингвистические функции, которые используются для прогнозирования того, какой текст должен быть связан с речевым фрагментом. |
| API реального времени | API, который принимает запросы с входным звуком и возвращает ответ в режиме реального времени с транскрибированием в том же сетевом подключении. |
| API обнаружения языка | Тип API в режиме реального времени, который определяет, какой язык говорится во входе звука. Язык выводится на основе голосового звука в звуковом вводе. |
| API перевода речи | Другой тип API в режиме реального времени, который создает транскрибирование заданного входного звука, а затем преобразует их на язык, указанный пользователем. Это каскадная служба служб распознавания речи и перевода текстов. |
| API пакетной обработки | Служба, которая используется для отправки звуковых входных данных, которые будут транскрибированы позже. Вы указываете расположение звуковых файлов и других параметров, таких как язык распознавания. Служба загружает входные данные звука асинхронно и транскрибирует его. После завершения транскрибирования текстовые файлы загружаются обратно в указанное расположение. |
| Диаризация | Диаризация отвечает на вопрос о том, кто говорил и когда. Он различает говорящих в аудиосигнале на основе их голосовых характеристик. Как в режиме реального времени, так и пакетные API поддерживают диаризацию и могут различать голоса говорящих на моноканальных записях. Диаризация комбинируется с функцией преобразования речи в текст для обеспечения транскрипций, содержащих данные о говорящем для каждого транскрибированного сегмента. Выходные данные транскрипции помечены как GUEST1, GUEST2, GUEST3 и т. д. на основе количества говорящих в аудиоразговоре. |
| Процент ошибок в распознавании слов (WER) | Word уровень ошибок (WER) является отраслевым стандартом для измерения точности преобразования речи в текст. WER подсчитывает количество неправильных слов, определенных во время распознавания. Затем значение делится на общее количество слов, содержащихся в правильной расшифровке (часто создается методом аннотирования человеком). |
| Коэффициент ошибок токенов (TER) | Частота ошибок токенов (TER) — это мера правильности окончательного распознавания слов, учета заглавных букв, знаков препинания и т. д., по сравнению с токенами, указанными в правильной транскрипции (часто создаваемыми путем ручной разметки). |
| Задержка среды выполнения | В речи к тексту задержка — это время между входным звуком речи и результатом транскрибирования. |
| Слово частота ошибок диаризации (WDER) | Словесная частота ошибок разметки (WDER) подсчитывает количество ошибок в словах, приписанных неправильному говорящему, по сравнению с эталонной расшифровкой. Более низкая скорость WDER указывает на более высокое качество. |
Возможности
Системное поведение
Ниже приведены основные способы вызова нашей службы преобразования речи в текст.
API преобразования речи в текст в режиме реального времени
Это обычное обращение к API с использованием SDK для распознавания речи или REST API для отправки аудиовхода и получения текстовой транскрипции в реальном времени. Система речи использует модель речи для распознавания того, что говорится в входном звуке. В режиме преобразования речи в текст система в реальном времени принимает аудиопоток на вход и постоянно определяет наиболее вероятную последовательность слов, которые, по мнению системы, могли создать наблюдаемый на данный момент звук. Модель обучена на большом количестве разнообразных аудиозаписей в типичных сценариях использования и широком спектре говорящих. Например, эта функция часто используется для голосовых запросов или диктовки в службе или приложении организации.
API пакетного транскрибирования
Пакетное транскрибирование — это другой тип вызова API. Обычно используется для отправки предварительно подготовленных звуковых входных данных и асинхронного получения транскрибированного текста (то есть в дальнейшем). Чтобы использовать этот API, можно указать расположения для нескольких звуковых файлов. Технология преобразования речи в текст считывает аудиовход из файла и создает файлы текстовой транскрипции, которые возвращаются в указанное вами место хранения. Эта функция используется для поддержки более крупных заданий транскрибирования, в которых не требуется предоставлять пользователям содержимое транскрибирования в режиме реального времени. Примером является транскрибирование записей центра обработки вызовов для получения аналитических сведений о клиентах и производительности агента центра обработки вызовов.
При использовании пакетной транскрипции можно использовать модель Whisper вместо стандартной модели Azure для преобразования речи в текст. Чтобы определить, подходит ли модель Whisper для вашего варианта использования, можно сравнить, как выходные данные между этими моделями отличаются в пакете. Попробуйте его в Speech Studio, а затем выполните более глубокие оценки с помощью возможностей тестирования с помощью пользовательской речи. Обратите внимание, что модель Whisper также доступна через Azure OpenAI.
API перевода речи
Этот API преобразует входные данные звука в текст, а затем преобразует его на другой язык. Преобразованные выходные данные транскрибирования можно возвращать в текстовом формате, или можно выбрать синтез текста в звуковую речь с помощью текста для речи. Дополнительные сведения см. в разделе Что такое Azure Translator в инструментах Foundry?
Подфункции и параметры
Приведенные выше API могут использовать следующие вложенные функции:
-
Настройка моделей: Azure Speech позволяет разработчикам настраивать модели преобразования речи в текст, чтобы повысить точность распознавания для определенного сценария. Существует два способа настройки речи в текст:
- Во время исполнения с помощью функции списка фраз
- Заранее через использование пользовательской речи
- Обнаружение языка. В отличие от вызова API по умолчанию, в котором необходимо заранее указать язык или языковой стандарт для звукового ввода, при обнаружении языка можно указать несколько языковых стандартов и позволить службе определить, какой язык следует использовать для распознавания определенной части звука.
- Diarization: эта функция отключена по умолчанию. Если вы решили включить эту функцию, служба различает высказывания разных докладчиков. Результирующий текст транскрипции содержит свойство "спикер", которое обозначает GUEST1, GUEST2, GUEST3 и т. д., чтобы указать, кто говорит в аудиофайле.
Варианты использования
Речь в тексте может предложить различные способы взаимодействия пользователей с приложениями и устройствами. Вместо ввода слов на клавиатуре или с помощью рук для взаимодействия с сенсорным экраном речь в текстовой технологии позволяет пользователям работать с приложениями и устройствами с помощью голоса и диктовки.
- Смарт-помощники: компании, которые разрабатывают смарт-помощников на устройствах, автомобилях и домах, могут использовать речь для текста, чтобы включить запросы поиска естественного интерфейса или активировать определенные функции по голосовой связи. Это называется _командованием и контролем_.
- Чат-боты: компании могут создавать приложения чат-ботов, в которых пользователи могут использовать голосовые запросы или команды для взаимодействия с ботами.
- Ввод голоса: приложения могут использовать голос для диктовки длинного текста. Типирование голосовой связи можно использовать для ввода текста для обмена сообщениями, сообщений электронной почты и документов.
- Голосовая команда: пользователи могут активировать определенные действия по голосовой связи (команда и управление). Два распространенных примера: ввод текста запроса по голосовой связи и выбор элемента меню по голосу.
- Голосовой перевод: вы можете использовать функции перевода речи в текстовую технологию для обмена данными с другими пользователями, которые говорят на разных языках. Перевод речи обеспечивает голосовую связь между несколькими языками. Просмотрите последний список поддерживаемых языковых стандартов в разделе Поддержка языков и голосов для службы "Речь".
- Транскрибирование центра вызовов: компании часто записывают беседы со своими пользователями в таких сценариях, как звонки в службу поддержки клиентов. Аудиозаписи можно отправлять в пакетный API для транскрибирования.
- Диктовка на нескольких языках: пользователи могут использовать технологию преобразования речи в текст, чтобы вводить текст на нескольких языках. С помощью обнаружения языка приложение диктовки может автоматически обнаруживать языки и выполнять транскрипцию соответствующим образом, не требуя, чтобы пользователь указал, какой язык они говорят.
- Транскрибирование бесед в реальном времени: когда все участники находятся в одной комнате и используют установку с одним микрофоном, выполните транскрибирование, чтобы определить, какой участник (Гость1, Гость2, Гость3 и т. д.) делает каждое заявление.
- Транскрибирование беседы предварительно записанного аудио: после записи аудио с несколькими спикерами вы можете воспользоваться нашей службой, чтобы получить расшифровку, в которой указано, какой спикер (Guest1, Guest2, Guest3 и т. д.) делает каждое высказывание.
Рекомендации при выборе других вариантов использования
Api преобразования речи в текст предлагает удобные варианты разработки приложений с поддержкой голосовой связи, но очень важно рассмотреть контекст, в котором вы будете интегрировать API. Необходимо убедиться, что вы соответствуете всем законам и нормативным требованиям, применимым к вашему приложению. Это включает в себя понимание ваших обязательств в соответствии с законами о конфиденциальности и коммуникации, включая национальную и региональную конфиденциальность, перехваты и законы о прослушиваниях, которые применяются к вашей юрисдикции. Собирайте и обрабатывайте только тот звук, который соответствует разумным ожиданиям ваших пользователей. Это включает в себя обеспечение того, чтобы у вас были все необходимые и соответствующие согласия от пользователей для сбора, обработки и хранения звуковых данных.
Многие приложения предназначены и предназначены для использования конкретным пользователем для запросов, команд или диктовки с поддержкой голоса. Однако микрофон для вашего приложения может получить звук или голос от пользователей, не являющихся основными пользователями. Чтобы избежать непреднамеренного захвата голосов пользователей, не являющихся основными пользователями, следует рассмотреть следующие сведения:
- Рекомендации по микрофону: Часто вы не можете контролировать, кто может говорить рядом с устройством ввода, которое отправляет входные данные звука в речь в текстовую облачную службу. Вы должны побуждать своих пользователей проявлять особую осторожность при использовании функций и приложений с поддержкой голосовых команд в общедоступной или открытой среде, где голоса других людей могут быть легко захвачены.
- Используйте преобразование речи в текст только в сценариях и функциях, которые находятся в разумных ожиданиях пользователей: звуковые данные, содержащие выступление человека, являются персональными данными. Преобразование речи в текст не предназначено для использования в скрытых целях аудионаблюдения, которые нарушают законодательные требования, а также в приложениях и устройствах, используемых в общественных местах или локациях, где пользователи могут иметь разумное ожидание конфиденциальности. Используйте службу "Речь" только для сбора и обработки звука способами, которые находятся в разумных ожиданиях пользователей. Это включает в себя обеспечение того, чтобы у пользователей были все необходимые и соответствующие согласия на сбор, обработку и хранение звуковых данных.
- Azure служба "Речь" и интеграция модели Whisper: модель Whisper улучшает Azure службу "Речь" с расширенными функциями, такими как многоязычное распознавание и удобочитаемость. Служба распознавания речи также улучшает производительность модели Whisper, позволяя выполнять крупномасштабные пакетные транскрипции и диаризацию динамиков. Использование модели преобразования речи в текст по умолчанию в службе Speech или модели Whisper зависит от конкретного варианта использования. Мы рекомендуем воспользоваться преимуществами пакетной пробы и пользовательских возможностей распознавания речи в Speech Studio, чтобы оценить оба варианта, чтобы найти оптимальный вариант для ваших бизнес-потребностей.
- Транскрибирование бесед на предварительно записанных событиях: система будет работать лучше, если все участники находятся в одной акустической среде (например, беседа происходит в комнате, в которой люди говорят в общий микрофон).
- Транскрибирование беседы: хотя в беседе нет ограничений на количество докладчиков, система работает лучше, если число докладчиков составляет менее 30.
- Юридические и нормативные аспекты: организациям необходимо оценить потенциальные определенные юридические и нормативные обязательства при использовании любых средств и решений Foundry, которые могут быть не подходящими для использования в каждой отрасли или сценарии. Кроме того, средства и решения Foundry не предназначены для использования и не могут использоваться способами, запрещенными в применимых условиях обслуживания и соответствующих кодексах поведения.
Неподдерживаемое использование
- Транскрибирование бесед с распознаванием говорящего: сервис «Речь» не предназначен для обеспечения диаризации с распознаванием говорящего и не может быть использован для идентификации отдельных лиц. Другими словами, докладчики будут представлены как Guest1, Guest2, Guest3 и т. д. в транскрибировании. Они будут случайным образом назначены и могут не использоваться для идентификации отдельных докладчиков в беседе. Для каждой транскрипции разговора присвоение ролей Guest1, Guest2, Guest3 и т. д. будет случайным.
Чтобы предотвратить потенциальное неправильное использование службы Speech в целях идентификации, вы несете ответственность за то, чтобы использовать службу, включая функцию диаризации, только для поддерживаемых целей. Также вы должны обеспечить наличие соответствующей юридической базы и всех необходимых согласий для любого использования службы.
Ограничения
Речь в тексте распознает то, что говорится в входном звуке, а затем создает выходные данные транскрибирования. Для этого требуется правильная настройка ожидаемых языков, используемых в стилях ввода звука и речи. Неоптимные параметры могут привести к снижению точности.
Технические ограничения, операционные факторы и диапазоны
Язык точности
Отраслевый стандарт для измерения точности речи к тексту — это частота ошибок в словах (WER). Сведения о подробном вычислении WER см. в разделе "Проверка точности пользовательской модели речи".
Точность транскрибирования и ограничения системы
Речь в тексте использует унифицированную модель машинного обучения распознавания речи для транскрибирования того, что говорится в широком спектре контекстов и доменов тем, включая команды и управление, диктовку и беседы. Вам не нужно использовать различные модели для приложений или сценариев функций.
Однако необходимо указать язык или языковой стандарт для каждого входного звука. Язык или языковой стандарт должны соответствовать фактическому языку, который говорился во входном голосе. Дополнительные сведения см. в списке поддерживаемых локалей.
Многие факторы могут привести к снижению точности транскрибирования:
- Акустическое качество: Приложения и устройства с поддержкой преобразования речи в текст могут использовать широкий спектр типов микрофонов и спецификаций. Унифицированные модели распознавания речи созданы на основе различных сценариев голосового аудиоустройства, таких как телефоны, мобильные телефоны и динамики. Однако качество голоса может быть понижено, так как пользователь разговаривает с микрофоном, даже если они используют высококачественный микрофон. Например, если динамик находится далеко от микрофона, качество ввода будет слишком низким. Динамик, который слишком близок к микрофону, также может привести к ухудшению качества звука. Оба случая могут отрицательно повлиять на точность преобразования речи в текст.
- Шум, отличный от речи: Если входной звук содержит определенный уровень шума, то это влияет на аккуратность. Шум может поступать из звуковых устройств, которые используются для записи, или сам входной звук может содержать шум, например фоновый или экологический шум.
- Перекрываемая речь: Может быть несколько динамиков в диапазоне звукового устройства ввода, и они могут одновременно говорить. Кроме того, другие докладчики могут говорить в фоновом режиме, пока основной пользователь говорит.
- Словари: Модель распознавания речи обучена на множестве слов из различных областей. Однако пользователи могут использовать термины и жаргон, специфичные для организации, которые не входят в стандартный словарь. Если слово, которое не существует в модели, отображается в звуке, результатом является ошибка транскрибирования.
- Accents: Даже в пределах одной локали, например английского языка в США (en-US), у многих людей различаются акценты. Очень конкретные акценты также могут привести к ошибке в транскрибировании.
- Несоответствие языков: Пользователи могут не общаться на языках, которые вы ожидаете. Если вы указали английский язык - США (en-US) для аудиоввода, но спикер, например, говорил на шведском языке, точность распознавания будет снижена.
- Ошибки вставки: иногда модели преобразования речи в текст могут приводить к ошибкам вставки в присутствии шума или мягкой фоновой речи. Это ограничено при использовании службы распознавания речи, но встречается немного чаще при использовании модели Whisper, как указано в карточке модели OpenAI.
Из-за этих акустических и лингвистических вариаций при разработке приложения следует ожидать определенного уровня неточности в выходном тексте.
Производительность системы
Производительность системы измеряется этими ключевыми факторами (с точки зрения пользователя):
- Коэффициент ошибок в словах (ВОК)
- Коэффициент ошибок символов (TER)
- Задержка среды выполнения
Модель считается лучшей, только если она показывает значительные улучшения (например, 5% относительное улучшение WER) во всех сценариях (например, транскрибирование речи, транскрибирование центра вызовов, диктовку и голосовой помощник) в соответствии с целями использования ресурсов и задержки ответа.
Для диаризации мы измеряем качество с помощью частоты ошибок диаризации слов (WDER). Чем ниже WDER, тем лучше качество диаризации.
Рекомендации по улучшению производительности системы
Как описано ранее, акустические условия, такие как фоновый шум, речь на стороне, расстояние к микрофону, а также стили и характеристики речи могут негативно повлиять на точность распознаваемого объекта.
Для улучшения работы с речью рассмотрим следующие принципы проектирования приложений или служб:
- Проектирование пользовательских интерфейсов для сопоставления языковых стандартов ввода: Несоответствие языковых стандартов снижает точность. Пакет SDK 'Речь' поддерживает автоматическое обнаружение языка, но обнаруживает только одну из четырех локалей, указанных в процессе выполнения. Вам по-прежнему нужно знать языковой стандарт, в котором будут выступать ваши пользователи. Пользовательский интерфейс должен четко указывать, какие языки пользователи могут говорить в раскрывающемся списке, в котором перечислены поддерживаемые языки. Дополнительные сведения см. в поддерживаемых локалях.
- Разрешить пользователям повторить попытку: Неправильное распознавание может возникать из-за временной проблемы, например неясной или быстрой речи или длительной паузы. Если приложение ожидает конкретных транскрипций, таких как предопределенные команды действий, например, "Да" и "Нет", и приложение их не получило, пользователям должна быть предоставлена возможность повторить попытку. Типичный метод заключается в том, чтобы сообщить пользователям: "К сожалению, я этого не получил. Повторите попытку".
- Подтвердите перед выполнением действия по голосовой связи: Как и при использовании пользовательских интерфейсов на основе клавиатуры, на основе щелчка или на основе касания, если звуковой вход может активировать действие, пользователям должна быть предоставлена возможность подтвердить действие, особенно при отображении или воспроизведении того, что было распознано или транскрибировано. Типичный пример отправки текстового сообщения по голосовой связи. Приложение повторяет то, что было распознано и просит подтверждения: "Вы сказали: "Спасибо". Отправить или изменить?
- Добавьте настраиваемые словари: Общая модель распознавания речи, предоставляемая речью в тексте, охватывает широкий словарь. Тем не менее, сценарий-специфичный жаргон и именованные термины (например, имена людей и имена продуктов) могут быть недостаточно представлены. Какие слова и фразы, вероятно, будут говориться, могут значительно отличаться в зависимости от сценария. Если вы можете предвидеть, какие слова и фразы будут говориться (например, когда пользователь выбирает элемент из списка), может потребоваться использовать грамматику списка фраз. Дополнительные сведения см. в разделе "Улучшение точности распознавания" в статье "Начало работы с речью в тексте".
- Используйте настраиваемую речь: Если точность речи к тексту в сценариях приложения остается низкой, может потребоваться настроить модель для акустических и лингвистических вариаций. Вы можете создавать собственные модели, обучая их с помощью собственных звуковых данных или текстовых данных. Дополнительные сведения см. в разделе "Настраиваемая речь".
Оценка преобразования речи в текст
Модель преобразования речи в текст оценивается с помощью тестирования. Цель тестирования заключается в том, чтобы подтвердить, что модель хорошо работает в каждом из ключевых сценариев и в распространенных звуковых условиях, и что мы достигаем наших целей справедливости с учётом демографических факторов.
Методы оценки
Для оценки модели используются тестовые наборы данных. Перед каждым развертыванием модели выполняются как регрессионные тесты, так и тест производительности модели. Ключевыми метриками для тестов регрессии являются WER, TER, WDER (если диаризация включена при преобразовании речи в текст) и задержка на 90-м процентиле.
Результаты оценки
Мы стремимся отправлять все обновления модели без регрессии (т. е. обновленная модель должна только улучшить текущую рабочую модель). Каждый кандидат сравнивается непосредственно с текущей производственной моделью. Чтобы рассмотреть модель развертывания, необходимо увидеть по крайней мере 5% относительное улучшение WER по сравнению с текущей рабочей моделью.
Модели преобразования речи в текст обучаются и настраиваются с использованием аудио голосового, включая:
- Микрофоны и спецификации устройств
- Среда распознавания речи
- Сценарии работы с речью
- Языки и акценты говорящего
- Возраст и пол говорящего
- Этнический фон ораторов
Для диаризации используются дополнительные варианты данных:
- Продолжительность выступления каждого докладчика
- Количество говорящих
- Эмоциональная речь, которая изменяет высоту и тональность.
Система преобразования речи в текст транскрибирует слова пользователя в текст, который затем может использоваться диалоговой системой с пониманием естественного языка или для аналитики, например суммирования или анализа тональности.
Соображения о справедливости
В Microsoft мы стремимся расширить возможности каждого человека на планете, чтобы добиться большего. Основная часть этой цели заключается в создании технологий и продуктов, которые являются справедливыми и инклюзивными. Справедливость является многомерной, социально-технической темой, и она влияет на многие различные аспекты развития нашего продукта. Узнайте больше о подходе Microsoft к справедливости.
Один аспект, который необходимо учитывать, заключается в том, насколько хорошо система функционирует для разных групп людей. Исследования показали, что без сознательных усилий, направленных на повышение производительности для всех групп, зачастую можно изменить производительность системы ИИ в зависимости от таких факторов, как раса, этническое происхождение, регион, пол и возраст.
Каждая версия текстовой модели проверяется и оценивается на основе различных наборов тестов, чтобы убедиться, что модель может выполняться без большого пробела в каждом из критериев оценки. Более детализированные результаты справедливости скоро появятся.
Оценка и интеграция преобразования речи в текст для ваших целей
Производительность речи в тексте будет отличаться в зависимости от реального использования и условий, которые вы реализуете. Чтобы обеспечить оптимальную производительность в вашем сценарии, следует проводить собственные оценки решений, которые вы реализуете с помощью речи в текст.
Тестовый набор данных голосовых данных должен состоять из фактических входных данных голоса, собранных в приложениях в рабочей среде. Чтобы отразить разнообразие пользователей в течение определенного периода, следует случайным образом выбирать данные. Кроме того, тестовый набор данных следует периодически обновлять, чтобы отразить изменения в вариантах.
Руководство по интеграции и ответственному использованию технологии распознавания речи
Поскольку Microsoft работает над тем, чтобы помочь клиентам ответственно разрабатывать и развертывать решения с помощью распознавания речи, мы принимаем принципиальный подход к поддержанию личной свободы и достоинства, учитывая справедливость систем ИИ, надежность и безопасность, конфиденциальность и защиту, инклюзивность, прозрачность и человеческую подотчетность. Эти соображения отражают нашу приверженность разработке ответственного ИИ.
При подготовке к развертыванию продуктов или функций, управляемых ИИ, следующие действия помогут вам приготовиться к успеху:
- Понять, что она может сделать: Полностью оцените возможности технологии преобразования речи в текст, чтобы выявить её способности и ограничения. Узнайте, как он будет работать в вашем конкретном сценарии и контексте, тщательно проверив его с реальными условиями эксплуатации и данными.
- Уважайте право человека на конфиденциальность: только собирать данные и информацию от отдельных лиц для законных и оправданных целей. Используйте только данные и сведения, которые у вас есть согласие на использование для этой цели.
- Юридическая проверка: получите соответствующие юридические советы для проверки решения, особенно если вы будете использовать его в конфиденциальных или высокориском приложениях. Узнайте, какие ограничения могут потребоваться для работы и вашей ответственности по устранению любых проблем, которые могут возникнуть в будущем. Не предоставляйте никаких юридических консультаций или рекомендаций.
- Человек в цикле: держать человека в цикле и включать человеческий надзор в качестве согласованной области для изучения. Это означает обеспечение постоянного контроля над продуктом или компонентом, на основе искусственного интеллекта, и поддержание роли людей в принятии решений. Убедитесь, что у вас есть возможность обеспечить вмешательство человека в режиме реального времени в решение, чтобы предотвратить вред. Это позволяет управлять ситуациями, когда модель искусственного интеллекта не выполняется должным образом.
- Безопасность. Убедитесь, что решение безопасно и имеет надлежащие средства управления, чтобы сохранить целостность содержимого и предотвратить несанкционированный доступ.
- Создание доверия с затронутыми заинтересованными лицами: сообщите ожидаемые преимущества и потенциальные риски для затронутых заинтересованных лиц. Помогите людям понять, почему необходимы данные и как использование данных приведет к их преимуществам. Описать обработку данных понятным образом.
- Цикл отзывов клиентов: предоставление канала отзывов, позволяющего пользователям и индивидуальным клиентам сообщать о проблемах с сервисом после его развертывания. После развертывания продукта или компонента, на основе искусственного интеллекта, он требует постоянного мониторинга и улучшения. Будьте готовы реализовать любые отзывы и предложения по улучшению. Создайте каналы для сбора вопросов и проблем заинтересованных лиц (людей, которые могут быть непосредственно или косвенно затронуты системой, включая сотрудников, посетителей и широкой общественности).
- Обратная связь: обратитесь к различным выборкам сообщества во время процесса разработки и оценки (например, от исторически маргинализованных групп, людей с ограниченными возможностями и работников службы). См. жюри сообщества.
- Исследование пользователей: любые рекомендации по согласию или раскрытию информации должны быть обрамлены в исследовании пользователя. Оцените первый и непрерывный опыт использования с репрезентативным примером сообщества, чтобы убедиться, что выбор дизайна приводит к эффективному раскрытию информации. Проводите исследования пользователей с 10-20 членами сообщества (затронутыми заинтересованными лицами), чтобы оценить их понимание информации и определить, соответствуют ли их ожидания.
Рекомендации по сохранению конфиденциальности
Успешный подход к конфиденциальности наделяет людей информацией и обеспечивает возможность контроля и защиты для сохранения их конфиденциальности.
Согласие на обработку и хранение звуковых входных данных. Перед использованием речи для функций с поддержкой текста в приложениях или устройствах убедитесь, что у конечных пользователей есть все необходимые разрешения. Кроме того, убедитесь, что у вас есть разрешение на Microsoft обрабатывать эти данные в качестве стороннего обработчика облачной службы. Обратите внимание, что API в режиме реального времени не сохраняет данные вывода звука и транскрибирования отдельно. Однако вы можете создать приложение или устройство для хранения данных конечных пользователей, таких как текст транскрибирования. Вы можете включить ведение журнала локальных данных с помощью пакета SDK службы "Речь" (см. раздел "Включить ведение журнала в пакете SDK службы "Речь").