Раскрытие информации о специалистах по голосовым технологиям и созданию аватаров

Важно

Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.

Цель этой статьи заключается в том, чтобы помочь вокальным и аватарным талантам понять технологии, лежащие в основе техники синтеза речи, которые их голоса и изображения помогают создавать. Он также содержит важные раскрытия конфиденциальности для талантов о том, как Microsoft может обрабатывать, использовать и хранить аудио и видеофайлы, содержащие записанные голоса и изображения талантов, и помогает Microsoft предотвратить, и /или реагировать на жалобы, неправильное использование средств Foundry.

Microsoft стремится к разработке ИИ ответственно. Мы надеемся, что эта записка будет способствовать большему общему пониманию среди создателей технологий, талантов голосов, талантов аватаров и широкой общественности о предназначенном и полезном применении этой технологии.

Ключевой текст для речевых терминов

Голосовая модель: Компьютерная модель преобразования текста в речь, способная имитировать уникальные голосовые характеристики целевого говорящего. Модель голоса также называется шрифтом голоса или искусственным голосом. Голосовая модель — это набор параметров в двоичном формате, который не является удобочитаемым и не содержит аудиозаписей. Это не может быть перепроектировано для получения или создания аудиозаписей человека, выступающего.

Голосовой талант: Люди или целевые дикторы, чьи голоса записываются и используются для создания голосовых моделей, которые должны звучать как голос голосового таланта.

Модель аватара: Компьютерная модель аватара для преобразования текста в речь, которая может имитировать уникальные черты лица целевого актера. Модель аватара — это набор параметров в двоичном формате, который не доступен для чтения и не содержит видео или аудиозаписи. Невозможно провести реверс-инжиниринг для получения или создания видеозаписей, на которых человек запечатлён в действии.

Талант аватара: Построение пользовательской модели аватара для преобразования текста в речь требует обучения на видеозаписи реального человека, говорящего. Этот человек — талант аватара. Клиенты должны получить достаточное согласие в соответствии со всеми соответствующими законами и правилами от таланта аватара, чтобы использовать свое изображение для создания пользовательского аватара.

Как работает нейронная технология перевода текста в речь

Как это работает: Нейронный текст для речи синтезирует речь с помощью глубоких нейронных сетей, которые "узнали", как фонетические функции объединяются в естественной человеческой речи, а не с помощью классических программ или статистических методов. Помимо записей определенного таланта голоса нейронный текст для речи использует исходную библиотеку, содержащую записи голоса со многих разных динамиков.

Что знать об этом: Из-за того, как он синтезирует голоса, нейронный текст для речи может создавать стили речи, которые не были частью исходных записей, таких как изменения в тон голоса и влияния. Нейронные голоса преобразования текста в речь звучат естественно и хорошо воспроизводят естественные паузы, идиосинкразии и колебания, которые люди выражают, когда они говорят. Те, кто слышит голоса, созданные с помощью синтеза речи на основе нейронных сетей, как правило, оценивают их ближе к человеческой речи, чем голоса стандартного синтеза речи.

Примеры того, как Microsoft использует это:

Предварительно созданный нейронный голос — это функция синтеза речи, которая предлагает готовые к использованию модели голоса для использования клиентами. Предварительно созданные нейронные голоса также используются в нескольких Microsoft продуктах, включая браузер Edge, экранный диктор, Office и Teams.
Пользовательский нейронный голос — это функция текста для речи, которая позволяет создавать однообразные пользовательские искусственные голосовые модели. Ниже приведены возможности пользовательского нейронного голоса:
- Передача речи может выражаться на языке, отличном от исходных записей голоса.
- Передача стиля может выразиться в стиле речи, отличном от исходных голосовых записей. Например, голосовая рассылка новостей.
- Преобразование голоса может звучать иначе, чем исходные записи голоса. Например, изменение тона или высоты для создания разных голосов персонажей.
- Другие голоса, используемые в продуктах и услугах Microsoft, таких как Кортана.

Что ожидать при записи: Создание по крайней мере 300 строк для модели проверки концепции голосовой связи и около 2000 линий для создания новой голосовой модели для использования в рабочей среде.

Как работает аватар преобразования текста в речь

Как это работает: Аватар, преобразующий текст в речь, основан на готовом нейронном голосе и пользовательском нейронном голосе, и синтезирует видеоконтент аватара с синхронизированным текстом, используя готовый или пользовательский нейронный голос. Процесс синтеза использует глубокие нейронные сети, обученные на моделях, разработанных на основе видеозаписей таланта аватара. Модели обучены акустическими функциями, извлеченными из звуковых элементов записи, а также физическими характеристиками, движениями рта, выражениями лица и связанными визуальными элементами, извлеченными из видео элементов записи.

Что следует знать об этом: Лицо, тело и движения синтезированного текстового аватара для речи очень похожи на талант аватара, но голос текстового аватара может быть сгенерирован из любого из предустановленных нейронных голосов, которые Microsoft предоставляет в распоряжение, или из пользовательского нейронного голоса, включая случаи, когда голосовой талант и талант аватара совпадают, если индивидуум дал разрешение на такое использование.

Примеры того, как Microsoft использует это:

Готовый к использованию аватар для синтеза речи — это функция Azure Speech в Foundry Tools для синтеза речи, которая предлагает готовые к использованию модели аватаров для синтеза речи для использования клиентами.
Custom text to speech avatar — это функция преобразования текста в речь Azure, которая позволяет создавать уникальные пользовательские модели синтетических аватаров текст в речь.

Что ожидать при записи: вам потребуется внести по крайней мере 10 минут записи видео для пользовательской модели аватара и около 20 минут записи видео, чтобы создать полную пользовательскую модель аватара для использования в рабочей среде.

Талант голоса и искусственные голоса: развивающаяся связь

Признание неразрывной связи между голосовыми талантами и искусственными голосами, Microsoft провела интервью с талантами голоса, чтобы лучше понять их перспективы на новые технологические разработки. Наши исследования, проведенные в 2019 году, показали, что актеры озвучивания увидели потенциальную выгоду от возможностей, представленных нейронным синтезом речи, таких как экономия времени студии для завершения записей и увеличение возможности брать больше заказов на озвучку. В то же время существовали различные степени осведомленности о том, как разработки в текст-речевых технологиях могут потенциально повлиять на их профессию.

В целом, дикторы выразили желание иметь прозрачность и ясность в отношении:

Ограничения на то, как их голос может или не может быть использован для выражения.
Длительность допустимого использования их голосового подобия.
Потенциальное влияние на будущие возможности записи.
Персонаж, который будет связан с их похожестью голоса.

Искусственный голос в более широком использовании

Традиционно технологии синтеза речи широко не использовались из-за их роботизированного звучания. Большинство из них использовались для поддержки специальных возможностей, например в качестве средства чтения с экрана для людей, которые слепы или имеют низкое зрение. Голоса синтеза речи также используются людьми с нарушениями речи. Например, покойный Стивен Хокинг использовал голос, сгенерированный системой преобразования текста в речь.

Теперь, с искусственными голосами, звучащими все более реалистично, и увеличением числа знакомых, повседневных взаимодействий между машинами и людьми, использование этой технологии быстро растет и расширяется. Системы преобразования текста в речь поддерживают работу голосовых помощников на различных устройствах и в приложениях. Они считывают новости, результаты поиска, объявления государственных служб, образовательный контент и многое другое.

Искусственный аватар в более широком использовании

Как и текст речи голоса, аватары теперь предлагают реалистичные внешние виды, движения и выражения лица, сопряженные с жизненным звуком голоса. Эти аватары могут использоваться в различных ситуациях, таких как представление содержимого в онлайн-обучении, представление речи от имени компании, взаимодействие с клиентами в параметрах обслуживания клиентов и многое другое.

подход Microsoft к ответственному использованию текста для речи

Каждый день люди находят новые способы применения текста к технологии речи, и не все это для благо отдельных лиц или общества. В случае неправильного использования голоса, звучащие правдоподобно как человеческие, или реалистичные говорящие аватары могут причинить вред. Например, кампания по ложной информации может стать гораздо более мощной, если она использовала голос и изображение известной общественной фигуры.

Мы признаем, что нет идеального способа предотвратить изменение средств массовой информации или однозначно доказать, откуда он пришел. Поэтому наш подход к ответственному использованию ориентирован на обеспечение прозрачности функций преобразования текста в речь Azure Speech путем ограничения разрешенных способов использования пользовательских версий этих функций и подтверждения наших ценностей через действия.

Если вы используете Microsoft продукты или службы для обработки биометрических данных, вы несете ответственность за: (i) предоставление уведомления субъектам данных, в том числе в отношении периодов хранения и уничтожения; (ii) получение согласия от субъектов данных; и (iii) удаление биометрических данных в соответствии с требованиями к защите данных. "Биометрические данные" будут иметь значение, заданное в статье 4 GDPR, и, если применимо, эквивалентные термины в других требованиях к защите данных.

Пользовательский нейронный голос
Настраиваемый аватар для преобразования текста в речь

Чтобы использовать пользовательский нейронный голос, мы договорно требуем от клиентов выполнить следующие действия:

Получите явное письменное разрешение от актера озвучивания, для использования голоса этого человека в процессе создания пользовательского нейронного голоса.
Предоставьте этот документ голосовым талантам, чтобы они могли понять, как работает технология преобразования текста в речь, и как это может использоваться после завершения процесса записи аудио.
Получение необходимых разрешений от голосового актера на обработку, использование и сохранение звуковых файлов Microsoft для выполнения верификации голоса в отношении обучающих данных и для использования и сохранения голосовых моделей Microsoft, как описано ниже.

Мы также рекомендуем клиентам выполнять следующие действия.

Поделитесь предполагаемыми контекстами использования с актёром озвучивания, чтобы он был в курсе, кто будет слышать его голос, в каких сценариях и как люди смогут взаимодействовать с ним.
Убедитесь, что голосовые актёры знают, что модель голоса, созданная на основе их записей, может воспроизводить фразы, которые они не записывали специально в студии.
Обсудите, есть ли что-то, с чем они чувствуют себя неудобно, если это будет сказано голосовой моделью.

обработка, использование и хранение данных Microsoft

Пользовательский нейронный голос
Настраиваемый аватар для преобразования текста в речь

Использование Microsoft звуковых файлов дикторов для верификации говорящего

Клиенты должны получить разрешение от актёра озвучивания, чтобы использовать его голос для создания пользовательских синтетических голосовых моделей. Эта техническая защита предназначена для предотвращения неправильного использования нашей службы, например, запретить кому-то обучать модели голосовой связи с аудиозаписями и использовать модели для подпуги голоса без знаний или согласия говорящего.

В Speech Studio необходимо загрузить аудиофайл с записанным подтверждающим заявлением от диктора. Microsoft оставляет за собой право использовать технологию распознавания говорящих от Microsoft на этом записанном заявлении о подтверждении и проверять его с обучающими аудиоданными, чтобы подтвердить, что голоса принадлежат тому же говорящему, или чтобы исследовать неправильное использование технологии Azure Speech.

Голосовые подписи докладчика, созданные из записанных файлов инструкций подтверждения и обучающих звуковых данных, используются Microsoft исключительно для указанных выше целей. Microsoft сохранит записанный файл заявления до тех пор, пока это необходимо для сохранения безопасности и целостности средств Foundry Tools Microsoft. Узнайте больше о том, как мы обрабатываем, используем и сохраняем данные в документации по данным, конфиденциальности и безопасности.

использование пользовательских моделей Microsoft

Пользовательский нейронный голос
Настраиваемый аватар для преобразования текста в речь

Хотя клиенты сохраняют исключительные права на использование своей пользовательской нейронной голосовой модели, Microsoft может независимо хранить копию пользовательских нейронных голосовых моделей столько, сколько это необходимо. Microsoft может использовать пользовательскую модель нейронной голосовой связи исключительно для защиты безопасности и целостности средств Foundry.

Microsoft будет защищать и хранить копию записанного заявления о подтверждении таланта озвучивания и пользовательских нейронных голосовых моделей с той же высокой безопасностью, которую она использует для других служб Azure. Дополнительные сведения см. в Microsoft Центре управления безопасностью.

Мы будем продолжать определять и четко обозначать преднамеренное, полезное и предполагаемое использование технологии преобразования текста в речь, основанное на существующих социальных нормах и ожиданиях людей в средствах массовой информации, когда они считают его реальным или поддельным. В соответствии с принципами доверия Microsoft Microsoft не отслеживает или модерирует звуковое содержимое, созданное с помощью пользовательского нейронного голоса. Клиенты несут ответственность за обеспечение соблюдения всех применимых законов и правил в соответствии с условиями соглашения с актёром озвучивания.

использование Microsoft данных голосовых талантов с кастомизированным нейронным голосом Lite

Пользовательский нейронный голос облегченная версия — это тип проекта в общедоступной предварительной версии, который позволяет записывать 20-50 голосовых примеров в Speech Studio и создавать пользовательскую упрощенную голосовую модель для демонстрации и оценки. Скрипт записи и скрипт тестирования предварительно определены Microsoft. Созданная вами синтетическая голосовая модель с помощью пользовательского нейронного голоса lite может быть развернута и использована в более широком масштабе только в случае, если вы подаете заявку и получаете полный доступ к пользовательскому нейронному голосу (в соответствии с применимыми условиями).

Искусственный голос и связанные звукозаписи, которые вы отправляете через Speech Studio, автоматически будут удалены в течение 90 дней, если вы не получите полный доступ к пользовательскому нейронному голосу и решите развернуть искусственный голос, в этом случае вы будете контролировать срок его хранения. Если голосовой актер хотел бы, чтобы искусственный голос и связанные аудиозаписи были удалены в течение 90 дней, он может удалить их напрямую на портале или связаться со своим предприятием, чтобы сделать это.

Кроме того, перед развертыванием любой из моделей синтетического голоса, созданных с помощью пользовательского проекта нейронного голоса lite, голосовой актёр должен предоставить дополнительную запись, в которой они признают, что синтетический голос будет использоваться в других целях, помимо демонстрации и оценки.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-30