Поделиться через


Раскрытие информации о таланте голоса и аватара

Это важно

Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.

Цель этой статьи — помочь талантам в области голоса и аватаров понять технологии, лежащие в основе возможностей преобразования текста в речь, которым способствуют их голоса и изображения. Она также содержит важные раскрытия конфиденциальности для талантов о том, как корпорация Майкрософт может обрабатывать, использовать и хранить аудио и видеофайлы, содержащие записанные голоса и изображения талантов, и помогает Корпорации Майкрософт предотвратить, и /или реагировать на жалобы, неправильное использование средств Foundry.

Корпорация Майкрософт стремится к разработке ИИ ответственно. Мы надеемся, что эта записка будет способствовать большему общему пониманию среди создателей технологий, актеров озвучивания, талантов, работающих с аватарами, и широкой общественности о предназначенном и полезном использовании этой технологии.

Основные термины преобразования текста в речь

Голосовая модель: Компьютерная модель, преобразующая текст в речь, которая может имитировать уникальные голосовые характеристики целевого говорящего. Модель голоса также называется шрифтом голоса или искусственным голосом. Голосовая модель — это набор параметров в двоичном формате, который не является удобочитаемым и не содержит аудиозаписей. Это не может быть перепроектировано для получения или создания аудиозаписей человека, выступающего.

Диктор: Люди или исходные спикеры, голоса которых записываются и используются для создания моделей голоса, которые должны звучать как их голос.

Модель аватара: Компьютерная модель аватара с текстом в речь, которая может имитировать уникальные характеристики лица целевого актёра. Модель аватара — это набор параметров в двоичном формате, который не доступен для чтения и не содержит видео или аудиозаписи. Это не может быть подвергнуто обратной разработке для получения или создания видеозаписей с участием человека.

Талант аватара: Создание модели аватара для преобразования текста в речь требует обучения на видео записи с реальным человеком, говорящим. Этот человек является аватар талантом. Клиенты должны получить достаточное согласие в соответствии со всеми соответствующими законами и правилами от таланта аватара, чтобы использовать свое изображение для создания пользовательского аватара.

Как работает нейронное преобразование текста в речь

Как это работает: Нейронный текст для речи синтезирует речь с помощью глубоких нейронных сетей, которые "узнали", как фонетические функции объединяются в естественной человеческой речи, а не с помощью классических программ или статистических методов. Помимо записей определенного голосового актера, нейронный синтез речи использует исходную библиотеку, содержащую записи голосов от многих разных исполнителей.

Что знать об этом: Из-за того, как он синтезирует голоса, нейронный синтез речи может создавать стили речи, которые не были частью исходных записей, такие как изменения в тоне голоса и интонации. Нейронные голосовые технологии звучат плавно и хорошо воспроизводят естественные паузы, идиосинкразии и запинания, которые люди выражают, когда говорят. Те, кто слышит синтезированные с помощью нейронных технологий синтеза речи голоса, как правило, оценивают их как более приближенные к человеческой речи, чем стандартные голоса текст в речь.

Примеры использования корпорацией Майкрософт:

  • Предварительно созданный нейронный голос — это функция преобразования текста в речь, которая предлагает готовые голосовые модели для клиентов. Предварительно созданные нейронные голоса также используются в нескольких продуктах Майкрософт, включая браузер Edge, экранный диктор, Office и Teams.
  • Пользовательский нейронный голос — это функция текста для речи, которая позволяет создавать однообразные пользовательские искусственные голосовые модели. Ниже приведены возможности пользовательского нейронного голоса:
    • Передача речи может выражаться на языке, отличном от исходных записей голоса.
    • Передача стиля может выразиться в стиле речи, отличном от исходных голосовых записей. Например, голосовая рассылка новостей.
    • Преобразование голоса может выражаться иначе, чем в оригинальных записях голоса. Например, изменение тона или высоты звука для создания разных голосов персонажей.
    • Другие голоса, используемые в продуктах и службах Майкрософт, таких как Кортана.

Что ожидать при записи: Создание по крайней мере 300 строк для модели проверки концепции голосовой связи и около 2000 линий для создания новой голосовой модели для использования в рабочей среде.

Как работает аватар текст в речь

Как это работает: Текст для речи аватар построен на основе предварительно созданного нейронного голоса и пользовательского нейронного голоса, а также синтезирует видеоконтент аватара с синхронизированным текстом с предварительно созданным нейронным голосом или пользовательским нейронным голосом. Процесс синтеза использует глубокие нейронные сети, обученные на моделях, разработанных на основе видеозаписей таланта аватара. Модели обучены, используя акустические функции, извлеченные из звуковых элементов записи, а также физические характеристики, движения рта, выражения лица и связанные с ними визуальные элементы, извлеченные из видеоэлементов записи.

Что нужно знать об этом: Синтезированный аватар, преобразующий текст в речь, внешность, телосложение и движения которого очень похожи на форму и поведение аватар-дублёра, но голос аватара для преобразования текста в речь может быть сгенерирован из любого из заранее созданных нейронных голосов, которые Майкрософт предлагает, или из пользовательского нейронного голоса, в том числе когда талант голоса совпадает с талантом аватара, если человек авторизовал такое использование.

Примеры использования корпорацией Майкрософт:

  • Готовый аватар для преобразования текста в речь — это функция службы Azure Speech в Foundry Tools для преобразования текста в речь, которая предлагает готовые модели аватаров для использования клиентами.
  • Персонифицированное текст-в-голос аватар — это возможность Azure Speech, которая позволяет создавать уникальные пользовательские синтетические голосовые модели аватаров.

Что ожидать при записи: вам потребуется внести по крайней мере 10 минут записи видео для пользовательской модели аватара и около 20 минут записи видео, чтобы создать полную пользовательскую модель аватара для использования в рабочей среде.

Талант голоса и искусственные голоса: развивающаяся связь

Признавая неразрывную связь между голосовыми талантами и искусственными голосами, корпорация Microsoft взяла интервью у голосовых талантов, чтобы лучше понять их взгляды на новые разработки в технологиях. Исследования, проведенные в 2019 году, показали, что актёры озвучания увидели потенциальную выгоду от возможностей, представленных нейронным синтезом речи, таких как экономия студийного времени для выполнения записей и увеличение возможностей для выполнения большего количества заданий озвучивания. В то же время существовали различные степени осведомленности о том, как разработки в технологии преобразования текста в речь могут потенциально повлиять на их профессию.

В целом, актеры озвучивания выразили желание большей прозрачности и ясности в отношении:

  • Ограничения на то, что их голосовое подобие может и не может быть использовано для выражения.
  • Продолжительность допустимого использования их голосового подобия.
  • Потенциальное влияние на будущие возможности записи.
  • Персона, которая ассоциируется с их похожестью голоса.

Искусственный голос в более широком использовании

Традиционно использование голосов текстов в речь было ограничено из-за их роботизированного звука. Большинство из них использовались для поддержки специальных возможностей, например в качестве средства чтения с экрана для людей, которые слепы или имеют низкое зрение. Синтезаторы речи также использовались людьми с нарушениями речи. Например, покойный Стивен Хокинг использовал голос, генерируемый системой синтеза речи.

Теперь, с все более реалистично звучащими искусственными голосами и увеличением количества более знакомых, повседневных взаимодействий между машинами и людьми, использование этой технологии растет и расширяется. Системы преобразования текста в речь управляют голосовыми помощниками на различных устройствах и в приложениях. Они считывают новости, результаты поиска, объявления государственных служб, образовательный контент и многое другое.

Искусственный аватар в более широком использовании

Как и текст речи голоса, аватары теперь предлагают реалистичные внешние виды, движения и выражения лица, сопряженные с жизненным звуком голоса. Эти аватары могут использоваться в различных ситуациях, таких как представление содержимого в онлайн-обучении, представление речи от имени компании, взаимодействие с клиентами в параметрах обслуживания клиентов и многое другое.

Подход Майкрософт к ответственному использованию текста для речи

Каждый день люди находят новые способы применения текста к технологии речи, и не все это для благо отдельных лиц или общества. При неправильном использовании голоса, звучащие как человеческие в системах синтеза речи, или реалистичные говорящие аватары могут причинить вред. Например, кампания по ложной информации может стать гораздо более мощной, если она использовала голос и изображение известной общественной фигуры.

Мы признаем, что нет идеального способа предотвратить изменение средств массовой информации или однозначно доказать, откуда он пришел. Поэтому наш подход к ответственному использованию сосредоточен на обеспечении прозрачности функций преобразования текста в речь Azure Speech, ограничивая допустимые виды использования пользовательских версий этих функций и демонстрируя наши ценности на практике.

Если вы используете продукты или службы Майкрософт для обработки биометрических данных, вы несете ответственность за: (i) предоставление уведомления субъектам данных, в том числе в отношении периодов хранения и уничтожения; (ii) получение согласия от субъектов данных; и (iii) удаление биометрических данных в соответствии с требованиями к защите данных. "Биометрические данные" будут иметь значение, заданное в статье 4 GDPR, и, если применимо, эквивалентные термины в других требованиях к защите данных.

Чтобы использовать пользовательский нейронный голос, мы договорно требуем от клиентов выполнить следующие действия:

  • Получите явное письменное разрешение от диктора на использование его голоса для создания пользовательского нейронного голоса.
  • Предоставьте этот документ актерам озвучивания, чтобы они могли понять, как работает технология преобразования текста в речь и как она может использоваться после завершения процесса записи звука.
  • Получение необходимых разрешений от голосовых талантов для обработки, использования и хранения звуковых файлов голосового таланта для выполнения проверки речи на основе обучающих данных, а также для использования и хранения голосовых моделей майкрософт, как описано ниже.

Мы также рекомендуем клиентам выполнять следующие действия.

  • Предоставьте актерам озвучивания информацию об предполагаемых контекстах использования, чтобы они знали, кто будет слушать их голос, в каких сценариях и смогут ли и как люди будут взаимодействовать с ним.
  • Убедитесь, что исполнители озвучивания знают, что модель голоса, сделанная из их записей, может произнести вещи, которые они не записывали намеренно в студии.
  • Обсудите, есть ли что-нибудь, что им было бы некомфортно, если бы это произнесла голосовая модель.

Обработка, использование и хранение данных майкрософт

Использование аудиофайлов голосовых талантов Майкрософт для проверки говорящего

Клиенты должны получить разрешение от исполнителя голоса, чтобы использовать его голос для создания пользовательских голосовых моделей для искусственного голоса. Эта техническая защита предназначена для предотвращения неправильного использования нашей службы, например, запретить кому-то обучать модели голосовой связи с аудиозаписями и использовать модели для подпуги голоса без знаний или согласия говорящего.

В Speech Studio необходимо отправить аудиофайл с записанным подтверждающим заявлением от диктора. Корпорация Майкрософт оставляет за собой право использовать технологию распознавания говорящего Microsoft в этой записанной записи подтверждения и сверить её с обучающими звуковыми данными, чтобы убедиться, что голоса принадлежат одному и тому же говорящему, или при необходимости для расследования неправильного использования службы "Речь Azure".

Голосовые подписи говорящего, созданные из записанных файлов инструкций подтверждения и обучающих звуковых данных, используются корпорацией Майкрософт исключительно для указанных выше целей. Корпорация Майкрософт будет хранить записанный файл инструкции до тех пор, пока это необходимо для сохранения безопасности и целостности средств Microsoft Foundry. Узнайте больше о том, как мы обрабатываем, используем и сохраняем данные в документации по данным, конфиденциальности и безопасности.

Использование пользовательских моделей Майкрософт

Хотя клиенты поддерживают монопольные права на использование пользовательской нейронной голосовой модели, корпорация Майкрософт может независимо хранить копию пользовательских нейронных голосовых моделей до тех пор, пока это необходимо. Корпорация Майкрософт может использовать пользовательскую модель нейронной голосовой связи для обеспечения безопасности и целостности средств Foundry.

Корпорация Майкрософт будет защищать и хранить копию записанного заявления о подтверждении исполнителя голосовой озвучки и пользовательских нейронных голосовых моделей с той же высокой степенью безопасности, которую она использует для других служб Azure. Дополнительные сведения см. в Центре управления безопасностью Майкрософт.

Мы будем продолжать выявлять и ясно указывать на преднамеренное, полезное и предполагаемое использование технологий преобразования текста в речь, основанных на существующих социальных нормах и ожиданиях людей, связанных со средствами массовой информации, когда они считают, что они являются реальными или поддельными. В соответствии с принципами доверия Майкрософт корпорация Майкрософт не отслеживает или модерирует звуковое содержимое, созданное с помощью пользовательского нейронного голоса. Клиенты полностью ответственны за то, чтобы использование соответствовало всем применимым законам и нормативным актам, а также условиям их соглашения с голосовым талантом.

Использование голосовых талантов Майкрософт с пользовательским нейронным голосом lite

Упрощённый пользовательский нейронный голос — это тип проекта, находящийся в стадии общедоступного предварительного просмотра, который позволяет записывать от 20 до 50 голосовых образцов в Speech Studio и создавать лёгкую пользовательскую голосовую модель для демонстрации и оценки. Скрипт записи и скрипт тестирования предварительно определены корпорацией Майкрософт. Синтетическая голосовая модель, созданная с помощью пользовательского нейронного голоса lite, может быть развернута и использоваться более широко, только если вы подадите заявку и получите полный доступ к пользовательскому нейронному голосу (в соответствии с применимыми условиями).

Искусственный голос и связанные звукозаписи, которые вы отправляете через Speech Studio, автоматически будут удалены в течение 90 дней, если вы не получите полный доступ к пользовательскому нейронному голосу и решите развернуть искусственный голос, в этом случае вы будете контролировать срок его хранения. Если диктор хочет удалить искусственный голос и связанные аудиозаписи в течение 90 дней, он может сделать это напрямую на портале или связаться с компанией для удаления.

Кроме того, перед развертыванием любой искусственной голосовой модели, созданной с использованием пользовательского проекта нейронного голоса лайт, исполнитель голоса должен предоставить дополнительную запись, в которой он/она подтверждает, что синтетический голос будет применяться для других целей, помимо демонстрации и оценки.

Рекомендации по ответственному развертыванию

Поскольку текст для речи является адаптируемой технологией, существуют серые области в определении того, как он должен или не должен использоваться. Чтобы ориентироваться в этом, мы разработали следующие рекомендации по использованию синтетических голосовых и аватарных моделей.

  • Защитите владельцев голосов и изображений/сходства от неправильного использования или кражи удостоверений.
  • Предотвращение распространения поддельных и вводящих в заблуждение содержимого.
  • Рекомендуется использовать в сценариях, когда потребители ожидают взаимодействия с искусственным содержимым.
  • Рекомендуется использовать в сценариях, когда потребители наблюдают за созданием искусственного содержимого.

Примеры недопустимого использования

Использование озвучивания текста с помощью Azure AI недопустимо.

  • Обмануть людей и /или намеренно неправильно информировать;
  • В целях ложной рекламы, в том числе через живые рекламные передачи; Заявление о происхождении от любого лица, компании, государственного органа или сущности без явного разрешения на такое представительство;
  • Для олицетворения любого человека без явного разрешения, включая получение сведений или привилегий;
  • Создание, подстрекание или скрытие речи ненависти, дискриминации, диффамации, терроризма или актов насилия;
  • Для использования или управления детьми;
  • Для совершения нежелательных телефонных звонков, массовых рассылок, публикаций или сообщений;
  • Маскировка позиций политики или политических идеологий;
  • Распространение неатрибутированного контента или искажение источников.

Примеры подходящего использования

Соответствующие варианты использования могут включать в себя, но не ограничиваются следующими вариантами:

  • Виртуальные агенты на основе вымышленных лиц. Например, веб-поиск по запросу, элемент управления Интернета вещей или поддержка клиентов, предоставляемая фирменной символикой компании.
  • Развлекательные средства массовой информации для использования в вымышленном контенте. Например, фильмы, видеоигры, телевизор, записанная музыка или аудио книги.
  • Аккредитированные образовательные учреждения или образовательные средства массовой информации. Например, интерактивные планы занятий или экскурсии по музеям.
  • Вспомогательные технологии и перевод в режиме реального времени. Например, люди, пострадавшие от ALS, сохраняют свои голоса.
  • Объявления государственной службы с использованием вымышленных лиц. Например, объявления аэропорта или терминала поезда.
  • Реклама и трансляция потоковой передачи: рекламное содержимое, потоковая трансляция, связанная с маркетингом или продажей продукта. 

См. также