Примечание о прозрачности: синтез речи

Важно

Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.

Что такое заметка о прозрачности?

Система ИИ включает не только технологию, но и людей, которые будут использовать его, людей, которые будут затронуты им, и среды, в которой она развернута. Для создания системы, которая подходит для ее целевой цели, требуется понимание того, как работает технология, какие возможности и ограничения имеются, и как достичь оптимальной производительности. Заметки о прозрачности Microsoft предназначены для того, чтобы помочь вам понять, как работает наша технология ИИ, какие решения могут принимать владельцы системы, влияющие на производительность и поведение системы, а также подчеркнуть важность учета всей системы в целом, включая технологии, людей и окружающую среду. При разработке или развертывании собственной системы можно использовать заметки о прозрачности или делиться ими с людьми, которые будут использовать систему или на которых она будет влиять.

Заметки о прозрачности Microsoft являются частью более широких усилий по Microsoft по внедрению принципов ИИ. Дополнительные сведения см. в разделе принципы Microsoft ИИ.

Основы текста для речи

Введение

Синтез речи, часть Azure Speech в составе инструментов Foundry, является универсальным решением для преобразования написанного текста в естественное звучание речи. Функция принимает входные данные в виде текста и создает высококачественные звуковые выходные данные речи, которые можно воспроизводить на устройствах. Для синтеза речи предлагается ряд готовых нейронных голосов или, для пользователей с ограниченным доступом, возможность создать индивидуальный нейронный голос для вашего продукта или бренда.

Текст для речи также имеет визуальные возможности. С помощью текстового аватара клиенты могут ввести текст и создать искусственное видео аватара, выступающего. Доступны предварительно созданные тексты для аватаров речи и настраиваемый текст для аватаров речи, которые можно использовать как с предварительно созданным нейронным голосом, так и с пользовательским нейронным голосом, хотя некоторые функции доступны только для клиентов с ограниченным доступом.

В системе распознавания речи клиенты могут превратить записанную информацию в звуковую речь и улучшить специальные возможности для пользователей. Будь то прослушивание документов или улучшение пользовательского опыта с помощью синтезированной речи, текст в речь превращает текст в естественно звучащие слова.

Ключевые термины

Термин Определение
Синтез речи в режиме реального времени Используйте пакет SDK службы "Речь" или REST API для преобразования текста в речь с помощью предварительно созданного нейронного голоса, предварительно созданного текстового аватара речи, пользовательского нейронного голоса и пользовательского текстового аватара речи.
Голосовая модель В системе преобразования текста в речь голосовая модель — это модель на основе машинного обучения или алгоритм, который генерирует синтетическую речь из написанного текста. Эта модель обучена преобразовывать текстовый ввод в устную речь, имитируя характеристики человеческого голоса, включая высоту, тон и произношение.
Просодия Prosody относится к модуляции речевых элементов, таких как высота тона, длительность, громкость и паузы, чтобы наделить искусственные голоса естественными и выразительными качествами, передавать эмоциональные нюансы и контекстное значение, тем самым уменьшая роботизированное качество созданной речи, и делая её более привлекательной и понятной для слушателей.
Язык разметки синтеза речи (SSML) Язык разметки синтеза речи (SSML) — это язык разметки на основе XML, используемый для настройки выходных данных речи. С помощью SSML можно настроить высоту тона, добавить паузы, улучшить произношение, изменить скорость речи, настроить громкость и назначить несколько голосов одному документу. SSML можно использовать для определения собственных лексиконс или переключения на различные стили речи.
Асинхронный синтез длинного звука Используйте API пакетного синтеза (предварительная версия) для асинхронного синтеза текста в файлы речи дольше 10 минут (например, аудиокниги или лекции). В отличие от синтеза речи, выполняемого с использованием Speech SDK или API преобразования речи в текст, ответы не возвращаются в режиме реального времени. Предполагается, что запросы отправляются асинхронно, ответы проверяются, и синтезированное аудио скачивается, когда служба делает его доступным.
Visemes Visemes — это ключевые позы в наблюдаемой речи, включая положение губ, челюсти и языка в образовании определенной фонемы. Visemes имеют сильную корреляцию с голосами и фонемами.

Введение

Предварительно созданный нейронный голос предоставляет широкий спектр голосов, предлагая более 400 вариантов на более чем 140 языках и языковых стандартах. Эти голоса для преобразования текста в речь позволяют быстро интегрировать функции воспроизведения текста вслух в ваши приложения для повышения доступности.

Ключевые термины

Термин Определение
Предварительно созданный нейронный голос Microsoft предлагает набор предварительно созданных нейронных голосов, которые используют глубокие нейронные сети для преодоления ограничений традиционного синтеза речи в отношении стресса и интонации на разговорном языке. Прогнозирование просодии и синтез голоса происходят одновременно, что делает звучание более плавным и естественным. Каждая встроенная модель синтеза голоса доступна на частотах 24 кГц и высокой четкости 48 кГц, а выходные данные можно увеличивать или уменьшать до других форматов.

Возможности

Системное поведение

Текст в речь

Преобразование текста в речь превращает текст в естественно звучащую речь.

Ниже приведены основные параметры вызова службы преобразования текста в речь.

API для преобразования текста в речь в режиме реального времени

Это распространенный вызов API через Speech SDK или REST API, который позволяет отправлять текстовые данные и получать аудиовыход в режиме реального времени. Система "Речь" использует модель преобразования текста в речь для преобразования текста в синтетическую речь, похожую на человеческую. Выходной звук можно сохранить в виде файла или воспроизвести обратно на выходное устройство, например динамик (узнайте больше о том, как синтезировать речь из текста). Пользователи также могут использовать SSML для тонкой настройки преобразования текста в речь.

Модели преобразования текста в речь обучены на большом количестве различных звуковых данных в типичных сценариях использования и широком спектре динамиков. Например, служба преобразования текста в речь часто используется для чат-ботов с голосовым управлением или для создания аудио контента.

API пакетного синтеза

Пакетное синтезирование — это другой тип вызова API. Обычно он используется для отправки больших текстовых файлов и асинхронного получения выходных данных звука (то есть позже). Чтобы использовать этот API, можно указать расположения для нескольких текстовых файлов. Технология преобразования текста в речь считывает текстовые данные из файла и создает аудиофайлы, которые возвращаются в указанное вами место хранения. Эта функция используется для поддержки более крупных заданий синтеза речи, в которых пользователям не требуется предоставлять выходные данные звука в режиме реального времени. Примером является создание звуковых книг.

Преобразование текста в речь – настраиваемый нейронный голос

Пользовательский нейронный голос — это функция текст в речь, которая позволяет клиентам с ограниченным доступом создавать уникальный синтетический голос для своих приложений, предоставляя собственные звуковые данные выбранных заказчиком голосовых талантов.

С помощью пользовательского нейронного голосового приложения вы можете записать голос вашего диктора, прочитав предоставленные Microsoft скрипты в Speech Studio и быстро создать искусственный голос, звучащий как голос диктора, с помощью упрощенного проекта (в предварительном просмотре). Проект lite идеально подходит для быстрой пробной версии или доказательства концепции.

С помощью проекта pro вы можете загрузить высококачественные голосовые данные, записанные в студии с выбранным вами талантливым диктором, и создать реалистично звучащий голос. Pro поддерживает столь естественное обучение голосу, что он еще более точно будет напоминать голос вашего таланта и может быть адаптирован для выражения различных эмоций и общения на разных языках, без необходимости в дополнительных данных обучения, специфичных для эмоций или языков.

После создания пользовательского нейронного голоса можно развернуть голосовую модель с уникальной конечной точкой и использовать модель для создания искусственной речи с помощью API синтеза в режиме реального времени или API пакетного синтеза, описанного выше.

Дополнительные сведения о пользовательском нейронном голосе см. в разделе "Обзор пользовательского нейронного голоса".

Личный голос

Функция личной голосовой связи позволяет клиентам с ограниченным доступом создавать голосовую модель из короткого образца голоса человека. Эта функция может создать голосовую модель на основе запроса в течение нескольких секунд. Эта функция обычно используется для поддержки персонализированных голосовых взаимодействий в приложениях бизнес-клиентов. Личные модели голоса могут создавать реалистично звучащие голоса, которые могут разговаривать почти на 100 языках.

Водяные знаки добавляются к пользовательским нейронным голосам, созданным с помощью функции персонального голоса. Водяные знаки позволяют пользователям определять, синтезирована ли речь с помощью Azure Speech, и, в частности, какой голос использован. Клиенты, имеющие право, могут использовать возможности Azure по обнаружению водяных знаков в речи. Чтобы запросить добавление функции обнаружения водяного знака в ваши приложения, обратитесь по адресу mstts[at]microsoft.com.

Дополнительные сведения о личном голосе см. в разделе "Личный голос".

Аватар синтеза речи

Аватар для преобразования текста в речь конвертирует текст в цифровое видео фотореалистичного человека, используя предварительно созданный аватар или пользовательский аватар, говорящего естественным голосом, с использованием возможностей преобразования текста в речь, таких как предварительно созданный нейронный голос или пользовательский нейронный голос. Синтез видео с аватаром и функцией преобразования текста в речь можно осуществлять асинхронно или в режиме реального времени. Разработчики могут создавать приложения, интегрированные с текстом в речь аватаром через API, или использовать средство создания содержимого в Speech Studio для создания видеоконтента без написания кода.

С аватаром озвучивания текста с усовершенствованными нейросетевыми моделями функция позволяет пользователям предоставлять реалистичные и высококачественные синтетические видео говорящего аватара для различных приложений.

Аватар для преобразования текста в речь принимает стандарт коалиции для проверки подлинности и источника данных (C2PA), чтобы предоставить аудитории более четкое представление о происхождении и истории видеоконтента, созданного аватарами. Этот стандарт предоставляет прозрачные сведения о создании видеоконтента ИИ. Для получения дополнительной информации об интеграции C2PA с аватарами "текст в речь" см. раздел Content Credentials в Azure Text to Speech Avatar.

Кроме того, выходные данные аватара автоматически помечаются водяным знаком. Водяные знаки позволяют разрешенным пользователям определить, создано ли видео с помощью функции аватара Azure Speech. Чтобы запросить обнаружение водяного знака, обратитесь по адресу аватарвои[at]microsoft.com.

Перевод видео

Перевод видео может эффективно локализовать ваш видеоконтент для ориентации на разнообразную аудиторию по всему миру. Перевод видео автоматически извлекает аудиодорожку, транскрибирует, переводит и озвучивает содержимое с использованием предзаписанного или пользовательского голоса на целевом языке, при этом добавляются точные субтитры для повышения доступности. Функции с несколькими динамиками помогут определить количество людей, говорящих и рекомендовать подходящие голоса. Редактирование содержимого с участием человека в контуре обеспечивает точное соответствие предпочтениям клиента. Улучшенное качество перевода обеспечивает точное выравнивание звука и видео с интеграцией GPT. Перевод видео позволяет создавать аутентичный и персонализированный опыт озвучивания с личным голосом.

Варианты использования

Текст для речи предлагает различные функции, обслуживающие широкий спектр предполагаемых способов использования в различных отраслях и доменах. Все функции преобразования текста в речь, включая перевод видео, подчиняются применимым условиям подписки клиентов Azure, включая Политику приемлемого использования Azure и Кодекс поведения для службы преобразования текста в речь Azure.

Кроме того, настраиваемые функции преобразования текста в речь, такие как пользовательский нейронный голос, личный голос и пользовательский аватар текст в речь, ограничены утвержденными сценариями использования, как описано в конкретных сценариях, представленных ниже.

Предназначение Пользовательского Нейронного Голоса Pro и Пользовательского Нейронного Голоса Lite

Ниже приведены утвержденные варианты использования для Custom Neural Voice Pro и Custom Neural Voice Lite.

  • Учебное или интерактивное обучение: создание вымышленной торговой марки или символьного голоса для чтения или выступления учебных материалов, онлайн-обучения, интерактивных планов занятий, имитации обучения или экскурсий по музеям.
  • Медиа: Развлечения: Создание вымышленного бренда или голоса персонажа для чтения или озвучивания развлекательного контента для видеоигр, фильмов, телевизионных программ, записанной музыки, подкастов, аудиокниг или виртуальной или дополненной реальности.
  • Медиа: Маркетинг: Создание вымышленной торговой марки или персонажа голоса для чтения или произношения маркетинговых и медийных материалов, представление продуктов, продвижение бизнеса или рекламы.
  • Самостоятельно созданное содержимое: создание голоса для чтения содержимого, созданного талантом голоса.
  • Специальные возможности: для использования в системах аудиодескрипции и озвучивании, включая любой вымышленный бренд или голос персонажа, или для облегчения коммуникации людям с нарушениями речи.
  • Системы интерактивного голосового ответа (IVR): создание голосов, включая любой вымышленный бренд или голос персонажа, для операций колл-центра, телефонных систем или ответов для взаимодействия по телефону.
  • Публичные и информационные объявления: создание вымышленного бренда или голоса персонажа для передачи информации для общественности, включая объявления для общественных мест или информационные трансляции, такие как дорожное движение, погода, информация о событиях и расписаниях. Этот вариант использования не предназначен для журналистского или новостного содержимого.
  • Перевод и локализация. Использование в приложениях перевода для перевода бесед на разных языках или перевода аудиомедийных носителей.
  • Виртуальный помощник или Чатбот: Для создания вымышленного бренда или персонажного голоса для смарт-помощников или виртуальных веб-помощников, бытовой техники, автомобилей, домашних приборов, игрушек, управления устройствами Интернета вещей, навигационных систем, чтения личных сообщений, виртуальных компаньонов или сценариев обслуживания клиентов.

Предназначение для личного голоса

API личной голосовой связи (см. раздел "Личный голос " для получения дополнительных сведений) доступен в предварительной версии ограниченного доступа. Только пользователи, которые соответствуют критериям предоставления ограниченного доступа, могут интегрировать личный голосовой API с приложениями. Эти подходящие клиенты могут использовать личные голоса только для следующих вариантов использования:

  • Приложения: для использования в приложениях, где голосовые выходные данные ограничиваются и определяются клиентами, и где голос не считывает содержимое, созданное пользователями или открытое содержимое. Использование голосовой модели должно оставаться в приложении, а выходные данные не должны публиковаться или совместно использоваться из приложения. Некоторые примеры приложений, которые соответствуют этому описанию, это голосовые помощники в смарт-устройствах и настройка голоса персонажа в играх.
  • Медиа, фильмы и телевидение: чтобы дублировать фильмы, телевидение, видео и аудио только для развлекательных сценариев, где клиенты поддерживают единственный контроль над созданием, доступом и использованием голосовых моделей и результатов их работы.
  • Бизнес-содержимое: создание аудио- и видеоконтента для бизнес-сценариев для обмена информацией о продукте, маркетинговых материалах, рекламных материалах бизнеса и внутренних деловых коммуникациях.
  • Специальное использование, в комплекте с видеотрансляцией: синтезирование голосов для каждого участника в видео. Клиенты также могут редактировать и создавать синхронизированные с губами аудиоконтенты на целевых языках. Клиентам не требуется отправлять в Microsoft дополнительное аудиосогласие для видеоконтента в этом сценарии, но клиенты должны сохранять полный контроль над созданием, доступом и использованием голосовых моделей и их результатов.

Все остальные способы использования пользовательского нейронного голоса, включая Custom Neural Voice Pro, Custom Neural Voice Lite и персональный голос, запрещены. Кроме того, пользовательская нейронная голосовая связь — это служба ограниченного доступа, а для доступа к этой службе требуется регистрация. Дополнительные сведения о политике ограниченного доступа Microsoft см. в статье Limited Access for Foundry Tools. Некоторые функции доступны только для Microsoft управляемых клиентов и партнеров, и только для определенных вариантов использования, утвержденных Microsoft во время регистрации.

Готовый нейронный голос также может быть использован для описанных выше случаев использования кастомных нейронных голосов, а также для дополнительных случаев использования, выбранных клиентами, и в соответствии с Политикой допустимого использования Azure и Кодексом поведения для Azure Speech text to speech. Регистрация или предварительное утверждение не требуется для дополнительных вариантов использования предварительно созданного нейронного голоса, соответствующего всем применимым условиям.

Предполагаемые варианты использования для перевода видео

Видеоперевод можно использовать для фильмов, телепередач и других визуальных (включая, но не только видео или анимацию) и звуковых приложений, где клиенты сохраняют исключительный контроль над созданием, доступом и использованием голосовых моделей и их результатов. Синхронизация голосовых возможностей и движений губ находится под управлением платформы ограниченного доступа, и соответствующие клиенты могут использовать эти возможности с видео переводом. Ниже приведены утвержденные варианты использования службы "Видеотрансляции".

  • Образование и обучение: для перевода аудио в образовательных визуальных материалах, онлайн-курсы и учебные модули, обучение на основе имитации или визуальные элементы экскурсий по музеям для многоязычных учащихся. 
  • Медиа: Развлечения: перевод звука в фильмах, телевизионных шоу, документальных фильмах, видеоиграх, мини-сериалах, короткометражном содержимом и AR/VR содержимом для глобальных аудиторий, обеспечивая плавное повествование на разных языках. 
  • Медиа: Маркетинг: перевод звука в рекламных визуальных материалах, демонстрациях продукции, объявлениях и брендинговых кампаниях, чтобы они находили отклик на международных рынках и в разных культурах. 
  • Собственное содержимое: Перевод аудио в блогах, коротких визуальных элементах, контенте от влиятельных лиц, руководствах по путешествиям, видео, рекламирующих места назначения, визуальных элементах социальных сетей и культурных видеороликах делает их доступными и привлекательными. 
  • Корпоративное обучение и коммуникация. Перевод звука во внутренние визуальные элементы коммуникации, материалы для подключения сотрудников, обучение соответствия требованиям и глобальные корпоративные объявления для международных команд. 
  • Электронная коммерция и демонстрации продуктов: перевод звука в визуальные элементы распаковки продуктов, инструкции, отзывы клиентов и визуальные элементы для объяснения, чтобы обслуживать международных покупателей. 
  • Общественные и информационные объявления: перевод аудио в визуальных материалах, посвящённых общественной осведомленности, расписаниях мероприятий, объявления о безопасности и информационных трансляциях для многоязыковой доступности. 
  • Функции доступности: расширить доступность видеоконтента с помощью многоязычного аудио и субтитров.
  • Новости и журналистские материалы: перевод аудио в сегменты новостей, интервью, пресс-релизы и экстренные новости для различных лингвистических аудиторий. Клиентам, желающим перевести источники новостей, потребуется дополнительная проверка.

Предназначение для пользовательского аватара для синтеза речи и предварительно созданного аватара для синтеза речи

Ниже приведены утвержденные варианты использования пользовательского текстового синтезатора речи:

  • Виртуальный помощник или Chatbot: создание виртуальных помощников, виртуальных компаньонов, виртуальных помощников по продажам или приложений службы клиентов.
  • Создание контента для корпоративных контекстов: для обмена информацией о продукте, маркетинговых материалах, рекламных материалах и внутренних бизнес-коммуникациях. Примеры включают персонажи-аватары или цифровые аватары бизнес-лидера для продвижения бренда.
  • Учебное или интерактивное обучение: создание вымышленной фирменной марки или аватара символов для представления учебных материалов, онлайн-обучения, интерактивных планов занятий, имитации обучения или экскурсий по музеям.
  • Медиа: Развлечения: чтобы представить обновления, поделиться знаниями, создать интерактивные медиа или сделать видео с говорящими головами для сценариев развлечений, таких как видео, игры и дополненная или виртуальная реальность.
  • Специальные возможности: для упрощения взаимодействия людьми с нарушениями речи.
  • Самостоятельно созданное содержимое: создание аватара для чтения содержимого, созданного талантом аватара.
  • Объявления общественного значения и информационные объявления: создание вымышленного брендового образа или образа персонажа для передачи информации в общественных интересах, включая объявления для общественных мест или информационные трансляции, такие как дорожная обстановка, погода, информация о событиях и расписаниях. Этот вариант использования не предназначен для журналистского или новостного содержимого.
  • Перевод и локализация. Для использования в приложениях перевода для перевода бесед на разных языках или перевода звуковых носителей в формате видео.

Все прочие способы использования пользовательского аватара для преобразования текста в речь запрещены. Кроме того, пользовательский аватар с функцией преобразования текста в речь является услугой с ограниченным доступом, и для доступа к этой функции требуется регистрация. Дополнительные сведения о политике ограниченного доступа Microsoft см. в aka.ms/limitedaccesscogservices. Некоторые функции доступны только для Microsoft управляемых клиентов и партнеров, и только для определенных вариантов использования, утвержденных Microsoft во время регистрации.

Готовый текст в речь для аватара может также использоваться для описанных выше случаев использования пользовательского аватара, а также для дополнительных случаев использования, выбранных клиентами, и в соответствии с политикой допустимого использования Azure и Кодекс поведения для Azure Speech текст в речь. Регистрация или предварительное одобрение не требуется для дополнительных вариантов использования предварительно созданного текстово-речевого аватара, соответствующего всем применимым условиям.

Рекомендации при выборе вариантов использования

Мы рекомендуем клиентам использовать текст для распознавания речи в своих инновационных решениях или приложениях. Все функции преобразования текста в речь должны соответствовать политике допустимого использования Azure и коду поведения для функции преобразования текста в речь Azure. Кроме того, пользовательские нейронные голоса и пользовательские аватары для синтеза речи могут использоваться только в сценариях использования, утвержденных с помощью формы регистрации ограниченного доступа. Кроме того, при выборе варианта использования для любой функции преобразования текста в речь следует учитывать некоторые рекомендации.

  • Убедитесь, что варианты использования согласованы: убедитесь, что предполагаемое использование любой функции преобразования текста в речь соответствует возможностям и предназначению этой функции.
  • Рекомендации по использованию ответственного искусственного интеллекта: приоритеты ответственной практики ИИ, избегая создания вводящей в заблуждение или вредной содержимой. Соблюдайте конфиденциальность, защиту данных и юридические нормы при использовании текста для речевых функций.
  • Просмотрите кодекс поведения: Microsoft установил кодекс поведения, который запрещает определенные способы использования всех функций преобразования текста в речь. Обеспечение соответствия кодексу поведения при выборе варианта использования для служб преобразования текста в речь.
  • Упражнение редакционного контроля: Тщательно рассмотрите возможность использования синтетических голосов с контентом, который не имеет правильного редакционного контроля, так как искусственные голоса могут звучать как человек и повысить эффект неправильного или вводяющего в заблуждение содержимого.
  • Раскрытие: раскрытие искусственного характера голосов, изображений и/или видео пользователям таким образом, чтобы пользователи, скорее всего, не были введены в заблуждение или не могли вводить в заблуждение других, полагая, что они взаимодействуют с реальным человеком.
  • Юридические и нормативные аспекты: организациям необходимо оценить потенциальные определенные юридические и нормативные обязательства при использовании любых средств и решений Foundry, которые могут быть не подходящими для использования в каждой отрасли или сценарии. Кроме того, средства и решения Foundry не предназначены для использования и не могут использоваться способами, запрещенными в применимых условиях обслуживания и соответствующих кодексах поведения.

Придерживаясь этих рекомендаций, пользователи могут использовать предварительно созданные и пользовательские нейронные голоса ответственно.

Ограничения

Ограничения текста на речь должны рассматриваться на пересечении технологий и человеческих, социальных и организационных факторов, влияющих на его использование и влияние. Хотя текст для речи предлагает расширенные возможности синтеза речи, существуют определенные ограничения, которые следует учитывать при развертывании его ответственно, чтобы свести к минимуму потенциальные ошибки.

Технические ограничения, операционные факторы и диапазоны

Технические ограничения, которые следует учитывать при использовании текста для речи, включают точность произношения и интонации. Хотя голосовой синтез предназначен для создания естественно звучащей речи, могут возникнуть трудности с воспроизведением определённых слов, имен или редких фраз. Пользователи должны знать, что могут быть случаи, когда система может неправильно произнести или выделить акцентом слова, особенно при работе с нишевой или специфической для определенной области лексикой.

Важно отметить, что некоторые группы населения могут испытывать более негативное воздействие от этих технических ограничений. Например, люди с нарушениями слуха, которые сильно полагаются на синтезированную речь, могут столкнуться с проблемами в понимании неясных или искаженных выходных данных речи. Аналогичным образом, пользователи с когнитивными или языковыми ограниченными возможностями могут оказаться трудно понять речь с ненатуральной интонацией или неправильно произносимыми словами.

  • Лингвистические ограничения: в то время как мы тщательно курируем и подготавливаем обучающие данные для минимизации предвзятости, особенно связанных с полом, этнической принадлежностью или региональными акцентами, а текст для речи поддерживает несколько языков и акцентов, могут быть различия в качестве и доступности голосов на разных языках. Клиенты должны знать о потенциальных ограничениях в точности произношения, интонации и лингвистических нюансах, характерных для определенных языков или диалектов.
  • Контекст и эмоции: текст для речи может иметь ограничения в точном передаче контекстной информации и эмоций. Клиенты должны помнить о неспособности системы понять эмоциональные нюансы или тонкие подсказки, присутствующие в входном тексте. Следует рассмотреть возможность обеспечить дополнительный контекст и использовать другие методы для эффективного передачи эмоций.
  • Availability: Microsoft предоставит клиентам уведомление за 12 месяцев до удаления предварительно созданных нейронных голосов из нашего каталога, если соображения безопасности, юридические или связанные с производительностью системы требуют срочного удаления. Это не относится к предварительным версиям.

Каждое приложение отличается, и базовая модель может не соответствовать вашему контексту или охватывать все сценарии, необходимые для вашего варианта использования. Мы рекомендуем разработчикам тщательно оценить качество синтезированного голоса и видео по тексту с использованием реальных данных, которые отражают ваш сценарий использования, включая тестирование с пользователями из разных демографических групп и с различными характеристиками речи. Ознакомьтесь с разделом "Качество модели голосовой связи " для получения рекомендаций по созданию высококачественных голосовых моделей.

Помимо обеспечения производительности, важно рассмотреть вопрос о том, как свести к минимуму риски стереотипирования и стирания, которые могут привести к искусственным голосам и аватару. Например, если вы создаете настраиваемый нейронный голос для интеллектуального голосового помощника, тщательно подумайте, какой голос будет наиболее подходящим, и ищите разнообразные перспективы от людей из различных фонов. При создании и оценке системы всегда искать разнообразные входные данные.

Соображения о справедливости

В Microsoft мы стремимся расширить возможности каждого человека на планете, чтобы сделать больше. Основная часть этой цели заключается в создании технологий и продуктов, которые являются справедливыми и инклюзивными. Справедливость является многомерной, социально-технической темой и влияет на множество различных аспектов развития нашего продукта. Дополнительные сведения о подходе Microsoft к справедливости здесь.

Одним из важных аспектов, которые следует учитывать при использовании систем ИИ, включая преобразование текста в речь, является то, как хорошо система работает для разных групп людей. Исследования показали, что без сознательных усилий, направленных на улучшение производительности для всех групп, системы ИИ могут демонстрировать различные уровни производительности в различных демографических факторах, таких как раса, этническое происхождение, пол и возраст.

В рамках нашей оценки Azure AI преобразования текста в речь мы провели анализ для оценки потенциальных ущербов справедливости. Мы рассмотрели производительность системы в разных демографических группах, стремясь определить какие-либо различия или различия, которые могут существовать и могут повлиять на справедливость.

В некоторых случаях могут существовать оставшиеся различия в производительности. Важно отметить, что эти отклонения могут быть больше, чем целевые показатели, и мы активно работаем над решением и минимизацией потенциальных предвзятости или пробелов в производительности, тщательно рассматриваем демографический выбор актера и ищем разнообразные точки зрения на основе различных фонов.

В отношении репрезентативного ущерба, такого как стереотипия, унижание или удаление выходных данных, мы признаем риски, связанные с этими проблемами. Хотя наш процесс оценки направлен на устранение таких рисков, мы рекомендуем пользователям тщательно рассмотреть свои конкретные варианты использования и реализовать дополнительные меры по устранению рисков. Наличие человека в процессе может обеспечить дополнительный уровень надзора для решения любых потенциальных предвзятостей или непреднамеренных последствий. Использование списков блокировок или списков разрешений также может помочь обеспечить соответствие синтезированных речи требуемым стандартам и избежать любого вредного или неуместного содержимого.

Мы стремимся постоянно улучшать оценки справедливости, чтобы получить более глубокое представление о производительности системы в различных демографических группах и потенциальных проблемах справедливости. Процесс оценки продолжается, и мы активно работаем над повышением справедливости и инклюзивности и устранением любых определенных различий. Мы понимаем важность учета вопросов справедливости и стремимся обеспечить, чтобы технология преобразования текста в речь формировала надежные и справедливые синтезированные звуковые результаты.

Обратите внимание, что эта информация представляет то, что мы знаем до сих пор о оценках справедливости, и мы остаемся привержены уточнению наших методологий оценки и устранению любых проблем справедливости, которые могут возникнуть.

Производительность системы

Производительность системы преобразования текста в речь подразумевает, насколько точно и естественно она может преобразовать написанный текст в синтезированную речь. Это измеряется с помощью различных метрик для оценки качества и эффективности созданных звуковых выходных данных. Ниже приведены некоторые распространенные метрики производительности:

  • Средняя оценка мнений (MOS): система рейтингов, где судьи предоставляют оценку, которая представляет общее качество синтезированной речи и аватарного видео. Более высокий mos указывает на более высокое качество.
  • Разрыв MOS: разница между оценкой MOS записей, сделанных человеком, и созданными звуковыми дорожками/видео. Меньший МОС-разрыв указывает на более близкое сходство с человеческой речью или человеческой подобностью.
  • Сходство MOS (SMOS): измеряет сходство созданных звуковых треков и видео с человеческими записями. Более высокий уровень SMOS означает лучшее сходство.
  • Intelligibility: процент правильно понятных слов в синтезируемой речи.

Даже с использованием самых передовых моделей, системы искусственного интеллекта, такие как текст в речь, могут допускать ошибки. Например, система может производить синтезированную речь с тонкими неестественными интонациями или ошибками произношения, что приводит к менее идеальному интерфейсу пользователя, или система может неправильно интерпретировать текст или бороться с необычными лингвистическими конструкциями, что приводит к ненатуральной или неразборчивой речи.

Рекомендации по улучшению производительности системы

Для повышения производительности системы и адаптации системного поведения в тексте к речи можно использовать несколько рекомендаций. Эти методики включают настройку различных компонентов и параметров для оптимизации компромиссов и удовлетворения конкретных требований к варианту использования. Однако важно рассмотреть потенциальные последствия для разных групп населения, чтобы обеспечить справедливость и инклюзивность.

Использование SSML (язык разметки синтеза речи) считается рекомендуемым способом улучшить качество вывода речи в тексте. SSML позволяет пользователям более контролировать синтезированную речь, что позволяет настраивать произношение, интонацию, акцент и другие функции. Включив теги SSML в текст, пользователи могут добавлять паузы, настраивать скорость речи, указывать фонетические произношения, а также управлять высотой тона и громкостью, среди других параметров. Этот уровень тонкой настройки помогает создавать более естественную и экспрессивную речь, делая текст для вывода речи более человеческим и привлекательным. Все разметки SSML можно передавать непосредственно в API. Мы также предоставляем онлайн-средство создания аудиоконтентов, которое позволяет клиентам точно настраиваться с помощью интуитивно понятного пользовательского интерфейса.

Если в вашем случае используется специализированный словарь или содержимое, относящийся к домену, рассмотрите возможность использования пользовательской функции лексикона, чтобы улучшить способность системы точно произносить и передавать термины или фразы для конкретного домена.

Оценка преобразования текста в речь

Методы оценки

Некоторые часто используемые метрики для оценки общей производительности системы преобразования текста в речь включают:

  • Разрыв в среднем показателе мнения (MOS) с человеческой записью: обычно используется для сравнения качества модели преобразования текста в речь с человеческой записью. Качество голосовой модели, созданной с помощью пользовательского нейронного голоса, ожидается будет близким к качеству записи человека, с разрывом не более 0,5 в оценке MOS.
  • Для пользовательского нейронного голоса вы также можете использовать показатель сходства MOS (SMOS) для измерения того, насколько пользовательский голос звучит в сравнении с оригинальными записями голоса человека. В рамках исследований SMOS судей просят прослушать набор парных аудиотреков: один — созданный с помощью пользовательского голоса, другой — взятый из оригинальных записей человека в обучающем наборе данных, и оценить, говорят ли две дорожки в каждой паре голосом одного и того же человека, используя пятиточечную шкалу (1 — самый низкий балл, 5 — самый высокий). Средняя оценка сообщается как оценка SMOS. Мы рекомендуем, чтобы хороший пользовательский нейронный голос добивался SMOS выше 4,0.
  • Помимо измерения естественности с помощью MOS и SMOS, вы также можете оценить понятность модели голоса, проверив точность произношения созданной речи. Это делается путем того, чтобы судьи слушали набор тестовых выборок, определяя, могут ли они понять смысл и указать любые слова, которые были непонятными для них. Процент понимаемости вычисляется с помощью процента правильно понимаемых слов среди общего количества проверенных слов (т. е. число понятных слов/общее количество слов, протестированных * 100%). Как правило, движок преобразования текста в речь должен достигать оценки > 98% по понятности.

Результаты оценки

Текст для речи последовательно обеспечивает высококачественную и естественно-звуковую синтезированную речь, обеспечивая требования различных отраслей и доменов. Наши оценки включают в себя обширное тестирование обучающих и тестовых данных системы, гарантируя, что она представляет предполагаемые и операционные факторы, возникающие в реальных сценариях, а также тестовые образцы синтезированных выходных данных речи.

Результаты оценки повлияли на решения о ограничениях в структуре системы, таких как максимальный размер регистра и минимальный объем необходимых обучающих данных. Благодаря анализу производительности системы в разных наборах данных, настройках и параметрах были установлены необходимые ограничения для оптимизации работы, надежности и безопасности системы.

Хотя оценка охватывает широкий спектр вариантов использования, важно отметить, что результаты являются обобщенными в некоторых случаях использования, которые не были непосредственно частью оценки. Надежность и производительность системы обеспечивает уверенность в своей способности обрабатывать различные сценарии, включая те, которые не были явно протестированы.

Ниже приведены некоторые рекомендуемые тесты и диапазоны оценки на основе нашего опыта:

Измерения Определение Как вычисляется Рекомендуемый размер текста Рекомендуемая оценка
MOS Средняя оценка качества звуковых треков Среднее значение оценок каждого судьи по каждому аудиофайлу > 30 созданных звуковых треков > 4.0 (обычно требуется, чтобы MOS человеческой записи был выше 4,5)
Разрыв MOS Разница в оценке MOS между записями, сделанными человеком, и созданными звуковыми дорожками Оценка MOS на записях с участием человека минус оценка MOS на сгенерированных звуковых дорожках > 10 человеческих записей, > 30 созданных аудиотреков, > 20 судей для каждой записи < 0.5
SMOS Сходство созданных звуковых треков с человеческими записями Среднее значение оценки уровня сходства на каждой паре звуковых треков > 40 пар, > 20 судей на каждой паре > 4.0, > 3.5 (вторичный язык)
Разборчивость Точность произношения созданной речи на уровне слова Процент правильно понятных слов среди общего количества проверенных слов > 60 созданных звуковых треков, > 10 судей на каждом аудио треке > 98%

Оценка и интеграция технологии преобразования текста в речь для вашего применения

Ниже приведены некоторые лучшие рекомендации по ответственному интегрированию функций преобразования текста в речь в ваши сценарии использования.

Раскрывать, когда голос является синтетическим

Раскрытие того, что голос является компьютером, созданным не только сводит к минимуму риск вредных результатов от обмана, но и повышает доверие к организации, предоставляющей голос. Узнайте больше о том, как раскрыть информацию.

Microsoft требует от своих клиентов раскрыть синтетический характер голосов, созданных с помощью технологии преобразования текста в речь, своим пользователям.

  • Обязательно предоставьте достаточно информации аудитории, особенно при использовании голоса известного человека. Люди выносят суждения о информации, частично основанные на человеке, который её доставляет, делают ли они это сознательно или бессознательно. Например, раскрытие информации может быть устно предоставлено в начале трансляции. Дополнительные сведения см. в шаблонах раскрытия информации.
  • Рассмотрите возможность правильного раскрытия информации родителям или другим сторонам с вариантами использования, которые предназначены для или могут использоваться в ситуациях с участием несовершеннолетних и детей. Если ваш вариант использования предназначен для несовершеннолетних или детей, необходимо убедиться, что раскрытие информации ясно и прозрачно, чтобы родители или юридические опекуны могли понять роль синтетических средств массовой информации и принять обоснованное решение от имени несовершеннолетних или детей о том, следует ли использовать опыт.

Раскрывать, когда видео аватара является искусственным

Раскрытие того, что видео с говорящим аватаром является компьютерно сгенерированным, не только снижает риск вредных результатов от обмана, но и повышает доверие к организации, предоставляющей видео. Узнайте больше о том, как раскрыть информацию.

Microsoft требует от своих клиентов раскрыть синтетический характер текста для речевых аватаров своим пользователям.

  • Обязательно информируйте аудиторию должным образом, особенно если используются изображение (и голос) известного человека. Люди выносят суждения о информации, частично основанные на человеке, который её доставляет, делают ли они это сознательно или бессознательно. Например, раскрытие может быть сделано с водяным знаком, например, "Голос и изображение в этом видео созданы при помощи ИИ", представленном в текстовой форме или озвученном в начале видео. Дополнительные сведения см. в шаблонах раскрытия информации.
  • Рассмотрите возможность правильного раскрытия информации родителям или другим сторонам с вариантами использования, которые предназначены для или могут использоваться в ситуациях с участием несовершеннолетних и детей. Если ваш вариант использования предназначен для несовершеннолетних или детей, необходимо убедиться, что раскрытие информации ясно и прозрачно, чтобы родители или юридические опекуны могли понять роль синтетических средств массовой информации и принять обоснованное решение от имени несовершеннолетних или детей о том, следует ли использовать опыт.

Выбор соответствующих типов голосов для вашего сценария

Внимательно рассмотрите контекст использования и потенциальные последствия, связанные с использованием голосов и аватаров, созданных технологией преобразования текста в речь. Например, искусственные голоса с высоким уровнем точности могут не соответствовать в сценариях высокого риска, таких как для личных сообщений, финансовых транзакций или сложных ситуаций, требующих адаптации человека или сочувствия.

Пользователи могут также иметь различные ожидания для типов голосовых данных и выражений аватара или жестов в зависимости от контекста. Например, при прослушивании конфиденциальных новостей, прочитанных искусственным голосом, некоторые пользователи предпочитают более сочувствие и человеческий тон, а другие предпочитают нейтральный голос. Попробуйте протестировать приложение, чтобы лучше понять предпочтения пользователей.

Прозрачность возможностей и ограничений

Пользователи, скорее всего, имеют более высокие ожидания при взаимодействии с искусственными голосовыми агентами с высокой точностью. Если возможности системы не соответствуют этим ожиданиям, доверие может страдать и может привести к неприятным или даже вредным опытом.

Предоставить возможность человеческой поддержки

В неоднозначных сценариях транзакций (например, в центре поддержки вызовов) пользователи не всегда доверяют агенту компьютера соответствующим образом отвечать на их запросы. Человеческая поддержка может потребоваться в таких ситуациях независимо от реалистичного качества голоса или возможностей системы.

Рекомендации по таланту голоса

Когда клиенты работают с голосовыми талантами для создания пользовательского нейронного голоса, применяются следующие указания.

  • Актёры озвучивания должны иметь контроль над тем, как и где будет использоваться их голосовая модель, и получать компенсацию за её использование. Microsoft требует, чтобы пользователи пользовательского нейронного голоса получили явное письменное разрешение от таланта голоса для создания искусственного голоса и обеспечения того, чтобы соглашение клиента с каждым из них рассматривает длительность, использование и любые ограничения содержимого. Если вы создаете искусственный голос известного человека, вы должны предоставить способ редактирования или утверждения содержимого выходных данных, которые планируется создать с помощью голосовой модели.
  • Некоторые таланты голоса могут не знать о потенциально вредоносном использовании технологии и должны быть образованы владельцами системы о возможностях технологии. Microsoft требует, чтобы клиенты поделились раскрытием информации о голосовом и аватарном таланте Microsoft с голосовым талантом напрямую или через авторизованного представителя, чтобы описать, как искусственные голоса разрабатываются и функционируют в сочетании со службами преобразования текста в речь.

Рекомендации по таланту аватара

Когда клиенты сотрудничают со специалистами по аватарам для создания пользовательских аватаров, применяются следующие рекомендации.

  • Специалисты по аватарам должны контролировать модель аватара (как и где она будет использоваться) и получать компенсацию за ее использование. Microsoft требует, чтобы заказчики пользовательских аватаров получили явное письменное разрешение от владельцев аватаров на создание синтетического аватара текстовой речи и убедились, что соглашение клиента с каждым человеком учитывает продолжительность, использование и любые ограничения на содержание. Если вы создаете настраиваемый аватар известного человека, вы должны предоставить возможность эксперту, работающему над аватаром, редактировать или утвердить содержание результата, который вы планируете создать с помощью голосовой модели.
  • Некоторые таланты аватара могут не знать о потенциально вредоносном использовании технологии и должны быть образованы владельцами системы о возможностях технологии. Microsoft требует, чтобы клиенты делились раскрытием информации Microsoft для таланта голоса и аватара Disclosure for voice and avatar talent с талантом аватара непосредственно или через уполномоченного представителя таланта аватара, чтобы описать, как видео с синтетическим аватаром разработано и работает в сочетании со службами преобразования текста в речь.

Рекомендации для людей с нарушениями речи

При работе с людьми с нарушениями речи для создания или развертывания искусственной голосовой технологии применяются следующие рекомендации.

Предоставление рекомендаций по контрактам с экспертами в сценариях доступности.

Клиенты должны разработать рекомендации по созданию контрактов с лицами, которые используют искусственные голоса для помощи в разговоре. Клиенты должны рассмотреть возможность указания в своих контрактах с отдельными лицами продолжительности использования, передачи владения и /или условий лицензии, процедур удаления голосовой модели и предотвращения несанкционированного доступа.

Учет несоответствий в шаблонах речи

Для людей с нарушениями речи, которые записывают собственные голосовые шрифты, несоответствия в их манере речи (бормотание или неспособность произносить определенные слова) могут усложнить процесс записи. В таких случаях искусственные голосовые технологии и сеансы записи должны быть разработаны с соответствующим размещением, определенным клиентом (например, предоставление перерывов или дополнительных сеансов записи).

Разрешить изменение с течением времени

Люди с нарушениями речи могут пожелать обновить свой искусственный голос, чтобы отразить изменения из-за старения или других факторов. Люди также могут иметь стилистические предпочтения, которые изменяются со временем, и могут захотеть внести изменения в тон, акцент или другие характеристики голоса.

Дополнительные сведения об ответственном ИИ

Узнать больше о Azure Speech