Поделиться через


Примечание прозрачности: текст для речи

Это важно

Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.

Что такое информационная статья?

В систему ИИ входит не только технология, но и ее пользователи, люди, на которых она повлияет, а также среда, в которой она будет развернута. Для создания системы, которая подходит для ее целевой цели, требуется понимание того, как работает технология, какие возможности и ограничения имеются, и как достичь оптимальной производительности. Примечания о прозрачности Microsoft предназначены для того, чтобы помочь вам понять, как работает наша технология ИИ, какие решения могут принимать владельцы систем, чтобы изменить производительность и поведение системы, а также важность рассмотрения всей системы в целом, включая технологию, людей и окружающую среду. При разработке или развертывании собственной системы можно использовать заметки о прозрачности или делиться ими с пользователями, которые будут использовать систему или будут затронуты ей.

Информационные статьи Microsoft — одна из составляющих более широких усилий Microsoft по внедрению принятых нами принципов применения ИИ на практике. Дополнительные сведения см. в принципах ИИ Майкрософт.

Основы текста для речи

Введение

Текст в речь, часть Azure Speech в наборе инструментов Foundry, — это универсальный инструмент, который может преобразовывать написанный текст в естественно звучащую речь. Функция принимает входные данные в виде текста и создает высококачественные звуковые выходные данные речи, которые можно воспроизводить на устройствах. Для вывода звука речи функция конвертации текста в речь предлагает ряд готовых нейронных голосов или, для пользователей с ограниченным доступом, возможность создать пользовательский нейронный голос для вашего продукта или бренда.

Текст для речи также имеет визуальные возможности. С помощью текстового аватара клиенты могут ввести текст и создать искусственное видео аватара, выступающего. Доступны предварительно созданные тексты для аватаров речи и настраиваемый текст для аватаров речи, которые можно использовать как с предварительно созданным нейронным голосом, так и с пользовательским нейронным голосом, хотя некоторые функции доступны только для клиентов с ограниченным доступом.

В системе распознавания речи клиенты могут превратить записанную информацию в звуковую речь и улучшить специальные возможности для пользователей. Будь то прослушивание документов или повышение пользовательского опыта с синтезированной речью, текст в речь преобразует текст в естественно звучащие слова.

Ключевые термины

Срок Определение
Синтез речи в режиме реального времени Используйте пакет SDK службы "Речь" или REST API для преобразования текста в речь с помощью предварительно созданного нейронного голоса, предварительно созданного аватара текста в речь, кастомного нейронного голоса и кастомного аватара текста в речь.
Голосовая модель В системе преобразования текста в речь голосовая модель представляет собой модель или алгоритм на основе машинного обучения, который создает синтетическую речь из письменного текста. Эта модель обучена преобразовывать текстовые данные в речь, имитируя характеристики человеческого голоса, включая высоту, тон и произношение.
Интонация Просодия относится к модуляции речевых элементов, таких как высота тона, длительность, громкость и паузы, чтобы придавать искусственным голосам естественное и выразительное качество, передавать эмоциональные нюансы и контекстное значение, и тем самым уменьшать роботизированное качество созданной речи, делая её более привлекательной и понятной для слушателей.
Язык разметки синтеза речи (SSML) Язык разметки синтеза речи (SSML) — это язык разметки на основе XML, используемый для настройки выходных данных речи. С помощью SSML можно настроить тон, добавить паузы, улучшить произношение, изменить скорость речи, отрегулировать громкость, а также присвоить несколько голосов одному документу. SSML можно использовать, чтобы определять собственные лексиконы или переключаться между разными стилями речи.
Асинхронный синтез длинного звука Используйте API пакетного синтеза (предварительная версия) для асинхронного синтеза текста в файлы речи дольше 10 минут (например, аудиокниги или лекции). В отличие от синтеза, выполняемого с помощью пакета SDK службы "Речь" или "Речь" в REST API, ответы не возвращаются в режиме реального времени. Ожидаемый результат — запросы отправляются асинхронно, опрос производится, но синтезированное аудио загружается тогда, когда его предоставляет служба.
Visemes Visemes — это ключевые позиции при наблюдаемой речи, включая положение губ, челюсти и языка при произнесении определенной фонемы. Виземы имеют надежную корреляцию с голосами и фонемами.

Введение

Предварительно созданный нейронный голос предоставляет широкий спектр голосов, предлагая более 400 вариантов на более чем 140 языках и языковых стандартах. Эти голоса для синтеза речи позволяют быстро интегрировать функцию чтения вслух в ваши приложения для повышения доступности.

Ключевые термины

Срок Определение
Предварительно созданный нейронный голос Корпорация Майкрософт предлагает набор предварительно созданных нейронных голосов, которые используют глубокие нейронные сети для преодоления ограничений традиционного синтеза речи в отношении стресса и интонации на разговорном языке. Одновременно выполняется интонационное прогнозирование и синтез речи, что приводит к более гибкому и естественному звучанию итогового голоса. Каждая предварительно созданная нейронная голосовая модель доступна в 24 кбГц и высокой точности 48kГц, а выходные данные можно повысить или сократить до других форматов.

Возможности

Поведение системы

Преобразование текста в речь

Преобразование текста в речь превращает текст в естественно звучащую речь.

Ниже приведены основные параметры вызова службы преобразования текста в речь.

API преобразования текста в речь в режиме реального времени

Это распространенный вызов API через SDK для речи или REST API для отправки текстового ввода и получения аудиовыхода в режиме реального времени. Система "Речь" использует модель голосового синтеза для преобразования текста в подобную человеческой синтетическую речь. Выходной звук можно сохранить в виде файла или воспроизвести обратно на выходное устройство, например динамик (узнайте больше о том, как синтезировать речь из текста). Пользователи также могут использовать SSML для более точной настройки результатов преобразования текста в речь.

Модели синтеза речи обучены на большом объёме разнообразных аудиоданных в рамках типичных сценариев использования и с участием широкого разнообразия говорящих. Например, служба преобразования текста в речь часто используется для голосовых чат-ботов или для создания аудиоконтента.

API пакетного синтеза

Пакетное синтезирование — это другой тип вызова API. Обычно он используется для отправки больших текстовых файлов и асинхронного получения аудиоданных (то есть позже). Чтобы использовать этот API, можно указать расположения для нескольких текстовых файлов. Технология преобразования текста в речь считывает текстовые данные из файла и создает аудиофайлы, которые возвращаются в указанное вами место хранения. Эта функция используется для поддержки более крупных заданий синтеза речи, в которых пользователям не требуется предоставлять выходные данные звука в режиме реального времени. Примером является создание звуковых книг.

Текст для речи — пользовательский нейронный голос

Пользовательский нейронный голос — это функция текст в речь, которая позволяет ограниченным доступом клиентам создавать единственный в своем роде искусственный голос для своих приложений, предоставляя свои собственные аудиоданные выбранных голосовых талантов клиента.

С помощью пользовательского нейронного голоса вы можете записать талантливого диктора, записывая, как они читают предоставленные корпорацией Майкрософт скрипты в Speech Studio, и быстро создать искусственный голос, который звучит как ваш талантливый диктор, с использованием проекта версии lite (предварительный просмотр). Проект lite идеально подходит для быстрой пробной версии или доказательства концепции.

С помощью проекта профессионального уровня вы можете загрузить высококачественные записи голоса, записанные в студии, голос выбранного таланта и создать реалистичное звучание голоса. Pro поддерживает чрезвычайно естественное обучение голоса, которое еще более точно напоминает голос вашего таланта и может быть адаптировано для разговора разными эмоциями и на нескольких языках без необходимости в дополнительных данных обучения, специфичных для различных эмоций или языков.

После создания пользовательского нейронного голоса можно развернуть голосовую модель с уникальной конечной точкой и использовать модель для создания искусственной речи с помощью API синтеза в режиме реального времени или API пакетного синтеза, описанного выше.

Дополнительные сведения о пользовательском нейронном голосе см. в разделе "Обзор пользовательского нейронного голоса".

Личный голос

Функция личной голосовой связи позволяет клиентам с ограниченным доступом создавать голосовую модель из короткого образца голоса человека. Эта функция может создать голосовую модель на основе запроса в течение нескольких секунд. Эта функция обычно используется для обеспечения персонализированных голосовых функций в приложениях бизнес-клиентов. Персонализированные модели голоса могут создавать реалистичные голоса, которые могут говорить почти на 100 языках.

Водяные знаки добавляются в пользовательские нейронные голоса, созданные с помощью функции персонального голоса. Водяные знаки позволяют пользователям определять, синтезирована ли речь с помощью службы Azure Speech и какой именно голос был использован. Клиенты, имеющие право, могут использовать возможности обнаружения водяных знаков службы "Azure Speech". Чтобы запросить добавление функции обнаружения водяного знака в ваши приложения, обратитесь по адресу mstts[at]microsoft.com.

Дополнительные сведения о личном голосе см. в разделе "Личный голос".

Аватар для преобразования текста в речь

Технология создания аватаров для преобразования текста в речь превращает текст в цифровое видео фотореалистического человека (либо предварительно созданного аватара, либо пользовательского аватара), говорящего естественным голосом, создаваемым с помощью возможностей преобразования текста в речь, таких как предварительно созданный нейронный голос или пользовательский нейронный голос. Текст для речи аватар видео можно синтезировать асинхронно или в режиме реального времени. Разработчики могут создавать приложения, интегрированные с текстом в речь аватаром через API, или использовать средство создания содержимого в Speech Studio для создания видеоконтента без написания кода.

С помощью текст-в-речь и расширенных моделей нейронной сети аватара, функция дает пользователям возможность создавать реалистичные и качественные синтетические говорящие аватары видео для различных приложений.

Текст для речи аватар принимает стандарт Коалиции по происхождению и подлинности содержимого (C2PA), чтобы предоставить аудитории более четкое представление об источнике и истории видеоконтента, созданного аватарами. Этот стандарт предоставляет прозрачные сведения о создании видеоконтента ИИ. Для получения дополнительной информации об интеграции C2PA в текстовые аватары речи обратитесь к Аутентификационным данным контента в Azure Text to Speech Avatar.

Кроме того, на результаты аватара автоматически наносится водяной знак. Подложки позволяют утвержденным пользователям определить, синтезируется ли видео с помощью функции аватара службы "Речь Azure". Чтобы запросить обнаружение водяного знака, обратитесь аватарвои[at]microsoft.com.

Перевод видеоматериала

Перевод видео может эффективно адаптировать ваш видеоконтент для разных аудиторий по всему миру. Перевод видео автоматически извлекает аудио диалогов, транскрибирует, переводит и дублирует содержимое с помощью заранее созданного или личного голоса на целевой язык и обеспечивает точные субтитры для улучшения доступности. Функции с несколькими динамиками помогут определить количество людей, говорящих и рекомендовать подходящие голоса. Редактирование содержимого с участием человека позволяет точно согласовываться с предпочтениями клиента. Улучшенное качество перевода обеспечивает точное выравнивание звука и видео с интеграцией GPT. Перевод видео обеспечивает аутентичный и персонализированный опыт дублирования с использованием личного голоса.

Случаи использования

Текст для речи предлагает различные функции, обслуживающие широкий спектр предполагаемых способов использования в различных отраслях и доменах. Все функции преобразования текста в речь, включая перевод видео, подчиняются условиям, применимым к подписке Azure клиентов, включая политику допустимого использования Azure и кодекс поведения для преобразования текста в речь Azure.

Кроме того, функции преобразования текста в речь, такие как пользовательский нейронный голос, персональный голос и настраиваемый аватар для преобразования текста в речь, ограничены утвержденными вариантами использования и описаны в приведенных ниже конкретных сценариях.

Предназначено для пользовательских нейронных голосов Pro и пользовательских нейронных голосов Lite

Ниже приведены утвержденные варианты использования для Custom Neural Voice Pro и Custom Neural Voice Lite:

  • Учебное или интерактивное обучение: создание вымышленной торговой марки или символьного голоса для чтения или выступления учебных материалов, онлайн-обучения, интерактивных планов занятий, имитации обучения или экскурсий по музеям.
  • Медиа: Развлечения: Создание вымышленного бренда или голоса персонажа для чтения или озвучки развлекательного контента для видеоигр, фильмов, телевидения, записанной музыки, подкастов, аудиокниг, а также дополненной и виртуальной реальности.
  • Медиа: Маркетинг: Создание вымышленной торговой марки или голоса персонажа для чтения или озвучивания маркетинга и медиа продуктов или услуг, представление продуктов, продвижение бизнеса или рекламы.
  • Самостоятельно созданное содержимое: создание голоса для чтения текстов, созданных диктором.
  • Функции доступности: для использования в системах звукового описания и озвучке, включая любой вымышленный бренд или голос вымышленного персонажа, или для облегчения общения для людей с нарушениями речи.
  • Системы интерактивного голосового ответа (IVR): создание голосов, включая любой вымышленный бренд или голос персонажа, для работы в call-центрах, телефонных систем или ответов на телефонные звонки.
  • Публичные и информационные объявления: создание вымышленного бренда или голоса персонажа для передачи информации по общественным услугам, включая объявления для общественных мест или информационных трансляций, таких как дорожное движение, погода, информация о событиях и расписаниях. Этот вариант использования не предназначен для журналистского или новостного содержимого.
  • Перевод и локализация. Использование в приложениях перевода для перевода бесед на разных языках или перевода аудиомедийных носителей.
  • Виртуальный помощник или чат-бот. Чтобы создать вымышленный бренд или символьный голос для смарт-помощников или виртуальных веб-помощников, устройств, автомобилей, домашних устройств, игрушек, управления устройствами Интернета вещей, навигационных систем, считывания личных сообщений, виртуальных компаньонов или сценариев обслуживания клиентов.

Предполагаемое использование для личного голоса

API личной голосовой связи (см. раздел "Личный голос " для получения дополнительных сведений) доступен в предварительной версии ограниченного доступа. Только пользователи, которые соответствуют критериям предоставления ограниченного доступа, могут интегрировать личный голосовой API с приложениями. Эти подходящие клиенты могут использовать личные голоса только для следующих вариантов использования:

  • Приложения: для использования в приложениях, где выходные данные голоса ограничены и определены клиентами, и где голос не считывает содержимое, созданное пользователем или открытое содержимое. Использование голосовой модели должно оставаться в приложении, а выходные данные не должны публиковаться или совместно использоваться из приложения. Некоторые примеры приложений, которые соответствуют этому описанию, — это голосовой помощник в умных устройствах и настройка голоса персонажа в играх.
  • Медиа, фильмы и телевидение: для дублирования фильмов, телевидения, видео и звука исключительно в развлекательных сценариях, где клиенты сохраняют полный контроль над созданием, доступом и использованием голосовых моделей и их результатов.
  • Бизнес-содержимое: создание аудио- и видеоконтента для бизнес-сценариев для обмена информацией о продукте, маркетинговых материалах, рекламных материалах бизнеса и внутренних деловых коммуникациях.
  • Специальное использование, в комплекте с видеопереводом: синтез голосов для каждого говорящего в видео. Клиенты также могут редактировать и создавать синхронизированные с губами аудиоконтенты на целевых языках. Клиенты не обязаны отправлять в Корпорацию Майкрософт дополнительное согласие на аудиоконтент для видео в этом сценарии, но клиенты должны поддерживать единственный контроль над созданием, доступом и использованием моделей голосовой связи и их выходных данных.

Все остальные способы использования пользовательского нейронного голоса, включая Custom Neural Voice Pro, Custom Neural Voice Lite и персональный голос, запрещены. Кроме того, пользовательская нейронная голосовая связь — это служба ограниченного доступа, а для доступа к этой службе требуется регистрация. Дополнительные сведения о политике ограниченного доступа Майкрософт см. в разделе "Функции ограниченного доступа" для средств Foundry. Некоторые функции доступны только для управляемых клиентов и партнеров Майкрософт, и только для определенных вариантов использования, утвержденных корпорацией Майкрософт во время регистрации.

Предварительно созданный нейронный голос также можно использовать для описанных выше вариантов использования нейронных голосов, а также дополнительных вариантов использования, выбранных клиентами, и в соответствии с политикой допустимого использования Azure и кодом поведения для текста речи Azure. Регистрация или предварительное утверждение не требуется для дополнительных вариантов использования предварительно созданного нейронного голоса, соответствующего всем применимым условиям.

Предназначенные случаи использования для видеоперевода

Перевод видеоконтента может использоваться для фильмов, телевизионных программ и других визуальных (включая, но не ограничиваясь видео или анимацией) и аудиоприложений, где клиенты сохраняют полный контроль над созданием, доступом и использованием голосовых моделей и их результатами. Функции личного голоса и синхронизации губ находятся в рамках системы ограниченного доступа, и соответствующие клиенты могут использовать эти возможности с видеопереводом. Ниже приведены утвержденные варианты использования службы "Видеотрансляции".

  • Образование и обучение: перевод аудио в образовательных визуальных материалах, таких как онлайн-курсы, учебные модули, обучение на основе имитаций или аудиоэкскурсии по музеям для многоязычных учащихся. 
  • Медиа: Развлечения: перевод звука в фильмах, телевизионных шоу, документальных фильмах, видео-играх, мини-сериалах, короткометражных постановках и AR/VR-содержимом для глобальных аудиторий, обеспечивая бесшовное повествование на разных языках. 
  • Медиа: Маркетинг: перевод аудио в рекламных визуальных элементах, демонстрациях продуктов, рекламных роликах и кампаниях фирменной символики для создания созвучия с международными рынками и культурами. 
  • Self-Authored Содержимое: Перевод звука в влогах, короткие визуальные форматы, контент инфлюенсеров, руководства по путешествиям, рекламные видео о направлениях, визуальные элементы социальных сетей и ролики о культурных событиях делают их доступными и привлекательными. 
  • Корпоративное обучение и коммуникация. Перевод звука во внутренние визуальные элементы коммуникации, материалы для подключения сотрудников, обучение соответствия требованиям и глобальные корпоративные объявления для международных команд. 
  • Электронная коммерция и демонстрации продуктов: переводить аудио в визуальные элементы распаковки продукта, обучающие видео, отзывы клиентов и объясняющие визуальные материалы для удовлетворения нужд международных покупателей. 
  • Общественные и информационные объявления: перевод звукового сопровождения в материалах для повышения общественной осведомленности, расписаниях мероприятий, объявлениях о безопасности и информационных трансляциях для обеспечения доступности на нескольких языках. 
  • Функции доступности: повышение доступности видеоконтента благодаря многоязычным аудиодорожкам и субтитрам.
  • Новости и журналистские материалы: перевод аудио в новостных сегментах, интервью, пресс-релизах и срочных новостях для различных лингвистических аудиторий. Клиентам, желающим перевести источники новостей, потребуется дополнительная проверка.

Предназначено для пользовательского текста для аватара речи и предварительно созданного текста для аватара речи

Ниже приведены утвержденные случаи использования пользовательского синтеза речи для аватара.

  • Виртуальный помощник или чат-бот: создание виртуальных помощников, виртуальных компаньонов, виртуальных помощников по продажам или приложений службы клиентов.
  • Создание контента для корпоративных контекстов: для обмена информацией о продукте, маркетинговых материалах, рекламных материалах и внутренних бизнес-коммуникациях. Примеры включают персонажные аватары или цифровых двойников бизнес-лидера для продвижения бренда.
  • Учебное или интерактивное обучение: создание вымышленной фирменной марки или аватара символов для представления учебных материалов, онлайн-обучения, интерактивных планов занятий, имитации обучения или экскурсий по музеям.
  • Медиа: Развлечения: для представления обновлений, обмена знаниями, создания интерактивного контента или создания видео с говорящими головами для развлекательных сценариев, таких как видео, игры и дополненная или виртуальная реальность.
  • Специальные возможности: для упрощения взаимодействия людьми с нарушениями речи.
  • Контент, созданный самостоятельно: создание аватара, предназначенного для чтения контента, созданного талантом аватара.
  • Публичные и информационные объявления: создание вымышленного фирменного образа или персонажа для передачи информации об общественном обслуживании, включая объявления для общественных мест или информационные трансляции, такие как дорожное движение, погода, информация о событиях и расписание. Этот вариант использования не предназначен для журналистского или новостного содержимого.
  • Перевод и локализация. Для использования в приложениях перевода для перевода бесед на разных языках или перевода звуковых носителей в формате видео.

Все другие виды использования пользовательских аватаров с озвученным текстом запрещены. Кроме того, функция преобразования пользовательского текста в речь является услугой с ограниченным доступом, и для использования этой функции требуется регистрация. Дополнительные сведения о политике ограниченного доступа Майкрософт см. в aka.ms/limitedaccesscogservices. Некоторые функции доступны только для управляемых клиентов и партнеров Майкрософт, и только для определенных вариантов использования, утвержденных корпорацией Майкрософт во время регистрации.

Предварительно созданный аватар текст-в-речь также может использоваться для описанных выше случаев использования пользовательского аватара, а также для дополнительных случаев использования, выбранных клиентами, и в соответствии с Политикой допустимого использования Azure и Кодексом поведения для текст-в-речь Azure. Регистрация или предварительное утверждение не требуются для дополнительных сценариев использования предустановленного аватара для преобразования текста в речь, если они соответствуют всем применимым условиям и требованиям.

Рекомендации при выборе вариантов использования

Мы рекомендуем клиентам использовать текст для распознавания речи в своих инновационных решениях или приложениях. Все функции преобразования текста в речь должны соответствовать политике допустимого использования Azure и кодексу поведения для Azure Speech text to speech. Кроме того, настраиваемые нейронные голоса и текстовые и речевые аватары могут использоваться только для случаев использования, утвержденных с помощью формы регистрации ограниченного доступа. Кроме того, при выборе варианта использования для любой функции преобразования текста в речь следует учитывать некоторые рекомендации.

  • Обеспечьте соответствие вариантов использования: убедитесь, что предполагаемое применение любой функции преобразования текста в речь соответствует её возможностям и назначению.
  • Рекомендации по использованию ответственного искусственного интеллекта: приоритеты ответственной практики ИИ, избегая создания вводящей в заблуждение или вредной содержимой. Соблюдайте конфиденциальность, защиту данных и юридические нормы при использовании текста для речевых функций.
  • Ознакомьтесь с кодексом поведения: корпорация Майкрософт установила кодекс поведения, который запрещает некоторые возможности использования всего текста для речи. Обеспечение соответствия кодексу поведения при выборе варианта использования для служб преобразования текста в речь.
  • Упражнение редакционного контроля: Тщательно рассмотрите возможность использования синтетических голосов с контентом, который не имеет правильного редакционного контроля, так как искусственные голоса могут звучать как человек и повысить эффект неправильного или вводяющего в заблуждение содержимого.
  • Раскрытие информации: раскрытие сути синтетических голосов, изображений и/или видео пользователям, таким образом, что пользователи не должны быть обмануты или смогут обмануть других, полагая, что они взаимодействуют с реальным человеком.
  • Юридические и нормативные соображения: организациям необходимо оценить потенциальные определенные юридические и нормативные обязательства при использовании любых служб и решений ИИ, которые могут быть не подходящими для использования в каждой отрасли или сценарии. Кроме того, службы или решения ИИ не предназначены для использования и не могут использоваться способами, запрещенными в применимых условиях обслуживания и соответствующих кодексах поведения.

Придерживаясь этих рекомендаций, пользователи могут использовать предварительно созданные и пользовательские нейронные голоса ответственно.

Ограничения

Ограничения текста на речь должны рассматриваться на пересечении технологий и человеческих, социальных и организационных факторов, влияющих на его использование и влияние. Хотя текст для речи предлагает расширенные возможности синтеза речи, существуют определенные ограничения, которые следует учитывать при развертывании его ответственно, чтобы свести к минимуму потенциальные ошибки.

Технические ограничения, операционные факторы и диапазоны

Технические ограничения, которые следует учитывать при использовании текста для речи, включают точность произношения и интонации. Хотя технология преобразования текста в речь предназначена для создания естественно звучащей речи, она может столкнуться с трудностями с определенными словами, именами или необычными фразами. Пользователи должны знать, что могут быть случаи, когда система может неправильно произнести или неправильно выделить слова, особенно при работе с нишевой или специализированной лексикой.

Важно отметить, что некоторые группы населения могут сильнее пострадать от этих технических ограничений. Например, люди с нарушениями слуха, которые сильно полагаются на синтезированную речь, могут столкнуться с проблемами в понимании неясных или искаженных выходных данных речи. Аналогичным образом, пользователи с когнитивными или языковыми ограниченными возможностями могут оказаться трудно понять речь с ненатуральной интонацией или неправильно произносимыми словами.

  • Лингвистические ограничения: в то время как мы тщательно курируем и подготавливаем обучающие данные для минимизации предвзятости, особенно связанных с полом, этнической принадлежностью или региональными акцентами, а текст для речи поддерживает несколько языков и акцентов, могут быть различия в качестве и доступности голосов на разных языках. Клиенты должны знать о потенциальных ограничениях в точности произношения, интонации и лингвистических нюансах, характерных для определенных языков или диалектов.
  • Контекст и эмоции: текст для речи может иметь ограничения в точном передаче контекстной информации и эмоций. Клиенты должны помнить о неспособности системы понять эмоциональные нюансы или тонкие подсказки, присутствующие в входном тексте. Следует предусмотреть предоставление дополнительного контекста или использование других методов для эффективной передачи эмоций.
  • Доступность: Корпорация Майкрософт уведомит клиентов за 12 месяцев до удаления любых заранее созданных нейронных голосов из нашего каталога, если только соображения безопасности, законодательства или производительности системы не потребуют более быстрого удаления. Это не относится к предварительным версиям.

Каждое приложение отличается, и базовая модель может не соответствовать вашему контексту или охватывать все сценарии, необходимые для вашего варианта использования. Мы рекомендуем разработчикам тщательно оценить качество синтетического голоса и видео, созданных на основе текста, с использованием реальных данных, которые отражают ваш вариант использования, включая тестирование с пользователями из разных демографических групп и с различными характеристиками речи. Ознакомьтесь с разделом "Качество модели голосовой связи " для получения рекомендаций по созданию высококачественных голосовых моделей.

Помимо обеспечения производительности, важно рассмотреть вопрос о том, как свести к минимуму риски стереотипирования и стирания, которые могут привести к искусственным голосам и аватару. Например, если создаётся пользовательский нейронный голос для интеллектуального голосового помощника, тщательно рассмотрите, какой голос будет уместно создать, и ищите разнообразные перспективы от людей с различным опытом. При создании и оценке системы всегда искать разнообразные входные данные.

Соображения справедливости

В Корпорации Майкрософт мы стремимся расширить возможности каждого человека на планете, чтобы сделать больше. Основная часть этой цели заключается в создании технологий и продуктов, которые являются справедливыми и инклюзивными. Справедливость является многомерной, социально-технической темой и влияет на множество различных аспектов развития нашего продукта. Дополнительные сведения о подходе Майкрософт к справедливости см. здесь.

Одним из важных измерений, которые следует учитывать при использовании систем ИИ, включая текст в речь, является то, насколько хорошо система работает для разных групп людей. Исследования показали, что без сознательных усилий, направленных на улучшение производительности для всех групп, системы ИИ могут демонстрировать различные уровни производительности в различных демографических факторах, таких как раса, этническое происхождение, пол и возраст.

В рамках оценки системы преобразования текста в речь Azure AI мы провели анализ для оценки возможного ущерба для справедливости. Мы рассмотрели производительность системы в разных демографических группах, стремясь определить какие-либо различия или различия, которые могут существовать и могут повлиять на справедливость.

В некоторых случаях могут существовать оставшиеся различия в производительности. Важно отметить, что эти различия могут превышать целевой показатель, и мы активно работаем над решением и минимизацией потенциальных предвзятостей и пробелов в производительности, тщательно рассматриваем демографический выбор исполнителя и ищем разнообразные перспективы из разных слоев общества.

В отношении репрезентативного ущерба, такого как стереотипия, унижание или удаление выходных данных, мы признаем риски, связанные с этими проблемами. Хотя наш процесс оценки направлен на устранение таких рисков, мы рекомендуем пользователям тщательно рассмотреть свои конкретные варианты использования и реализовать дополнительные меры по устранению рисков. Наличие человека в процессе может обеспечить дополнительный уровень надзора для решения любых потенциальных предвзятостей или непреднамеренных последствий. Использование списков блокировок или списков разрешений также может помочь обеспечить соответствие синтезированных речи требуемым стандартам и избежать любого вредного или неуместного содержимого.

Мы стремимся постоянно улучшать оценки справедливости, чтобы получить более глубокое представление о производительности системы в различных демографических группах и потенциальных проблемах справедливости. Процесс оценки продолжается, и мы активно работаем над повышением справедливости и инклюзивности и устранением любых определенных различий. Мы понимаем важность учёта факторов справедливости и стремимся обеспечить, чтобы синтез речи предоставлял надёжные и справедливые результаты синтезированной речи.

Обратите внимание, что эта информация представляет то, что мы знаем до сих пор о оценках справедливости, и мы остаемся привержены уточнению наших методологий оценки и устранению любых проблем справедливости, которые могут возникнуть.

Производительность системы

Производительность системы синтеза речи относится к тому, насколько точно и естественно она может преобразовать написанный текст в синтезированную речь. Это измеряется с помощью различных метрик для оценки качества и эффективности созданных звуковых выходных данных. Ниже приведены некоторые распространенные метрики производительности:

  • Mean opinion score (MOS): система рейтингов, в которой судьи предоставляют оценку, отражающую общее качество синтезированной речи и видео аватара. Более высокий mos указывает на более высокое качество.
  • Разрыв MOS: разница между оценкой MOS человеческих записей и созданными звуковыми дорожками и видео. Меньший разрыв МОС указывает на более близкое сходство с человеческой речью или подобием человека.
  • Сходство MOS (SMOS): измеряет схожесть генерированных звуковых треков и видео с человеческими аудиозаписями. Более высокий уровень SMOS означает лучшее сходство.
  • Intelligibility: процент правильно понятных слов в синтезируемой речи.

Даже современные системы искусственного интеллекта, такие как преобразование текста в речь, могут допускать ошибки. Например, система может производить синтезированную речь с тонкими неестественными интонациями или ошибками произношения, что приводит к менее идеальному интерфейсу пользователя, или система может неправильно интерпретировать текст или бороться с необычными лингвистическими конструкциями, что приводит к ненатуральной или неразборчивой речи.

Рекомендации по улучшению производительности системы

Для повышения производительности системы и адаптации системного поведения в тексте к речи можно использовать несколько рекомендаций. Эти методики включают настройку различных компонентов и параметров для оптимизации компромиссов и удовлетворения конкретных требований к варианту использования. Однако важно рассмотреть потенциальные последствия для разных групп населения, чтобы обеспечить справедливость и инклюзивность.

Использование SSML (язык разметки синтеза речи) считается рекомендуемым способом улучшить качество вывода речи в тексте. SSML позволяет пользователям более контролировать синтезированную речь, что позволяет настраивать произношение, интонацию, акцент и другие функции. Включив теги SSML в текст, пользователи могут добавлять паузы, настраивать скорость речи, указывать фонетические произношения, а также управлять высотой тона и громкостью, наряду с другими параметрами. Этот уровень тонкой настройки помогает создавать более естественную и экспрессивную речь, делая текст для вывода речи более человеческим и привлекательным. Все разметки SSML можно передавать непосредственно в API. Мы также предоставляем онлайн-средство создания аудиоконтентов, которое позволяет клиентам точно настраиваться с помощью интуитивно понятного пользовательского интерфейса.

Если в вашем случае используется специализированный словарь или содержимое, относящийся к домену, рассмотрите возможность использования пользовательской функции лексикона, чтобы улучшить способность системы точно произносить и передавать термины или фразы для конкретного домена.

Оценка преобразования текста в речь

Методы оценки

Некоторые часто используемые метрики для оценки общей производительности системы преобразования текста в речь включают:

  • Среднее значение оценки (MOS) в сравнении с человеческой записью: обычно используется для сравнения качества модели преобразования текста в речь с качеством человеческой записи. Качество голосовой модели, созданной пользовательским нейронным голосом, по сравнению с записью, выполненной человеком, ожидается близким, с разницей не более 0,5 в баллах MOS.
  • Для пользовательского нейронного синтеза речи можно также использовать показатель сходства MOS (SMOS) для измерения того, насколько пользовательский голос напоминает оригинальные человеческие записи. В исследованиях SMOS судей просят прослушать набор парных звуковых треков: один из них создан с помощью пользовательского голоса, другой из оригинальных человеческих записей в обучающих данных, и оценить, исходя из того, говорят ли две звуковые дорожки в каждой паре одним и тем же человеком, с использованием пятиточечного масштаба (1 — самый низкий, 5 — самый высокий). Средняя оценка сообщается в виде оценки SMOS. Мы рекомендуем, чтобы хороший кастомизированный нейронный голос должен иметь показатель SMOS выше 4.0.
  • Помимо измерения естественности с помощью MOS и SMOS, вы также можете оценить понятность модели голоса, проверив точность произношения созданной речи. Это делается путем того, чтобы судьи слушали набор тестовых выборок, определяя, могут ли они понять смысл и указать любые слова, которые были непонятными для них. Коэффициент разборчивости вычисляется как процент правильно понятных слов среди общего количества проверенных слов (то есть число понятных слов/общее количество проверенных слов * 100%). Как правило, пригодная для использования система преобразования текста в речь должна достичь оценки > 98% для разборчивости.

Результаты оценки

Технология преобразования текста в речь последовательно обеспечивает высококачественную и естественно звучащую синтезированную речь, удовлетворяя требования различных отраслей и доменов. Наши оценки включают в себя обширное тестирование обучающих и тестовых данных системы, гарантируя, что она представляет предполагаемые и операционные факторы, возникающие в реальных сценариях, а также тестовые образцы синтезированных выходных данных речи.

Результаты оценки повлияли на решения о ограничениях в структуре системы, таких как максимальный размер регистра и минимальный объем необходимых обучающих данных. Анализируя производительность системы в различных наборах данных, настройках и параметрах, были установлены соответствующие ограничения для оптимизации поведения, надежности и безопасности системы.

Хотя оценка охватывает широкий спектр вариантов использования, важно отметить, что результаты являются обобщенными в некоторых случаях использования, которые не были непосредственно частью оценки. Надежность и производительность системы обеспечивает уверенность в своей способности обрабатывать различные сценарии, включая те, которые не были явно протестированы.

Ниже приведены некоторые рекомендуемые тесты и диапазоны оценки на основе нашего опыта:

Измерение Определение Как вычисляется Рекомендуемый размер текста Рекомендуемая оценка
MOS Средняя оценка качества звуковых треков Средняя оценка каждого судьи по каждой аудиозаписи > 30 созданных звуковых треков > 4.0 (обычно требуется MOS записи человека выше 4,5)
Разрыв MOS Разница в оценке MOS между человеческими записями и созданными звуковыми дорожками Оценка MOS на записях человеческого голоса минус оценка MOS на синтезированных звуковых дорожках > 10 человеческих записей, > 30 созданных аудиотреков, > 20 судей на каждом аудиотреке < 0.5
SMOS Сходство созданных звуковых треков с человеческими записями Среднее значение оценки уровня сходства на каждой паре звуковых треков > 40 пар, > 20 судей на каждой паре > 4.0, > 3.5 (вторичный язык)
Понятность Точность произношения созданной речи на уровне слова Процент правильно понятных слов среди общего количества проверенных слов > 60 созданных аудиотреков, > 10 судей на каждом аудиотреке > 98%

Оценка и интеграция технологии преобразования текста в речь для вашего применения

Ниже приведены некоторые рекомендации, которые помогут вам ответственно интегрировать функции преобразования текста в речь в ваши сценарии использования.

Раскрывать, когда голос является синтетическим

Раскрытие того, что голос является компьютером, созданным не только сводит к минимуму риск вредных результатов от обмана, но и повышает доверие к организации, предоставляющей голос. Узнайте больше о том, как раскрыть.

Корпорация Майкрософт требует от своих клиентов раскрывать пользователям синтетическую природу голосов, созданных с помощью технологий синтеза речи.

  • Обязательно предоставьте адекватное раскрытие информации для аудитории, особенно при использовании голоса известного человека. Люди делают суждения о информации, частично основываясь на человеке, который предоставляет её, будь то, сознательно или неосознанно. Например, раскрытие информации может быть устно предоставлено в начале трансляции. Дополнительные сведения см. в шаблонах раскрытия информации.
  • Рассмотрите возможность правильного раскрытия информации родителям или другим сторонам с вариантами использования, которые предназначены для или могут использоваться в ситуациях с участием несовершеннолетних и детей. Если ваш вариант использования предназначен для несовершеннолетних или детей, необходимо убедиться, что раскрытие информации ясно и прозрачно, чтобы родители или юридические опекуны могли понять роль синтетических средств массовой информации и принять обоснованное решение от имени несовершеннолетних или детей о том, следует ли использовать опыт.

Раскрывать, когда видео аватара является искусственным

Раскрытие того, что видео с говорящим аватаром создано компьютером, не только минимизирует риск вредных результатов от обмана, но и повышает доверие к организации, предоставляющей видео. Узнайте больше о том, как раскрыть.

Корпорация Майкрософт требует от своих клиентов раскрыть синтетический характер голосовых аватаров, созданных по тексту, их пользователям.

  • Убедитесь, что вы предоставляете достаточное раскрытие информации для аудитории, особенно при использовании изображения (и голоса) известного человека. Люди делают суждения о информации, частично основываясь на человеке, который предоставляет её, будь то, сознательно или неосознанно. Например, раскрытие может быть сделано с водяным знаком, например, "Голос и изображение в этом видео сгенерированы ИИ", в тексте или сообщено устно в начале видеоролика. Дополнительные сведения см. в шаблонах раскрытия информации.
  • Рассмотрите возможность правильного раскрытия информации родителям или другим сторонам с вариантами использования, которые предназначены для или могут использоваться в ситуациях с участием несовершеннолетних и детей. Если ваш вариант использования предназначен для несовершеннолетних или детей, необходимо убедиться, что раскрытие информации ясно и прозрачно, чтобы родители или юридические опекуны могли понять роль синтетических средств массовой информации и принять обоснованное решение от имени несовершеннолетних или детей о том, следует ли использовать опыт.

Выбор соответствующих типов голосов для вашего сценария

Внимательно обдумайте контекст использования и потенциальные последствия, связанные с использованием технологий преобразования текста в речь или аватаров. Например, искусственные голоса с высоким уровнем точности могут не соответствовать в сценариях высокого риска, таких как для личных сообщений, финансовых транзакций или сложных ситуаций, требующих адаптации человека или сочувствия.

Пользователи могут также иметь различные ожидания для типов голосовых данных и выражений аватара или жестов в зависимости от контекста. Например, при прослушивании конфиденциальных новостей, прочитанных искусственным голосом, некоторые пользователи предпочитают более сочувствие и человеческий тон, а другие предпочитают нейтральный голос. Попробуйте протестировать приложение, чтобы лучше понять предпочтения пользователей.

Прозрачность возможностей и ограничений

Пользователи, скорее всего, имеют более высокие ожидания при взаимодействии с искусственными голосовыми агентами с высокой точностью. Если возможности системы не соответствуют этим ожиданиям, доверие может страдать и может привести к неприятным или даже вредным опытом.

Предоставление необязательной поддержки человека

В неоднозначных сценариях транзакций (например, в центре поддержки вызовов) пользователи не всегда доверяют агенту компьютера соответствующим образом отвечать на их запросы. Человеческая поддержка может потребоваться в таких ситуациях независимо от реалистичного качества голоса или возможностей системы.

Рекомендации по таланту голоса

Когда клиенты работают с голосовыми актёрами, чтобы создавать пользовательские нейронные голоса, применяются нижеприведённые рекомендации.

  • Голосовой артист должен иметь контроль над своей голосовой моделью (как и где она будет использоваться) и получать компенсацию за использование своей модели. Корпорация Майкрософт требует от клиентов кастомного нейронного голосового решения получить явное письменное разрешение от диктора на создание синтетического голоса и гарантировать, что соглашение клиента с каждым человеком учитывает длительность, использование и любые ограничения по содержимому. Если вы создаете искусственный голос известного человека, вы должны предоставить способ редактирования или утверждения содержимого выходных данных, которые планируется создать с помощью голосовой модели.
  • Некоторые таланты голоса могут не знать о потенциально вредоносном использовании технологии и должны быть образованы владельцами системы о возможностях технологии. Корпорация Майкрософт требует от клиентов поделиться Раскрытием информации Microsoft для талантов голоса и аватара с талантом голоса напрямую или через авторизованного представителя таланта голоса, чтобы описать, как искусственные голоса разрабатываются и работают вместе с службами преобразования текста в речь.

Рекомендации по таланту аватара

Когда клиенты работают с актерами аватаров для создания пользовательских аватаров, приведенные ниже рекомендации применяются.

  • Исполнитель аватара должен иметь контроль над своей моделью аватара (как и где она будет использоваться) и получать компенсацию за её использование. Корпорация Майкрософт требует от заказчиков кастомизированных аватаров получить явное письменное разрешение от обладателя прав на аватар, чтобы создать синтетический аватар с функцией текст-в-речь и удостовериться, что соглашение клиента с каждым лицом оговаривает продолжительность, использование и любые ограничения на контент. Если вы создаете настраиваемый аватар известного человека, вы должны предоставить голосовым актерам возможность редактировать или утверждать содержание на выходе, которое вы планируете разработать с помощью голосовой модели.
  • Некоторые таланты аватара могут не знать о потенциально вредоносном использовании технологии и должны быть образованы владельцами системы о возможностях технологии. Корпорация Майкрософт требует от клиентов поделиться раскрытием информации для голосового взаимодействия и таланта аватара напрямую или через уполномоченного представителя таланта аватара, чтобы описать, как синтетическое видео аватара разрабатывается и работает в сочетании с услугами преобразования текста в речь.

Рекомендации для людей с нарушениями речи

При работе с людьми с нарушениями речи для создания или развертывания искусственной голосовой технологии применяются следующие рекомендации.

Рекомендации по заключению контрактов с кадрами в сфере доступности

Клиенты должны разработать рекомендации по созданию контрактов с лицами, которые используют искусственные голоса для помощи в разговоре. Клиенты должны рассмотреть возможность указания в своих контрактах с отдельными лицами продолжительности использования, передачи владения и /или условий лицензии, процедур удаления голосовой модели и предотвращения несанкционированного доступа.

Учет несоответствий в шаблонах речи

Для людей с нарушениями речи, которые записывают свои голосовые модели, несоответствия в их речевом шаблоне, такие как невнятная речь или неспособность произносить определенные слова, могут усложнить процесс записи. В таких случаях искусственные голосовые технологии и сеансы записи должны быть разработаны с соответствующим размещением, определенным клиентом (например, предоставление перерывов или дополнительных сеансов записи).

Разрешить изменение с течением времени

Люди с нарушениями речи могут пожелать обновить свой искусственный голос, чтобы отразить изменения из-за старения или других факторов. Люди могут также иметь стилистические предпочтения, которые меняются со временем, и могут захотеть изменить тон, акцент или другие характеристики голоса.

Подробнее об ответственном использовании ИИ

Дополнительные сведения о службе "Речь Azure"