Как создать кастомный видеоаватар

Начало работы с пользовательским аватаром для преобразования текста в речь — это простой процесс. Для этого требуется всего несколько видеоклипов вашего актера. Если вы хотите обучить пользовательский голос для одного и того же актера, это можно сделать отдельно.

Примечание

Доступ к пользовательскому аватару ограничен на основе критериев соответствия и использования. Запросите доступ через форму приема.

Необходимые условия

Вам нужен ресурс Microsoft Foundry в одном из регион, который поддерживает настраиваемое обучение аватара. Настраиваемый аватар поддерживает только стандартные (S0) ресурсы Foundry или Speech.

Вам нужна видеозапись, на которой талант зачитывает заявление согласия, подтверждающего использование их изображения и голоса. Вы загружаете это видео при настройке функции аватара. Для получения дополнительной информации см. раздел "Добавление согласия на использование таланта аватара".

Вам нужны видеозаписи таланта вашего аватара в качестве обучающих данных. Вы отправляете эти видео при подготовке обучающих данных. Дополнительные сведения см. в разделе "Добавление обучающих данных".

Примечание

При отправке данных из хранилища BLOB-объектов Azure учетная запись хранения должна разрешить доступ к общедоступной сети. URL-адрес должен быть извлечен с помощью простого анонимного запроса GET. Например, используйте URL-адрес SAS или общедоступный URL-адрес. URL-адреса, требующие дополнительной авторизации или ожидающие взаимодействия с пользователем, не поддерживаются.

Шаг 1. Начало точной настройки

Совет

Не смешивайте данные для разных аватаров в одной рабочей области точной настройки. Каждый аватар должен иметь собственное пространство для точной настройки.

Чтобы настроить настраиваемый аватар, выполните следующие действия.

  1. Перейдите к проекту Microsoft Foundry на портале Microsoft Foundry. Если вам нужно создать проект, см. раздел Создание проекта Microsoft Foundry.

  2. Выберите Тонкая настройка на левой панели.

  3. Выберите Тонкая настройка службы ИИ>+ Тонкая настройка.

    Снимок экрана: страница для выбора точной настройки моделей средств Foundry.

  4. В мастере выберите настраиваемый аватар (текст для настройки аватара речи).

  5. Нажмите кнопку "Далее".

  6. Следуйте инструкциям, предоставленным мастером настройки, чтобы создать пространство для тонкой настройки.

Талант аватара — это человек или целевой актер, чье видео с речью записывается и используется для создания нейронных моделей аватаров. Вы должны получить достаточное согласие согласно всем соответствующим законам и правилам от таланта, изображенного аватаром, чтобы использовать их видеоматериалы для создания пользовательского аватара для преобразования текста в речь.

Вы должны предоставить видеофайл с записанным заявлением от таланта вашего аватара, в котором он подтверждает использование их изображения и голоса. Microsoft проверяет, соответствует ли содержимое записи предварительно определенному скрипту, предоставленному Microsoft. Microsoft сравнивает лицо таланта-аватара в записанном видео с случайными видеозаписями из обучающих наборов данных, чтобы убедиться, что талант-аватар в видеозаписях и талант-аватар в файле записанного заявления совпадает с одним и тем же человеком.

  • Если вы хотите создать синхронизацию голоса для аватара во время его обучения, голос, похожий на ваш аватар, создается вместе с пользовательским аватаром. Голос используется исключительно с указанным аватаром. Заявление о согласии должно включать как настраиваемый аватар, так и голосовую синхронизацию для аватара. Пример инструкции согласия для пользовательского аватара с голосовой синхронизацией см. в файле verbal-statement-voice-sync-for-avatar-all-locales.txt в репозитории Azure-Samples/cognitive-services-speech-sdk GitHub.
  • ** Если вы не создаете синхронизацию голоса для аватара, обучается только пользовательский аватар, и заявление о согласии должно учитывать этот аспект. Пример инструкции согласия только для пользовательского аватара см. в файле verbal-statement-all-locales.txt в репозитории Azure-Samples/cognitive-services-speech-sdk GitHub.

Дополнительные сведения о записи видео согласия см. в разделе "Запись примеров видео " и "Раскрытие информации" для таланта аватара.

Чтобы добавить аватар и профиль таланта и загрузить заявление о согласии для вашего проекта, выполните следующие действия:

  1. Войдите на портал Microsoft Foundry.

  2. Выберите Тонкая настройка в левой области и выберите Тонкая настройка службы ИИ.

  3. Выберите настраиваемую задачу настройки аватара (по имени модели), которую вы начали, как описано в предыдущем разделе.

  4. Выберите Настроить талант аватара>Загрузить видео согласия.

  5. На странице Загрузить видео согласия следуйте инструкциям, чтобы загрузить видео с согласием на использование аватара, записанное заранее.

    • Выберите тип аватара для сборки. Создайте голосовую синхронизацию для аватара, которая звучит как голос вашего аватара вместе с моделью, или создайте аватар без синхронизации голоса.
    • Выберите язык словесного согласия, записанного талантом аватара.
    • Введите имя аватара таланта и название вашей компании на том же языке, что и записанное заявление.
      • Имя таланта аватара должно быть именем человека, который записал согласие.
      • Имя компании должно совпадать с именем компании, которое было произнесено в записанном заявлении.
    • Вы можете загрузить данные из локальных файлов или из общего хранилища Azure Blob.
  6. Выберите локальные файлы на компьютере или введите URL-адрес хранилища BLOB-объектов Azure, где хранятся данные.

  7. Нажмите кнопку "Далее".

  8. Просмотрите сведения о отправке и нажмите кнопку "Отправить".

После успешной отправки согласия на использование таланта аватара вы можете продолжить настройку вашей пользовательской модели аватара.

Шаг 3. Добавление обучающих данных

Служба речи использует данные обучения для создания уникального аватара, настроенного под внешний вид человека в записях. После обучения модели аватара можно начать синтез видео аватара или использовать его для динамических чатов в приложениях.

Все передаваемые данные должны соответствовать требованиям выбранного типа данных. Чтобы служба "Речь" точно обрабатывает данные, важно правильно отформатировать данные перед отправкой. Чтобы убедиться, что данные правильно отформатированы, см. требования к данным.

Отправка данных

Когда вы будете готовы отправить данные, перейдите на вкладку "Подготовка обучающих данных ", чтобы добавить данные.

Чтобы отправить обучающие данные, выполните следующие действия.

  1. Войдите на портал Microsoft Foundry.
  2. Выберите Тонкая настройка в левой области и выберите Тонкая настройка службы ИИ.
  3. Выберите настраиваемую задачу настройки аватара (по имени модели), которую вы начали, как описано в предыдущем разделе.
  4. Выберите Подготовка данных для обучения>Загрузка данных.
  5. В мастере отправки данных выберите тип данных и нажмите кнопку "Далее". Дополнительные сведения о типах данных (включая Naturally Speaking, беззвучное состояние, жест и Статус 0 для Говорения) см. в разделе какие видеоклипы записывать.
  6. Выберите локальные файлы на компьютере или введите URL-адрес хранилища BLOB-объектов Azure, где хранятся данные.
  7. Нажмите кнопку "Далее".
  8. Просмотрите сведения о отправке и нажмите кнопку "Отправить".

Файлы данных автоматически проверяются при выборе кнопки "Отправить". Проверка данных включает ряд проверок видеофайлов, чтобы проверить их формат, размер и общий том. Если возникают ошибки, исправьте их и отправьте еще раз.

После отправки данных можно проверить обзор данных, указывающий, достаточно ли предоставлено количество данных для начала обучения.

Шаг 4. Обучение модели аватара

Важно

Все обучающие данные в проекте включены в обучение. Качество модели зависит от предоставленных данных, и вы отвечаете за качество видео. Убедитесь, что вы записываете обучающие видео в соответствии с руководством по записи примеров видео.

Чтобы создать настраиваемый аватар на портале Foundry Microsoft, выполните следующие действия для одного из следующих методов:

  1. Войдите на портал Microsoft Foundry.

  2. Выберите Тонкая настройка в левой области и выберите Тонкая настройка службы ИИ.

  3. Выберите настраиваемую задачу настройки аватара (по имени модели), которую вы начали, как описано в предыдущем разделе.

  4. Выберите "Обучение модели>+ Обучение модели".

  5. Введите имя, чтобы определить модель. Тщательно выберите имя. Имя модели используется в качестве имени аватара в вашем запросе синтеза SDK и входных данных на языке разметки для синтеза речи (SSML). Разрешены только буквы, цифры, дефисы и символы подчеркивания. Используйте уникальное имя для каждой модели.

    Важно

    Имя модели аватара должно быть уникальным в пределах одного ресурса службы "Речь" или "Службы искусственного интеллекта".

  6. Выберите "Обучение ", чтобы начать обучение модели.

Длительность обучения зависит от того, сколько данных вы используете. Обычно для обучения пользовательского аватара в среднем требуется 20–40 вычислительных часов. Проверьте примечание о ценах на обучение.

Копирование пользовательской модели аватара в другой проект (необязательно)

Настраиваемое обучение аватара в настоящее время доступно только в некоторых регионах. После обучения вашей модели аватара в поддерживаемом регионе его можно скопировать в ресурс служб ИИ для распознавания речи в другом регионе по мере необходимости. Дополнительные сведения см. в сносках в таблице регионов.

Примечание

Вы можете скопировать только голосовую синхронизацию для модели аватара в регионы, поддерживающие голосовую синхронизацию для функции аватара, которые являются теми же регионами, которые поддерживают личный голос. См. страницу поддержки региона .

Чтобы скопировать пользовательскую модель аватара в другой проект:

  1. На вкладке "Обучение модели" выберите модель аватара, которую требуется скопировать, а затем выберите Копировать в проект.
  2. Выберите подписку, регион, ресурс служб ИИ для службы распознавания речи и проект, в который нужно скопировать модель. Необходимо иметь в целевом регионе ресурс служб ИИ для речи и проект, в противном случае необходимо сначала создать их.
  3. Нажмите кнопку "Отправить ", чтобы скопировать модель.

После копирования модели на портале Microsoft Foundry появится уведомление.

Перейдите к проекту, в котором вы скопировали модель для развертывания копии модели.

Шаг 5. Развертывание и использование модели аватара

После успешного создания и обучения модели аватара вы развернете ее в конечной точке.

Чтобы развернуть аватар, выполните приведенные действия.

  1. Войдите на портал Microsoft Foundry.

  2. Выберите Тонкая настройка в левой области и выберите Тонкая настройка службы ИИ.

  3. Выберите настраиваемую задачу настройки аватара (по имени модели), которую вы начали, как описано в предыдущем разделе.

  4. Выберите Развернуть модель>Развернуть модель.

  5. Выберите модель, которую нужно развернуть.

  6. Выберите "Развернуть" , чтобы начать развертывание.

    Важно

    При развертывании модели вы платите за непрерывное время работы конечной точки независимо от взаимодействия с этой конечной точкой. Проверьте ценовую заметку о том, как взимается плата за развертывание модели. Вы можете удалить развертывание, если модель не используется для уменьшения расходов и экономии ресурсов.

После развертывания пользовательского аватара он доступен для использования на портале Microsoft Foundry или через API:

Удаление развертывания

Чтобы удалить развертывание, выполните следующие действия.

  1. Войдите на портал Microsoft Foundry.
  2. Выберите Тонкая настройка в левой области и выберите Тонкая настройка службы ИИ.
  3. Выберите настраиваемую задачу настройки аватара (по имени модели), которую вы начали, как описано в предыдущем разделе.
  4. Выберите развертывание на странице "Развертывание модели ". Модель активно размещена, если статус "Успешно".
  5. Нажмите кнопку "Удалить развертывание " и подтвердите удаление, чтобы удалить хостинг.

Совет

После удаления развертывания вы больше не платите за его размещение. Удаление развертывания не приводит к удалению модели. Если вы хотите снова использовать модель, создайте новое развертывание.

Начало работы с пользовательским аватаром для преобразования текста в речь — это простой процесс. Для этого требуется всего несколько видеоклипов вашего актера. Если вы хотите обучить пользовательский голос для одного и того же актера, это можно сделать отдельно.

Примечание

Доступ к пользовательскому аватару ограничен на основе критериев соответствия и использования. Запросите доступ через форму приема.

Необходимые условия

Вам нужен ресурс Microsoft Foundry в одном из регион, который поддерживает настраиваемое обучение аватара. Настраиваемый аватар поддерживает только стандартные (S0) ресурсы Foundry или Speech.

Вам нужна видеозапись, на которой талант зачитывает заявление согласия, подтверждающего использование их изображения и голоса. Вы загружаете это видео при настройке функции аватара. Для получения дополнительной информации см. раздел "Добавление согласия на использование таланта аватара".

Вам нужны видеозаписи таланта вашего аватара в качестве обучающих данных. Вы отправляете эти видео при подготовке обучающих данных. Дополнительные сведения см. в разделе "Добавление обучающих данных".

Примечание

При отправке данных из хранилища BLOB-объектов Azure учетная запись хранения должна разрешить доступ к общедоступной сети. URL-адрес должен быть извлечен с помощью простого анонимного запроса GET. Например, используйте URL-адрес SAS или общедоступный URL-адрес. URL-адреса, требующие дополнительной авторизации или ожидающие взаимодействия с пользователем, не поддерживаются.

Шаг 1. Создание пользовательского проекта аватара

Чтобы создать пользовательский проект аватара, выполните следующие действия.

  1. Войдите в Speech Studio и выберите подписку и ресурс "Речь".

  2. Выберите настраиваемый аватар (предварительная версия).

    Снимок экрана: плитка для выбора пользовательского аватара среди других плиток.

  3. Нажмите кнопку +Создать проект.

  4. Следуйте инструкциям, предоставленным мастером, чтобы создать проект.

    Совет

    Не смешивайте данные для разных аватаров в одном проекте. Всегда создавайте новый проект для нового аватара.

  5. Выберите новый проект по имени. Затем вы увидите эти пункты меню на левой панели: настройка таланта аватара, подготовка обучающих данных, обучение модели и развертывание модели.

    Снимок экрана: новый пустой пользовательский проект аватара.

Талант аватара — это человек или целевой актер, чье видео с речью записывается и используется для создания нейронных моделей аватаров. Вы должны получить достаточное согласие согласно всем соответствующим законам и правилам от таланта, изображенного аватаром, чтобы использовать их видеоматериалы для создания пользовательского аватара для преобразования текста в речь.

Вы должны предоставить видеофайл с записанным заявлением от таланта вашего аватара, в котором он подтверждает использование их изображения и голоса. Microsoft проверяет, соответствует ли содержимое записи предварительно определенному скрипту, предоставленному Microsoft. Microsoft сравнивает лицо таланта-аватара в записанном видео с случайными видеозаписями из обучающих наборов данных, чтобы убедиться, что талант-аватар в видеозаписях и талант-аватар в файле записанного заявления совпадает с одним и тем же человеком.

  • Если вы хотите создать синхронизацию голоса для аватара во время его обучения, голос, похожий на ваш аватар, создается вместе с пользовательским аватаром. Голос используется исключительно с указанным аватаром. Заявление о согласии должно включать как настраиваемый аватар, так и голосовую синхронизацию для аватара.
  • ** Если вы не создаете синхронизацию голоса для аватара, обучается только пользовательский аватар, и заявление о согласии должно учитывать этот аспект.

Заявление о устном согласии можно найти на нескольких языках с помощью репозитория Azure-Samples/cognitive-services-speech-sdk GitHub. Язык словесного заявления должен совпадать с вашей записью. См. также раскрытие информации о таланте голоса.

Дополнительные сведения о записи видео согласия см. в разделе "Как записать примеры видео".

Чтобы добавить аватар и профиль таланта и загрузить заявление о согласии для вашего проекта, выполните следующие действия:

  1. Войдите в Speech Studio.

  2. Выберите настраиваемый аватар> название проекта >Настройка талантов аватара>Загрузите видео с согласием.

  3. На странице Загрузить видео согласия следуйте инструкциям, чтобы загрузить видео с согласием на использование аватара, записанное заранее.

    • Выберите тип аватара для сборки. Создайте голосовую синхронизацию для аватара, которая звучит как голос вашего аватара вместе с моделью, или создайте аватар без синхронизации голоса.
    • Выберите язык словесного согласия, записанного талантом аватара.
    • Введите имя аватара таланта и название вашей компании на том же языке, что и записанное заявление.
      • Имя таланта аватара должно быть именем человека, который записал согласие.
      • Имя компании должно совпадать с именем компании, которое было произнесено в записанном заявлении.
    • Вы можете загрузить данные из локальных файлов или из общего хранилища Azure Blob.

    Снимок экрана: диалоговое окно, в котором выбрано видео согласия таланта для отправки.

  4. Выберите "Отправить".

После успешной отправки согласия на использование таланта аватара вы можете продолжить настройку вашей пользовательской модели аватара.

Шаг 3. Добавление обучающих данных

Служба речи использует данные обучения для создания уникального аватара, настроенного под внешний вид человека в записях. После обучения модели аватара можно начать синтез видео аватара или использовать его для динамических чатов в приложениях.

Все передаваемые данные должны соответствовать требованиям выбранного типа данных. Чтобы служба "Речь" точно обрабатывает данные, важно правильно отформатировать данные перед отправкой. Чтобы убедиться, что данные правильно отформатированы, см. требования к данным.

Отправка данных

Когда вы будете готовы отправить данные, перейдите на вкладку "Подготовка обучающих данных ", чтобы добавить данные.

Чтобы отправить обучающие данные, выполните следующие действия.

  1. Войдите в Speech Studio.

  2. Выберите «Настраиваемый аватар»> Ваше имя проекта >«Подготовка обучающих данных»> и «Загрузить данные».

    Снимок экрана: страница подготовки обучающих данных с кнопкой для отправки обучающих данных.

  3. В мастере отправки данных выберите тип данных и нажмите кнопку "Далее". Дополнительные сведения о типах данных (включая естественная речь, молчание, жест и состояние 0) см. какие видеоклипы записывать.

  4. Выберите локальные файлы на компьютере или введите URL-адрес хранилища BLOB-объектов Azure, где хранятся данные.

  5. Нажмите кнопку "Далее".

  6. Просмотрите сведения о отправке и нажмите кнопку "Отправить".

Файлы данных автоматически проверяются при нажатии кнопки "Отправить". Проверка данных включает ряд проверок видеофайлов, чтобы проверить их формат, размер и общий том. Если возникают ошибки, исправьте их и отправьте еще раз.

После отправки данных можно проверить обзор данных, указывающий, достаточно ли предоставлено количество данных для начала обучения. На этом снимках экрана показан пример достаточного количества данных, добавленных для обучения аватара без других жестов.

Снимок экрана: добавлено достаточно данных для обучения аватара без других жестов.

Шаг 4. Обучение модели аватара

Важно

Все обучающие данные в проекте включены в обучение. Качество модели зависит от предоставленных данных, и вы отвечаете за качество видео. Убедитесь, что вы записываете обучающие видео в соответствии с руководством по записи примеров видео.

Чтобы создать настраиваемый аватар в Speech Studio, выполните следующие действия для одного из следующих методов:

  1. Войдите в Speech Studio.

  2. Выберите Пользовательский аватар> Имя вашего проекта >Обучение модели>Обучение модели.

  3. Введите имя, чтобы определить модель. Тщательно выберите имя. Имя модели используется в качестве имени аватара в вашем запросе синтеза SDK и входных данных на языке разметки для синтеза речи (SSML). Разрешены только буквы, цифры, дефисы и символы подчеркивания. Используйте уникальное имя для каждой модели.

    Важно

    Имя модели аватара должно быть уникальным в пределах одного ресурса службы "Речь" или "Службы искусственного интеллекта".

  4. Выберите "Обучение ", чтобы начать обучение модели.

Длительность обучения зависит от того, сколько данных вы используете. Обычно для обучения пользовательского аватара в среднем требуется 20–40 вычислительных часов. Проверьте примечание о ценах на обучение.

Копирование пользовательской модели аватара в другой проект (необязательно)

Настраиваемое обучение аватара в настоящее время доступно только в некоторых регионах. После обучения вашей модели аватара в поддерживаемом регионе его можно скопировать в ресурс служб ИИ для распознавания речи в другом регионе по мере необходимости. Дополнительные сведения см. в сносках в таблице регионов.

Примечание

Вы можете скопировать только голосовую синхронизацию для модели аватара в регионы, поддерживающие голосовую синхронизацию для функции аватара, которые являются теми же регионами, которые поддерживают личный голос. См. страницу поддержки региона .

Чтобы скопировать пользовательскую модель аватара в другой проект:

  1. На вкладке "Обучение модели" выберите модель аватара, которую требуется скопировать, а затем выберите Копировать в проект.
  2. Выберите подписку, регион, ресурс служб ИИ для службы распознавания речи и проект, в который нужно скопировать модель. Необходимо иметь в целевом регионе ресурс служб ИИ для речи и проект, в противном случае необходимо сначала создать их.
  3. Нажмите кнопку "Отправить ", чтобы скопировать модель.

После копирования модели вы увидите уведомление в Speech Studio.

Перейдите к проекту, в котором вы скопировали модель для развертывания копии модели.

Шаг 5. Развертывание и использование модели аватара

После успешного создания и обучения модели аватара вы развернете ее в конечной точке.

Чтобы развернуть аватар, выполните приведенные действия.

  1. Войдите в Speech Studio.
  2. Выберите Настраиваемый аватар>> Развернуть модель.
  3. Выберите " Развернуть модель " и выберите модель, которую нужно развернуть.
  4. Выберите "Развернуть" , чтобы начать развертывание.

    Важно

    При развертывании модели вы платите за непрерывное время работы конечной точки независимо от взаимодействия с этой конечной точкой. Проверьте ценовую заметку о том, как взимается плата за развертывание модели. Вы можете удалить развертывание, если модель не используется для уменьшения расходов и экономии ресурсов.

После развертывания пользовательского аватара он доступен для использования в Speech Studio или через API:

Удаление развертывания

Чтобы удалить развертывание, выполните следующие действия.

  1. Войдите в Speech Studio.
  2. Перейдите к пользовательскому аватару> вашему имени проекта >развернуть модель.
  3. Выберите развертывание на странице "Развертывание модели ". Модель активно размещена, если статус "Успешно".
  4. Нажмите кнопку "Удалить развертывание " и подтвердите удаление, чтобы удалить хостинг.

Совет

После удаления развертывания вы больше не платите за его размещение. Удаление развертывания не приводит к удалению модели. Если вы хотите снова использовать модель, создайте новое развертывание.

Дальнейшие действия