Что такое служба Azure Speech?

Azure Speech в инструментах Foundry предоставляет преобразование речи в текст, текста в речь и другие возможности с помощью ресурса Microsoft Foundry. Вы можете транскрибировать речь в текст с высокой точностью, создавать естественно звучащие голоса текст-в-речь, переводить устную речь и проводить живые голосовые беседы с ИИ.

Снимок экрана: плитки, которые выделяют некоторые функции службы

Вы можете создавать пользовательские голоса, добавлять конкретные слова в базовый словарь или создавать собственные модели. Запустите службу Azure Speech в любом месте, в облаке или на границе в контейнерах. Включите приложения, средства и устройства для речи с помощью интерфейса командной строки службы "Речь", пакета SDK службы "Речь" и REST API.

Речь Azure доступна для многих языков, регионов и ценовых точек.

Сценарии

Распространенные сценарии использования речи:

  • Создание субтитров: узнайте, как синхронизировать субтитры с входящим звуком, применять фильтры ненормативной лексики, получать частичные результаты, применять настройки и определять язык речи в сценариях с использованием нескольких языков.
  • Создание аудиоконтента: используйте нейронные голоса, чтобы сделать взаимодействие с чат-ботами и голосовыми агентами более естественным и привлекательными, преобразовывать цифровые тексты, такие как электронные книги в аудиокниги, и улучшать системы навигации в автомобилях.
  • Центр обработки вызовов: транскрибирование вызовов в режиме реального времени или обработка пакета звонков, редактируйте личную информацию и извлеките аналитические сведения, такие как тональность, чтобы помочь в случае использования центра вызовов.
  • Изучение языков: Предоставление отзывов об оценке произношения для изучающих язык, поддержка транскрибирования в реальном времени для дистанционного обучения и чтение вслух учебных материалов с нейронными голосами.
  • Голосовая трансляция: создание естественных, человеческих диалоговых интерфейсов для приложений и возможностей. Функция Voice Live обеспечивает быстрое, надежное взаимодействие между человеком и реализацией агента.
  • Перевод речи: создание высококачественного перевода речи в речь в режиме реального времени или автоматическое создание переведенных видео на широком спектре языков.
  • Создание видео-аватаров: создание реалистичных и высококачественных синтетических видео-аватаров для различных приложений в режиме реального времени и пакетных приложений в соответствии с практиками ответственного искусственного интеллекта.

Корпорация Майкрософт использует речь Azure для многих сценариев, таких как субтитры в Microsoft Teams, диктовка в Microsoft Office 365 и чтение вслух в браузере Microsoft Edge.

Снимок экрана: логотипы продуктов Майкрософт, использующих речь Azure.

Capabilities

В следующих разделах приведены сведения о функциях службы "Речь Azure" и приведены ссылки для получения дополнительных сведений.

Преобразование речи в текст

Используйте речь в текст для преобразования звука в текст. Варианты:

Базовая модель может быть недостаточно, если звук содержит внешний шум или включает отраслевые и доменные жаргоны. В такой ситуации можно создать и обучить пользовательскую модель речи с применением акустических и языковых данных и данных о произношении. Пользовательские модели речи являются закрытыми и могут обеспечить конкурентное преимущество.

Преобразование текста в речь

С системой преобразования текста в речь вы можете преобразовать входной текст в человеческую синтезированную речь. Используйте нейронные голоса, которые являются человеческими голосами, управляемыми глубокими нейронными сетями. Используйте язык разметки синтеза речи (SSML), чтобы точно настроить тон, произношение, скорость речи, громкость и многое другое.

Параметры голосовой связи включают:

  • Стандартный голос: Вы можете выбрать среди уже готовых, естественных голосов. Проверьте стандартные образцы голосов в Галерее голосов и выберите подходящий голос для ваших бизнес-требований.
  • Пользовательский голос: вы можете создать пользовательский голос , который узнаваем и уникален для вашего бренда или продукта. Индивидуальные голоса являются приватными и могут предоставить конкурентное преимущество. Проверьте пользовательские примеры голосовой связи.

Аватар "Текст в речь"

Аватар текст-в-речь преобразует текст в цифровое видео фотореалистического человека, говорящего естественным голосом. Видео можно синтезировать асинхронно или в режиме реального времени. Вы можете создавать приложения, интегрированные с аватаром синтеза речи через API, или использовать аватар синтеза речи на платформе Foundry для создания видео-контента без написания кода. Эта функция позволяет вам создавать реалистичные и высококачественные видео с синтетическими говорящими аватарами для различных приложений, придерживаясь ответственной практики использования искусственного интеллекта.

Вы можете выбрать из диапазона стандартных голосов для аватара. Поддержка языков для аватара синтеза речи та же, что и поддержка для синтеза речи в целом.

Перевод речи

Перевод речи позволяет применять в инструментах, приложениях и устройствах решение для перевода устной речи на многих языках в режиме реального времени. Используйте эту функцию для преобразования речи в речь и преобразования речи в текст.

Голосовой интерфейс LLM (бета-версия)

Воспользуйтесь преимуществами крупной языковой модели (LLM) расширенной модели речи в речи LLM. Эта функция в настоящее время поддерживает следующие задачи:

  • transcribe: преобразуйте предварительно записанный звук в текст.
  • translate: преобразуйте предварительно записанный звук в текст на указанном целевом языке.

Модель распознавания речи с улучшением LLM обеспечивает улучшенное качество, глубокое контекстное понимание, многоязычную поддержку и возможности настройки подсказок. Функция распознавания речи LLM обладает такой же ультра-быстрой производительностью как и быстрое транскрибирование. Варианты использования включают создание подписей и субтитров из аудиофайлов, сводку заметок собрания, помощь агентов центра вызовов, транскрибирование голосовых сообщений и многое другое.

Идентификация языка

Идентификация языка помогает определить языки, произнесенные в звуке, сравнивая их со списком поддерживаемых языков. Используйте идентификацию языка самостоятельно, с распознаванием речи в текст или с переводом речи.

Оценка произношения

Оценка произношения представляет собой оценку речи и предлагает говорящим отзывы о точности и владении языком лица, чья речь записана в формате аудио. Используя оценку произношения, учащиеся языка могут практикуть, получать мгновенные отзывы и улучшать их произношение, чтобы они могли говорить и представлять с уверенностью.

Развертывание и представительство

Вы можете развернуть функции службы "Речь Azure" в облаке или локальной среде.

Используя контейнеры, вы можете приблизить службу к данным для соблюдения требований, обеспечения безопасности или по другим операционным причинам.

Развертывание Azure Speech в суверенных облаках доступно для некоторых государственных организаций и их партнеров. Например, облако Azure для государственных организаций доступно для государственных организаций США и их партнеров. Azure, управляемый облаком 21Vianet, доступен организациям, имеющим бизнес-присутствие в Китае. Дополнительные сведения см. в разделе Служба речи в суверенных облаках.

Схема, показывающая, где можно развернуть и получить доступ к Azure Speech.

Интеграция службы "Речь Azure" в приложении

Speech Studio — это набор средств на основе пользовательского интерфейса для создания и интеграции функций из службы "Речь Azure" в приложениях. Вы создаете проекты в Speech Studio с помощью подхода без кода. Затем вы можете ссылаться на эти ресурсы в приложениях с помощью:

  • SDK для работы с речью. Этот пакет SDK предоставляет множество возможностей службы "Речь Azure", которые можно использовать для разработки приложений с поддержкой речи. Speech SDK доступен на многих языках программирования и на всех платформах.

  • Интерфейс командной строки службы "Речь". С помощью этого средства командной строки вы можете использовать речь Azure без необходимости писать код. В интерфейсе командной строки службы "Речь" доступно большинство функций из пакета SDK службы "Речь", а некоторые дополнительные функции и настройки упрощены.

  • REST API. В некоторых случаях вы не можете или не должны использовать SDK для распознавания речи. В этих случаях для доступа к службе "Речь Azure" можно использовать REST API. Например, используйте REST API для пакетной транскрипции.

Примеры кода

Пример кода службы "Речь Azure" доступен на сайте GitHub. В этих примерах рассматриваются сценарии общего характера, такие как чтение аудио из файла или потока, непрерывное и одиночное распознавание, а также работа с пользовательскими моделями. Используйте эти ссылки, чтобы просмотреть примеры для пакета SDK и REST:

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Используйте следующие ресурсы, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.

Преобразование речи в текст

Оценка произношения

Пользовательский голос

Следующие краткие руководства доступны для речевых возможностей Azure. Каждое краткое руководство познакомит вас с основными шаблонами проектирования во многих популярных языках программирования и позволит вам выполнить код менее чем за десять минут.