Что такое служба Azure Speech?

Azure Speech в инструментах Foundry предоставляет преобразование речи в текст, текста в речь и другие возможности с помощью ресурса Microsoft Foundry. Вы можете транскрибировать речь в текст с высокой точностью, создавать естественно звучащие голоса текст-в-речь, переводить устную речь и проводить живые голосовые беседы с ИИ.

Снимок экрана: плитки, которые выделяют некоторые функции службы

Вы можете создавать пользовательские голоса, добавлять конкретные слова в базовый словарь или создавать собственные модели. Запустите службу Azure Speech в любом месте, в облаке или на границе в контейнерах. Включите приложения, средства и устройства для речи с помощью интерфейса командной строки службы "Речь", пакета SDK службы "Речь" и REST API.

Речь Azure доступна для многих языков, регионов и ценовых точек.

Сценарии

Распространенные сценарии использования речи:

Создание субтитров: узнайте, как синхронизировать субтитры с входящим звуком, применять фильтры ненормативной лексики, получать частичные результаты, применять настройки и определять язык речи в сценариях с использованием нескольких языков.
Создание аудиоконтента: используйте нейронные голоса, чтобы сделать взаимодействие с чат-ботами и голосовыми агентами более естественным и привлекательными, преобразовывать цифровые тексты, такие как электронные книги в аудиокниги, и улучшать системы навигации в автомобилях.
Центр обработки вызовов: транскрибирование вызовов в режиме реального времени или обработка пакета звонков, редактируйте личную информацию и извлеките аналитические сведения, такие как тональность, чтобы помочь в случае использования центра вызовов.
Изучение языков: Предоставление отзывов об оценке произношения для изучающих язык, поддержка транскрибирования в реальном времени для дистанционного обучения и чтение вслух учебных материалов с нейронными голосами.
Голосовая трансляция: создание естественных, человеческих диалоговых интерфейсов для приложений и возможностей. Функция Voice Live обеспечивает быстрое, надежное взаимодействие между человеком и реализацией агента.
Перевод речи: создание высококачественного перевода речи в речь в режиме реального времени или автоматическое создание переведенных видео на широком спектре языков.
Создание видео-аватаров: создание реалистичных и высококачественных синтетических видео-аватаров для различных приложений в режиме реального времени и пакетных приложений в соответствии с практиками ответственного искусственного интеллекта.

Корпорация Майкрософт использует речь Azure для многих сценариев, таких как субтитры в Microsoft Teams, диктовка в Microsoft Office 365 и чтение вслух в браузере Microsoft Edge.

Снимок экрана: логотипы продуктов Майкрософт, использующих речь Azure.

Capabilities

В следующих разделах приведены сведения о функциях службы "Речь Azure" и приведены ссылки для получения дополнительных сведений.

Преобразование речи в текст

Используйте речь в текст для преобразования звука в текст. Варианты:

Транскрибирование в режиме реального времени для потоковой передачи звука.
Быстрое транскрибирование для предварительно записанных аудиофайлов.
Пакетное транскрибирование для обработки больших объемов звука асинхронно.

Базовая модель может быть недостаточно, если звук содержит внешний шум или включает отраслевые и доменные жаргоны. В такой ситуации можно создать и обучить пользовательскую модель речи с применением акустических и языковых данных и данных о произношении. Пользовательские модели речи являются закрытыми и могут обеспечить конкурентное преимущество.

Преобразование текста в речь

С системой преобразования текста в речь вы можете преобразовать входной текст в человеческую синтезированную речь. Используйте нейронные голоса, которые являются человеческими голосами, управляемыми глубокими нейронными сетями. Используйте язык разметки синтеза речи (SSML), чтобы точно настроить тон, произношение, скорость речи, громкость и многое другое.

Параметры голосовой связи включают:

Стандартный голос: Вы можете выбрать среди уже готовых, естественных голосов. Проверьте стандартные образцы голосов в Галерее голосов и выберите подходящий голос для ваших бизнес-требований.
Пользовательский голос: вы можете создать пользовательский голос , который узнаваем и уникален для вашего бренда или продукта. Индивидуальные голоса являются приватными и могут предоставить конкурентное преимущество. Проверьте пользовательские примеры голосовой связи.

Аватар "Текст в речь"

Аватар текст-в-речь преобразует текст в цифровое видео фотореалистического человека, говорящего естественным голосом. Видео можно синтезировать асинхронно или в режиме реального времени. Вы можете создавать приложения, интегрированные с аватаром синтеза речи через API, или использовать аватар синтеза речи на платформе Foundry для создания видео-контента без написания кода. Эта функция позволяет вам создавать реалистичные и высококачественные видео с синтетическими говорящими аватарами для различных приложений, придерживаясь ответственной практики использования искусственного интеллекта.

Вы можете выбрать из диапазона стандартных голосов для аватара. Поддержка языков для аватара синтеза речи та же, что и поддержка для синтеза речи в целом.

Перевод речи

Перевод речи позволяет применять в инструментах, приложениях и устройствах решение для перевода устной речи на многих языках в режиме реального времени. Используйте эту функцию для преобразования речи в речь и преобразования речи в текст.

Голосовой интерфейс LLM (бета-версия)

Воспользуйтесь преимуществами крупной языковой модели (LLM) расширенной модели речи в речи LLM. Эта функция в настоящее время поддерживает следующие задачи:

transcribe: преобразуйте предварительно записанный звук в текст.
translate: преобразуйте предварительно записанный звук в текст на указанном целевом языке.

Модель распознавания речи с улучшением LLM обеспечивает улучшенное качество, глубокое контекстное понимание, многоязычную поддержку и возможности настройки подсказок. Функция распознавания речи LLM обладает такой же ультра-быстрой производительностью как и быстрое транскрибирование. Варианты использования включают создание подписей и субтитров из аудиофайлов, сводку заметок собрания, помощь агентов центра вызовов, транскрибирование голосовых сообщений и многое другое.

Идентификация языка

Идентификация языка помогает определить языки, произнесенные в звуке, сравнивая их со списком поддерживаемых языков. Используйте идентификацию языка самостоятельно, с распознаванием речи в текст или с переводом речи.

Оценка произношения

Оценка произношения представляет собой оценку речи и предлагает говорящим отзывы о точности и владении языком лица, чья речь записана в формате аудио. Используя оценку произношения, учащиеся языка могут практикуть, получать мгновенные отзывы и улучшать их произношение, чтобы они могли говорить и представлять с уверенностью.

Развертывание и представительство

Вы можете развернуть функции службы "Речь Azure" в облаке или локальной среде.

Используя контейнеры, вы можете приблизить службу к данным для соблюдения требований, обеспечения безопасности или по другим операционным причинам.

Развертывание Azure Speech в суверенных облаках доступно для некоторых государственных организаций и их партнеров. Например, облако Azure для государственных организаций доступно для государственных организаций США и их партнеров. Azure, управляемый облаком 21Vianet, доступен организациям, имеющим бизнес-присутствие в Китае. Дополнительные сведения см. в разделе Служба речи в суверенных облаках.

Схема, показывающая, где можно развернуть и получить доступ к Azure Speech.

Интеграция службы "Речь Azure" в приложении

Speech Studio — это набор средств на основе пользовательского интерфейса для создания и интеграции функций из службы "Речь Azure" в приложениях. Вы создаете проекты в Speech Studio с помощью подхода без кода. Затем вы можете ссылаться на эти ресурсы в приложениях с помощью:

SDK для работы с речью. Этот пакет SDK предоставляет множество возможностей службы "Речь Azure", которые можно использовать для разработки приложений с поддержкой речи. Speech SDK доступен на многих языках программирования и на всех платформах.
Интерфейс командной строки службы "Речь". С помощью этого средства командной строки вы можете использовать речь Azure без необходимости писать код. В интерфейсе командной строки службы "Речь" доступно большинство функций из пакета SDK службы "Речь", а некоторые дополнительные функции и настройки упрощены.
REST API. В некоторых случаях вы не можете или не должны использовать SDK для распознавания речи. В этих случаях для доступа к службе "Речь Azure" можно использовать REST API. Например, используйте REST API для пакетной транскрипции.

Примеры кода

Пример кода службы "Речь Azure" доступен на сайте GitHub. В этих примерах рассматриваются сценарии общего характера, такие как чтение аудио из файла или потока, непрерывное и одиночное распознавание, а также работа с пользовательскими моделями. Используйте эти ссылки, чтобы просмотреть примеры для пакета SDK и REST:

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Используйте следующие ресурсы, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.

Преобразование речи в текст

Оценка произношения

Пользовательский голос

Следующие краткие руководства доступны для речевых возможностей Azure. Каждое краткое руководство познакомит вас с основными шаблонами проектирования во многих популярных языках программирования и позволит вам выполнить код менее чем за десять минут.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-01-30

Что такое служба Azure Speech?

Сценарии

Capabilities

Преобразование речи в текст

Преобразование текста в речь

Аватар "Текст в речь"

Перевод речи

Голосовой интерфейс LLM (бета-версия)

Идентификация языка

Оценка произношения

Развертывание и представительство

Интеграция службы "Речь Azure" в приложении

Примеры кода

Ответственное применение ИИ

Преобразование речи в текст

Оценка произношения

Пользовательский голос

Связанный контент

Обратная связь

Дополнительные ресурсы