Что такое перевод речи?

В этой статье вы узнаете о преимуществах и возможностях перевода с помощью Azure Speech в инструментах Foundry. Служба "Речь" поддерживает перевод аудиопотоков в режиме реального времени с многоязычного голоса в голос и с голоса в текст.

С помощью пакета SDK службы "Речь" или интерфейса командной строки службы "Речь", вы можете предоставить приложениям, инструментам и устройствам доступ к исходным транскрипциям и выходным данным перевода для предоставленного звука. Промежуточные результаты транскрибирования и перевода предоставляются, как только происходит обнаружение речи, а окончательные результаты могут быть преобразованы в синтезированную речь.

Список языков, поддерживаемых для перевода речи, см. в статье Поддержка языков и голоса.

Совет

Перейдите в Speech Studio , чтобы быстро протестировать и перевести речь на другие языки с низкой задержкой.

Основные возможности

Основные функции перевода речи включают:

Преобразование речи в текст
Перевод речи с языка на язык
Многоязычный перевод речи
Динамический интерпретатор
Перевод нескольких целевых языков

Перевод речи в текст

Стандартная функция, предлагаемая службой "Речь", — это возможность принимать входной аудиопоток в указанном исходном языке и выводить его в виде текста в указанном целевом языке.

Перевод речи на речь

В дополнение к приведенной выше функции служба "Речь" также предлагает возможность считывать вслух переведенный текст с помощью нашей большой базы данных предварительно обученных голосов, что позволяет получить естественные выходные данные входной речи.

Многоязычный перевод речи

Многоязычный перевод речи реализует новый уровень технологии перевода речи, которая разблокирует различные возможности, включая отсутствие указанного языка ввода, обработку языковых коммутаторов в рамках одного сеанса и поддержку потоковых переводов на английский язык. Эти функции обеспечивают новый уровень возможностей перевода речи, которые могут быть реализованы в ваших продуктах.

Неопределенный язык ввода. Многоязычный перевод речи может получать звук в широком диапазоне языков, и нет необходимости указывать ожидаемый язык ввода.
Переключение языков. Многоязычный перевод речи позволяет говорить на нескольких языках во время одного сеанса и переводить их на один и тот же целевой язык. При изменении языка ввода или других действиях сеанса не требуется перезапустить.
Транскрипция. Служба выводит транскрибирование на указанном целевом языке. Транскрибирование исходного языка пока недоступно.

Ниже приведены некоторые варианты использования для многоязычного перевода речи:

Интерпретатор путешествий. При поездке за границу многоязычный перевод речи предоставляет возможность создавать решение, позволяющее клиентам переводить любой входной звук на локальный язык и с этого языка. Это позволяет им взаимодействовать с местными жителями и лучше понять их окружение.
Бизнес-собрание. В собрании с людьми, которые говорят на разных языках, многоязычный перевод речи позволяет членам собрания взаимодействовать друг с другом естественно, как если бы не было языковых барьеров.

Список поддерживаемых языков ввода (источника) см. в документации по речи на текстовые языки. Для получения списка поддерживаемых языков выходных данных (целевых) см. таблицу Перевод на текстовый язык в документации по языкам перевода речи.

Дополнительные сведения о переводе речи см. в руководстве по переводу речи и образцах перевода речи на GitHub.

Интерактивный интерпретатор

Живой переводчик автоматически определяет язык, на котором говорят, без необходимости задавать язык ввода, и обеспечивает перевод с минимальной задержкой и в естественном голосе, который сохраняет стиль и тон говорящего. Интерактивный интерпретатор помогает людям четко и инклюзивно взаимодействовать в повседневных сценариях, например в собраниях Teams, центрах поддержки клиентов, международных аудиториях или глобальных событиях.

Список поддерживаемых языков ввода (источника) см. в документации по речи на текстовые языки.

Пример кода динамического интерпретатора см. в руководстве по переводу речи.

Перевод нескольких целевых языков

В сценариях, где требуется вывод на нескольких языках, служба "Речь" напрямую обеспечивает возможность перевода языка ввода на два целевых языка. Это позволяет получать два выхода и делиться этими переводами с широкой аудиторией в одном вызове API. Если требуются дополнительные языки вывода, можно создать ресурс с несколькими службами или использовать отдельные службы перевода.

Если вам требуется перевод на более чем два целевых языка, вам необходимо либо создать ресурс Foundry, либо использовать отдельные службы перевода для большего количества языков помимо второго. Если вы вызываете службу перевода речи с мульти-сервисным ресурсом, обратите внимание, что плата за перевод применяется к каждому языку помимо второго, в зависимости от числа символов.

Чтобы вычислить примененную плату за перевод, см. Azure Translator в ценах на средства Foundry.

Цены на перевод на несколько целевых языков

Важно отметить, что служба перевода речи работает в режиме реального времени, а промежуточные результаты речи переводятся для создания промежуточных результатов перевода. Таким образом, объем переводимой информации превышает токены входного звука. Плата взимается за транскрипцию речи в текст и перевод текста на каждый целевой язык.

Например, предположим, что требуется перевод текста из одночасового аудиофайла на три целевых языка. Если исходная транскрипция речи в текст содержит 10 000 символов, может взиматься плата в размере $2,80.

Предупреждение

Цены в этом примере предназначены только для иллюстрационных целей. Смотрите цены на Azure Speech и цены на Translator для получения самой актуальной информации о ценах.

В предыдущем примере цена $ 2,80 была рассчитана путем комбинирования стоимости транскрибирования речи в текст и перевода текста. Вот как было выполнено вычисление:

Цена на перевод речи составляет $2,50 в час, охватывая до 2 целевых языков. Цена используется в качестве примера вычисления затрат. См. раздел Standard>Speech translation>Standard в таблице цен на Azure Speech для получения актуальной информации о ценах.
Стоимость перевода третьего языка составляет 30 центов в этом примере. Цена на перевод составляет $10 за миллион символов. Так как звуковой файл содержит 10 000 символов, стоимость перевода составляет $ 10 * 10 000 / 1000 000 * 3 = $ 0,3. Число "3" в этом уравнении представляет весовый коэффициент промежуточного трафика, который может отличаться в зависимости от языков, участвующих в этом уравнении. Цена используется в качестве примера вычисления затрат. См. раздел Standard>Стандартный перевод>Текстовый перевод в таблице цен Translator для получения самой актуальной информации о ценах.

Начать

В качестве первого шага попробуйте краткое руководство по быстрому переводу речи. Служба перевода речи доступна через пакет SDK "Речь", и Интерфейс командной строки "Речь".

Вы найдёте образцы преобразования речи в текст и перевода от Speech SDK на GitHub. В этих примерах рассматриваются сценарии общего характера, такие как чтение аудио из файла или потока, непрерывное и одиночное распознавание и перевод, а также работа с пользовательскими моделями.

Следующие шаги

Ознакомьтесь с кратким руководством по переводу речи
Установите Speech SDK.
Установите интерфейс командной строки Speech CLI

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-02-25