Обзор Azure Speech в средствах Foundry для сервера Azure MCP

Используйте сервер Azure MCP для управления службами Azure Speech в возможностях средств Foundry, таких как преобразование речи в текст (STT) и преобразование текста в речь (TTS) при помощи запросов на естественном языке.

Замечание

Параметры средств: Средства сервера MCP Azure определяют параметры данных, необходимых для выполнения задач. Некоторые из этих параметров относятся к каждому инструменту и описаны ниже. Другие параметры являются глобальными и общими для всех инструментов. Дополнительные сведения см. в разделе "Параметры средства".

Распознавание речи

Распознавание речи из звукового файла с помощью Speech. Эта команда принимает звуковой файл и преобразует его в текст с помощью расширенных возможностей распознавания речи. Поддерживаемые форматы звука включают WAV, MP3, OPUS/OGG, FLAC, ALAW, MULAW, MP4, M4A и AAC. Сжатые форматы требуют установки GStreamer в системе.

Примеры запросов:

Основное преобразование: "Преобразование аудиофайла ./meeting-recording.wav в текст, используя конечную точку и службу Azure Speech Services".
С обнаружением языка: "Распознавать речь из файла ./recording.mp3 через конечную точку https://myservice.cognitiveservices.azure.com/".
С фильтрацией ненормативной лексики: "Транскрибировать речь из файла ./interview.wav, используя конечную точку https://myservice.cognitiveservices.azure.com/ без параметра фильтрации ненормативной лексики".
Specify endpoint: "Преобразование речи в текст из файла ./audio.wav с помощью конечной точки https://myservice.cognitiveservices.azure.com/"
язык испанский: "Расшифруйте аудиофайл ./session.wav, используя конечную точку https://myservice.cognitiveservices.azure.com/ на языке es-ES"
Detailed output: "Преобразование речи в текст из файла ./audio.wav с помощью конечной точки https://myservice.cognitiveservices.azure.com/ с подробным форматом вывода".
С подсказками для фраз: "Распознать речь из файла ./notes.wav с использованием конечной точки https://myservice.cognitiveservices.azure.com/ и подсказками по фразам 'Azure' для повышения точности".
Несколько фразовых подсказок: "Transcribe file ./meeting.wav using endpoint https://myservice.cognitiveservices.azure.com/ с подсказками фраз: "Azure", "когнитивные сервисы", "machine learning"
Подсказки, разделенные запятыми: "Преобразование речи в текст из файла ./podcast.mp3 с помощью конечной точки https://myservice.cognitiveservices.azure.com/ с подсказками для фраз: "Azure, когнитивные службы, API".
выходные данные с опцией обработки грубой брани (Raw): "Транскрибировать аудио из файла ./audio.wav с использованием конечной точки и опцией обработки грубой брани (raw)"

Параметр	Обязательно или необязательно	Description
Конечная точка	Обязательно	URL-адрес конечной точки Azure AI Services (например, `https://your-service.cognitiveservices.azure.com/`).
Файл	Обязательно	Путь к локальному звуковому файлу для распознавания.
Язык	Необязательно	Язык для распознавания речи (например, `en-US`, `es-ES`). По умолчанию — `en-US`.
Фразы	Необязательно	Подсказки фраз для повышения точности распознавания. Можно указать несколько раз или как значения, разделенные запятыми.
Формат	Необязательно	Формат вывода: `simple` или `detailed`.
Ненормативная лексика	Необязательно	Фильтр ненормативной лексики: `masked`, `removed`или `raw`. По умолчанию — `masked`.

Подсказки аннотаций заметки инструмента:

Текст в речь: синтезирование

Преобразование текста в речь с помощью Speech. Эта команда принимает текстовые данные и создает звуковой файл с помощью расширенных возможностей нейронного преобразования текста в речь.

Примеры запросов:

Basic синтез: "Преобразуйте текст 'Привет, добро пожаловать в Инструменты Foundry' в речь с помощью конечной точки https://myservice.cognitiveservices.azure.com/ и сохраните в output.wav".
С помощью пользовательского голоса: "Синтезировать 'Спасибо за использование нашей службы' в аудиофайл greeting.mp3 с помощью моего пользовательского голоса my-custom-voice в службе https://myservice.cognitiveservices.azure.com/ и конечной точке guid-endpoint.
Different language: "Сгенерировать испанскую речь для 'Bienvenido a Azure' и сохранить в welcome-es.wav, используя мою конечную точку речи https://myresource.cognitiveservices.azure.com/ на языке es-ES".

Параметр	Обязательно или необязательно	Description
Конечная точка	Обязательно	URL-адрес конечной точки Azure AI Services (например, `https://your-service.cognitiveservices.azure.com/`).
Текст	Обязательно	Текст для преобразования в речь.
Путь к выходному файлу	Обязательно	Путь, в котором будет сохранен синтезированный звуковой файл.
Язык	Необязательно	Язык для распознавания речи (например, `en-US`, `es-ES`). По умолчанию — `en-US`.
Голосовая связь	Необязательно	Голос, используемый для синтеза речи (например, `en-US-JennyNeural`). Если это не указано, будет использоваться голос по умолчанию для языка.
Формат	Необязательно	Формат вывода: `Riff24Khz16BitMonoPcm`, , `Audio16Khz32KBitRateMonoMp3Audio24Khz96KBitRateMonoMp3Ogg16Khz16BitMonoOpus`, . `Raw16Khz16BitMonoPcm` По умолчанию — `Riff24Khz16BitMonoPcm`.
Идентификатор конечной точки	Необязательно	Идентификатор конечной точки пользовательской голосовой модели для синтеза речи.

Подсказки аннотаций заметки инструмента:

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-03-12

Обзор Azure Speech в средствах Foundry для сервера Azure MCP

Распознавание речи

Текст в речь: синтезирование

Связанный контент

Обратная связь

Дополнительные ресурсы