Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Используйте сервер Azure MCP для управления службами Azure Speech в возможностях средств Foundry, таких как преобразование речи в текст (STT) и преобразование текста в речь (TTS) при помощи запросов на естественном языке.
Замечание
Параметры средств: Средства сервера MCP Azure определяют параметры данных, необходимых для выполнения задач. Некоторые из этих параметров относятся к каждому инструменту и описаны ниже. Другие параметры являются глобальными и общими для всех инструментов. Дополнительные сведения см. в разделе "Параметры средства".
Распознавание речи
Распознавание речи из звукового файла с помощью Speech. Эта команда принимает звуковой файл и преобразует его в текст с помощью расширенных возможностей распознавания речи. Поддерживаемые форматы звука включают WAV, MP3, OPUS/OGG, FLAC, ALAW, MULAW, MP4, M4A и AAC. Сжатые форматы требуют установки GStreamer в системе.
Примеры запросов:
- Основное преобразование: "Преобразование аудиофайла ./meeting-recording.wav в текст, используя конечную точку и службу Azure Speech Services".
-
С обнаружением языка: "Распознавать речь из файла ./recording.mp3 через конечную точку
https://myservice.cognitiveservices.azure.com/". -
С фильтрацией ненормативной лексики: "Транскрибировать речь из файла ./interview.wav, используя конечную точку
https://myservice.cognitiveservices.azure.com/без параметра фильтрации ненормативной лексики". -
Specify endpoint: "Преобразование речи в текст из файла ./audio.wav с помощью конечной точки
https://myservice.cognitiveservices.azure.com/" - язык испанский: "Расшифруйте аудиофайл ./session.wav, используя конечную точку
https://myservice.cognitiveservices.azure.com/на языке es-ES" -
Detailed output: "Преобразование речи в текст из файла ./audio.wav с помощью конечной точки
https://myservice.cognitiveservices.azure.com/с подробным форматом вывода". -
С подсказками для фраз: "Распознать речь из файла ./notes.wav с использованием конечной точки
https://myservice.cognitiveservices.azure.com/и подсказками по фразам 'Azure' для повышения точности". -
Несколько фразовых подсказок: "Transcribe file ./meeting.wav using endpoint
https://myservice.cognitiveservices.azure.com/с подсказками фраз: "Azure", "когнитивные сервисы", "machine learning" -
Подсказки, разделенные запятыми: "Преобразование речи в текст из файла ./podcast.mp3 с помощью конечной точки
https://myservice.cognitiveservices.azure.com/с подсказками для фраз: "Azure, когнитивные службы, API". - выходные данные с опцией обработки грубой брани (Raw): "Транскрибировать аудио из файла ./audio.wav с использованием конечной точки и опцией обработки грубой брани (raw)"
| Параметр | Обязательно или необязательно | Description |
|---|---|---|
| Конечная точка | Обязательно | URL-адрес конечной точки Azure AI Services (например, https://your-service.cognitiveservices.azure.com/). |
| Файл | Обязательно | Путь к локальному звуковому файлу для распознавания. |
| Язык | Необязательно | Язык для распознавания речи (например, en-US, es-ES). По умолчанию — en-US. |
| Фразы | Необязательно | Подсказки фраз для повышения точности распознавания. Можно указать несколько раз или как значения, разделенные запятыми. |
| Формат | Необязательно | Формат вывода: simple или detailed. |
| Ненормативная лексика | Необязательно | Фильтр ненормативной лексики: masked, removedили raw. По умолчанию — masked. |
Подсказки аннотаций заметки инструмента:
Разрушительный: ❌ | Идемпотент: ✅ | Открытый мир: ❌ | Только для чтения: ✅ | Секрет: ❌ | Локально обязательно: ✅
Текст в речь: синтезирование
Преобразование текста в речь с помощью Speech. Эта команда принимает текстовые данные и создает звуковой файл с помощью расширенных возможностей нейронного преобразования текста в речь.
Примеры запросов:
-
Basic синтез: "Преобразуйте текст 'Привет, добро пожаловать в Инструменты Foundry' в речь с помощью конечной точки
https://myservice.cognitiveservices.azure.com/и сохраните в output.wav". -
С помощью пользовательского голоса: "Синтезировать 'Спасибо за использование нашей службы' в аудиофайл greeting.mp3 с помощью моего пользовательского голоса my-custom-voice в службе
https://myservice.cognitiveservices.azure.com/и конечной точке guid-endpoint. - Different language: "Сгенерировать испанскую речь для 'Bienvenido a Azure' и сохранить в welcome-es.wav, используя мою конечную точку речи https://myresource.cognitiveservices.azure.com/ на языке es-ES".
| Параметр | Обязательно или необязательно | Description |
|---|---|---|
| Конечная точка | Обязательно | URL-адрес конечной точки Azure AI Services (например, https://your-service.cognitiveservices.azure.com/). |
| Текст | Обязательно | Текст для преобразования в речь. |
| Путь к выходному файлу | Обязательно | Путь, в котором будет сохранен синтезированный звуковой файл. |
| Язык | Необязательно | Язык для распознавания речи (например, en-US, es-ES). По умолчанию — en-US. |
| Голосовая связь | Необязательно | Голос, используемый для синтеза речи (например, en-US-JennyNeural). Если это не указано, будет использоваться голос по умолчанию для языка. |
| Формат | Необязательно | Формат вывода: Riff24Khz16BitMonoPcm, , Audio16Khz32KBitRateMonoMp3Audio24Khz96KBitRateMonoMp3Ogg16Khz16BitMonoOpus, . Raw16Khz16BitMonoPcm По умолчанию — Riff24Khz16BitMonoPcm. |
| Идентификатор конечной точки | Необязательно | Идентификатор конечной точки пользовательской голосовой модели для синтеза речи. |
Подсказки аннотаций заметки инструмента:
Разрушительный: ❌ | Идемпотент: ✅ | Открытый мир: ❌ | Только для чтения: ❌ | Секрет: ❌ | Локально обязательно: ✅