Обзор Azure Speech в средствах Foundry для сервера Azure MCP

Используйте сервер Azure MCP для управления службами Azure Speech в возможностях средств Foundry, таких как преобразование речи в текст (STT) и преобразование текста в речь (TTS) при помощи запросов на естественном языке.

Замечание

Параметры средств: Средства сервера MCP Azure определяют параметры данных, необходимых для выполнения задач. Некоторые из этих параметров относятся к каждому инструменту и описаны ниже. Другие параметры являются глобальными и общими для всех инструментов. Дополнительные сведения см. в разделе "Параметры средства".

Распознавание речи

Распознавание речи из звукового файла с помощью Speech. Эта команда принимает звуковой файл и преобразует его в текст с помощью расширенных возможностей распознавания речи. Поддерживаемые форматы звука включают WAV, MP3, OPUS/OGG, FLAC, ALAW, MULAW, MP4, M4A и AAC. Сжатые форматы требуют установки GStreamer в системе.

Примеры запросов:

  • Основное преобразование: "Преобразование аудиофайла ./meeting-recording.wav в текст, используя конечную точку и службу Azure Speech Services".
  • С обнаружением языка: "Распознавать речь из файла ./recording.mp3 через конечную точку https://myservice.cognitiveservices.azure.com/".
  • С фильтрацией ненормативной лексики: "Транскрибировать речь из файла ./interview.wav, используя конечную точку https://myservice.cognitiveservices.azure.com/ без параметра фильтрации ненормативной лексики".
  • Specify endpoint: "Преобразование речи в текст из файла ./audio.wav с помощью конечной точки https://myservice.cognitiveservices.azure.com/"
  • язык испанский: "Расшифруйте аудиофайл ./session.wav, используя конечную точку https://myservice.cognitiveservices.azure.com/ на языке es-ES"
  • Detailed output: "Преобразование речи в текст из файла ./audio.wav с помощью конечной точки https://myservice.cognitiveservices.azure.com/ с подробным форматом вывода".
  • С подсказками для фраз: "Распознать речь из файла ./notes.wav с использованием конечной точки https://myservice.cognitiveservices.azure.com/ и подсказками по фразам 'Azure' для повышения точности".
  • Несколько фразовых подсказок: "Transcribe file ./meeting.wav using endpoint https://myservice.cognitiveservices.azure.com/ с подсказками фраз: "Azure", "когнитивные сервисы", "machine learning"
  • Подсказки, разделенные запятыми: "Преобразование речи в текст из файла ./podcast.mp3 с помощью конечной точки https://myservice.cognitiveservices.azure.com/ с подсказками для фраз: "Azure, когнитивные службы, API".
  • выходные данные с опцией обработки грубой брани (Raw): "Транскрибировать аудио из файла ./audio.wav с использованием конечной точки и опцией обработки грубой брани (raw)"
Параметр Обязательно или необязательно Description
Конечная точка Обязательно URL-адрес конечной точки Azure AI Services (например, https://your-service.cognitiveservices.azure.com/).
Файл Обязательно Путь к локальному звуковому файлу для распознавания.
Язык Необязательно Язык для распознавания речи (например, en-US, es-ES). По умолчанию — en-US.
Фразы Необязательно Подсказки фраз для повышения точности распознавания. Можно указать несколько раз или как значения, разделенные запятыми.
Формат Необязательно Формат вывода: simple или detailed.
Ненормативная лексика Необязательно Фильтр ненормативной лексики: masked, removedили raw. По умолчанию — masked.

Подсказки аннотаций заметки инструмента:

Разрушительный: ❌ | Идемпотент: ✅ | Открытый мир: ❌ | Только для чтения: ✅ | Секрет: ❌ | Локально обязательно: ✅

Текст в речь: синтезирование

Преобразование текста в речь с помощью Speech. Эта команда принимает текстовые данные и создает звуковой файл с помощью расширенных возможностей нейронного преобразования текста в речь.

Примеры запросов:

  • Basic синтез: "Преобразуйте текст 'Привет, добро пожаловать в Инструменты Foundry' в речь с помощью конечной точки https://myservice.cognitiveservices.azure.com/ и сохраните в output.wav".
  • С помощью пользовательского голоса: "Синтезировать 'Спасибо за использование нашей службы' в аудиофайл greeting.mp3 с помощью моего пользовательского голоса my-custom-voice в службе https://myservice.cognitiveservices.azure.com/ и конечной точке guid-endpoint.
  • Different language: "Сгенерировать испанскую речь для 'Bienvenido a Azure' и сохранить в welcome-es.wav, используя мою конечную точку речи https://myresource.cognitiveservices.azure.com/ на языке es-ES".
Параметр Обязательно или необязательно Description
Конечная точка Обязательно URL-адрес конечной точки Azure AI Services (например, https://your-service.cognitiveservices.azure.com/).
Текст Обязательно Текст для преобразования в речь.
Путь к выходному файлу Обязательно Путь, в котором будет сохранен синтезированный звуковой файл.
Язык Необязательно Язык для распознавания речи (например, en-US, es-ES). По умолчанию — en-US.
Голосовая связь Необязательно Голос, используемый для синтеза речи (например, en-US-JennyNeural). Если это не указано, будет использоваться голос по умолчанию для языка.
Формат Необязательно Формат вывода: Riff24Khz16BitMonoPcm, , Audio16Khz32KBitRateMonoMp3Audio24Khz96KBitRateMonoMp3Ogg16Khz16BitMonoOpus, . Raw16Khz16BitMonoPcm По умолчанию — Riff24Khz16BitMonoPcm.
Идентификатор конечной точки Необязательно Идентификатор конечной точки пользовательской голосовой модели для синтеза речи.

Подсказки аннотаций заметки инструмента:

Разрушительный: ❌ | Идемпотент: ✅ | Открытый мир: ❌ | Только для чтения: ❌ | Секрет: ❌ | Локально обязательно: ✅