Azure речь обновляется на постоянной основе. Чтобы оставаться up-to-date с последними разработками, в этой статье содержатся сведения о новых выпусках и функциях.
Важно
Пакет SDK для службы "Речь" 1.48.2 и более новые выпуски включают критическое исправление для секционирования списка отзыва сертификатов (CRL) в Linux и Android. Если вы используете любую платформу с включенной проверкой списка отзыва сертификатов, обновите до версии 1.48.2 или более поздней до 1 июля 2026 г. Дополнительные сведения см. в статье об обновлении совместимости CRL.
Важно
Оценка содержимого (предварительная версия) через пакет SDK службы "Речь" была прекращена в июле 2025 года. Вместо этого можно использовать модели OpenAI Azure для получения результатов оценки содержимого, как описано в документации по оценке содержимого контентной оценки.
Пакет SDK для службы "Речь" 1.49.1: выпуск за апрель 2026 г.
Исправления ошибок:
- Исправлен сбой во встроенной обработке данных телеметрии речи.
Пакет SDK для службы "Речь" 1.49: выпуск за апрель 2026 г.
Заметки о поддержке целевой платформы:
- Поддержка Android x86 удаляется в этом выпуске.
Новые возможности:
- Обновлен Android OpenSSL до версии 3.0.19.
-
Python: оптимизирован размер колеса Linux.
Исправления ошибок:
- Исправлена утечка памяти во встроенной речи.
- Исправлены символы, не транскрибированные правильно в внедренном распознавании речи.
-
Python: утечки событий синтеза речи.
Пакет SDK службы "Речь" для JavaScript
Новые возможности:
- Добавлена обработка для
PropertyId.SpeechServiceResponse_PostProcessingOption.
- Добавлены измерения задержки синтеза речи.
- Добавлена поддержка потоковой передачи текста синтеза речи.
- Добавлена поддержка обновления синтеза перевода при изменении языков.
Исправления ошибок:
- Исправлены подробные результаты распознавания, которые не запрашиваются должным образом.
- Исправлена бесконечная рекурсия при использовании
DialogServiceConnector с недопустимым маркером.
- Исправлено перенаправление URL-адреса синтеза речи, не работающее с указанным пользователем путем.
Пакет SDK для службы "Речь" 1.48.2: выпуск 2026-февраль
Важно
Этот выпуск включает критическое исправление для секционирования списка отзыва сертификатов (CRL) в Linux и Android. Если вы используете любую платформу с включенной проверкой списка отзыва сертификатов, обновите до версии 1.48.2 до 1 июля 2026 г. Дополнительные сведения см. в статье об обновлении совместимости CRL.
Исправления ошибок:
- Исправлена логика ключа кэша CRL в Linux и Android для правильной обработки секционированных crLs. Теперь пакет SDK использует имя издателя и точку распространения CRL в качестве ключа кэша, предотвращая сбои
X509_V_ERR_DIFFERENT_CRL_SCOPE (ошибка 44) при подключении между регионами Azure или после смены сертификатов.
- Исправлены потенциальные сбои подключения после смены сертификатов в Linux и Android при включенной проверке списка отзыва сертификатов.
Пакет SDK для службы "Речь" 1.48.1: выпуск 2026-февраль
Заметки о поддержке целевой платформы:
- Поддержка Android x86 будет удалена после этого выпуска.
Новые возможности:
- Отключенные проверки списка отзыва сертификатов по умолчанию в Linux и Android.
- Улучшена обработка и ведение журнала сетевых ошибок.
- Оптимизировано время построения больших списков фраз.
-
Java: добавлена поддержка потоковой передачи текста синтеза речи.
-
Java: улучшено управление памятью JNI.
-
Javascript: Метрики задержки распознавания. Результаты распознавания теперь включают SpeechServiceResponse_RecognitionLatencyMs свойству, измеряющего сквозную задержку от входных данных звука к результату.
-
Javascript: Время ожидания остановки для распознавателей — новое свойство Recognizer_StopTimeoutMs обеспечивает защиту времени ожидания для stopContinuousRecognitionAsync(). Если служба не завершается в течение указанного времени, операция немедленно отменяется, а не ожидается на неопределенный срок.
-
Javascript: Конфигурация сцены аватара — новый класс AvatarSceneConfig позволяет настраивать масштаб аватара, позицию (X/Y), поворот (X/Y/Z) и амплитуду. Сцена может обновляться во время выполнения с помощью AvatarSynthesizer.updateSceneAsync().
Исправления ошибок:
- Исправлена ошибка в режиме диктовки при включении ведения журнала.
- Исправлена утечка связанной памяти CRL в сетевом стеке.
- Исправлены данные счетчиков производительности, иногда отсутствующие во встроенном распознавании речи.
- Исправлено сопоставление длины молчания с препинанием во встроенном синтезе речи.
- Исправлена кэширование границ слов в гибридном синтезе речи.
-
Javascript: Автоматическое обнаружение языка источника теперь принимает пустой или пустой параметр языка from.
-
JavaScript: добавлен @azure/core-auth в качестве зависимости пакета SDK для улучшения интеграции удостоверений Azure.
Образцы:
Java, Python: обновлены версии нескольких зависимостей для устранения уязвимостей системы безопасности.
Пакет SDK для службы "Речь" версии 1.47: выпуск за ноябрь 2025 г.
Новые возможности:
- Изменена политика по умолчанию, чтобы игнорировать ошибки из-за сетевых условий, которые препятствуют доступу к данным отзыва сертификатов в Интернете на клиентах Linux.
- [JavaScript] Добавлена поддержка указания имени базовой модели для аватаров фотографий.
Исправления ошибок:
Примеры обновлений:
- Удалены примеры распознавания намерений (за исключением автономной реализации распознавания намерений в C++) из-за выхода на пенсию службы.
- Удалены примеры распознавания говорящего из-за выхода службы на пенсию.
- Удалены примеры Unity, так как последние пакеты пакета SDK для службы "Речь" были опубликованы для выпуска 1.44 и больше нет прямой поддержки.
Критические изменения:
- Удалена поддержка распознавания намерений из-за выхода на пенсию службы.
- Удалена поддержка распознавания говорящего из-за выхода службы.
Пакет SDK для службы "Речь" 1.46: выпуск за сентябрь 2025 г.
Новые возможности:
- Добавлена поддержка конфиденциальности событий запуска речи со
Speech_StartEventSensitivity свойством.
- Нерекомендуемое
SpeechServiceConnection_EndSilenceTimeoutMs свойство.
- Удалена функция оценки содержимого в оценке произношения.
- Обновлен Android OpenSSL до версии 3.0.17.
- Добавлено ограничение размера в очередь телеметрии, чтобы предотвратить рост использования памяти.
- Добавлена защита времени ожидания для чтения кэша в TTS, чтобы предотвратить потенциальные зависания операций ввода-вывода.
- Добавлены настраиваемые свойства для управления поведением кэша перенаправления URL-адресов.
- [C#] Добавлена поддержка ведения журнала на основе EventSource .
- [Python] Добавлена поддержка проверки подлинности AzureKeyCredential.
Исправления ошибок
- Исправлена проблема ja-JP произношения в внедренном тексте в речь.
- Исправлено заметное увеличение использования памяти в течение длительного периода времени в внедренном тексте.
- Исправлена ошибка, вызванная состоянием гонки во время ожидания остановки распознавания.
- [JavaScript] Исправлена проблема, из-за которой
fromHost служба контейнеров Docker не работала.
Образцы
- Обновленные примеры, демонстрирующие использование проверки подлинности
AzureKeyCredential и Microsoft Entra ID token credential.
- [JavaScript, Python] Обновлены примеры для использования
fromEndpoint.
Пакет SDK для службы "Речь" 1.45: выпуск 2025-июль
Новые возможности:
- Добавлена поддержка настройки веса грамматики списка фраз.
- Добавлены более конкретные коды ошибок открытия файла.
- Обновлена поддержка пути Юникода, чтобы пакеты SDK Windows DLL могли находиться в путях, отличных от ASCII.
- Обновленные описания свойств стратегии сегментации для соответствия логике службы.
- [C#, Java] Добавлена поддержка проверки подлинности с помощью ApiKeyCredential.
Исправления ошибок
- Исправлена ошибка инициализации Microsoft audio Stack (MAS) о геометрии микрофона в определенных регионах.
- Исправлены параметры ненормативной лексики, не работающие в переводе речи (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2856).
- Исправлен сбой в шаблоне распознавания намерений, сопоставленном с японским языком.
- Исправлено разрешение личного домена, не работающее с Node.js версии 22 или более поздней версии.
Образцы
- [Java] Добавлен пример кода для демонстрации проверки подлинности учетных данных маркера Microsoft Entra ID.
Пакет SDK для службы "Речь" 1.44.1: исправление
Пакет SDK версии 1.44.1 выпущен только для JavaScript с 4 исправлениями ошибок:
Исправления ошибок
- Исправлено исключение вне диапазона, если был предоставлен только один параметр элемента управления сегментацией.
- enableDictation не был правильно передан службе "Речь".
- ConversationTranscriber не использовал правильный путь URL-адреса при создании с помощью метода fromEndpoint.
- Исправлена ошибка при отправке данных в входной поток после его отключения.
Пакет SDK для службы "Речь" 1.44: выпуск за май 2025 г.
Важно
Поддержка целевых платформ изменяется:
- Минимальная поддерживаемая версия Android теперь — Android 8.0 (уровень API 26).
- Публикация пакетов Unity пакета sdk для службы "Речь" приостановлена после этого выпуска.
Новые возможности:
- Добавлена поддержка размеров страницы памяти Android 16 КБ.
- Сокращение задержки событий SpeechStartDetected в встроенном распознавании речи.
- [C++, Python] Добавлен метод для получения доступного размера AudioDataStream.
- [C++, Python] Добавлена поддержка пользовательских URL-адресов лексикона и предпочитаемых языковых стандартов в запросах синтеза речи.
- [Java, Python] Добавлена поддержка проверки подлинности на основе маркеров Microsoft Entra с автоматическим обновлением маркера.
- [Go] Добавлена поддержка транскрибирования бесед.
Исправления ошибок
- Исправлена функция синтеза речи перевода, не работающая при обнаружении исходного языка.
- Исправлены пути к файлам без символов ASCII, которые не работают для внедренных моделей речи, моделей KWS или файлов журналов (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288).
- Исправлен цикл NoMatch в внедренном распознавании речи в определенных условиях.
- Исправлен деструктор собственных объектов, блокируемых из-за того, что распознавание не отмечено как остановленное при отключении событий.
- Исправлен шаблон IntentRecognizer, который не работает правильно с несколькими байтами в определенных условиях.
- Вызов
Close() объекта Connection не был синхронным.
- Исправлено состояние гонки в соединении, которое может привести к аварии.
- [macOS] Исправлено сообщение Info:, отображающееся в консоли (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610).
Образцы
- [Python] Добавлен пример кода для
recognizer с использованием учетных данных маркера Microsoft Entra.
Пакет SDK службы "Речь" для JavaScript
Новые возможности:
- Обновленная зависимость разработки: TypeScript 3.5.3 → 4.5
- Обновлен параметр TranslationRecognizer для использования конечных точек версии 2 по умолчанию.
- Обновлена функция SpeechRecognizer для использования конечных точек версии 2.
- Это приводит к тому, что результаты NoMatch больше не получаются.
- Добавлена поддержка проверки подлинности на основе маркеров Microsoft Entra для распознавания речи и перевода.
- Обновленный API FromEndpoint рекомендуется использовать для создания SpeechConfig для большинства сценариев.
- Применимо к использованию:
- Speechrecognizer
- TranslationRecognizer (через SpeechTranslationConfig)
- ConversationTranscriber
- SpeechSynthesizer
- Теперь можно использовать конечную точку на портале Azure для ресурсов Speech и Microsoft Foundry для создания объекта SpeechConfig.
- Все остальные методы для создания speechConfig продолжают функционировать и поддерживаются.
Исправления ошибок
Пакет SDK для службы "Речь" 1.43: выпуск за март 2025 г.
Новые возможности:
- Обновленный API FromEndpoint рекомендуется использовать для создания SpeechConfig для большинства сценариев.
- Применимо к использованию:
- Speechrecognizer
- TranslationRecognizer (через SpeechTranslationConfig)
- ConversationTranscriber
- SpeechSynthesizer во всех языках программирования, кроме JavaScript.
- Теперь можно использовать конечную точку на портале Azure для ресурсов Службы "Речь" и Cognitive Services для создания объекта SpeechConfig.
- Все остальные методы для создания speechConfig продолжают функционировать и поддерживаются.
- Обновлен параметр TranslationRecognizer для использования конечных точек версии 2 по умолчанию.
- Это перемещает параметры управления из URL-адреса в сообщения в канале при использовании конечной точки версии 2.
- Изменение поведения: язык по умолчанию, возвращаемый для "zh", теперь "zh-CN" вместо "zh-hans"
- Добавлены идентификаторы свойств для SpeechSynthesis_FrameTimeoutInterval и SpeechSynthesis_RtfTimeoutThreshold.
- Оптимизировано время повторного подключения пакета SDK для длительных распознаваний.
- [C++, Python] Добавлена поддержка указания стиля и температуры в запросах потоковой передачи текста.
- [C#] Добавлена поддержка автоматического обновления маркера Microsoft Entra ID при использовании FromEndpoint для создания объекта конфигурации.
- Это добавляет зависимость от пакета SDK службы "Речь" в Azure. Основной пакет NuGet.
- Пакет SDK службы "Речь" теперь может принимать производные объекты TokenCredential для проверки подлинности при использовании:
- Speechrecognizer
- TranslationRecognizer
- ConversationTranscriber
- [Objective-C] Обновлен spXTranslationRecognizer для поддержки автоматического обнаружения языка источника из открытого диапазона.
- [Objective-C , Python] Добавлены API диагностики EventLogger, FileLogger и MemoryLogger.
- [Go]: добавлена поддержка TranslationRecognizer
Исправления ошибок
Образцы
- [C++] Добавлен пример для автономного распознавания намерений с помощью сопоставления шаблонов.
- После выхода из эксплуатации службы LUIS в октябре 2025 г. пакет SDK службы "Речь" также завершит работу с семейством объектов IntentRecognizer.
- Перед этим мы хотели поделиться реализацией для сопоставления шаблонов.
- [C++, C#, Java, Python] Обновлены большинство примеров, чтобы использовать API FromEndpoint вместо FromSubscription.
- [C#] Добавлен пример сценария для многоуровневого приложения распознавания речи.
- Демонстрирует методологию воспроизведения звука и повторного подключения с пограничного устройства к службе среднего уровня, которая затем перенаправит звук в службу "Речь" через пакет SDK службы "Речь"
- [C#] Обновлены примеры для использования автоматического обновления маркера Microsoft Entra ID.
- [Python] Добавлены примеры для новых API диагностики.
- [Unity] Добавлены инструкции по установке нового Azure. Основная зависимость.
Пакет SDK для службы "Речь" 1.42.0: выпуск 2024-декабрь
Новые возможности
- Java. Добавлены API ведения журнала диагностики с помощью классов FileLogger, MemoryLogger, EventLogger и SpxTrace.
- Поддержка отправки свойства JSON "details" участника собрания в службу
- Go: добавлен идентификатор общедоступного свойства SpeechServiceConnection_ProxyHostBypass, чтобы указать узлы, для которых прокси-сервер не используется.
- JavaScript, Go: добавлен идентификатор общедоступного свойства Speech_SegmentationStrategy, чтобы определить, когда фраза закончилась, и должен быть создан окончательный распознанный результат (включая семантические сегментации)
- JavaScript, Go: добавлен идентификатор общедоступного свойства Speech_SegmentationMaximumTimeMs определить конец фразы на основе времени в Java, Python, C#, C++
Исправления ошибок
- Исправлена встроенная функция TTS,загруженная для каждого синтеза, если имя голоса не задано.
- Исправлены проблемы вычисления смещения при использовании MeetingTranscriber в некоторых сценариях.
- Исправлена потенциальная взаимоблокировка при регистрации нескольких прослушивателей событий диагностики параллельно.
- (JavaScript) Исправлена возможная потеря результатов NoMatch в конце звука. Это исправление также выравнивает поведение в конце речи с другими языками SDK и может привести к тому, что некоторые пустые события больше не вызываются.
- (JavaScript) Исправление смещения в результате JSON для выравнивания с смещением объектов результатов. Ранее было исправлено только свойство смещения объекта результата до учета повторного подключения службы.
- Язык Go: исправлена ошибка компиляции https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
- Исправлено смещение результатов при транскрибировании собраний при повторном подключении к службе.
- Исправлена взаимоблокировка в журнале.
Образцы
- Обновлены примеры C# для использования .NET 8.0.
- Java пример использования API ведения журнала диагностики, показывающий использование новых классов ведения журнала диагностики.
Выпуск за ноябрь 2024 г.
Azure расширение Speech Toolkit теперь доступно для Visual Studio Code пользователей. Он содержит список кратких запусков речи и примеры сценариев, которые можно легко создать и запустить с помощью простых щелчков мыши. Дополнительные сведения см. в разделе Azure Набор средств службы "Речь" в Visual Studio Code Marketplace.
Примеры кода аватара для преобразования текста в речь
Мы добавили текст в примеры кода аватара для Android и iOS. В этих примерах показано, как использовать текст в режиме реального времени для аватаров речи в мобильных приложениях.
Пакет SDK для службы "Речь" 1.41.1: выпуск за октябрь 2024 г.
Новые возможности
- Добавлена поддержка Amazon Linux 2023 и Azure Linux 3.0.
- Добавлен идентификатор общедоступного свойства SpeechServiceConnection_ProxyHostBypass, чтобы указать узлы, для которых прокси-сервер не используется.
- Добавлены свойства для управления новыми стратегиями сегментации фраз.
Исправления ошибок
- Исправлена неполная поддержка расширенных моделей распознавания ключевых слов, созданных после августа 2024 года.
- Исправлена утечка памяти в C#, связанная с использованием строк.
- Исправлено, не удается получить SPXAutoDetectSourceLanguageResult из SPXConversationTranscriptionResult в Objective-C и Swift.
- Исправлен случайный сбой при использовании Microsoft аудио стека в распознавании.
- Исправлены указания типов в Python.
https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- Исправлено, что не удается получить список голосов TTS при использовании пользовательской конечной точки.
- Исправлена повторная инициализация внедренных TTS для каждого запроса речи при указании голоса коротким именем.
- Исправлена справочная документация по API для максимальной длительности звука RecognizeOnce.
- Исправлена обработка произвольных частот выборки ошибок в JavaScript
- Исправлена ошибка вычисления смещения звука в JavaScript
Критические изменения
- Поддержка распознавания ключевых слов в Windows ARM 32-разрядной версии была удалена из-за требуемой среды выполнения ONNX, недоступной для этой платформы.
Пакет SDK для службы "Речь" версии 1.40: выпуск 2024-август
Примечание
Пакет SDK службы "Речь" версии 1.39.0 был внутренним выпуском и не отсутствует.
Новые возможности
- Добавлена поддержка потоковой передачи сжатого
G.722 звука в распознавании речи.
- Добавлена поддержка шага, скорости и громкости в входной потоковой передаче текста в синтезе речи.
- Добавлена поддержка потоковой передачи текста голосового ввода, введя
PersonalVoiceSynthesisRequest в синтез речи. Этот API находится в предварительной версии и подлежит изменению в будущих версиях.
- Добавлена поддержка диаризации промежуточных результатов при
ConversationTranscriber использовании.
- Удалена поддержка CentOS/RHEL 7 из-за окончания поддержки CentOS 7 и окончания поддержки обслуживания RHEL 7 2.
- Теперь для использования внедренных моделей речи требуется лицензия на модель, а не ключ модели. Если вы являетесь существующим клиентом встроенной речи и хотите обновить службу поддержки, обратитесь в службу поддержки Microsoft для получения дополнительных сведений об обновлениях моделей.
Исправления ошибок
Образцы
- Обновлены внедренные примеры речи, чтобы использовать лицензию модели вместо ключа.
Пакет SDK для службы "Речь" 1.38.0: выпуск за июнь 2024 г.
Новые возможности
- Обновление требований к платформе Linux пакета SDK для службы "Речь"
- Новый минимальный базовый план — Ubuntu 20.04 LTS или совместим с
glibc 2.31 или более поздней версией.
- Двоичные файлы для Linux x86 удаляются в соответствии с поддержкой платформы Ubuntu 20.04.
-
Обратите внимание, что RHEL/CentOS 7 остается поддерживаемым до 30 июня (конец CentOS 7 и окончание поддержки обслуживания RHEL 7 2). Двоичные файлы для них будут удалены в выпуске пакета SDK для службы "Речь" версии 1.39.0.
- Добавьте поддержку OpenSSL 3 в Linux.
- Добавьте поддержку формата вывода звука g722-16khz-64kbps с синтезатором речи.
- Добавьте поддержку отправки сообщений через объект подключения с синтезатором речи.
- Добавьте API Start/StopKeywordRecognition в Objective-C и Swift.
- Добавьте API для выбора категории пользовательской модели перевода.
- Обновление использования GStreamer с помощью синтезатора речи.
Исправления ошибок
- Исправлена ошибка "Размер сообщения Websocket не может превышать 65 536 байт" во время start/StopKeywordRecognition.
- Исправлена ошибка сегментации Python во время синтеза речи.
Образцы
- Обновление примеров C# для использования .NET 6.0 по умолчанию.
Пакет SDK службы "Речь" 1.37.0: выпуск 2024-апрель
Новые возможности
- Добавьте поддержку потоковой передачи текста ввода в синтез речи.
- Измените голос синтеза речи по умолчанию на en-US-AvaMultilingualNeural.
- Обновите сборки Android, чтобы использовать OpenSSL 3.x.
Исправления ошибок
Образцы
- Обновлено для новых функций.
Пакет SDK для службы "Речь" 1.36.0: выпуск за март 2024 г.
Новые возможности
- Добавьте поддержку идентификации языка в многоязычном переводе конечных точек версии 2 с помощью AutoDetectSourceLanguageConfig::FromOpenRange().
Исправления ошибок
Исправление события SynthesisCanceled, не запущенное при вызове остановки во время события SynthesisStarted.
Исправлена проблема с шумом во встроенном синтезе речи.
Исправьте сбой во встроенном распознавании речи при параллельном выполнении нескольких распознавателей.
Исправьте параметр режима обнаружения фраз в конечных точках версии 1/2.
Устранены различные проблемы с Microsoft аудио стеком.
Образцы
- Обновления новых функций.
Пакет SDK для службы "Речь" 1.35.0: выпуск за февраль 2024 г.
Новые возможности
- Измените текст по умолчанию на голос речи с en-US-JennyMultilingualNeural на en-US-AvaNeural.
- Поддержка сведений на уровне слова в внедренных результатах перевода речи с помощью подробного формата выходных данных.
Исправления ошибок
- Исправление API получения позиции AudioDataStream в Python.
- Исправление перевода речи с помощью конечных точек версии 2 без обнаружения языка.
- Исправьте случайный сбой и повторяющиеся события границ слова в внедренном тексте в речь.
- Возвращает правильный код ошибки отмены для внутренней ошибки сервера в подключениях WebSocket.
- Исправлена ошибка загрузки библиотеки FPIEProcessor.dll при использовании MAS с C#.
Образцы
- Незначительные обновления форматирования для примеров встроенного распознавания.
Пакет SDK службы "Речь" 1.34.1: выпуск за январь 2024 г.
Критические изменения
- Исправление ошибок только
Новые возможности
- Исправление ошибок только
Исправления ошибок
- Исправлена регрессия, представленная в версии 1.34.0, где URL-адрес конечной точки службы был создан с плохими сведениями о языковом стандарте для пользователей в нескольких регионах Китая.
Пакет SDK для службы "Речь" 1.34.0: выпуск за ноябрь 2023 г.
Критические изменения
-
SpeechRecognizer обновляется, чтобы использовать новую конечную точку по умолчанию (то есть, если не явно указывать URL-адрес), который больше не поддерживает параметры строки запроса для большинства свойств. Вместо настройки параметров строки запроса непосредственно с помощью ServicePropertyChannel.UriQueryParameter используйте соответствующие функции API.
Новые возможности
- Совместимость с .NET 8 (исправление для https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 за исключением предупреждения о centos7-x64)
- Поддержка встроенных метрик производительности речи, которые можно использовать для оценки возможностей устройства для запуска внедренной речи.
- Поддержка идентификации исходного языка в внедренном многоязычном переводе.
- Поддержка встроенной речи в текст, текст в речь и перевод для iOS и Swift/Objective-C выпущена в предварительной версии.
- Встроенная поддержка предоставляется в MicrosoftCognitiveServicesSpeechEmbeddededed-iOS Cocoapod.
Исправления ошибок
- Исправление для пакета SDK для iOS x2 раз увеличения двоичного размера · Проблема #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Исправление ошибки, чтобы получить метки времени на уровне слова из Azure речи в текстовый API · Проблема #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Исправьте этап уничтожения DialogServiceConnector, чтобы правильно отключить события. Это приводило к сбою иногда.
- Исправлено исключение во время создания распознавателя при использовании MAS.
- FPIEProcessor.dll из Microsoft. Пакет NuGet CognitiveServices.Speech.Extension.MAS для Windows UWP x64 и Arm64 имели зависимость от библиотек среды выполнения VC для машинного C++. Проблема была исправлена путем обновления зависимости до исправления библиотек среды выполнения VC (для UWP).
- Исправление для повторяющих SPXERR_ALREADY_INITIALIZED ся вызовов распознаванияOnceAsync при использовании MAS · Проблема #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Исправлена ошибка встроенного распознавания речи при использовании списков фраз.
Образцы
- Внедренные примеры iOS для преобразования речи в текст, текст для речи и перевода.
Интерфейс командной строки службы "Речь" 1.34.0: выпуск за ноябрь 2023 г.
Новые возможности
- Поддержка выходных данных событий границ слова при синтезе речи.
Исправления ошибок
- Обновлена зависимость JMESPath до последнего выпуска, улучшается оценка строк
Пакет SDK для службы "Речь" 1.33.0: выпуск за октябрь 2023 г.
Уведомление о критических изменениях
- Новый пакет NuGet, добавленный для Microsoft Audio Stack (MAS), теперь требуется включить в приложения, использующие MAS в файлах конфигурации пакета.
Новые возможности
- Добавлен новый пакет NuGet Microsoft. CognitiveServices.Speech.Extension.MAS.nupkg, который обеспечивает улучшенную производительность отмены эха при использовании Microsoft аудиотек
- Оценка произношения: добавлена поддержка просодии и оценки содержимого, которая может оценить речь с точки зрения просодии, словаря, грамматики и темы.
Исправления ошибок
Образцы
Интерфейс командной строки службы "Речь" 1.33.0: выпуск за октябрь 2023 г.
Новые возможности
- Поддержка выходных данных событий границ слова при синтезе речи.
Исправления ошибок
Пакет SDK для службы "Речь" версии 1.32.1: выпуск за сентябрь 2023 г.
Исправления ошибок
- Обновления пакетов Android с последними исправлениями безопасности из OpenSSL1.1.1v
- JS — свойство WebWorkerLoadType, добавленное для разрешения обхода загрузки URL-адреса данных для рабочей роли времени ожидания
- JS — исправление отключения перевода бесед через 10 минут
- JS — маркер проверки подлинности перевода бесед из беседы теперь распространяется на подключение службы перевода
Образцы
Пакет SDK для службы "Речь" 1.31.0: выпуск за август 2023 г.
Новые возможности
Поддержка диаризации в режиме реального времени доступна в общедоступной предварительной версии с помощью пакета SDK для службы "Речь" 1.31.0. Эта функция доступна в следующих пакетах SDK: C#, C++, Java, JavaScript, Python и Objective-C/Swift.
Синхронизированные события синтеза речи и события viseme с воспроизведением звука
Критические изменения
Бывший сценарий транскрибирования бесед переименовывается в "транскрибирование собраний". Например, используйте MeetingTranscriber вместо ConversationTranscriberнего и используйте CreateMeetingAsync вместо CreateConversationAsyncнего. Хотя имена объектов и методов пакета SDK изменились, переименование не изменяет саму функцию. Используйте объекты транскрибирования собраний для транскрибирования собраний с профилями пользователей и подписями голоса. Объекты и методы перевода бесед не влияют на эти изменения. Объект и его методы по-прежнему можно использовать ConversationTranslator для сценариев перевода собраний.
Для диаризации в режиме реального времени представлен новый ConversationTranscriber объект. Новая объектная модель транскрибирования бесед и шаблоны вызовов похожи на непрерывное распознавание с SpeechRecognizer объектом. Ключевое различие заключается в том, что ConversationTranscriber объект предназначен для использования в сценарии беседы, в котором требуется различать несколько динамиков (диаризация). Профили пользователей и голосовые подписи не применимы. Дополнительные сведения см. в кратком руководстве по диаризации в режиме реального времени .
В этой таблице показаны предыдущие и новые имена объектов для диаризации в режиме реального времени и транскрибирования собраний. Имя сценария находится в первом столбце, предыдущие имена объектов находятся во втором столбце, а новые имена объектов находятся в третьем столбце.
| Имя сценария |
Предыдущие имена объектов |
Новые имена объектов |
| Диаризация в режиме реального времени |
N/A |
ConversationTranscriber |
| Транскрибирование собраний |
ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant
1
ParticipantChangedReason
1
User
1 |
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting
2 |
1 Объекты ParticipantParticipantChangedReasonи User объекты применимы как к транскрибированию собраний, так и к сценариям перевода собраний.
2 Объект Meeting является новым и используется с MeetingTranscriber объектом.
Исправления ошибок
Образцы
Пакет SDK для службы "Речь" 1.30.0: выпуск за июль 2023 г.
Новые возможности
-
C++, C#, Java — добавлена поддержка
DisplayWords в подробном результате встроенного распознавания речи.
-
Objective-C/Swift — добавлена поддержка
ConnectionMessageReceived события в Objective-C/Swift.
-
Objective-C/Swift — улучшенные модели выявления ключевых слов для iOS. Это изменение увеличило размер определенных пакетов, содержащих двоичные файлы iOS (например, NuGet, XCFramework). Мы работаем над уменьшением размера будущих выпусков.
Исправления ошибок
- Исправлена утечка памяти при использовании распознавателя речи с PhraseListGrammar, как сообщает клиент (проблема GitHub).
- Исправлена взаимоблокировка текста для преобразования речи в API открытых подключений.
Дополнительные заметки
-
Java . Некоторые методы API
public Java были изменены на пакет internal, protected или private. Это изменение не должно влиять на разработчиков, так как мы не ожидаем, что приложения будут использовать их. Отмечается здесь для прозрачности.
Образцы
- Новые примеры оценки произношения о том, как указать язык обучения в собственном приложении
Пакет SDK для службы "Речь" 1.29.0: выпуск за июнь 2023 г.
Новые возможности
-
C++, C#, Java — предварительная версия внедренных API перевода речи. Теперь вы можете выполнять перевод речи без облачного подключения!
-
JavaScript — непрерывная идентификация языка (LID) теперь включена для перевода речи.
-
JavaScript — вклад сообщества для добавления
LocaleName свойства в VoiceInfo класс. Благодарим GitHub пользователя shivsarthak за запрос на вытягивание.
-
C++, C#, Java — добавлена поддержка перенастраивание выходных данных внедренного текста в речь с частотой от 16 кГц до 48 кГц.
- Добавлена поддержка
hi-IN языкового стандарта в распознаватель намерений с помощью простого сопоставления шаблонов.
Исправления ошибок
- Исправлена авария, вызванная состоянием гонки в Распознаватель речи во время уничтожения объектов, как показано в некоторых наших тестах Android
- Исправлены возможные взаимоблокировки в распознавателье намерений с помощью простого сопоставления шаблонов
Образцы
- Новые примеры перевода внедренных речи
Пакет SDK для службы "Речь" 1.28.0: выпуск за май 2023 г.
Критическое изменение
-
Пакет SDK для JavaScript: протокол OCSP (Online Certificate Status Protocol( OCSP) был удален. Это позволяет клиентам лучше соответствовать стандартам браузера и узла для обработки сертификатов. Версия 1.28 и далее больше не будет включать наш пользовательский модуль OCSP.
Новые возможности
-
Встроенное распознавание речи теперь возвращается
NoMatchReason::EndSilenceTimeout , когда время ожидания молчания происходит в конце речевых фрагментов. Это соответствует поведению при распознавании с помощью службы распознавания речи в режиме реального времени.
-
Пакет SDK для JavaScript: задайте свойства для
SpeechTranslationConfig использования PropertyId значений перечисления.
Исправления ошибок
-
C# на Windows — исправление потенциального состояния гонки или взаимоблокировки в Windows звуковом расширении. В сценариях, которые быстро удаляют средство отрисовки звука, а также используют метод синтезатора для остановки речи, базовое событие не сбрасывается по остановке и может привести к тому, что объект отрисовщика никогда не будет удален, все время как он может хранить глобальную блокировку для удаления, заморозить поток dotnet GC.
Образцы
- Добавлен внедренный образец речи для MAUI.
- Обновлен пример внедренной речи для Android Java, чтобы включить текст в речь.
Пакет SDK для службы "Речь" 1.27.0: выпуск за апрель 2023 г.
Уведомление о предстоящих изменениях
- Мы планируем удалить протокол состояния сертификатов в Интернете (OCSP) в следующем выпуске пакета SDK javaScript. Это позволяет клиентам лучше соответствовать стандартам браузера и узла для обработки сертификатов. Версия 1.27 — это последний выпуск, включающий наш пользовательский модуль OCSP.
Новые возможности
-
JavaScript — добавлена поддержка ввода микрофона из браузера с помощью идентификации и проверки говорящего.
-
Встроенное распознавание речи — обновление поддержки
PropertyId::Speech_SegmentationSilenceTimeoutMs параметров.
Исправления ошибок
-
Общие — обновления надежности в логике повторного подключения служб (все языки программирования, кроме JavaScript).
-
General — исправление утечки памяти строк в Windows (все соответствующие языки программирования, кроме JavaScript).
-
Встроенное распознавание речи — исправление сбоя во французском распознавании речи при использовании определенных записей списка грамматики.
-
Документация по исходному коду — исправления в справочной документации по пакету SDK, связанные с ведением журнала звука в службе.
-
Распознавание намерений — исправление приоритетов сопоставления шаблонов, связанных с сущностями списка.
Образцы
- Правильно обработайте сбой проверки подлинности в примере транскрибирования бесед C# (CTS).
- Добавлен пример оценки произношения потоковой передачи для Python, JavaScript, Objective-C и Swift.
Пакет SDK для службы "Речь" версии 1.26.0: выпуск за март 2023 г.
Критические изменения
- Bitcode отключен во всех целевых объектах iOS в следующих пакетах: Cocoapod с xcframework, NuGet (для Xamarin и MAUI) и Unity. Это изменение связано с прекращением поддержки биткода Apple из Xcode 14 и более поздних версий. Это изменение также означает, что если вы используете Xcode 13 версии или явно включили бит-код в приложении с помощью пакета SDK службы "Речь", может возникнуть ошибка с сообщением "платформа не содержит биткода, и необходимо перестроить его". Чтобы устранить эту проблему, убедитесь, что целевые объекты отключили битовый код.
- Минимальный целевой объект развертывания iOS обновляется до версии 11.0 в этом выпуске, что означает, что armv7 HW больше не поддерживается.
Новые возможности
- Встроенное распознавание речи (на устройстве) теперь поддерживает как 8, так и 16-кГц входной звук частоты выборки (16-разрядный на выборку, моно PCM).
- Синтез речи теперь сообщает о задержках подключения, сети и службы, чтобы помочь в комплексной оптимизации задержки.
- Новые правила нарушения привязки для распознавания намерений с простым сопоставлением шаблонов. Чем больше символов, тем больше байтов, которые совпадают, выиграют над шаблонными совпадениями с нижним числом байтов. Пример: шаблон "Выбрать {что-то} в правом верхнем углу" выиграет "Выбрать {что-то}"
Исправления ошибок
- Синтез речи: исправлена ошибка, из-за которой эмодзи не правильно в событиях границ слова.
-
Intent Recognition with Conversational Распознавание речи (CLU):
- Намерения из рабочего процесса оркестратора CLU теперь отображаются правильно.
- Результат JSON теперь доступен с помощью идентификатора
LanguageUnderstandingServiceResponse_JsonResultсвойства.
- Распознавание речи с активацией ключевых слов: исправление отсутствия звука около 150 мс после распознавания ключевых слов.
- Исправление сборки выпуска пакета SDK для службы "Речь" для NuGet iOS MAUI, сообщаемой клиентом (проблема GitHub)
Образцы
- Исправление примера Swift iOS, сообщаемого клиентом (проблема GitHub)
Пакет SDK для службы "Речь" 1.25.0: выпуск за январь 2023 г.
Критические изменения
- API-интерфейсы идентификации языка (предварительная версия) были упрощены. Если вы обновляете пакет SDK для службы "Речь" версии 1.25 и видите разрыв сборки, посетите страницу идентификации языка , чтобы узнать о новом свойстве
SpeechServiceConnection_LanguageIdMode. Это одно свойство заменяет два предыдущих SpeechServiceConnection_SingleLanguageIdPriority и SpeechServiceConnection_ContinuousLanguageIdPriority. Приоритет между низкой задержкой и высокой точностью больше не требуется после недавних улучшений модели. Теперь при выполнении непрерывного распознавания речи или перевода необходимо выбрать, следует ли выполнять функцию при запуске или непрерывной идентификации языка.
Новые возможности
-
C#/C++/Java: внедренный пакет SDK службы "Речь" теперь выпущен в общедоступной предварительной версии. См. документацию по внедренной речи (предварительная версия). Теперь вы можете выполнять речь на устройстве с текстом и текстом, если подключение к облаку периодически или недоступно. Поддерживается на платформах Android, Linux, macOS и Windows
-
C# MAUI: поддержка целевых объектов iOS и Mac Catalyst в Пакете SDK службы "Речь" (Customer проблема)
-
Unity: архитектура Android x86_64 добавлена в пакет Unity (проблема Customer)
-
Перейти:
- Поддержка прямой потоковой передачи ALAW/MULAW, добавленная для распознавания речи (проблема с клиентом)
- Добавлена поддержка PhraseListGrammar. Благодарим GitHub пользователя locoko за вклад сообщества!
-
C#/C++: Распознаватель намерений теперь поддерживает модели общения Распознавание речи в C++ и C# с оркестрацией в службе Microsoft
Исправления ошибок
- Исправление случайного зависания в KeywordRecognizer при попытке остановить его
-
Python:
- Исправление для получения результатов оценки произношения при установке
PronunciationAssessmentGranularity.FullText (проблема Customer)
- Исправление гендерных свойств для голосов мужчин, которые не извлекаются, при получении голосов синтеза речи
-
Javascript
- Исправлена проблема синтаксического анализа некоторых WAV-файлов, записанных на устройствах iOS (проблема Customer)
- Пакет SDK для JS теперь создает без использования npm-force-resolutions (проблема с клиентом)
- Переводчик бесед теперь правильно задает конечную точку службы при использовании экземпляра speechConfig, созданного с помощью SpeechConfig.fromEndpoint()
Образцы
Добавлены примеры использования внедренной речи
Добавлен пример речи в текст для MAUI
Ознакомьтесь с репозиторием примеров пакета SDK Speech SDK.
Пакет SDK для службы "Речь" 1.24.2: выпуск за ноябрь 2022 г.
Новые возможности
- Нет новых функций, просто исправление встроенного ядра для поддержки новых файлов моделей.
Исправления ошибок
-
Все языки программирования
- Исправлена проблема с шифрованием внедренных моделей распознавания речи.
Пакет SDK для службы "Речь" 1.24.1: выпуск за ноябрь 2022 г.
Новые возможности
Исправления ошибок
-
Все языки программирования
- Исправлена ошибка встроенного сбоя TTS, если шрифт голосовой связи не поддерживается
- Исправление stopSpeaking() не может остановить воспроизведение в Linux (#1686)
-
JavaScript SDK
- Исправлена регрессия в том, как транскрибируемый звук беседы.
-
Java
- Временно опубликовано обновленные файлы POM и Javadocs в Maven Central, чтобы конвейер документов мог обновлять справочные документы в Интернете.
-
Python
- Исправлена регрессия, когда Python speak_text(ssml) возвращает void.
Пакет SDK для службы "Речь" 1.24.0: выпуск за октябрь 2022 г.
Новые возможности
-
Все языки программирования: AMR-WB (16 кгц), добавленный в поддерживаемый список форматов вывода звука в речь
-
Python: пакет, добавленный для Linux Arm64 для поддерживаемых дистрибутивов Linux.
-
C#/C++/Java/Python: добавлена поддержка ALAW и MULAW прямая потоковая передача в службу распознавания речи (в дополнение к существующему потоку PCM) с помощью
AudioStreamWaveFormat.
-
C# MAUI: пакет NuGet обновлен для поддержки целевых объектов Android для разработчиков .NET MAUI (проблема Customer)
-
Mac: добавлен отдельный XCframework для Mac, который не содержит двоичных файлов iOS. Это позволяет разработчикам, которым требуется только двоичные файлы Mac, используя меньший пакет XCframework.
-
Microsoft звуковой стек (MAS):
- При указании углов формирования луча звук, исходящий за пределами указанного диапазона, будет подавляться лучше.
- Примерно 70% уменьшить размер
libMicrosoft.CognitiveServices.Speech.extension.mas.so Linux ARM32 и Linux Arm64.
-
Распознавание намерений с помощью сопоставления шаблонов:
- Добавление поддержки орфографии для языков
fr, , esdejp
- Добавлена предварительно созданная поддержка целочисленного числа для языка
es.
Исправления ошибок
-
iOS: исправлена ошибка синтеза речи в iOS 16, вызванная сбоем декодирования сжатого звука (проблема Customer).
-
JavaScript:
- Исправление маркера проверки подлинности, не работающего при получении голосового списка синтеза речи (проблема клиента).
- Используйте URL-адрес данных для загрузки рабочих ролей (проблема с клиентом).
- Создайте рабочий лет звукового процессора, только если AudioWorklet поддерживается в браузере (проблема с клиентом). Это был вклад сообщества Уильям Вонг. Спасибо Уильяму!
- Исправьте распознанный обратный вызов, если ответ LUIS
connectionMessage пуст (проблема Customer).
- Правильно задать время ожидания сегментации речи.
-
Распознавание намерений с помощью сопоставления шаблонов:
- Символы, отличные от json в моделях, теперь загружают правильно.
- Исправлена проблема с зависанием при
recognizeOnceAsync(text) вызове во время непрерывного распознавания.
Пакет SDK для службы "Речь" версии 1.23.0: выпуск за июль 2022 г.
Новые возможности
-
C#, C++, Java: добавлена поддержка языков
zh-cn и zh-hk в распознавании намерений с сопоставлением шаблонов.
-
C#: добавлена поддержка сборок
AnyCPU .NET Framework
Исправления ошибок
-
Android: исправлена уязвимость OpenSSL CVE-2022-2068, обновив OpenSSL до версии 1.1.1q
-
Python: исправлен сбой при использовании PushAudioInputStream
-
iOS: исправлена ошибка "EXC_BAD_ACCESS: попытка разыменовать указатель null", как сообщается в iOS (проблема GitHub)
Пакет SDK для службы "Речь" версии 1.22.0: выпуск за июнь 2022 г.
Новые возможности
-
Java: Api IntentRecognitionResult для getEntities(), applyLanguageModels(), и recognizeOnceAsync(text) добавлен для поддержки подсистемы "простого сопоставления шаблонов".
-
Unity: добавлена поддержка пакета Mac M1 (Apple Silicon) для пакета Unity (GitHub)
-
C#: добавлена поддержка x86_64 для Xamarin Android (проблема GitHub)
-
C#: минимальная версия платформы .NET обновлена до версии 4.6.2 для пакета C# пакета SDK, так как версия 4.6.1 прекращена (см. политику жизненного цикла компонентов платформы Microsoft .NET/c1)
-
Linux: добавлена поддержка Debian 11 и Ubuntu 22.04 LTS. Для Ubuntu 22.04 LTS требуется ручная установка libssl1.1 либо в виде двоичного пакета (например , libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb или более поздней версии для x64), либо путем компиляции из источников.
Исправления ошибок
-
UWP: зависимость OpenSSL удалена из библиотек UWP и заменена веб-интерфейсами WinRT websocket и HTTP API для обеспечения соответствия требованиям безопасности и меньшего двоичного пространства.
-
Mac: исправлена проблема "Модуль MicrosoftCognitiveServicesSpeech Not Found" при использовании проектов Swift, предназначенных для платформы macOS
-
Windows, Mac. Исправлена проблема, связанная с платформой, из-за которой источники звука, настроенные с помощью свойств для потоковой передачи в режиме реального времени, иногда отстали и в конечном итоге превысили емкость.
-
C#: примеры платформы .NET обновлены для использования версии 4.6.2
-
Unity: пример виртуального помощника, исправленный для Android и UWP
-
Unity: примеры Unity обновлены для версии LTS Unity 2020
Пакет SDK для службы "Речь" 1.21.0: выпуск за апрель 2022 г.
Новые возможности
- Java & JavaScript: добавлена поддержка непрерывной идентификации языка при использовании объекта SpeechRecognizer
-
JavaScript: добавлены API диагностики для включения ведения журнала консоли и ведения журнала файлов (только для узлов), чтобы помочь Microsoft устранить проблемы, связанные с клиентами.
-
Python: добавлена поддержка транскрибирования бесед
-
Go: добавлена поддержка распознавания говорящего
-
C++ и C#: добавлена поддержка требуемой группы слов в распознавателье намерений (простое сопоставление шаблонов). Например: "(set|start|begin) таймер, в котором должно присутствовать значение "set", "start" или "begin" для распознаваемого намерения.
-
Все языки программирования, синтез речи: добавлено свойство длительности в событиях границ слова. Добавлена поддержка границ препинания и границы предложения
-
Objective-C/Swift/Java: добавлены результаты на уровне слова в объекте результатов оценки произношения (аналогично C#). Приложение больше не должно анализировать строку результатов JSON для получения сведений на уровне слова (GitHub проблема)
-
Платформа iOS: добавлена экспериментальная поддержка архитектуры ARMv7
Исправления ошибок
- платформа iOS: исправлена возможность создания целевого объекта "Любое устройство iOS", при использовании CocoaPod (проблема GitHub)
-
Платформа Android: версия OpenSSL обновлена до версии 1.1.1n для устранения уязвимости CVE-2022-0778
-
JavaScript: исправлена проблема, из-за которой заголовок wav не был обновлен с размером файла (проблема GitHub)
-
JavaScript: исправление проблем десинхронного перевода идентификатора запроса (проблема GitHub)
-
JavaScript: исправлена проблема при создании экземпляра SpeakerAudioDestination без потока (GitHub]
-
C++: исправление заголовков C++ для удаления предупреждения при компиляции для C++17 или более поздней версии
- Новые примеры Java для распознавания речи с помощью идентификации языка
- Новые примеры Python и Java для транскрибирования бесед
- Новый пример Go для распознавания говорящего
- Новое средство C++ и C# для Windows, которое перечисляет все устройства записи звука и отрисовки для поиска идентификатора устройства. Этот идентификатор необходим пакетом SDK службы "Речь", если вы планируете записывать звук из или отрисовывать звук в устройство, отличное от времени.
Пакет SDK для службы "Речь" 1.20.0: выпуск за январь 2022 г.
Новые возможности
-
Objective-C, Swift и Python: добавлена поддержка DialogServiceConnector, используемой для сценариев голосового помощника.
-
Python: добавлена поддержка Python 3.10. Поддержка Python 3,6 была удалена на Python в течение 3,6.
-
Unity: пакет SDK службы "Речь" теперь поддерживается для приложений Unity в Linux.
-
C++, C#: IntentRecognizer с использованием сопоставления шаблонов теперь поддерживается в C#. Кроме того, сценарии с пользовательскими сущностями, необязательными группами и ролями сущностей теперь поддерживаются в C++ и C#.
-
C++, C#: улучшено ведение журнала трассировки диагностики с помощью новых классов FileLogger, MemoryLogger и EventLogger. Журналы SDK — это важное средство для Microsoft диагностики проблем, сообщаемых клиентом. Эти новые классы упрощают интеграцию журналов пакета SDK службы "Речь" в собственную систему ведения журнала.
-
Все языки программирования. В файле PronunciationAssessmentConfig теперь есть свойства, чтобы задать нужный алфавит фонемы (IPA или SAPI) и N-Best Phoneme Count (избегая необходимости создавать JSON конфигурации в виде GitHub проблема 1284). Кроме того, выходные данные уровня слога теперь поддерживаются.
-
Android, iOS и macOS (все языки программирования): GStreamer больше не требуется для поддержки сетей с ограниченной пропускной способностью. SpeechSynthesizer теперь использует возможности декодирования звука операционной системы для декодирования сжатых аудиопотоков из текста в службу речи.
-
Все языки программирования: SpeechSynthesizer теперь поддерживает три новых форматов необработанных выходных данных Opus (без контейнера), которые широко используются в динамических сценариях потоковой передачи.
-
JavaScript: добавлен API getVoicesAsync() в SpeechSynthesizer для получения списка поддерживаемых голосов синтеза (GitHub проблема 1350)
-
JavaScript: добавлен API getWaveFormat() в AudioStreamFormat для поддержки форматов волн без PCM (GitHub проблема 452)
-
JavaScript: добавлен метод получения и задания тома и отключение ()/unmute() в SpeakerAudioDestination (GitHub проблема 463)
Исправления ошибок
-
C++, C#, Java, JavaScript, Objective-C и Swift: исправление для удаления 10-секундной задержки при остановке распознавателя речи, использующего PushAudioInputStream. Это касается случаев, когда новый звук не отправляется после вызова StopContinuousRecognition (GitHub проблемы 1318, )
-
Unity в Android и UWP: метафайлы Unity были исправлены для UWP, Android Arm64 и подсистемы Windows для Android (WSA) Arm64 (GitHub проблема 1360)
-
iOS: компиляция приложения пакета SDK службы "Речь" на любом устройстве iOS при использовании CocoaPods теперь исправлена (GitHub проблема 1320)
-
iOS: когда speechSynthesizer настроен для вывода звука непосредственно на динамик, воспроизведение остановлено в начале редких условий. Исправлено.
-
JavaScript: используйте резервный вариант процессора скрипта для ввода микрофона, если не найден звуковой лет (GitHub проблема 455)
-
JavaScript: добавьте протокол для агента для устранения ошибок, обнаруженных с интеграцией Sentry (GitHub проблема 465)
-
C++C#, Python и Java показано, как получить подробные результаты распознавания. Сведения включают альтернативные результаты распознавания, оценку достоверности, Лексическую форму, нормализованную форму, маскированную нормализованную форму с временем на уровне слов для каждого.
- пример iOS добавлено использование AVFoundation в качестве внешнего источника звука.
-
Java пример, чтобы показать, как получить формат SRT (SubRip Text) с помощью события WordBoundary.
-
Android samples для оценки произношения.
-
C++, C# с использованием новых классов ведения журнала диагностики.
Пакет SDK для службы "Речь" 1.19.0: выпуск 2021-ноябрь
Обзор матча
Теперь общедоступная служба распознавания говорящего (GA). API пакета SDK службы "Речь" доступны на C++, C#, Java и JavaScript. Благодаря распознаванию говорящего вы можете точно проверить и идентифицировать динамиков по их уникальным характеристикам голоса. Дополнительные сведения об этом разделе см. в документации.
Мы сократили поддержку Ubuntu 16.04 вместе с Azure DevOps и GitHub. Ubuntu 16.04 достигла конца жизни в апреле 2021 года. Перенос рабочих процессов Ubuntu 16.04 в Ubuntu 18.04 или более поздней версии.
Связывание OpenSSL в двоичных файлах Linux изменилось на динамическое. Двоичный размер Linux сократился примерно на 50%.
Добавлена поддержка кремния на основе Mac M1.
Новые возможности
C++/C#/Java: добавлены новые API для включения поддержки обработки звука для ввода речи с помощью Microsoft Audio Stack. Документация здесь.
C++: новые API для распознавания намерений для упрощения более расширенного сопоставления шаблонов. Это включает в себя сущности списка и предварительно созданных целых чисел, а также поддержку группирования намерений и сущностей в качестве моделей (документация, обновления и примеры находятся в процессе разработки и будут опубликованы в ближайшем будущем).
Mac: поддержка кремния на основе Arm64 (M1) для CocoaPod, Python, Java и пакетов NuGet, связанных с GitHub проблема 1244.
iOS/Mac: двоичные файлы iOS и macOS теперь упаковываются в xcframework, связанные с GitHub проблема 919.
iOS/Mac: поддержка катализатора Mac, связанного с GitHub проблема 1171.
Linux: добавлен новый пакет tar для CentOS7 About the Speech SDK. Пакет Linux .tar теперь содержит определенные библиотеки для RHEL/CentOS 7.lib/centos7-x64 Библиотеки пакета SDK службы "Речь" в lib/x64 по-прежнему применимы ко всем остальным поддерживаемым дистрибутивам Linux x64 (включая RHEL/CentOS 8) и не будут работать в RHEL/CentOS 7.
JavaScript: VoiceProfile & SpeakerRecognizer API сделал async/awaitable.
JavaScript: поддержка, добавленная для государственных Azure регионов США.
Windows: поддержка воспроизведения в Universal Windows Platform (UWP).
Исправления ошибок
Android: обновление системы безопасности OpenSSL (обновлено до версии 1.1.1l) для пакетов Android.
Python: устранена ошибка, при которой выбор устройства говорящего на Python завершается ошибкой.
Ядро. Автоматическое повторное подключение при сбое попытки подключения.
iOS: сжатие звука отключено в пакетах iOS из-за нестабильности и проблем сборки бит-кода при использовании GStreamer. Сведения доступны через GitHub проблема 1209.
Mac/iOS: обновлены примеры и краткие руководства по использованию пакета xcframework.
.NET: примеры обновлены для использования .NET core 3.1 версии.
JavaScript: добавлен пример для голосовых помощников.
Пакет SDK для службы "Речь" 1.18.0: выпуск 2021-июль
Примечание. Начало работы с пакетом SDK службы "Речь" здесь.
Сводка по выделению
- Ubuntu 16.04 достигла конца жизни в апреле 2021 года. С Azure DevOps и GitHub мы опустим поддержку 16.04 в сентябре 2021 года. Перенос рабочих процессов ubuntu-16.04 в ubuntu-18.04 или более поздней версии до этого.
Новые возможности
-
C++: простой шаблон языка, соответствующий распознавательу намерений, теперь упрощает реализацию простых сценариев распознавания намерений.
-
C++/C#/Java. Мы добавили новый API,
GetActivationPhrasesAsync() в класс VoiceProfileClient для получения списка допустимых фраз активации на этапе регистрации распознавания говорящего для независимых сценариев распознавания.
-
Важно. Функция распознавания говорящего доступна в предварительной версии. Все профили голосовой связи, созданные в предварительной версии, будут прекращены через 90 дней после перемещения функции распознавания говорящего из предварительной версии в общедоступную доступность. На этом этапе профили голосовой связи предварительной версии перестают работать.
-
Python: добавлено support для объектов непрерывной идентификации языка (LID) для существующих объектов
SpeechRecognizer и TranslationRecognizer.
-
Python: добавлен объект new Python с именем
SourceLanguageRecognizer для одноразового или непрерывного liD (без распознавания или перевода).
-
JavaScript:
getActivationPhrasesAsync API, добавленный в VoiceProfileClient класс для получения списка допустимых фраз активации на этапе регистрации распознавания говорящего для независимых сценариев распознавания речи.
-
JavaScript
VoiceProfileClient' API s enrollProfileAsync теперь является асинхронным для ожидания. Например, использование см. в .
Улучшения
-
Java: AutoCloseable поддерживает множество объектов Java. Теперь модель try-with-resources поддерживается для выпуска ресурсов. См. пример this, использующий try-with-resources. См. также руководство по документации по Oracle Java для Инструкции try-with-resources, чтобы узнать об этом шаблоне.
-
Объем дискового пространства значительно сократился для многих платформ и архитектур. Примеры двоичного файла
Microsoft.CognitiveServices.Speech.core: x64 Linux меньше 475 КБ (сокращение% 8.0); Arm64 Windows UWP меньше 464 КБ (сокращение 11,5%); x86 Windows меньше 343 КБ (сокращение 17,5%); а x64 Windows меньше 451 КБ (19,4% сокращение).
Исправления ошибок
-
Java: исправлена ошибка синтеза, когда текст синтеза содержит суррогатные символы. Сведения here.
-
JavaScript: обработка звука микрофона браузера теперь используется
AudioWorkletNode вместо нерекомендуемой ScriptProcessorNode. Подробные сведения здесь.
-
JavaScript: правильно держите беседы в живых во время длительных сценариев перевода бесед. Подробные сведения здесь.
-
JavaScript. Исправлена проблема повторного подключения распознавателя к потоку мультимедиа в непрерывном распознавании. Подробные сведения здесь.
-
JavaScript. Исправлена проблема повторного подключения распознавателя к pushStream в непрерывном распознавании. Подробные сведения здесь.
-
JavaScript: исправленное вычисление смещения уровня слова в подробных результатах распознавания. Подробные сведения здесь.
Образцы
- примеры краткого руководства Java обновлены here.
- Примеры распознавания говорящего JavaScript обновлены, чтобы показать новое использование
enrollProfileAsync(). См. примеры here.
Пакет SDK для службы "Речь" 1.17.0: выпуск за май 2021 г.
Примечание
Начало работы с пакетом SDK службы "Речь" здесь.
Сводка по выделению
- Меньше места — мы продолжаем уменьшать объем памяти и дисков пакета SDK службы "Речь" и его компонентов.
- Новый автономный API идентификации языка позволяет распознавать, какой язык произносится.
- Разработка приложений смешанной реальности и игр с поддержкой речи с помощью Unity в macOS.
- Теперь вы можете использовать текст для речи в дополнение к распознаванию речи на языке программирования Go.
- Несколько исправлений ошибок для решения проблем, которые вы, наши ценные клиенты, помечены на GitHub! СПАСИБО! Оставить отзыв ближайшим!
Новые возможности
-
C++/C#: новые автономные At-Start и непрерывное распознавание
SourceLanguageRecognizer языка с помощью API. Если вы хотите только обнаружить языки, которые говорят в аудиоконтенте, это API для этого. Дополнительные сведения о C++ и C#.
-
C++/C#: распознавание речи и распознавание перевода теперь поддерживают как при запуске, так и непрерывную идентификацию языка, чтобы программно определить, какие языки говорятся перед их транскрибированием или переводом. См. документацию по распознаванию речи и здесь для перевода речи.
-
C#: добавлена поддержка Unity для macOS (x64). Это разблокирует варианты использования распознавания речи и синтеза речи в смешанной реальности и играх!
-
Go: Мы добавили поддержку синтеза речи для речи на языке программирования Go, чтобы сделать синтез речи доступным в еще большем случае. Ознакомьтесь с нашей документацией quickstart или нашей документацией reference.
-
C++/C#/Java Python/Objective-C/Go: синтезатор речи теперь поддерживает объект
connection. Это помогает управлять подключением к службе "Речь" и отслеживать их и особенно полезно предварительно подключиться к снижению задержки. См. документацию здесь.
-
C++/C#/Java/Python/Objective-C/Go: теперь мы предоставляем задержку и время запуска в
SpeechSynthesisResult, чтобы помочь вам отслеживать и диагностировать проблемы с задержкой синтеза речи. Дополнительные сведения о C++ C#, Java, Python<>>, Objective-C и Go.
-
C++/C#/Java/Python/Objective-C: текст для речи now использует нейронные голоса по умолчанию, если не указать используемый голос. Это дает более высокую точность выходных данных по умолчанию, но также увеличивает цену по умолчанию.
- C++/C#/Java/Python/Objective-C/Go<>/c0>: Мы добавили свойство Gender в сведения о синтезе голосовой связи, чтобы упростить выбор голоса на основе пола. Это касается проблемы GitHub #1055.
-
C++, C#, Java, JavaScript: теперь мы поддерживаем
retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync и getAllProfilesAsync() в распознавании говорящего, чтобы упростить управление пользователями всех профилей голосовой связи для данной учетной записи. См. документацию по C++, C#, Java, JavaScript. Это устраняет проблему GitHub #338.
-
JavaScript: мы добавили повторную попытку при сбоях подключения, что сделает приложения речи на основе JavaScript более надежными.
Улучшения
- Двоичные файлы пакета SDK для Linux и Android Для службы "Речь" были обновлены, чтобы использовать последнюю версию OpenSSL (1.1.1k)
- Улучшения размера кода:
- Распознавание речи теперь разделен на отдельную библиотеку lu.
- Windows размер двоичного файла ядра x64 снизился на 14,4%.
- Размер двоичного файла Android Arm64 снизился на 13,7%.
- другие компоненты также снизились в размере.
Исправления ошибок
-
All: исправлена проблема GitHub #842 для ServiceTimeout. Теперь вы можете транскрибировать длинные звуковые файлы с помощью пакета SDK службы "Речь" без подключения к службе, завершающейся этой ошибкой. Однако мы по-прежнему рекомендуем использовать пакетное транскрибирование для длинных файлов.
-
C#: исправлена проблема GitHub проблема #947 если входные данные речи не могут оставить приложение в плохом состоянии.
-
Java: исправлена проблема GitHub проблема #997 при сбое пакета SDK службы "Речь" для Java 1.16 при использовании DialogServiceConnector без сетевого подключения или недопустимого ключа подписки.
- Исправлен сбой при резкой остановке распознавания речи (например, с помощью CTRL+C в консольном приложении).
-
Java. Добавлено исправление для удаления временных файлов на Windows при использовании пакета SDK службы "Речь" для Java.
-
Java: исправлена проблема GitHub #994 при вызове
DialogServiceConnector.stopListeningAsync может привести к ошибке.
-
Java: исправлена проблема с клиентом в кратком руководстве виртуального помощника.
-
JavaScript: исправлена проблема GitHub #366 где
ConversationTranslator вызвала ошибку "this.cancelSpeech не является функцией".
-
JavaScript: исправлена проблема GitHub проблема #298 где образец "Получить результат в виде потока в памяти" воспроизводил звук вслух.
-
JavaScript: исправлена проблема GitHub #350 при вызове
AudioConfig может привести к ошибке "ReferenceError: MediaStream не определен".
-
JavaScript: исправлено предупреждение UnhandledPromiseRejection в Node.js для длительных сеансов.
Образцы
- Обновленная документация по примерам Unity для macOS here.
- Пример React Native для службы распознавания речи Azure теперь доступен here.
Пакет SDK для службы "Речь" 1.16.0: выпуск за март 2021 г.
Примечание
Пакет SDK службы "Речь" в Windows зависит от общего распространяемого Microsoft Visual C++ для Visual Studio 2015, 2017 и 2019.
Новые возможности
-
C++/C#/Java/Python: перемещена в последнюю версию GStreamer (1.18.3), чтобы добавить поддержку транскрибирования любого формата мультимедиа в Windows, Linux и Android. См. документацию здесь.
-
C++/C#/Java/Objective-C/Python: добавлена поддержка декодирования сжатых TTS/синтезированного звука в пакет SDK. Если в системе установлен выходной формат звука для PCM и GStreamer, пакет SDK автоматически запрашивает сжатый звук из службы, чтобы сохранить пропускную способность и декодировать звук на клиенте. Вы можете отключить
SpeechServiceConnection_SynthEnableCompressedAudioTransmissionfalse эту функцию. Сведения о C++, C#, Java, Objective-C, Python.
-
JavaScript: теперь пользователи Node.js могут использовать
AudioConfig.fromWavFileInput API. Это касается проблемы GitHub #252.
-
C++/C#/Java/Objective-C/Python: добавлен метод
GetVoicesAsync() для TTS для возврата всех доступных голосов синтеза. Сведения о C++, C#, Java<>/c2>, Objective-C и Python.
-
C++/C#/Java/JavaScript/Objective-C/Python: добавлено событие
VisemeReceived для синтеза речи TTS/speech для возврата синхронной анимации виземы. См. документацию здесь.
-
C++/C#/Java/JavaScript/Objective-C/Python: добавлено событие
BookmarkReached для TTS. Закладки можно задать в входном SSML и получить смещения звука для каждой закладки. См. документацию здесь.
-
Java: добавлена поддержка API распознавания говорящего. Подробные сведения здесь.
-
C++/C#/Java/JavaScript/Objective-C/Python: добавлено два новых выходных аудиоформата с контейнером WebM для TTS (Webm16Khz16BitMonoOpus и Webm24Khz16BitMonoOpus). Это лучшие форматы потоковой передачи звука с помощью кодека Opus. Сведения о C++, C#Java, JavaScript, Objective-C, Python.
-
C++/C#/Java: добавлена поддержка получения профиля голоса для сценария распознавания говорящего. Сведения о C++, C# и Java.
-
C++/C#/Java/Objective-C/Python: добавлена поддержка отдельной общей библиотеки для управления микрофоном и динамиком. Это позволяет разработчику использовать пакет SDK в средах, которые не имеют необходимых зависимостей аудио библиотеки.
-
Objective-C/Swift: добавлена поддержка платформы модулей с заголовком зонтика. Это позволяет разработчику импортировать пакет SDK службы "Речь" в виде модуля в приложениях iOS/Mac Objective-C/Swift. Это касается проблемы GitHub #452.
-
Python: добавлена поддержка Python 3.9 и удалена поддержка Python 3,5 на Python end-of-life for 3.5.
Известные проблемы
-
C++/C#/Java:
DialogServiceConnector не может использовать CustomCommandsConfig для доступа к приложению пользовательских команд и вместо этого возникает ошибка подключения. Это можно обойти, добавив идентификатор приложения в запрос config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)вручную. Ожидаемое поведение CustomCommandsConfig будет восстановлено в следующем выпуске.
Улучшения
- В рамках нашей работы с несколькими выпусками, чтобы сократить объем памяти пакета SDK службы "Речь" и объем дисков, двоичные файлы Android теперь 3% до 5% меньше.
- Улучшена точность, удобочитаемость и см. также разделы справочной документации по C#.
Исправления ошибок
-
JavaScript: большие заголовки WAV-файлов теперь анализируются правильно (увеличивает срез заголовка до 512 байт). Эта проблема GitHub проблема #962.
-
JavaScript: исправлена проблема с временем ожидания микрофона, если поток микрофона заканчивается до остановки распознавания речи, устраняя проблему с распознаванием речи, не работающей в Firefox.
-
JavaScript. Теперь мы правильно обработаем обещание инициализации при отключении микрофона браузера перед завершением выключения.
-
JavaScript: мы заменили зависимость URL-адресов синтаксического анализа URL-адресов. Это касается проблемы GitHub #264.
-
Android: исправленные обратные вызовы не работают, если
minifyEnabled задано значение true.
-
C++/C#/Java/Objective-C/Python:
TCP_NODELAY будет правильно задано значение базового ввода-вывода сокета для TTS для уменьшения задержки.
-
C++/C#/Java/Python/Objective-C/Go: исправлен случайный сбой, когда распознаватель был разрушен сразу после запуска распознавания.
-
C++/C#/Java: исправлен случайный сбой при уничтожении распознавателя говорящего.
Образцы
-
JavaScript: примеры Browser больше не требуют отдельного скачивания файла библиотеки JavaScript.
Пакет SDK для службы "Речь" 1.15.0: выпуск 2021-январь
Примечание
Пакет SDK службы "Речь" в Windows зависит от общего распространяемого Microsoft Visual C++ для Visual Studio 2015, 2017 и 2019.
Сводка по выделению
- Меньше памяти и дискового пространства, что делает пакет SDK более эффективным.
- Форматы выходных данных с более высокой точностью, доступные для предварительной версии пользовательского нейронного голоса.
- Распознаватель намерений теперь может получить больше, чем первое намерение, что дает вам возможность сделать отдельную оценку о намерении клиента.
- Голосовые помощники и боты теперь проще настроить, и вы можете сделать его перестать прослушивать немедленно, и выполнять более широкий контроль над тем, как он реагирует на ошибки.
- Улучшена производительность устройства с помощью дополнительного сжатия.
- Используйте пакет SDK службы "Речь" в Windows ARM/Arm64.
- Улучшена отладка низкого уровня.
- Функция оценки произношения теперь более широко доступна.
- Несколько исправлений ошибок для решения проблем, которые вы, наши ценные клиенты, помечены на GitHub! СПАСИБО! Оставить отзыв ближайшим!
Улучшения
- Пакет SDK для службы "Речь" теперь более эффективный и упрощенный. Мы приступили к работе с несколькими выпусками, чтобы сократить объем памяти пакета SDK службы "Речь" и дискового пространства. В качестве первого шага мы сделали значительное сокращение размера файлов в общих библиотеках на большинстве платформ. По сравнению с выпуском 1.14:
- 64-разрядные библиотеки, совместимые с UWP Windows, примерно в 30% меньше.
- 32-разрядные библиотеки Windows пока не видят улучшения размера.
- Библиотеки Linux меньше 20–25%.
- Библиотеки Android меньше 3–5% меньше.
Новые возможности
-
Все: новые форматы выходных данных 48 КГц, доступные для предварительной версии пользовательского нейронного голоса через API синтеза речи TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
-
Все: Пользовательский голос также проще использовать. Добавлена поддержка настройки пользовательского голоса с помощью
EndpointId (C++C#, Java, JavaScript, Objective-C, Python). Перед этим изменением пользовательские пользователи голосовой связи должны задать URL-адрес конечной FromEndpoint точки с помощью метода. Теперь клиенты могут использовать FromSubscription метод так же, как стандартные голоса, а затем указать идентификатор развертывания, задав параметр EndpointId. Это упрощает настройку пользовательских голосов.
-
C++/C#/Java/Objective-C/Python: получение больше, чем основное намерение
IntentRecognizer. Теперь он поддерживает настройку результата JSON, содержащего все намерения и не только намерение верхней оценки с помощью LanguageUnderstandingModel FromEndpoint метода с помощью verbose=true параметра URI. Это касается проблемы GitHub #880. См. обновленную документацию здесь.
-
C++/C#/Java. Немедленное прослушивание голосового помощника или бота.
DialogServiceConnector (C++, C#, Java) теперь имеет метод StopListeningAsync() для сопровождения ListenOnceAsync(). Это немедленно остановит звукозапись и корректно подождите результата, что делает его идеальным для использования с сценариями нажатия кнопки.
-
C++/C#/Java/JavaScript: сделайте голосовой помощник или бот лучше реагировать на базовые системные ошибки.
DialogServiceConnector (C++C#, Java, JavaScript) теперь имеет новый обработчик событий TurnStatusReceived. Эти необязательные события соответствуют каждому разрешению ITurnContext в боте и будут сообщать о сбоях выполнения при их возникновении, например в результате необработанного исключения, времени ожидания или падения сети между Direct Line речью и ботом.
TurnStatusReceived упрощает реагирование на условия сбоя. Например, если бот занимает слишком много времени в запросе к серверной базе данных (например, поиск продукта), TurnStatusReceived клиент может узнать, что переигрываться с сообщением "к сожалению, я не получил этого, можно ли повторить попытку" или что-то подобное.
-
C++/C#: используйте пакет SDK службы "Речь" на дополнительных платформах. Пакет NuGet Speech SDK nuGet теперь поддерживает Windows собственных двоичных файлов ARM/Arm64 (UWP уже поддерживается), чтобы сделать пакет SDK службы "Речь" более полезным для других типов компьютеров.
-
Java:
DialogServiceConnector теперь имеет метод setSpeechActivityTemplate(), который был непреднамеренно исключен из языка ранее. Это эквивалентно настройке свойства Conversation_Speech_Activity_Template и запрашивает, чтобы все будущие действия Bot Framework, созданные службой Direct Line речь, объединили предоставленное содержимое в полезные данные JSON.
-
Java: улучшена отладка низкого уровня. Теперь класс
Connection имеет MessageReceived событие, аналогичное другим языкам программирования (C++, C#). Это событие обеспечивает низкоуровневый доступ к входящим данным из службы и может быть полезным для диагностики и отладки.
-
JavaScript: упрощенная настройка голосовых помощников и ботов с помощью
BotFrameworkConfigметодов, которые теперь имеют fromHost() и fromEndpoint() заводские методы, упрощающие использование настраиваемых расположений служб, а также параметры свойств вручную. Мы также стандартизировали необязательное описание botId использования бота, отличного от по умолчанию, в фабриках конфигурации.
-
JavaScript: улучшена производительность устройства с помощью добавленного свойства элемента управления строкой для сжатия websocket. По соображениям производительности мы отключили сжатие websocket по умолчанию. Это можно повторно изменить для сценариев с низкой пропускной способностью. Дополнительные сведения см. здесь. Это устраняет проблему GitHub #242.
-
JavaScript: добавлена поддержка оценки lPronunciation для включения оценки произношения речи. См . краткое руководство.
Исправления ошибок
-
Все (кроме JavaScript): исправлена регрессия в версии 1.14, в которой слишком много памяти было выделено распознавателями.
-
C++: исправлена проблема сборки мусора с
DialogServiceConnector, устранение проблемы GitHub #794.
-
C#: исправлена проблема с завершением работы потока, из-за которой объекты блокировали около секунды при удалении.
-
C++/C#/Java. Исправлено исключение, предотвращающее настройку маркера авторизации речи или шаблона действий в
DialogServiceConnector.
-
C++/C#/Java: исправлена авария распознавателя из-за состояния расы в сбое.
-
JavaScript:
DialogServiceConnector ранее не учитывал необязательный botId параметр, указанный в BotFrameworkConfigфабриках. Это позволило вручную задать botId параметр строки запроса для использования бота, отличного от по умолчанию. Исправлена ошибка, и botId значения, предоставленные BotFrameworkConfigфабрикам, будут учитываться и использоваться, включая новые fromHost() и fromEndpoint() дополнения. Это также относится к параметру applicationId для CustomCommandsConfig.
-
JavaScript: исправлена проблема GitHub проблема #881, позволяющая повторно использовать объект распознавателя.
-
JavaScript: исправлена проблема, из-за которой SKD отправлял
speech.config несколько раз в одном сеансе TTS, а пропускная способность пропускалась.
-
JavaScript: упрощенная обработка ошибок при авторизации микрофона, что позволяет более описательное сообщение пузыриться, когда пользователь не разрешил входные данные микрофона в браузере.
-
JavaScript: исправлена проблема GitHub #249 где ошибки типа в
ConversationTranslator и ConversationTranscriber вызвали ошибку компиляции для пользователей TypeScript.
-
Objective-C: исправлена проблема, из-за которой сбой сборки GStreamer для iOS в Xcode 11.4, адресация GitHub проблема #911.
-
Python: исправлена проблема GitHub #870, удаление "DeprecationWarning: imp module не рекомендуется использовать в пользу importlib".
Образцы
Пакет SDK для службы "Речь" 1.14.0: выпуск за октябрь 2020 г.
Примечание
Пакет SDK службы "Речь" в Windows зависит от общего распространяемого Microsoft Visual C++ для Visual Studio 2015, 2017 и 2019.
Новые возможности
-
Linux: добавлена поддержка Debian 10 и Ubuntu 20.04 LTS.
-
Python/Objective-C: добавлена поддержка API
KeywordRecognizer. Здесь будет приведена документация.
-
C++/Java/C#: добавлена поддержка задания любого
HttpHeader key/value через ServicePropertyChannel::HttpHeader.
-
JavaScript: добавлена поддержка
ConversationTranscriber API. Ознакомьтесь с документацией здесь.
-
C++/C#: добавлен новый
AudioDataStream FromWavFileInput метод (для чтения). WAV-файлы здесь (C++) и здесь (C#).
-
C++/C#/Java/Python/Objective-C/Swift: добавлен метод
stopSpeakingAsync() для остановки синтеза текста в речь. Ознакомьтесь со справочной документацией here (C++), here (C#), here (Java), here (Python) и here (Objective-C/Swift).
-
C#, C++, Java: добавлена функция
FromDialogServiceConnector() в класс Connection, который можно использовать для мониторинга событий подключения и отключения для DialogServiceConnector. Ознакомьтесь со справочной документацией here (C#), here (C++) и here (Java).
-
C++/C#/Java/Python/Objective-C/Swift: добавлена поддержка оценки произношения, которая оценивает произношение речи и дает ораторам отзывы о точности и свободности речевых звуков. Ознакомьтесь с документацией здесь.
Критическое изменение
-
JavaScript: PullAudioOutputStream.read() имеет тип возвращаемого значения с внутреннего Обещания на собственное обещание JavaScript.
Исправления ошибок
-
Все: исправлена регрессия версии 1.13, в
SetServiceProperty которой значения с определенными специальными символами были проигнорированы.
-
C#: исправлены примеры консоли Windows в Visual Studio 2019, не найдя собственные библиотеки DLL.
-
C#: исправлен сбой при управлении памятью, если поток используется в качестве
KeywordRecognizer входных данных.
-
ObjectiveC/Swift: исправлен сбой управления памятью, если поток используется в качестве входных данных распознавателя.
-
Windows: исправлена проблема сосуществования с BT HFP/A2DP в UWP.
-
JavaScript: исправлено сопоставление идентификаторов сеансов для улучшения ведения журнала и помощи во внутренних корреляциях отладки и служб.
-
JavaScript: добавлено исправление для
DialogServiceConnector отключения ListenOnce вызовов после первого вызова.
-
JavaScript: исправлена проблема, из-за которой выходные данные результата всегда были "простыми".
-
JavaScript: исправлена проблема непрерывного распознавания в Safari в macOS.
-
JavaScript: устранение рисков загрузки ЦП для сценария высокой пропускной способности запросов.
-
JavaScript: разрешить доступ к подробным сведениям о результатах регистрации профиля голосовой связи.
-
JavaScript: добавлено исправление для непрерывного распознавания
IntentRecognizer.
-
C++/C#/Java/Python/Swift/ObjectiveC: исправлен неправильный URL-адрес для австралииeast и бразилии в
IntentRecognizer.
-
C++/C#: добавлен
VoiceProfileType в качестве аргумента VoiceProfile при создании объекта.
-
C++/C#/Java/Python/Swift/ObjectiveC: исправлен потенциал
SPX_INVALID_ARG при попытке чтения AudioDataStream из заданной позиции.
-
IOS: исправлен сбой с распознаванием речи в Unity
Образцы
-
ObjectiveC: добавлен пример для распознавания ключевых слов here.
-
C#/JavaScript: добавлено краткое руководство по транскрибированию бесед here (C#) и here (JavaScript).
-
C++/C#/Java/Python/Swift/ObjectiveC: добавлен пример оценки произношения here
Известная проблема
- Сертификат DigiCert Global Root G2 по умолчанию не поддерживается в HoloLens 2 и Android 4.4 (KitKat) и должен быть добавлен в систему, чтобы сделать пакет SDK службы "Речь" функциональным. Сертификат будет добавлен в HoloLens 2 образов ОС в ближайшем будущем. Клиентам Android 4.4 необходимо добавить обновленный сертификат в систему.
CoVID-19 сокращенное тестирование
Из-за удаленной работы в течение последних нескольких недель мы не могли сделать столько ручного тестирования проверки, сколько мы обычно делаем. Мы не внесли никаких изменений, которые мы думаем, сломали ничего, и наши автоматизированные тесты прошли. В маловероятном случае, что мы пропустили что-то, пожалуйста, сообщите нам о GitHub.
Оставайтесь здоровыми!
Пакет SDK для службы "Речь" 1.13.0: выпуск 2020-июль
Примечание
Пакет SDK службы "Речь" в Windows зависит от общего распространяемого Microsoft Visual C++ для Visual Studio 2015, 2017 и 2019.
Новые возможности
-
C#: добавлена поддержка асинхронного транскрибирования бесед. См. документацию здесь.
-
JavaScript: добавлена поддержка распознавания говорящего для обоих browser и Node.js.
-
JavaScript: добавлена поддержка идентификатора идентификации языка и языка. См. документацию здесь.
-
Objective-C: добавлена поддержка беседы с несколькими устройствами и транскрибирования бесед.
-
Python: добавлена сжатая поддержка звука для Python в Windows и Linux. См. документацию здесь.
Исправления ошибок
-
Все: исправлена проблема, из-за которой ключевой словаRecognizer не перемещался вперед потоки после распознавания.
-
Все: исправлена проблема, из-за которой поток, полученный из Ключевого словаRecognitionResult, не содержал ключевое слово.
-
Все. Исправлена проблема, из-за которой sendMessageAsync не отправлял сообщение по проводу после того, как пользователи завершат ожидание.
-
Все: исправлен сбой в API распознавания говорящего при вызове метода VoiceProfileClient::SpeakerRecEnrollProfileAsync несколько раз и не ждал завершения вызовов.
-
Все: исправлено включение ведения журнала файлов в классах VoiceProfileClient и SpeakerRecognizer.
-
JavaScript: исправлена проблема с регулированием при сворачивании браузера.
-
JavaScript: исправлена проблема с утечкой памяти в потоках.
-
JavaScript: добавлена кэширование для ответов OCSP из NodeJS.
-
Java: исправлена проблема, из-за которой поля BigInteger всегда возвращали значение 0.
-
iOS: исправлено issue с публикацией приложений пакета SDK для службы "Речь" в Магазине приложений iOS.
Образцы
-
C++: добавлен пример кода для распознавания говорящего here.
CoVID-19 сокращенное тестирование
Из-за удаленной работы в течение последних нескольких недель мы не могли сделать столько ручного тестирования проверки, сколько мы обычно делаем. Мы не внесли никаких изменений, которые мы думаем, сломали ничего, и наши автоматизированные тесты прошли. В маловероятном случае, что мы пропустили что-то, пожалуйста, сообщите нам о GitHub.
Оставайтесь здоровыми!
Пакет SDK для службы "Речь" 1.12.1: выпуск за июнь 2020 г.
Новые возможности
-
C#, C++: предварительная версия распознавания говорящего: эта функция обеспечивает идентификацию говорящего (кто говорит?) и проверку говорящего (является докладчиком, который они утверждают?). Ознакомьтесь с документацией по обзору.
Исправления ошибок
-
C#, C++: фиксированная запись микрофона не работала в версии 1.12 в распознавании говорящего.
-
JavaScript: исправление речи текста в Firefox и Safari в macOS и iOS.
- Исправление сбоя Windows нарушения доступа проверяющего приложения при транскрибировании бесед при использовании потока восьми каналов.
- Исправлена ошибка Windows нарушения доступа проверяющего приложения при переводе бесед с несколькими устройствами.
Образцы
-
C#: пример Код для распознавания говорящего.
-
C++: пример Code для распознавания говорящего.
-
Java: Code sample для распознавания намерений в Android.
CoVID-19 сокращенное тестирование
Из-за удаленной работы в течение последних нескольких недель мы не могли сделать столько ручного тестирования проверки, сколько мы обычно делаем. Мы не внесли никаких изменений, которые мы думаем, сломали ничего, и наши автоматизированные тесты прошли. В маловероятном случае, что мы пропустили что-то, пожалуйста, сообщите нам о GitHub.
Оставайтесь здоровыми!
Пакет SDK для службы "Речь" 1.12.0: выпуск за май 2020 г.
Новые возможности
-
Go: Поддержка нового языка Go для распознавания речи и пользовательского голосового помощника. Настройте среду разработки здесь. Пример кода см. в разделе "Примеры" ниже.
-
JavaScript: добавлена поддержка браузера для преобразования текста в речь. См. документацию здесь.
-
C++, C#, Java: новый объект
KeywordRecognizer /API, поддерживаемые на платформах Windows, Android, Linux и iOS. Ознакомьтесь с документацией здесь. Пример кода см. в разделе "Примеры" ниже.
-
Java: добавлена поддержка перевода с несколькими устройствами. См. справочную документацию здесь.
Улучшения и оптимизация
-
JavaScript: оптимизированная реализация микрофона браузера улучшает точность распознавания речи.
-
Java: рефакторинг привязок с использованием прямой реализации JNI без SWIG. Это изменение уменьшается на 10x размер привязок для всех пакетов Java, используемых для Windows, Android, Linux и Mac, и упрощает дальнейшую разработку пакета SDK службы "Речь" Java реализации.
-
Linux: обновлена документация по поддержке с помощью последних заметок RHEL 7.
- Улучшена логика подключения для многократного подключения при возникновении ошибок службы и сети.
- Обновлен портал. azure.com страница краткого руководства по распознаванию речи, чтобы помочь разработчикам выполнить следующий шаг в Azure пути преобразования речи.
Исправления ошибок
-
C#, Java: исправлено значение issue с загрузкой библиотек SDK в Linux ARM (как 32-разрядная, так и 64-разрядная).
-
C#: исправлено явное удаление собственных дескрипторов для объектов TranslationRecognizer, IntentRecognizer и Connection.
-
C#: исправлено управление временем существования входных данных звука для объекта ConversationTranscriber.
- Исправлена проблема, из-за
IntentRecognizer которой причина результата не была задана должным образом при распознавании намерений из простых фраз.
- Исправлена проблема, из-за которой
SpeechRecognitionEventArgs смещение результата не было задано правильно.
- Исправлено состояние гонки, в котором пакет SDK пытался отправить сетевое сообщение перед открытием подключения websocket. Воспроизводимый при
TranslationRecognizer добавлении участников.
- Исправлена утечка памяти в обработчике распознавателя ключевых слов.
Образцы
CoVID-19 сокращенное тестирование
Из-за удаленной работы в течение последних нескольких недель мы не могли сделать столько ручного тестирования проверки, сколько мы обычно делаем. Мы не внесли никаких изменений, которые мы думаем, сломали ничего, и наши автоматизированные тесты прошли. Если мы пропустили что-то, пожалуйста, сообщите нам о GitHub.
Оставайтесь здоровыми!
Пакет SDK для службы "Речь" 1.11.0: выпуск за март 2020 г.
Новые возможности
- Linux: добавлена поддержка Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
- Linux: добавлена поддержка .NET Core C# в Linux ARM32 и Arm64. Дополнительные сведения см. здесь.
- C#, C++: добавлен
UtteranceIdConversationTranscriptionResult, согласованный идентификатор для всех промежуточных и окончательных результатов распознавания речи. Сведения о C#, C++.
- Python. Добавлена поддержка
Language ID. См. speech_sample.py в репозитории GitHub.
- Windows. Добавлена поддержка сжатого формата звука для платформы Windows для всех консольных приложений Win32. Подробные сведения здесь.
- JavaScript: поддержка синтеза речи (текста в речь) в NodeJS. Дополнительные сведения here.
- JavaScript: добавьте новые API для включения проверки всех отправки и полученных сообщений. Дополнительные сведения here.
Исправления ошибок
- C#, C++: исправлена проблема, поэтому
SendMessageAsync теперь отправляет двоичное сообщение в виде двоичного типа. Сведения о C#, C++.
- C#, C++: исправлена проблема, из-за которой использование
Connection MessageReceived события может привести к сбою при Recognizer удалении перед Connection объектом. Сведения о C#, C++.
- Android: размер буфера звука с микрофона снизился с 800 мс до 100 мс, чтобы повысить задержку.
- Android: исправлено issue с эмулятором Android x86 в Android Studio.
- JavaScript: добавлена поддержка регионов в Китае с
fromSubscription помощью API. Подробные сведения здесь.
- JavaScript: добавьте дополнительные сведения об ошибках подключения из NodeJS.
Образцы
- Unity. Исправлен общедоступный пример распознавания намерений, в котором произошел сбой импорта JSON LUIS. Сведения here.
- Python. Пример добавлен для
Language ID. Сведения here.
Covid19 сокращенное тестирование: Из-за удаленной работы в течение последних нескольких недель мы не могли сделать столько ручного тестирования проверки устройства, сколько мы обычно делаем. Например, не удалось протестировать входные и динамики микрофона в Linux, iOS и macOS. Мы не внесли никаких изменений, которые мы думаем, могли бы сломать что-либо на этих платформах, и наши автоматизированные тесты все прошли. В маловероятном случае, что мы пропустили что-то, сообщите нам о GitHub.
Спасибо за вашу постоянную поддержку. Как всегда, отправьте вопросы или отзывы о GitHub или Stack Overflow.
Оставайтесь здоровыми!
Пакет SDK для службы "Речь" 1.10.0: выпуск 2020-февраль
Новые возможности
- Добавлены пакеты Python для поддержки нового выпуска Python версии 3.8.
- Поддержка Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).
- Поддержка Linux ARM32 для Debian и Ubuntu.
- DialogServiceConnector теперь поддерживает необязательный параметр "идентификатор бота" в BotFrameworkConfig. Этот параметр позволяет использовать несколько ботов службы "Речь" Direct Line с одним ресурсом "Речь". Без указанного параметра будет использоваться бот по умолчанию (как определено страницей конфигурации канала речи Direct Line).
- DialogServiceConnector теперь имеет свойство SpeechActivityTemplate. Содержимое этой строки JSON будет использоваться Direct Line "Речь" для предварительного формирования разнообразных поддерживаемых полей во всех действиях, которые достигают бота Direct Line речи, включая действия, автоматически созданные в ответ на события, такие как распознавание речи.
- Теперь TTS использует ключ подписки для проверки подлинности, уменьшая первую задержку байтов первого результата синтеза после создания синтезатора.
- Обновленные модели распознавания речи для 19 языковых стандартов для среднего снижения частоты ошибок слова 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Новые модели приносят значительные улучшения в нескольких доменах, включая диктовку, Call-Center транскрибирование и сценарии индексирования видео.
Исправления ошибок
- Исправлена ошибка, из-за которой Transcriber conversation Transcriber не ожидал правильно в API JAVA.
- Добавление отсутствующих (Get|Set)Property methods to AudioConfig.
- Исправлена ошибка TTS, из-за которой не удалось остановить audioDataStream при сбое подключения.
- Использование конечной точки без региона приведет к сбоям USP для переводчика бесед.
- Создание идентификаторов в универсальных приложениях Windows теперь использует соответствующий уникальный алгоритм GUID; он ранее и непреднамеренно по умолчанию использовался в ступеной реализации, которая часто создавала столкновения над большими наборами взаимодействий.
Образцы
Другие изменения
Пакет SDK для службы "Речь" 1.9.0: выпуск за январь 2020 г.
Новые возможности
- Беседа с несколькими устройствами: подключите несколько устройств к одной и той же речи или текстовой беседе и при необходимости переводите сообщения, отправленные между ними. Дополнительные сведения см. в этой статье.
- Поддержка распознавания ключевых слов, добавленная для пакета Android
.aar и добавлена поддержка вариантов x86 и x64.
- Objective-C:
SendMessage и SetMessageProperty методы, добавленные в Connection объект. См. документацию здесь.
- API TTS C++ теперь поддерживается
std::wstring как ввод текста синтеза, удаляя необходимость преобразования wstring в строку перед передачей в пакет SDK. Дополнительные сведения см. здесь.
- C#: теперь доступны идентификатор языка и конфигурация исходного языка .
- JavaScript: добавлена функция для объекта для
Connection передачи пользовательских сообщений из службы "Речь" в качестве обратного receivedServiceMessageвызова.
- JavaScript: добавлена поддержка
FromHost API упрощения использования с локальными контейнерами и суверенными облаками. См. документацию здесь.
- JavaScript: теперь мы благодарим
NODE_TLS_REJECT_UNAUTHORIZED за вклад организации. Дополнительные сведения см. здесь.
Критические изменения
-
OpenSSL обновлен до версии 1.1.1b и статически связан с основной библиотекой пакета SDK службы "Речь" для Linux. Это может привести к разрыву, если папка "Входящие OpenSSL " не была установлена в /usr/lib/ssl каталоге в системе. Ознакомьтесь с нашей документацией в документации по пакету SDK службы "Речь", чтобы обойти проблему.
- Мы изменили тип данных, возвращаемый для C#
WordLevelTimingResult.Offset , int чтобы long разрешить доступ WordLevelTimingResults к данным речи дольше 2 минут.
-
PushAudioInputStream и PullAudioInputStream теперь отправляет сведения заголовка wav в службу "Речь" на основе AudioStreamFormatнеобязательных указаний при создании. Теперь клиенты должны использовать поддерживаемый формат входного звука. Любые другие форматы получат неоптимальные результаты распознавания или могут вызвать другие проблемы.
Исправления ошибок
- См.
OpenSSL обновление в разделе "Критические изменения" выше. Исправлена прерывистая ошибка и проблема с производительностью (блокировка при высокой нагрузке) в Linux и Java.
- Java. Улучшено закрытие объектов в сценариях высокой параллелизма.
- Реструктурировал наш пакет NuGet. Мы удалили три копии
Microsoft.CognitiveServices.Speech.core.dll и Microsoft.CognitiveServices.Speech.extension.kws.dll в папках lib, что делает пакет NuGet меньше и быстрее для скачивания, и мы добавили заголовки, необходимые для компиляции некоторых собственных приложений C++.
- Исправлены примеры быстрого запуска here. Они завершались без отображения исключения "микрофон не найден" в Linux, macOS, Windows.
- Исправлен сбой пакета SDK с длинными результатами распознавания речи в определенных путях кода, например this sample.
- Исправлена ошибка развертывания пакета SDK в среде веб-приложения Azure для решения проблемы с клиентом .
- Исправлена ошибка TTS при использовании тега /< > /> тег <а или тега > /> для решения проблемы с клиентом .
- Исправлена ошибка TTS 401 при восстановлении пакета SDK после приостановки.
- JavaScript: исправлен циклический импорт звуковых данных благодаря вкладу euirim.
- JavaScript: добавлена поддержка настройки свойств службы, как добавлено в версии 1.7.
- JavaScript: исправлена проблема, из-за которой ошибка подключения могла привести к непрерывным, неудачным попыткам повторного подключения websocket.
Образцы
- Добавлен пример распознавания ключевых слов для Android here.
- Добавлен пример TTS для сценария сервера here.
- Здесь добавлены краткие руководства по беседе с несколькими устройствами для C# и C++.
Другие изменения
- Оптимизированный размер основной библиотеки ПАКЕТА SDK в Android.
- Пакет SDK версии 1.9.0 и более поздних версий поддерживает оба
int типа string в поле версии голосовой подписи для беседы Transcriber.
Пакет SDK для службы "Речь" 1.8.0: выпуск за ноябрь 2019 г.
Новые возможности
- Добавлен
FromHost() API для упрощения использования с локальными контейнерами и независимыми облаками.
- Добавлена идентификация языка источника для распознавания речи (в Java и C++)
- Добавлен объект
SourceLanguageConfig для распознавания речи, используемый для указания ожидаемых исходных языков (в Java и C++)
- Добавлена поддержка
KeywordRecognizer в Windows (UWP), Android и iOS через пакеты NuGet и Unity
- Добавлен API удаленной беседы Java для выполнения транскрибирования бесед в асинхронных пакетах.
Критические изменения
- Функции Транскрибера беседы перемещены в пространство имен
Microsoft.CognitiveServices.Speech.Transcription.
- Части методов Transcriber беседы перемещаются в новый
Conversation класс.
- Удалена поддержка 32-разрядной версии (ARMv7 и x86) iOS
Исправления ошибок
- Исправление сбоя, если локальный
KeywordRecognizer используется без допустимого ключа подписки службы "Речь"
Образцы
- пример Xamarin для
KeywordRecognizer
- Пример Unity для
KeywordRecognizer
- Примеры C++ и Java для автоматической идентификации языка исходного кода.
Пакет SDK для службы "Речь" 1.7.0: выпуск за сентябрь 2019 г.
Новые возможности
- Добавлена бета-версия для Xamarin в Universal Windows Platform (UWP), Android и iOS
- Добавлена поддержка iOS для Unity
- Добавлена
Compressed поддержка входных данных для ALaw, Mulaw, FLAC, в Android, iOS и Linux
-
SendMessageAsync Добавлен в Connection класс для отправки сообщения в службу
-
SetMessageProperty Добавлен в Connection класс для задания свойства сообщения
- Добавленные привязки TTS для Java (JRE и Android), Python, Swift и Objective-C
- TTS добавила поддержку воспроизведения для macOS, iOS и Android.
- Добавлена информация "граница слова" для TTS.
Исправления ошибок
- Исправлена проблема сборки IL2CPP в Unity 2019 для Android
- Исправлена проблема с неправильно обработанными заголовками в входных данных wav-файла
- Исправлена проблема, из-за которой идентификаторы UUID не были уникальными в некоторых свойствах подключения
- Исправлено несколько предупреждений об описателях null в привязках Swift (могут потребоваться небольшие изменения кода).
- Исправлена ошибка, из-за которой подключения websocket закрывались неграмотно при сетевой нагрузке.
- Исправлена проблема в Android, которая иногда приводит к дублированию идентификаторов впечатлений, используемых
DialogServiceConnector
- Улучшение стабильности подключений при взаимодействии с несколькими поворотами и отчеты о сбоях (с помощью
Canceled событий) при их возникновении DialogServiceConnector
-
DialogServiceConnector Запуск сеанса теперь будет правильно предоставлять события, включая при вызове ListenOnceAsync() во время активного StartKeywordRecognitionAsync()
- Устранен сбой, связанный с получаемыми
DialogServiceConnector действиями
Образцы
- Краткое руководство по Xamarin
- Обновлено краткое руководство по CPP с информацией о Linux Arm64
- Обновлено краткое руководство по Unity с сведениями о iOS
Пакет SDK для службы "Речь" 1.6.0: выпуск за июнь 2019 г.
Образцы
- Примеры краткого руководства по распознаванию речи в UWP и Unity
- Пример краткого руководства для Swift в iOS
- Примеры Unity для распознавания речи и намерения и перевода
- Обновленные примеры краткого руководства для
DialogServiceConnector
Улучшения и изменения
- Пространство имен диалогового окна:
-
SpeechBotConnector переименовывается в DialogServiceConnector
-
BotConfig переименовывается в DialogServiceConfig
-
BotConfig::FromChannelSecret() переназначено на DialogServiceConfig::FromBotSecret()
- Все существующие клиенты службы "Речь" Direct Line продолжают поддерживаться после переименования.
- Обновление адаптера REST TTS для поддержки прокси-сервера, постоянного подключения
- Улучшение сообщения об ошибке при передаче недопустимого региона
- Swift/Objective-C:
- Улучшенная отчетность об ошибках: методы, которые могут привести к ошибке, теперь присутствуют в двух версиях: один, предоставляющий объект для обработки ошибок, и тот, который
NSError вызывает исключение. Бывший подвержен Свифту. Это изменение требует адаптации к существующему коду Swift.
- Улучшенная обработка событий
Исправления ошибок
- Исправление для TTS: где
SpeakTextAsync будет возвращено будущее, не ожидая завершения отрисовки звука
- Исправление для маршалинга строк в C# для включения полной поддержки языка
- Исправлена проблема с .NET основным приложением для загрузки основной библиотеки с целевой платформой net461 в примерах
- Устранение случайных проблем при развертывании собственных библиотек в выходной папке в примерах
- Исправление для надежного закрытия веб-сокета
- Исправление возможного сбоя при открытии подключения под тяжелой нагрузкой на Linux
- Исправление отсутствующих метаданных в пакете платформы для macOS
- Устранение проблем с
pip install --user на Windows
Пакет SDK для службы "Речь" 1.5.1
Это выпуск исправления ошибок, который влияет только на собственный или управляемый пакет SDK. Это не влияет на версию пакета SDK для JavaScript.
Исправления ошибок
- Исправление FromSubscription при использовании с транскрибированием бесед.
- Исправлена ошибка при обнаружении ключевых слов для голосовых помощников.
Пакет SDK для службы "Речь" 1.5.0: выпуск за май 2019 г.
Новые возможности
- Поиск ключевых слов (KWS) теперь доступен для Windows и Linux. Функции KWS могут работать с любым типом микрофона, официальной поддержкой KWS, однако в настоящее время ограничен массивами микрофонов, найденными в Azure Kinect DK оборудовании или пакете SDK для речевых устройств.
- Функция указания фраз доступна через пакет SDK. Дополнительные сведения см. здесь.
- Функции транскрибирования бесед доступны через пакет SDK.
- Добавьте поддержку голосовых помощников с помощью канала Direct Line службы "Речь".
Образцы
- Добавлены примеры для новых функций или новых служб, поддерживаемых пакетом SDK.
Улучшения и изменения
- Добавлены различные свойства распознавателя для настройки поведения службы или результатов службы (например, маскирования ненормативной лексики и других).
- Теперь распознаватель можно настроить с помощью стандартных свойств конфигурации, даже если вы создали распознаватель
FromEndpoint.
- Objective-C:
OutputFormat свойство было добавлено SPXSpeechConfigurationв .
- Пакет SDK теперь поддерживает Debian 9 в качестве дистрибутива Linux.
Исправления ошибок
- Исправлена проблема, из-за которой ресурс говорящего был деструктировался слишком рано в тексте речи.
Пакет SDK для службы "Речь" 1.4.2
Это выпуск исправления ошибок, который влияет только на собственный или управляемый пакет SDK. Это не влияет на версию пакета SDK для JavaScript.
Пакет SDK для службы "Речь" 1.4.1
Это выпуск только для JavaScript. Никакие функции не были добавлены. Были сделаны следующие исправления:
- Запретить загрузку веб-пакета https-proxy-agent.
Пакет SDK для службы "Речь" 1.4.0: выпуск за апрель 2019 г.
Новые возможности
- Пакет SDK теперь поддерживает службу "Текст в речь" в качестве бета-версии. Она поддерживается в Windows и Linux Desktop из C++ и C#. Дополнительные сведения см. в обзоре преобразования текста в речь.
- Пакет SDK теперь поддерживает аудиофайлы MP3 и Opus/OGG в виде потоковых входных файлов. Эта функция доступна только в Linux из C++ и C# и в настоящее время находится в бета-версии (дополнительные сведения здесь).
- Пакет SDK службы "Речь" для Java, .NET core, C++ и Objective-C получил поддержку macOS. В настоящее время Objective-C поддержка macOS доступна в бета-версии.
- iOS: пакет SDK службы "Речь" для iOS (Objective-C) теперь также публикуется как CocoaPod.
- JavaScript: поддержка микрофона, отличного от по умолчанию, в качестве входного устройства.
- JavaScript: поддержка прокси-сервера для Node.js.
Образцы
- Добавлены примеры использования пакета SDK службы "Речь" с C++ и Objective-C в macOS.
- Добавлены примеры, демонстрирующие использование службы "Текст для речи".
Улучшения и изменения
- Python. Дополнительные свойства результатов распознавания теперь предоставляются через свойство
properties.
- Для дополнительной поддержки разработки и отладки можно перенаправить сведения о журнале и диагностике пакета SDK в файл журнала (дополнительные сведения здесь).
- JavaScript: повышение производительности обработки звука.
Исправления ошибок
- Mac/iOS: ошибка, которая привела к длительному ожиданию, когда не удалось установить подключение к службе "Речь" было исправлено.
- Python. Улучшение обработки ошибок для аргументов в Python обратных вызовах.
- JavaScript: исправлена ошибка отчетов о состоянии для речи, закончившейся при запросеSession.
Пакет SDK для службы "Речь" 1.3.1: обновление за февраль 2019 г.
Это выпуск исправления ошибок, который влияет только на собственный или управляемый пакет SDK. Это не влияет на версию пакета SDK для JavaScript.
Исправление ошибок
- Исправлена утечка памяти при использовании входных данных микрофона. Входные данные на основе потока или файла не влияют.
Пакет SDK для службы "Речь" 1.3.0: выпуск за февраль 2019 г.
Новые возможности
- Пакет SDK службы "Речь" поддерживает выбор входного микрофона
AudioConfig через класс. Это позволяет передавать звуковые данные в службу "Речь" из микрофона, отличного от микрофона по умолчанию. Дополнительные сведения см. в документации по выбору устройства ввода звука. Эта функция еще не доступна в JavaScript.
- Пакет SDK службы "Речь" теперь поддерживает Unity в бета-версии. Предоставьте отзыв по разделу проблемы в примере репозитория GitHub. Этот выпуск поддерживает Unity в Windows x86 и x64 (классических или универсальная платформа Windows приложениях) и Android (ARM32/64, x86). Дополнительные сведения см. в кратком руководстве по Unity.
- Файл
Microsoft.CognitiveServices.Speech.csharp.bindings.dll (отправлен в предыдущих выпусках) больше не нужен. Теперь функциональные возможности интегрированы в основной пакет SDK.
Образцы
В нашем примере репозитория доступно следующее новое содержимое:
- Дополнительные примеры для
AudioConfig.FromMicrophoneInput.
- Дополнительные Python примеры для распознавания намерений и перевода.
- Дополнительные примеры использования
Connection объекта в iOS.
- Дополнительные Java примеры для перевода с выходными данными звука.
- Новый пример использования REST API пакетной транскрибирования.
Улучшения и изменения
- Python
- Улучшена проверка параметров и сообщения об ошибках.
SpeechConfig
- Добавьте поддержку
Connection объекта.
- Поддержка 32-разрядной Python (x86) в Windows.
- Пакет SDK службы "Речь" для Python выходит из бета-версии.
- Ios
- Пакет SDK теперь создан для пакета SDK для iOS версии 12.1.
- Пакет SDK теперь поддерживает iOS версии 9.2 и более поздних версий.
- Улучшение справочной документации и исправление нескольких имен свойств.
- Javascript
- Добавьте поддержку
Connection объекта.
- Добавление файлов определения типов для пакетного JavaScript
- Начальная поддержка и реализация подсказок фраз.
- Возврат коллекции свойств со службой JSON для распознавания
- Windows библиотеки DLL теперь содержат ресурс версии.
- При создании распознавателя
FromEndpointможно добавить параметры непосредственно в URL-адрес конечной точки. Использование FromEndpoint распознавателя невозможно настроить с помощью стандартных свойств конфигурации.
Исправления ошибок
- Пустое имя пользователя прокси-сервера и пароль прокси-сервера не обработаны правильно. В этом выпуске при установке имени пользователя прокси-сервера и пароля прокси-сервера в пустую строку они не будут отправляться при подключении к прокси-серверу.
- Идентификатор сеанса, созданный пакетом SDK, не всегда был действительно случайным для некоторых языков или сред. Добавлена инициализация случайного генератора для устранения этой проблемы.
- Улучшена обработка маркера авторизации. Если вы хотите использовать маркер авторизации, укажите и
SpeechConfig оставьте ключ API пустым. Затем создайте распознаватель как обычно.
- В некоторых случаях
Connection объект не был выпущен правильно. Эта проблема устранена.
- Пример JavaScript был исправлен для поддержки аудиоданных для синтеза перевода также в Safari.
Пакет SDK для службы "Речь" версии 1.2.1
Это выпуск только для JavaScript. Никакие функции не были добавлены. Были сделаны следующие исправления:
- Пожарный конец потока в turn.end, а не в speech.end.
- Исправьте ошибку в звуковом насосе, который не запланировал следующую отправку, если текущая отправка завершилась ошибкой.
- Исправление непрерывного распознавания с помощью маркера проверки подлинности.
- Исправлена ошибка для разных распознавателя или конечных точек.
- Улучшения документации.
Пакет SDK для службы "Речь" 1.2.0: выпуск за декабрь 2018 г.
Новые возможности
- Python
- Бета-версия поддержки Python (3.5 и выше) доступна в этом выпуске. Дополнительные сведения см. здесь](.). /.. /quickstart-python.md).
- Javascript
- Пакет SDK службы "Речь" для JavaScript был открыт с открытым кодом. Исходный код доступен в GitHub.
- Теперь мы поддерживаем Node.js, дополнительные сведения см. здесь.
- Ограничение длины звуковых сеансов было удалено, повторное подключение будет происходить автоматически под обложкой.
-
Connection Объекта
- Из объекта
Recognizerможно получить доступ Connection . Этот объект позволяет явно инициировать подключение службы и подписаться на события подключения и отключения.
(Эта функция пока недоступна в JavaScript и Python.)
- Поддержка Ubuntu 18.04.
- Android
- Поддержка ProGuard во время создания APK.
Улучшения
- Улучшения в использовании внутреннего потока, уменьшение количества потоков, блокировок, мьютексов.
- Улучшены отчеты об ошибках и сведениях. В нескольких случаях сообщения об ошибках не были распространены во всем выходе.
- Обновлены зависимости разработки в JavaScript для использования модулей up-to-date.
Исправления ошибок
- Исправлена утечка памяти из-за несоответствия типа в
RecognizeAsync.
- В некоторых случаях утечка исключений произошла.
- Исправлена утечка памяти в аргументах события перевода.
- Исправлена проблема блокировки при повторном подключении в длительных сеансах.
- Исправлена проблема, которая может привести к отсутствующим конечным результатам для неудачных переводов.
- C#: если
async операция не ожидалась в основном потоке, то можно было удалить распознаватель до завершения асинхронной задачи.
- Java. Исправлена проблема, из-за которой произошел сбой Java виртуальной машины.
- Objective-C: фиксированное сопоставление перечисления; Распознанныйintent был возвращен вместо
RecognizingIntent.
- JavaScript: задайте для формата выходных данных по умолчанию "простой" в
SpeechConfig.
- JavaScript: удаление несоответствий между свойствами объекта конфигурации в JavaScript и других языках.
Образцы
- Обновлены и исправлены несколько примеров (например, выходные голоса для перевода и т. д.).
- Добавлены Node.js примеры в репозитории.
Пакет SDK для службы "Речь" 1.1.0
Новые возможности
- Поддержка Android x86/x64.
- Поддержка прокси-сервера: в объекте
SpeechConfig теперь можно вызвать функцию, чтобы задать сведения о прокси-сервере (имя узла, порт, имя пользователя и пароль). Эта функция пока недоступна в iOS.
- Улучшен код ошибки и сообщения. Если распознавание вернуло ошибку, это уже установлено
Reason (в отмененном событии) или CancellationDetails (в результате распознавания).Error Отмененное событие теперь содержит два дополнительных члена и ErrorCodeErrorDetails. Если сервер вернул дополнительные сведения об ошибке с сообщаемой ошибкой, теперь он будет доступен в новых членах.
Улучшения
- Добавлена дополнительная проверка в конфигурации распознавателя и добавлено дополнительное сообщение об ошибке.
- Улучшена обработка длительного молчания в середине звукового файла.
- Пакет NuGet: для проектов .NET Framework он предотвращает сборку с конфигурацией AnyCPU.
Исправления ошибок
- Исправлено несколько исключений, обнаруженных в распознавателях. Кроме того, исключения перехватываются и преобразуются в
Canceled событие.
- Исправлена утечка памяти в управлении свойствами.
- Исправлена ошибка, в которой звуковой входной файл может завершиться сбоем распознавателя.
- Исправлена ошибка, из-за которой события могут быть получены после события остановки сеанса.
- Исправлены некоторые условия гонки в потоке.
- Исправлена проблема совместимости iOS, которая может привести к сбою.
- Улучшения стабильности для поддержки микрофона Android.
- Исправлена ошибка, из-за которой распознаватель в JavaScript пропускал язык распознавания.
- Исправлена ошибка, предотвращающая настройку
EndpointId (в некоторых случаях) в JavaScript.
- Изменен порядок параметров в AddIntent в JavaScript и добавлен отсутствующий
AddIntent сигнатуры JavaScript.
Образцы
- Добавлены примеры C++ и C# для использования по запросу и отправке потоков в пример репозитория.
Пакет SDK для службы "Речь" 1.0.1
Улучшения надежности и исправления ошибок:
- Исправлена потенциальная неустранимая ошибка из-за состояния гонки при удалении распознавателя
- Исправлена потенциальная неустранимая ошибка при возникновении неустановленных свойств.
- Добавлена дополнительная проверка ошибок и параметров.
- Objective-C: исправлена возможная неустранимая ошибка, вызванная переопределением имен в NSString.
- Objective-C: скорректированная видимость API
- JavaScript: исправлено в отношении событий и их полезных данных.
- Улучшения документации.
В нашем примере репозитория добавлен новый пример для JavaScript.
Azure пакет SDK для службы "Речь" 1.0.0: выпуск 2018-сентябрь
Новые возможности
Критические изменения
- В этом выпуске вводятся ряд критических изменений.
Дополнительные сведения см. на этой странице .
Azure пакет SDK для службы "Речь" 0.6.0: выпуск за август 2018 г.
Новые возможности
- Теперь приложения UWP, созданные с помощью пакета SDK службы "Речь", могут передавать пакет сертификации приложение для Windows (WACK).
Ознакомьтесь с кратким руководством по UWP.
- Поддержка .NET standard 2.0 в Linux (Ubuntu 16.04 x64).
- Экспериментальный: поддержка Java 8 на Windows (64-разрядная версия) и Linux (Ubuntu 16.04 x64).
Ознакомьтесь с кратким руководством по Java среде выполнения.
Функциональное изменение
- Предоставление дополнительных сведений об ошибках подключения.
Критические изменения
- В Java (Android) функция
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate больше не требует параметра пути. Теперь путь автоматически обнаруживается на всех поддерживаемых платформах.
- Метод доступа к свойству
EndpointUrl в Java и C# был удален.
Исправления ошибок
- В Java теперь реализован результат синтеза звука на распознаватель перевода.
- Исправлена ошибка, которая может привести к неактивным потокам и увеличению числа открытых и неиспользуемых сокетов.
- Исправлена проблема, из-за которой длительное распознавание может завершиться в середине передачи.
- Исправлено состояние гонки при завершении работы распознавателя.
Azure пакет SDK службы "Речь" 0.5.0: выпуск 2018-июль
Новые возможности
- Поддержка платформы Android (API 23: Android 6.0 Marshmallow или более поздней версии). Ознакомьтесь с кратким руководством по Android.
- Поддержка .NET standard 2.0 в Windows. Ознакомьтесь с кратким руководством .NET Core.
- Экспериментальный: поддержка UWP на Windows (версия 1709 или более поздняя).
- Ознакомьтесь с кратким руководством по UWP.
- Обратите внимание, что приложения UWP, созданные с помощью пакета SDK службы "Речь", еще не передают пакет сертификации приложение для Windows (WACK).
- Поддержка длительного распознавания с помощью автоматического повторного подключения.
Функциональные изменения
-
StartContinuousRecognitionAsync() поддерживает долгосрочное распознавание.
- Результат распознавания содержит больше полей. Они смещаются от начала и длительности звука (как в галках) распознанного текста, так и дополнительных значений, представляющих состояние распознавания, например
InitialSilenceTimeout и InitialBabbleTimeout.
- Поддержка AuthorizationToken для создания экземпляров фабрики.
Критические изменения
- События распознавания:
NoMatch тип события был объединен в Error событие.
- SpeechOutputFormat в C# переименован, чтобы
OutputFormat оставаться в соответствии с C++.
- Возвращаемый тип некоторых методов
AudioInputStream интерфейса немного изменился:
- В Java метод
read теперь возвращает long вместо int.
- В C#
Read метод теперь возвращается uint вместо int.
- В C++
ReadGetFormat вместо методов теперь возвращаются size_tintметоды.
- C++: теперь экземпляры входных потоков аудио можно передавать только в виде
shared_ptr.
Исправления ошибок
- Исправлены неправильные возвращаемые значения в результате времени
RecognizeAsync() ожидания.
- Зависимость от библиотек основы мультимедиа от Windows была удалена. Теперь пакет SDK использует основные API аудио.
- Исправление документации. Добавлена страница регионов для описания поддерживаемых регионов.
Известная проблема
- Пакет SDK службы "Речь" для Android не сообщает о результатах синтеза речи для перевода. Эта проблема будет устранена в следующем выпуске.
Azure пакет SDK службы "Речь" 0.4.0: выпуск 2018-июнь
Функциональные изменения
AudioInputStream
Распознаватель теперь может использовать поток в качестве источника звука. Дополнительные сведения см. в руководстве по работе с соответствующим руководством.
Подробный формат выходных данных
При создании можно запросить Detailed или Simple выходной SpeechRecognizerформат. Содержит DetailedSpeechRecognitionResult оценку достоверности, распознанный текст, необработанную лексическую форму, нормализованную форму и нормализованную форму с маскированной ненормативной лексикой.
Критическое изменение
- Изменено на
SpeechRecognitionResult.TextSpeechRecognitionResult.RecognizedText c#.
Исправления ошибок
- Исправлена возможная проблема обратного вызова на уровне USP во время завершения работы.
- Если распознаватель использовал звуковой входной файл, он держался на дескрипторе файла дольше, чем необходимо.
- Удалено несколько взаимоблокировок между насосом сообщений и распознавательом.
-
NoMatch Срабатывает результат при истечении времени ожидания ответа от службы.
- Библиотеки основы мультимедиа на Windows загружаются. Эта библиотека необходима только для ввода микрофона.
- Скорость передачи звуковых данных ограничена примерно в два раза выше исходной скорости звука.
- В Windows сборки C# .NET теперь имеют строгое имя.
- Исправление документации:
Region требуется информация для создания распознавателя.
Добавлены дополнительные примеры и постоянно обновляются. Последние примеры см. в примерах Speech SDK GitHub репозитория.
Azure пакет SDK для службы "Речь" 0.2.12733: выпуск за май 2018 г.
Этот выпуск является первым общедоступным предварительным выпуском пакета SDK для службы "Речь" Azure.
Версия CLI службы "Речь" 1.49.0: 2026-апрель
Обновлено для использования пакета SDK службы "Речь" версии 1.49.0
Новые возможности
- Добавлена поддержка весов списка фраз.
Исправления ошибок
Интерфейс командной строки службы "Речь" 1.48.0: выпуск за февраль 2026 г.
Обновлено для использования пакета SDK для службы "Речь" версии 1.48.0
Новые возможности
Исправления ошибок
Интерфейс командной строки службы "Речь" 1.47.0: выпуск за сентябрь 2025 г.
Обновлено для использования пакета SDK для службы "Речь" версии 1.47.0
Новые возможности
Исправления ошибок
Критические изменения:
- Удалена поддержка распознавания намерений из-за выхода на пенсию службы.
- Удалена поддержка распознавания говорящего из-за выхода службы.
Интерфейс командной строки службы "Речь" 1.46.0: выпуск 2025-сентябрь
Обновлено для использования пакета SDK для службы "Речь" версии 1.46.0
Новые возможности
Исправления ошибок
Интерфейс командной строки службы "Речь" 1.45.0: выпуск 2025-июль
Обновлено для использования пакета SDK для службы "Речь" версии 1.45.0
Новые возможности
Исправления ошибок
Интерфейс командной строки службы "Речь" 1.44: выпуск за май 2025 г.
Новые возможности
- Добавлена поддержка проверки подлинности с помощью учетных данных маркера Microsoft Entra.
- Добавлена поддержка API быстрого транскрибирования.
Исправления ошибок
- Исправлены нерабочие URL-адреса ввода с запятой и списки URL-адресов входных и входных файлов или URL-адресов из файла.
Версия CLI 1.43: март 2025 г.
Новые возможности
- Обновлена spX для использования .NET 8.
Исправления ошибок
- Исправлен контейнер Docker SPX, не работающий в локальных сценариях пакетной службы.
Интерфейс командной строки службы "Речь" 1.40.0: выпуск за август 2024 г.
Обновлено для использования пакета SDK службы "Речь" версии 1.40.0
Новые возможности
Исправления ошибок
Интерфейс командной строки службы "Речь" 1.38.0: выпуск за июнь 2024 г.
Обновлено для использования пакета SDK для службы "Речь" версии 1.38.0
Новые возможности
Исправления ошибок
Интерфейс командной строки службы "Речь" 1.37.0: выпуск за апрель 2024 г.
Обновлено для использования пакета SDK для службы "Речь" версии 1.37.0
Новые возможности
Исправления ошибок
Интерфейс командной строки службы "Речь" 1.36.0: выпуск за март 2024 г.
Обновлено для использования пакета SDK для службы "Речь" версии 1.36.0
Новые возможности
Исправления ошибок
Интерфейс командной строки службы "Речь" 1.35.0: выпуск за февраль 2024 г.
Обновлено для использования пакета SDK для службы "Речь" версии 1.35.0
Новые возможности
Исправления ошибок
- Обновление зависимости JMESPath до последней версии
Интерфейс командной строки службы "Речь" 1.34.0: выпуск за ноябрь 2023 г.
Обновлено для использования пакета SDK для службы "Речь" версии 1.34.0
Интерфейс командной строки службы "Речь" 1.33.0: выпуск за октябрь 2023 г.
Обновлено для использования пакета SDK службы "Речь" версии 1.33.0
Интерфейс командной строки службы "Речь" 1.31.0: выпуск за август 2023 г.
Обновлено для использования пакета SDK для службы "Речь" версии 1.31.0
Интерфейс командной строки службы "Речь" 1.30.0: выпуск за июль 2023 г.
Обновлено для использования пакета SDK для службы "Речь" версии 1.30.0
Интерфейс командной строки службы "Речь" 1.29.0: выпуск за июнь 2023 г.
Обновлено для использования пакета SDK для службы "Речь" версии 1.29.0
Интерфейс командной строки службы "Речь" 1.28.0: выпуск за май 2023 г.
Обновлено для использования пакета SDK для службы "Речь" версии 1.28.0
Интерфейс командной строки службы "Речь" 1.27.0: выпуск за апрель 2023 г.
Обновления
- Обновлено для использования пакета SDK для службы "Речь" версии 1.27.0
- Обновите конечную точку по умолчанию, чтобы использовать REST API версии 3.1 для пользовательского распознавания речи и распознавания речи пакетной службы.
Исправления ошибок
- Исправления, связанные с анализом или настройкой параметров запроса.
Интерфейс командной строки службы "Речь" 1.26.0: выпуск за март 2023 г.
Обновлено для использования пакета SDK для службы "Речь" версии 1.26.0.
Интерфейс командной строки службы "Речь" 1.25.0: выпуск за январь 2023 г.
Обновлено для использования пакета SDK для службы "Речь" версии 1.25.0.
Интерфейс командной строки службы "Речь" 1.24.0: выпуск за октябрь 2022 г.
Использует пакет SDK службы "Речь" 1.24.0.
Новые возможности
- Расширенная проверка spx для поддержки запросов JMESPath ко всем событиям spx
Исправления ошибок
- Различные улучшения надежности для оценки запросов JMESPath
- Исправление усечения для операций записи файлов, которые могут возникнуть на компьютерах с ограниченными ресурсами
Интерфейс командной строки службы "Речь" 1.23.0: выпуск за июль 2022 г.
Использует пакет SDK для службы "Речь" версии 1.23.0.
Новые возможности
- Лучшее разделение заголовков (
--output vtt и --output srt) большое разделение результатов (37 знаков max, 3 строки)
- Документированные
spx synthesize--format параметры (см. раздел spx help synthesize format)
- Документировано большинство
spx csr команд и параметров (см. раздел spx help csr)
- Добавленная
spx csr model copy команда (см. раздел spx help csr model copy)
- Добавлен параметр
--check result с помощью запросов JMES (см. раздел spx help check result)
- Улучшены сообщения об ошибках при указании недопустимых параметров команды
- Переход с .NET Core 3.1 на .NET 6.0. Чтобы запустить интерфейс командной строки службы "Речь", необходимо установить .NET 6.0 Runtime (или более поздней версии).
Исправления ошибок
- Обновлены все URL-адреса для удаления языка (например, "en-US")
- Исправлена информация о версии для правильного отчета во всех случаях (ранее она показала пустое значение)
Интерфейс командной строки службы "Речь" 1.22.0: выпуск за июнь 2022 г.
Использует пакет SDK для службы "Речь" версии 1.22.0.
Новые возможности
- Добавлена команда
spx init для управления пользователями с помощью создания ключа ресурса "Речь" без Azure веб-портала.
- Теперь контейнеры docker службы "Речь" включают Azure CLI, поэтому команда
spx init работает из поля.
- Добавлена метка времени в качестве параметра вывода событий, чтобы сделать SPX более полезным при вычислении задержек.
Интерфейс командной строки службы "Речь" 1.21.0: выпуск за апрель 2022 г.
Использует пакет SDK для службы "Речь" версии 1.21.0.
Новые возможности
- Создание заголовка WEBVTT
- Добавлена
--output vtt поддержка spx translate
- Поддерживает
--output vtt file FILENAME переопределение VTT FILENAME по умолчанию
- Поддерживает
--output vtt file - запись в стандартные выходные данные
- Отдельные файлы VTT создаются для каждого целевого языка (например
--target en;de;fr)
- Создание заголовков SRT
- Добавлена
--output srt поддержка spx recognizeдля , spx intentи spx translate
- Поддерживает
--output srt file FILENAME переопределение SRT FILENAME по умолчанию
- Поддерживает
--output srt file - запись в стандартные выходные данные
- Для
spx translateкаждого целевого языка создаются отдельные файлы SRT (например --target en;de;fr)
Исправления ошибок
- Исправлены выходные данные интервала времени WEBVTT для правильного использования
hh:mm:ss.fff формата
Интерфейс командной строки службы "Речь" 1.20.0: выпуск за январь 2022 г.
Новые возможности
- Распознавание говорящего
-
spx profile enroll и spx speaker [identify/verify] теперь поддерживают входные данные микрофона
- Распознавание намерений (
spx intent)
--keyword FILE.table
-
--pattern И --patterns
--output all/each intentid
--output all/each entity json
--output all/each ENTITY entity
-
--once, , --once+--continuous (непрерывный сейчас по умолчанию)
--output all/each connection EVENT
-
--output all/each connection message (например, text, path)
- Проверка и разработка выходных данных консоли CLI:
-
--expect PATTERN поддержка --not expect PATTERN всех команд
-
--auto expect помощь в разработке ожидаемых шаблонов
- Проверка и разработка выходных данных пакета SDK
-
--log expect PATTERN поддержка --not log expect PATTERN всех команд
-
--log auto expect [FILTER] поддержка всех команд
-
--log FILE
spx profile поддержка иspx speaker
- Входные данные аудиофайла
-
--format ANY поддержка всех команд
-
--file - поддержка (чтение из стандартных входных данных, включение сценариев канала)
- Выходные данные аудиофайла
-
--audio output - Запись в стандартные выходные данные, включение сценариев канала
- Выходные файлы
-
--output all/each file - Запись в стандартные выходные данные
-
--output batch file - Запись в стандартные выходные данные
-
--output vtt file - Запись в стандартные выходные данные
-
--output json file - Запись в стандартные выходные данные spx csr и spx batch команды
- Свойства выходных данных
-
--output […] result XXX property (PropertyId или string)
-
--output […] connection message received XXX property (PropertyId или string)
-
--output […] recognizer XXX property (PropertyId или string)
- интеграция веб-заданий Azure
-
spx webjob теперь следует шаблону вложенных команд
- Обновленная справка веб-задания для отражения шаблона вложенных команд (см. раздел
spx help webjob)
Исправления ошибок
- Исправлена ошибка, когда оба
--output vtt FILE и --output batch FILE используются одновременно
-
spx [...] --zip ZIPFILENAME теперь включает все двоичные файлы, необходимые для всех сценариев (если они присутствуют)
-
spx profile и spx speaker команды теперь возвращают подробные сведения об ошибке об отмене
Выпуск за май 2021 г.
Новые возможности
- Добавлена поддержка профилирования, идентификатора говорящего и проверки говорящего. Попробуйте
spx profile и spx speaker из командной строки.
- Мы также добавили поддержку диалогового окна. Попробуйте выполнить команду
spx dialog из командной строки.
- Улучшенная
spx справка. Дайте нам отзыв о том, как это работает для вас, открыв GitHub проблему.
- Мы сократили размер установки средства .NET.
CoVID-19 сокращенное тестирование
По мере того как продолжающаяся пандемия продолжает требовать от наших инженеров работать из дома, скрипты проверки вручную до пандемии сокращаются, чтобы тестировать на меньшем количестве устройств с меньшим количеством конфигураций, и вероятность ошибок, характерных для конкретной среды, может быть увеличена. Мы по-прежнему тщательно проверяем большой набор автоматизации. В маловероятном случае, что мы пропустили что-то, чтобы сообщить нам о GitHub.
Оставайтесь здоровыми!
Выпуск за март 2021 г.
Новые возможности
- Добавлена
spx intent команда для распознавания намерений, замена spx recognize intent.
- Распознавание и намерение теперь могут использовать функции Azure для вычисления частоты ошибок word с помощью
spx recognize --wer url <URL>.
- Теперь распознает результаты в виде VTT-файлов с помощью
spx recognize --output vtt file <FILENAME>.
- Конфиденциальная информация о ключе теперь скрыта в выходных данных отладки и детализации.
- Добавлено сообщение о проверке URL-адреса и сообщении об ошибке для поля содержимого в создании пакетного транскрибирования.
CoVID-19 сокращенное тестирование
По мере того как продолжающаяся пандемия продолжает требовать от наших инженеров работать из дома, скрипты проверки вручную до пандемии сокращаются, чтобы тестировать на меньшем количестве устройств с меньшим количеством конфигураций, и вероятность ошибок, характерных для конкретной среды, может быть увеличена. Мы по-прежнему тщательно проверяем большой набор автоматизации. В маловероятном случае, что мы пропустили что-то, чтобы сообщить нам о GitHub.
Оставайтесь здоровыми!
Выпуск за январь 2021 г.
Новые возможности
- Интерфейс командной строки службы "Речь" теперь доступен как пакет NuGet и его можно установить с помощью интерфейса командной строки .NET в качестве глобального средства .NET, который можно вызвать из оболочки или командной строки.
- Репозиторий шаблонов DevOps custom speech DevOps был обновлен для использования интерфейса командной строки службы "Речь" для пользовательских рабочих процессов речи.
CoVID-19 сокращенное тестирование
По мере того как продолжающаяся пандемия продолжает требовать от наших инженеров работать из дома, скрипты проверки вручную до пандемии сокращаются, чтобы тестировать на меньшем количестве устройств с меньшим количеством конфигураций, и вероятность ошибок, характерных для конкретной среды, может быть увеличена. Мы по-прежнему тщательно проверяем большой набор автоматизации. В маловероятном случае, что мы пропустили что-то, чтобы сообщить нам о GitHub.
Оставайтесь здоровыми!
Выпуск за октябрь 2020 г.
SPX — это интерфейс командной строки для использования службы "Речь" без написания кода.
Скачайте последнюю версию здесь.
Новые возможности
-
spx csr dataset upload --kind audio|language|acoustic — создание наборов данных из локальных данных, а не только из URL-адресов.
-
spx csr evaluation create|status|list|update|delete — сравнивайте новые модели с базовой правдой и другими моделями.
-
spx * list — поддерживает нестраничный интерфейс (не требуется --top X --skip X).
-
spx * --http header A=B — поддерживают пользовательские заголовки (добавлены для Office для пользовательской проверки подлинности).
-
spx help — улучшенный цвет текста и цвета обратной галочки (синий).
Выпуск за июнь 2020 г.
- Добавлены функции поиска в интерфейсе командной строки:
spx help find --text TEXT
spx help find --topic NAME
- Обновлено для работы с недавно развернутыми API пакетной службы версии 3.0 и пользовательскими API речи:
spx help batch examples
spx help csr examples
CoVID-19 сокращенное тестирование
Из-за удаленной работы в течение последних нескольких недель мы не могли сделать столько ручного тестирования проверки, сколько мы обычно делаем. Мы не внесли никаких изменений, которые мы думаем, сломали ничего, и наши автоматизированные тесты прошли. В маловероятном случае, что мы пропустили что-то, чтобы сообщить нам о GitHub.
Оставайтесь здоровыми!
Интерфейс командной строки службы "Речь" (также известный как SPX): выпуск за май 2020 г.
SPX — это новое средство командной строки, позволяющее выполнять распознавание, синтез, перевод, пакетное транскрибирование и пользовательское управление речью из командной строки. Используйте его для тестирования службы "Речь" или для скрипта задач службы "Речь", которые необходимо выполнить. Скачайте средство и ознакомьтесь с документацией здесь.
Выпуск за март 2026 г.
Общедоступная предварительная версия MAI-Voice-1
MAI-Voice-1 — это новая модель нейронного текста в речь, созданная на основе встроенных моделей основы речи Microsoft. Он производит экспрессивную, естественную речь с согласованным качеством голосовой персоны и поддерживает эмоции и управление стилем через SSML mstts:express-as. MAI-Voice-1 доступен в регионе "Восточная часть США". Дополнительные сведения см. в разделе MAI-Voice-1 Azure speech.
| Идентификатор голоса |
Гендерного |
Рекомендуемый вариант использования |
en-us-Jasper:MAI-Voice-1 |
Мужской |
Общие беседы, продажи, эмоциональные стили |
en-us-June:MAI-Voice-1 |
Женский |
Общие беседы, обслуживание клиентов, профессиональные, эмоциональные стили |
en-us-Grant:MAI-Voice-1 |
Мужской |
Общие разговоры, профессиональные, эмоциональные стили |
en-us-Iris:MAI-Voice-1 |
Женский |
Общая беседа, экранирование, эмоциональные стили |
en-us-Reed:MAI-Voice-1 |
Мужской |
Общая беседа |
en-us-Joy:MAI-Voice-1 |
Женский |
Общая беседа |
Обновление нейронного HD 2.5 до последней версии в рабочей среде
Нейронный HD 2.5 повышен до последней версии в рабочей среде, обеспечивая улучшения естественной просодии, экспрессивности и согласованности выходных данных, особенно для длинной формы и сложного содержимого. Это обновление расширяет поддержку экспрессивных стилей и паралингвистических элементов, что позволяет более человеческую и эмоционально богатую речь в речевых, диалоговых ИИ и сценариях виртуального помощника.
К ключевым улучшениям относятся:
- Улучшена экспрессивная диапазон и стабильность между доменами
- Стили и паралингвистические теги, поддерживаемые с помощью SSML и ввода обычного текста
- Расширенные теги и метаданные для упрощения оценки голоса и выбора
Примечание
Стили и паралингвистические функции доступны во всех HDLatestNeural голосах, за исключением голосов с основным языковым en‑INстандартом.
Обновление качества и экспрессивности нейронного HD OMNI
Нейронные голоса HD Omni получают обновление качества с добавленной поддержкой экспрессивных стилей и паралингвистических тегов в наборе голосов omni. Это улучшение улучшает эмоциональное управление и естественность общения, сохраняя уникальный характер каждого голоса, что делает его хорошо подходит для обслуживания клиентов, специальных возможностей и творческих сценариев.
Примечание
Стили и паралингвистические функции доступны во всех HDOmniLatestNeural голосах.
Нейронная флэш-память HD — низкой задержки голосов HD
Нейронная вспышка HD представляет вариант низкой задержки нейронного HD, оптимизированный для критически важных сценариев реагирования, таких как голосовые помощники и автоматизация центра вызовов. HD Flash балансирует быстрый синтез с четким произношением и естественным просодией, позволяя разработчикам выбирать между экспрессивностью и задержкой в зависимости от потребностей приложения.
Расширение региональной доступности нейронного HD
Начиная с марта 2026 года нейронные голоса HD расширяются за пределы своих исходных регионов и теперь доступны в:
- Западная часть США 2
- Восточная часть США 2
- Центральная Индия
- Центральная Канада
- Центральная Франция
- Центральная Швеция
Расширение голосов в нейронном hd multi-Talker
Нейронные голоса HD Multi-Talker теперь поддерживают синтез с несколькими динамиками на дополнительных языках ввода, расширяясь за пределами en-US, включая fr-FR, es-ES, de-DE, it-IT, pt-BR, ko-KR, ja-JP и zh-CN.
Несколько новых моделей: en‑MultiTalker‑1:DragonHDLatestNeural, zh-Multitalker:DragonHDLatestNeuralfr-Multitalker:DragonHDLatestNeuralвведите расширенный набор докладчиков, что позволяет более гибко создавать диалоги для подкастов, истории и повествования на основе ролей.
Докладчики в en‑MultiTalker‑1:DragonHDLatestNeural
|
Гендерного |
Имена динамиков |
| Женский |
Ада, Ава, Эмма, Джейн |
| Мужской |
Эндрю, Брайан, Дэвис, Стеффан |
Докладчики в fr-Multitalker:DragonHDLatestNeural
|
Гендерного |
Имена динамиков |
| Женский |
Вивьен |
| Мужской |
Реми |
Докладчики в zh-Multitalker:DragonHDLatestNeural
|
Гендерного |
Имена динамиков |
| Женский |
Сяосяо |
| Мужской |
Yunxiao |
Обновление цен на нейронное HD
В марте 2026 года цены на Нейронные HD снижаются. Ознакомьтесь с подробными сведениями о ценах.
Выпуск за декабрь 2025 г.
Общедоступная предварительная версия нового типа голосового типа Dragon HD Omni
Dragon HD Omni объединяет широкий спектр предварительно созданных голосов в одну расширенную голосовую модель, улучшение контекстной адаптации, просодии, экспрессивности и поддержания уникального характера каждого голоса. Она обеспечивает более точную, гибкую и жизненную речь для таких сценариев, как обслуживание клиентов, специальные возможности и творческое производство.
|
Языковой стандарт (BCP-47) |
Имя голоса |
en-US |
en-US-Ava-DragonHDOmniLatestNeural (женщина) |
en-US |
en-US-Andrew-DragonHDOmniLatestNeural (мужской) |
en-US |
en-US-Dana-DragonHDOmniLatestNeural (женщина) |
en-US |
en-US-Caleb-DragonHDOmniLatestNeural (мужской) |
en-US |
en-US-Phoebe-DragonHDOmniLatestNeural (женщина) |
en-US |
en-US-Lewis-DragonHDOmniLatestNeural (мужской) |
zh-CN |
zh-CN-Xiaoyue-DragonHDOmniLatestNeural (женщина) |
zh-CN |
zh-CN-Yunqi-DragonHDOmniLatestNeural (женщина) |
Вы также можете использовать этот формат голосового имени, добавив суффикс :DragonHDOmniLatestNeural , чтобы попробовать версию Omni заданного голоса с помощью прямого вызова SSML
Например:
|
Предыдущий нейронный голос |
Имя голосовой связи с омниной версией |
de-DE-ConradNeural |
de-DE-Conrad:DragonHDOmniLatestNeural |
Нейронный текст для речи 4.1.0
Выпуск за ноябрь 2025 г.
Общедоступная предварительная версия новых голосов HD
Azure голоса высокого определения речи (HD) доступны в общедоступной предварительной версии. Голоса HD могут понять содержимое, автоматически обнаруживать эмоции в входном тексте и настраивать тон речи в режиме реального времени, чтобы соответствовать тону. Дополнительные сведения см. в разделе Несколько Azure голоса высокого определения речи (HD)?.
|
Языковой стандарт (BCP-47) |
Имя голоса |
en-GB |
en-GB-Ada:DragonHDLatestNeural (женщина) |
en-GB |
en-GB-Ollie:DragonHDLatestNeural (мужской) |
es-MX |
es-MX-Tristan:DragonHDLatestNeural (мужской) |
es-MX |
es-MX-Ximena:DragonHDLatestNeural (женщина) |
fr-CA |
fr-CA-Sylvie:DragonHDLatestNeural (женщина) |
fr-CA |
fr-CA-Thierry:DragonHDLatestNeural (мужской) |
ko-KR |
ko-KR-Hyunsu:DragonHDLatestNeural (мужской) |
ko-KR |
ko-KR-SunHi:DragonHDLatestNeural (женщина) |
33 предыдущих голосов HD были обновлены до версии 2.0 с улучшенным качеством и исправлены ошибки.
|
Языковой стандарт (BCP-47) |
Имя голоса |
de-DE |
de-DE-Florian:DragonHDLatestNeural (мужской) |
de-DE |
de-DE-Seraphina:DragonHDLatestNeural (женщина) |
en-US |
en-US-Adam:DragonHDLatestNeural (мужской) |
en-US |
en-US-Alloy:DragonHDLatestNeural (мужской) |
en-US |
en-US-Andrew:DragonHDLatestNeural (мужской) |
en-US |
en-US-Andrew2:DragonHDLatestNeural (мужской) |
en-US |
en-US-Andrew3:DragonHDLatestNeural (мужской) |
en-US |
en-US-Aria:DragonHDLatestNeural (женщина) |
en-US |
en-US-Ava:DragonHDLatestNeural (женщина) |
en-US |
en-US-Ava3:DragonHDLatestNeural (женщина) |
en-US |
en-US-Bree:DragonHDLatestNeural (женщина) |
en-US |
en-US-Brian:DragonHDLatestNeural (мужской) |
en-US |
en-US-Davis:DragonHDLatestNeural (мужской) |
en-US |
en-US-Emma:DragonHDLatestNeural (женщина) |
en-US |
en-US-Emma2:DragonHDLatestNeural (женщина) |
en-US |
en-US-Jane:DragonHDLatestNeural (женщина) |
en-US |
en-US-Jenny:DragonHDLatestNeural (женщина) |
en-US |
en-US-Nova:DragonHDLatestNeural (женщина) |
en-US |
en-US-Phoebe:DragonHDLatestNeural (женщина) |
en-US |
en-US-Serena:DragonHDLatestNeural (женщина) |
en-US |
en-US-Steffan:DragonHDLatestNeural (мужской) |
es-ES |
es-ES-Tristan:DragonHDLatestNeural (мужской) |
es-ES |
es-ES-Ximena:DragonHDLatestNeural (женщина) |
fr-FR |
fr-FR-Remy:DragonHDLatestNeural (мужской) |
fr-FR |
fr-FR-Vivienne:DragonHDLatestNeural (женщина) |
it-IT |
it-IT-Alessio:DragonHDLatestNeural (мужской) |
it-IT |
it-IT-Isabella:DragonHDLatestNeural (женщина) |
ja-JP |
ja-JP-Masaru:DragonHDLatestNeural (мужской) |
ja-JP |
ja-JP-Nanami:DragonHDLatestNeural (женщина) |
pt-BR |
pt-BR-Macerio:DragonHDLatestNeural (мужской) |
pt-BR |
pt-BR-Thalita:DragonHDLatestNeural (женщина) |
zh-CN |
zh-CN-Xiaochen:DragonHDLatestNeural (женщина) |
zh-CN |
zh-CN-Yunfan:DragonHDLatestNeural (мужской) |
Примечание
После этого обновления при вызове и при вызове en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural обновите имя голоса до en-US-MultiTalker-Ava-Andrew:DragonHDv1.2Neural >en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeural.en-US-MultiTalker-Ava-Steffan:DragonHDv1.2Neural
Нейронный текст для речи 4.0.0-preview
- Обновлена ОС до Azure Linux 3
- Устраненные уязвимости
Выпуск за октябрь 2025 г.
Нейронный текст для речи 3.14.0
- Добавлена поддержка новых нейронных голосов:
nl-nl-maartenneural, , nl-be-arnaudneuralnl-be-denaneuralde-de-elkeneural
- Устраненные уязвимости
Выпуск за август 2025 г.
Общедоступная предварительная версия новых голосов HD
|
Языковой стандарт (BCP-47) |
Имя голоса |
it-IT |
it-IT-Alessio:DragonHDLatestNeural (мужской) |
it-IT |
it-IT-Isabella:DragonHDLatestNeural (женщина) |
pt-BR |
pt-BR-Macerio:DragonHDLatestNeural (мужской) |
pt-BR |
pt-BR-Thalita:DragonHDLatestNeural (женщина) |
en-US |
en-US-Jane:DragonHDLatestNeural (женщина) |
Выпуск за июль 2025 г.
Общедоступная предварительная версия личного голоса обновлена до версии 2.1
Наша новая модель DragonV2.1 приносит улучшения в естественность речи, предлагая более реалистичную и стабильную просодию при сохранении лучшей точности произношения.
Выпуск за июнь 2025 г.
Обновление API VoiceLive
- Поддержка дополнительных моделей GenAI: GPT-4.1, GPT-4.1 Mini, Phi-4 mini и Phi-4 Multimodal модели теперь поддерживаются изначально.
- Поддержка дополнительных возможностей настройки
- Azure семантический VAD расширен для поддержки GPT-Realtime и GPT-4o-Mini-Realtime.
- Доступность в других регионах
Общедоступная предварительная версия функции преобразования голосовой связи на выбранных en-US голосах
Теперь для функции доступны следующие голоса:
|
Языковой стандарт (BCP-47) |
Имя голоса |
en-US |
en-US-Adam:MultilingualNeural (мужской) |
en-US |
en-US-Amanda:MultilingualNeural (женщина) |
en-US |
en-US-Andrew:MultilingualNeural (мужской) |
en-US |
en-US-Ava:MultilingualNeural (женщина) |
en-US |
en-US-Brandon:MultilingualNeural (мужской) |
en-US |
en-US-Brian:MultilingualNeural (мужской) |
en-US |
en-US-Christopher:MultilingualNeural (мужской) |
en-US |
en-US-Cora:MultilingualNeural (женщина) |
en-US |
en-US-Davis:MultilingualNeural (мужской) |
en-US |
en-US-Derek:MultilingualNeural (мужской) |
en-US |
en-US-Dustin:MultilingualNeural (мужской) |
en-US |
en-US-EchoTurbo:MultilingualNeural (мужской) |
en-US |
en-US-Emma:MultilingualNeural (женщина) |
en-US |
en-US-Evelyn:MultilingualNeural (женщина) |
en-US |
en-US-FableTurbo:MultilingualNeural (Нейтральный) |
en-US |
en-US-Jenny:MultilingualNeural (женщина) |
en-US |
en-US-Lewis:MultilingualNeural (мужской) |
en-US |
en-US-Lola:MultilingualNeural (женщина) |
en-US |
en-US-Nancy:MultilingualNeural (женщина) |
en-US |
en-US-NovaTurbo:MultilingualNeural (женщина) |
en-US |
en-US-OnyxTurbo:MultilingualNeural (мужской) |
en-US |
en-US-Phoebe:MultilingualNeural (женщина) |
en-US |
en-US-Ryan:MultilingualNeural (мужской) |
en-US |
en-US-Samuel:MultilingualNeural (мужской) |
en-US |
en-US-Serena:MultilingualNeural (женщина) |
en-US |
en-US-ShimmerTurbo:MultilingualNeural (женщина) |
en-US |
en-US-Steffan:MultilingualNeural (мужской) |
Выпуск за май 2025 г.
Общедоступная предварительная версия ДЛЯ API VoiceLive
Azure функции "Речь" в средстве Foundry с единым API для создания голосовых агентов. Этот новый API, доступный в общедоступной предварительной версии, начиная с сегодняшнего дня, поддерживает низкой задержки, масштабируемые взаимодействия с речью с помощью базовых моделей.
Выпуск за апрель 2025 г.
Общедоступная предварительная версия новых голосов HD
Теперь для предварительной версии доступны следующие голоса HD:
|
Языковой стандарт (BCP-47) |
Имя голоса |
en-US |
en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeural (Нейтральный) |
en-US |
en-US-Bree:DragonHDLatestNeural (женщина) |
en-US |
en-US-AshTurboMultilingualNeural (мужской) |
Выпуск за март 2025 г.
Общая доступность некоторых голосов HD
Теперь доступны следующие голоса HD:
|
Языковой стандарт (BCP-47) |
Имя голоса |
de-DE |
de-DE-Florian:DragonHDLatestNeural (мужской) |
de-DE |
de-DE-Seraphina:DragonHDLatestNeural (женщина) |
en-US |
en-US-Adam:DragonHDLatestNeural (мужской) |
en-US |
en-US-Andrew:DragonHDLatestNeural (мужской) |
en-US |
en-US-Andrew2:DragonHDLatestNeural (мужской) |
en-US |
en-US-Ava:DragonHDLatestNeural (женщина) |
en-US |
en-US-Brian:DragonHDLatestNeural (мужской) |
en-US |
en-US-Davis:DragonHDLatestNeural (мужской) |
en-US |
en-US-Emma:DragonHDLatestNeural (женщина) |
en-US |
en-US-Emma2:DragonHDLatestNeural (женщина) |
en-US |
en-US-Steffan:DragonHDLatestNeural (мужской) |
es-ES |
es-ES-Tristan:DragonHDLatestNeural (мужской) |
es-ES |
es-ES-Ximena:DragonHDLatestNeural (женщина) |
fr-FR |
fr-FR-Remy:DragonHDLatestNeural (мужской) |
fr-FR |
fr-FR-Vivienne:DragonHDLatestNeural (женщина) |
ja-JP |
ja-JP-Masaru:DragonHDLatestNeural (мужской) |
ja-JP |
ja-JP-Nanami:DragonHDLatestNeural (женщина) |
zh-CN |
zh-CN-Xiaochen:DragonHDLatestNeural (женщина) |
zh-CN |
zh-CN-Yunfan:DragonHDLatestNeural (мужской) |
Многоязычные голоса для сценариев podcast (предварительная версия)
|
Языковой стандарт (BCP-47) |
Имя голоса |
en-US |
en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural (Нейтральный) |
Новые голоса HD (предварительная версия)
|
Языковой стандарт (BCP-47) |
Имя голоса |
en-US |
en-US-Ava3:DragonHDLatestNeural (женщина) — оптимизировано для Podcast |
en-US |
en-US-Andrew3:DragonHDLatestNeural (Мужской) — оптимизировано для Podcast |
Модели Dragon HD Flash (предварительная версия)
|
Языковой стандарт (BCP-47) |
Имя голоса |
zh-CN |
zh-CN-Xiaochen:DragonHDFlashLatestNeural (женщина) |
zh-CN |
zh-CN-Xiaoxiao:DragonHDFlashLatestNeural (женщина) |
zh-CN |
zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural (Женщина, оптимизированная для свободного разговора) |
zh-CN |
zh-CN-Yunxiao:DragonHDFlashLatestNeural (мужской) |
zh-CN |
zh-CN-Yunyi:DragonHDFlashLatestNeural (мужской) |
Выпуск за февраль 2025 г.
Обновленные голоса HD (предварительная версия)
Обновлено 13 текущих голосов HD для поддержки многоязычных голосов.
|
Языковой стандарт (BCP-47) |
Имя голоса |
de-DE |
de-DE-Seraphina:DragonHDLatestNeural (женщина) |
en-US |
en-US-Brian:DragonHDLatestNeural (мужской) |
en-US |
en-US-Davis:DragonHDLatestNeural (мужской) |
en-US |
en-US-Ava:DragonHDLatestNeural (женщина) |
en-US |
en-US-Andrew:DragonHDLatestNeural (мужской) |
en-US |
en-US-Andrew2:DragonHDLatestNeural (Мужской) - оптимизировано для свободного разговора |
en-US |
en-US-Emma:DragonHDLatestNeural (женщина) |
en-US |
en-US-Emma2:DragonHDLatestNeural (женщина) - оптимизировано для свободного разговора |
en-US |
en-US-Steffan:DragonHDLatestNeural (мужской) |
en-US |
en-US-Aria:DragonHDLatestNeural (женщина) |
en-US |
en-US-Jenny:DragonHDLatestNeural (женщина) |
ja-JP |
ja-JP-Masaru:DragonHDLatestNeural (мужской) |
zh-CN |
zh-CN-Xiaochen:DragonHDLatestNeural (женщина) |
Новые голоса HD (предварительная версия)
Добавлено 14 дополнительных голосов HD
|
Языковой стандарт (BCP-47) |
Имя голоса |
de-DE |
de-DE-Florian:DragonHDLatestNeural (мужской) |
en-US |
en-US-Adam:DragonHDLatestNeural (мужской) |
en-US |
en-US-Brian:DragonHDLatestNeural (мужской) |
en-US |
en-US-Davis:DragonHDLatestNeural (мужской) |
en-US |
en-US-Phoebe:DragonHDLatestNeural (женщина) |
en-US |
en-US-Serena:DragonHDLatestNeural (женщина) |
en-US |
en-US-Alloy:DragonHDLatestNeural (мужской) |
en-US |
en-US-Nova:DragonHDLatestNeural (женщина) |
es-ES |
es-ES-Ximena:DragonHDLatestNeural (женщина) |
es-ES |
es-ES-Tristan:DragonHDLatestNeural (мужской) |
fr-FR |
fr-FR-Vivienne:DragonHDLatestNeural (женщина) |
fr-FR |
fr-FR-Remy:DragonHDLatestNeural (мужской) |
ja-JP |
ja-JP-Nanami:DragonHDLatestNeural (женщина) |
zh-CN |
zh-CN-Yunfan:DragonHDLatestNeural (мужской) |
Знакомство с новыми многоязычными голосами (предварительная версия)
Добавлено еще 4 многоязычных голоса с en-US поддержкой эмоций.
|
Языковой стандарт (BCP-47) |
Имя голоса |
Стили |
en-US |
DerekMultilingualNeural (мужской) |
empathetic, , excitedrelievedshy |
en-US |
PhoebeMultilingualNeural (женщина) |
empathetic, , sadserious |
en-US |
DavisMultilingualNeural (мужской) |
empathetic, , funnyrelieved |
en-US |
NancyMultilingualNeural (женщина) |
excited, , friendlyfunny, relievedshy |
Azure OpenAI в Microsoft модели Foundry Turbo voices (общедоступная версия)
Эти 6 турбо голосов теперь общедоступны:
|
Языковой стандарт (BCP-47) |
Имя голоса |
en-US |
en-US-AlloyTurboMultilingualNeural (мужской) |
en-US |
en-US-EchoTurboMultilingualNeural (мужской) |
en-US |
en-US-FableTurboMultilingualNeural (Нейтральный) |
en-US |
en-US-NovaTurboMultilingualNeural (женщина) |
en-US |
en-US-OnyxTurboMultilingualNeural (мужской) |
en-US |
en-US-ShimmerTurboMultilingualNeural (женщина) |
Улучшения качества голосовой связи (общедоступная версия)
Улучшено качество 16 голосов.
|
Языковой стандарт (BCP-47) |
Имя голоса |
ar-EG |
ar-EG-ShakirNeural (мужской) |
ca-ES |
ca-ES-EnricNeural (мужской) |
en-IE |
en-IE-EmilyNeural (женщина) |
fi-FI |
fi-FI-HarriNeural (мужской) |
fi-FI |
fi-FI-SelmaNeural (женщина) |
fr-CH |
fr-CH-FabriceNeural (женщина) |
hr-HR |
hr-HR-GabrijelaNeural (женщина) |
nl-NL |
nl-NL-MaartenNeural (мужской) |
pt-PT |
pt-PT-RaquelNeural (женщина) |
ro-RO |
ro-RO-AlinaNeural (женщина) |
sv-SE |
sv-SE-MattiasNeural (мужской) |
sv-SE |
sv-SE-SofieNeural (женщина) |
vi-VN |
vi-VN-HoaiMyNeural (женщина) |
vi-VN |
vi-VN-NamMinhNeural (мужской) |
zh-HK |
zh-HK-HiuMaanNeural (женщина) |
zh-HK |
zh-HK-WanLungNeural (мужской) |
Многоуровневая внедренная Дженни (общедоступная версия)
Добавлена поддержка en-US-JennyNeural стиля в внедренной речи. Те же стили поддерживаются, что и в облаке. Поддерживаются следующие стили: angry, assistantcheerfulfriendlyexcitedhopefulnewscastcustomerservicechatshoutingterrifiedsadunfriendlyи .whispering
Выпуск за январь 2025 г.
Обучение пользовательского аватара
Теперь вы можете обучать пользовательские аватары в Speech Studio. Ранее вам пришлось ждать, пока Microsoft обучить настраиваемый аватар.
Дополнительные сведения о создании пользовательского аватара см. в разделе "Создание пользовательского текста для речи аватара".
Выпуск за октябрь 2024 г.
Стандартный голос
Представлена 4 turbo версии Azure голосов OpenAI в общедоступной предварительной версии: en-US-EchoTurboMultilingualNeural, en-US-FableTurboMultilingualNeural, en-US-OnyxTurboMultilingualNeural и en-US-ShimmerTurboMultilingualNeural. Turbo version of Azure OpenAI voices имеет аналогичную голосовую персону, как Azure голоса OpenAI, но поддерживает дополнительные функции. Голоса Turbo поддерживают полный набор элементов SSML и больше функций, таких как граница слова, как и другие Azure голоса речи. Дополнительные сведения см. в полном списке языков и голосовой связи .
Эти голоса теперь общедоступны:
|
Языковой стандарт (BCP-47) |
Имя голоса |
de-DE |
SeraphinaMultilingualNeural |
de-DE |
FlorianMultilingualNeural |
en-GB |
AdaMultilingualNeural |
en-GB |
OllieMultilingualNeural |
en-US |
LunaNeural |
en-US |
KaiNeural |
en-US |
CoraMultilingualNeural |
en-US |
ChristopherMultilingualNeural |
en-US |
BrandonMultilingualNeural |
es-ES |
IsidoraMultilingualNeural |
es-ES |
ArabellaMultilingualNeural |
es-ES |
TristanMultilingualNeural |
es-ES |
XimenaMultilingualNeural |
fr-FR |
LucienMultilingualNeural |
fr-FR |
VivienneMultilingualNeural |
fr-FR |
RemyMultilingualNeural |
it-IT |
IsabellaMultilingualNeural |
it-IT |
MarcelloMultilingualNeural |
it-IT |
AlessioMultilingualNeural |
it-IT |
GiuseppeMultilingualNeural |
ko-KR |
HyunsuMultilingualNeural |
pt-BR |
ThalitaMultilingualNeural |
pt-BR |
MacerioMultilingualNeural |
Стандартный голос высокого определения (HD)
Azure голоса высокого определения речи (HD) доступны в общедоступной предварительной версии. Голоса HD могут понять содержимое, автоматически обнаруживать эмоции в входном тексте и настраивать тон речи в режиме реального времени, чтобы соответствовать тону. Голоса HD поддерживают согласованную голосовую персону из своих нейронных (и не HD) коллег и обеспечивают еще большее значение благодаря расширенным функциям. Дополнительные сведения см. в разделе Несколько Azure голоса высокого определения речи (HD)?.
Пользовательский нейронный голос
Ранее некоторые языковые стандарта были поддерживаются только в версии 3 для рецепта обучения. Эти языковые стандарта теперь также поддерживают версию 9, что позволяет улучшить качество обучения и расширенные функции. Сведения об этих языковых стандартах см. в следующей таблице:
|
Языковой стандарт (BCP-47) |
Язык |
ar-EG |
Арабский (Египет) |
ar-SA |
Арабский (Саудовская Аравия) |
ca-ES |
Каталанский |
cs-CZ |
Чехия (Чехия) |
da-DK |
Датский (Дания) |
de-AT |
Немецкий (Австрия) |
de-CH |
Немецкий (Швейцария) |
el-GR |
Греческий (Греция) |
en-IN |
Английский (Индия) |
fi-FI |
Финский (Финляндия) |
fr-CH |
Французский (Швейцария) |
he-IL |
Иврит (Израиль) |
hi-IN |
Хинди (Индия) |
hu-HU |
Венгерский (Венгрия) |
ms-MY |
Малайский (Малайзия) |
nb-NO |
Норвежский Букмол (Норвегия) |
nl-NL |
Голландский (Нидерланды) |
pl-PL |
Польский (Польша) |
pt-PT |
Португальский (Португалия) |
ro-RO |
Румын (Румыния) |
ru-RU |
Русский (Россия) |
sk-SK |
Словацкий (Словакия) |
sv-SE |
Шведский (Швеция) |
th-TH |
Тайский (Таиланд) |
r-TR |
Турецкий (Türkiye) |
vi-VN |
Вьетнамцы (Вьетнам) |
zh-HK |
Китайский (кантонский, традиционный) |
zh-TW |
Китайский (Тайваньский мандарин, традиционный) |
Пользовательский нейронный голос Pro теперь поддерживает следующие новые языковые стандарты:
-
en-NZ: английский (Новая Зеландия)
-
es-CL: испанский (Чили)
-
es-US: испанский (США)
-
ta-MY: Тамиль (Малайзия)
Список языков для пользовательского нейронного голоса см. в полном списке поддерживаемых языковых стандартов.
Кросслингвальная функция теперь поддерживает следующие новые языковые стандарты в качестве исходных языков:
|
Языковой стандарт (BCP-47) |
Язык |
da-DK |
Датский (Дания) |
de-AT |
Немецкий (Австрия) |
de-CH |
Немецкий (Швейцария) |
de-DE |
Немецкий (Германия) |
en-CA |
Английский (Канада) |
fi-FI |
Финский (Финляндия) |
fr-CH |
Французский (Швейцария) |
hu-HU |
Венгерский (Венгрия) |
ms-MY |
Малайский (Малайзия) |
nb-NO |
Норвежский Букмол (Норвегия) |
pt-PT |
Португальский (Португалия) |
sv-SE |
Шведский (Швеция) |
tr-TR |
Турецкий (Türkiye) |
ta-IN |
Тамиль (Индия) |
zh-HK |
Китайский (кантонский, традиционный) |
Список языков для пользовательского нейронного голоса см. в полном списке поддерживаемых языковых стандартов.
Функция голосовой связи с несколькими стилями теперь поддерживает следующие новые языковые стандарты:
|
Языковой стандарт (BCP-47) |
Язык |
ar-EG |
Арабский (Египет) |
ar-SA |
Арабский (Саудовская Аравия) |
ca-ES |
Каталанский |
cs-CZ |
Чехия (Чехия) |
da-DK |
Датский (Дания) |
de-AT |
Немецкий (Австрия) |
de-CH |
Немецкий (Швейцария) |
de-DE |
Немецкий (Германия) |
el-GR |
Греческий (Греция) |
en-AU |
Английский (Австралия) |
en-CA |
Английский (Канада) |
en-GB |
Английский (Соединенное Королевство) |
en-IN |
Английский (Индия) |
es-ES |
Испанский (Испания) |
es-MX |
Испанский (Мексика) |
fi-FI |
Финский (Финляндия) |
fr-CA |
Французский (Канада) |
fr-CH |
Французский (Швейцария) |
fr-FR |
Французский (Франция) |
he-IL |
Иврит (Израиль) |
hi-IN |
Хинди (Индия) |
hu-HU |
Венгерский (Венгрия) |
it-IT |
Итальянский (Италия) |
ko-KR |
Корейский (Корея) |
ms-MY |
Малайский (Малайзия) |
nb-NO |
Норвежский Букмол (Норвегия) |
nl-BE |
Голландский (Бельгия) |
nl-NL |
Голландский (Нидерланды) |
pl-PL |
Польский (Польша) |
pt-BR |
Португальский (Бразилия) |
pt-PT |
Португальский (Португалия) |
ro-RO |
Румын (Румыния) |
ru-RU |
Русский (Россия) |
sk-SK |
Словацкий (Словакия) |
sv-SE |
Шведский (Швеция) |
th-TH |
Тайский (Таиланд) |
tr-TR |
Турецкий (Türkiye) |
vi-VN |
Вьетнамцы (Вьетнам) |
zh-HK |
Китайский (кантонский, традиционный) |
zh-TW |
Китайский (Тайваньский мандарин, традиционный) |
Список языков для пользовательского нейронного голоса см. в полном списке поддерживаемых языковых стандартов.
Выпуск за сентябрь 2024 г.
Стандартный голос
Добавлена поддержка и общая доступность новых голосов в следующих языковых стандартах:
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
as-IN |
Ассамес (Индия) |
as-IN-YashicaNeural (женщина)
as-IN-PriyomNeural (мужской) |
or-IN |
Одия (Индия) |
or-IN-SubhasiniNeural (женщина)
or-IN-SukantNeural (мужской) |
pa-IN |
Пенджаби (Индия) |
pa-IN-OjasNeural (мужской)
pa-IN-VaaniNeural (женщина) |
Один голос в этой таблице общедоступен и поддерживает только языковой стандартen-IN.
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
en-IN |
Английский (Индия) |
en-IN-AashiNeural (женщина) |
Пять голосов в этой таблице являются общедоступными и поддерживают какen-IN", так и "hi-IN" языковых стандартов.
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
en-IN |
Английский (Индия) |
en-IN-AaravNeural (мужской)
en-IN-AnanyaNeural (женщина)
en-IN-KavyaNeural (женщина)
en-IN-KunalNeural (мужской)
en-IN-RehaanNeural (мужской) |
hi-IN |
Хинди (Индия) |
hi-IN-AaravNeural (мужской)
hi-IN-AnanyaNeural (женщина)
hi-IN-KavyaNeural (женщина)
hi-IN-KunalNeural (мужской)
hi-IN-RehaanNeural (мужской) |
Стили голоса и роли
Добавлена newscastподдержка cheerfulempathetic стилей en-IN-NeerjaNeural и hi-IN-SwaraNeural голосов.
Добавлены новые стили для следующих голосов:
-
es-MX-DaliaNeural: whispering, , sadcheerful
-
fr-FR-DeniseNeural: whispering, , sadexcited
-
it-IT-IsabellaNeural: whispering, , excitedsadcheerful
-
pt-PT-RaquelNeural: whispering, sad
-
de-DE-ConradNeural: sad, cheerful
-
en-GB-RyanNeural: whispering, sad
-
es-MX-JorgeNeural: whispering, , excitedsadcheerful
-
fr-FR-HenriNeural: whispering, , sadexcited
-
it-IT-DiegoNeural: sad, , excitedcheerful
-
es-ES-AlvaroNeural: cheerful, sad
-
ko-KR-InjoonNeural: sad
Дополнительные сведения см. в стилях и ролях голосовой связи .
Выпуск за август 2024 г.
Стандартный голос
Знакомство с новыми многоязычными голосами в общедоступной предварительной версии. Дополнительные сведения см. в полном списке языков и голосовой связи .
Совершенно новые многоязычные голоса
| Языкового стандарта |
Язык |
Гендерного |
Имя голоса |
| en-US |
Английский (США) |
Мужской |
en-US-AdamMultilingualNeural |
| en-US |
Английский (США) |
Женский |
en-US-AmandaMultilingualNeural |
| en-US |
Английский (США) |
Мужской |
en-US-DerekMultilingualNeural |
| en-US |
Английский (США) |
Мужской |
en-US-LewisMultilingualNeural |
| en-US |
Английский (США) |
Женский |
en-US-LolaMultilingualNeural |
| en-US |
Английский (США) |
Женский |
en-US-PhoebeMultilingualNeural |
| en-US |
Английский (США) |
Мужской |
en-US-SamuelMultilingualNeural |
| en-US |
Английский (США) |
Женский |
en-US-SerenaMultilingualNeural |
| en-US |
Английский (США) |
Мужской |
en-US-DustinMultilingualNeural |
| en-US |
Английский (США) |
Женский |
en-US-EvelynMultilingualNeural |
| es-ES |
Испанский (Испания) |
Мужской |
es-ES-TristanMultilingualNeural |
| fr-FR |
Французский (Франция) |
Мужской |
fr-FR-LucienMultilingualNeural |
| pt-BR |
Португальский (Бразилия) |
Мужской |
pt-BR-MacerioMultilingualNeural |
| zh-CN |
Китайский (Мандарин, упрощенное письмо) |
Мужской |
zh-CN-YunfanMultilingualNeural |
| zh-CN |
Китайский (Мандарин, упрощенное письмо) |
Мужской |
zh-CN-YunxiaoMultilingualNeural |
| zh-CN |
Китайский (Мандарин, упрощенное письмо) |
Мужской |
zh-CN-YunyiMultilingualNeural |
Монолингвальные модели, обновленные на многоязычных голосах с улучшением естественности
| Языкового стандарта |
Язык |
Гендерного |
Имя голоса |
| en-US |
Английский (США) |
Женский |
en-US-NancyMultilingualNeural |
| en-US |
Английский (США) |
Мужской |
en-US-BrandonMultilingualNeural |
| en-US |
Английский (США) |
Мужской |
en-US-ChristopherMultilingualNeural |
| en-US |
Английский (США) |
Женский |
en-US-CoraMultilingualNeural |
| en-US |
Английский (США) |
Мужской |
en-US-DavisMultilingualNeural |
| en-US |
Английский (США) |
Мужской |
en-US-SteffanMultilingualNeural |
| es-ES |
Испанский (Испания) |
Женский |
es-ES-XimenaMultilingualNeural |
| it-IT |
Итальянский (Италия) |
Мужской |
it-IT-GiuseppeMultilingualNeural |
| ko-KR |
Корейский (Корея) |
Мужской |
ko-KR-HyunsuMultilingualNeural |
Улучшение следующих текущих многоязычных голосов с более высоким качеством.
| Языкового стандарта |
Язык |
Гендерного |
Имя голоса |
| en-US |
Английский (США) |
Мужской |
en-US-AndrewMultilingualNeural |
| en-US |
Английский (США) |
Женский |
en-US-AvaMultilingualNeural |
Теперь три многоязычных голоса поддерживают стили. Дополнительные сведения см. в стилях и ролях голосовой связи .
- en-US-SerenaMultilingualNeural:
empathetic, excited, friendly, shy, seriousrelievedи sad.
- en-US-ЭндрюMultilingualNeural:
empathetic и relieved.
- zh-CN-XiaoxiaoMultilingualNeural:
affectionate, cheerful, empathetic, excited, poetry-readingsorryи story.
Выпуск за июль 2024 г.
Текст для аватара речи (GA)
Аватар речи в тексте теперь общедоступен. Дополнительные сведения см. в тексте аватара речи.
Стандартный голос
Введите 2 turbo версии Azure Голоса OpenAI в общедоступной предварительной версии: en-US-AlloyTurboMultilingualNeural и en-US-NovaTurboMultilingualNeural. Turbo version of Azure OpenAI voices имеет аналогичную голосовую персону, как Azure голоса OpenAI, но поддерживает дополнительные функции. Голоса Turbo поддерживают полный набор элементов SSML и больше функций, таких как граница слова, как и другие Azure голоса речи. Дополнительные сведения см. в полном списке языков и голосовой связи .
Введите 2 новых многоязычных голоса в общедоступной предварительной версии: zh-CN-YunfanMultilingualNeural и zh-CN-YunxiaoMultilingualNeural. Дополнительные сведения см. в полном списке языков и голосовой связи .
Внедренный нейронный голос
Выпуск за июнь 2024 г.
Стандартный голос
Знакомство с 6 новыми голосами в общедоступной предварительной версии, доступной в определенных регионах: Восточная Азия, Юго-Восточная Азия, Восточная ЧАСТЬ США, Западная часть США и Центральная Индия.
| Языкового стандарта |
Язык |
Голос речи в текст |
or-IN |
Одия (Индия) |
or-IN-SubhasiniNeural (женщина) |
or-IN |
Одия (Индия) |
or-IN-SukantNeural (мужской) |
pa-IN |
Пенджаби (Индия) |
pa-IN-VaaniNeural (женщина) |
pa-IN |
Пенджаби (Индия) |
pa-IN-OjasNeural (мужской) |
as-IN |
Ассамес (Индия) |
as-IN-YashicaNeural (женщина) |
as-IN |
Ассамес (Индия) |
as-IN-PriyomNeural (мужской) |
Дополнительные сведения см. в полном списке языков и голосовой связи .
Аватар текста для речи
- Текст для речи аватар теперь поддерживает следующие регионы: Юго-Восточная Азия, Северная Европа, Западная Европа, Центральная Швеция, Южная Часть США и Западная часть США 2. Дополнительные сведения см. в разделе "Регионы службы "Речь".
Выпуск за май 2024 г.
Личный голос (GA)
Личный голос теперь общедоступен. С помощью личного голоса вы можете получить репликацию голоса (или пользователей вашего приложения) с помощью искусственного интеллекта в течение нескольких секунд. Вы предоставляете в качестве звукового запроса один минутный образец речи, а затем используете его для создания речи на любом из более чем 90 языков, поддерживаемых более чем в 100 языковых стандартах. Дополнительные сведения см. в обзоре личного голоса.
Стандартный голос
Введите 8 новых многоязычных голосов в общедоступной предварительной версии: en-GB-AdaMultilingualNeural, en-GB-OllieMultilingualNeural, es-ES-ArabellaMultilingualNeural, es-ES-IsidoraMultilingualNeural, pt-BR-ThalitaMultilingualNeuralit-IT-AlessioMultilingualNeuralit-IT-IsabellaMultilingualNeuralit-IT-MarcelloMultilingualNeuralи . Дополнительные сведения см. в полном списке языков и голосовой связи .
Введите 2 новых en-US голоса, оптимизированных для сценария Центра вызовов в общедоступной предварительной версии: en-US-LunaNeural и en-US-KaiNeural. Дополнительные сведения см. в полном списке языков и голосовой связи .
Выпуск за апрель 2024 г.
Аватар текста для речи
- Теперь вы можете задать статический фоновый образ для аватаров. Чтобы использовать эту функцию, просто используйте
avatarConfig.backgroundImage свойство и укажите URL-адрес, указывающий на нужное изображение. Дополнительные сведения см. в свойствах аватара пакетного синтеза.
Выпуск за март 2024 г.
Стандартный голос
9 многоязычных голосов общедоступны во всех регионах: en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, fr-FR-RemyMultilingualNeuralen-US-BrianMultilingualNeuralzh-CN-XiaoxiaoMultilingualNeuralen-US-EmmaMultilingualNeuralde-DE-FlorianMultilingualNeuralde-DE-SeraphinaMultilingualNeuralfr-FR-VivienneMultilingualNeuralи . Дополнительные сведения см. в полном списке языков и голосовой связи .
Знакомство с новым многоязычным голосом для общедоступной предварительной версии: ja-JP-MasaruMultilingualNeural Дополнительные сведения см. в полном списке языков и голосовой связи .
Дополнительные обновления:
-
en-US-RyanMultilingualNeural общедоступен во всех регионах.
-
en-US-JennyMultilingualV2Neural общедоступен во всех регионах, объединенных с en-US-JennyMultilingualNeural.
- Предварительная версия доступна для обновленных
en-IN-NeerjaNeural и hi-IN-SwaraNeural с 3 новыми стилями в восточной части США, Западной Европы и Юго-Восточной Азии.
- Предварительная версия доступна для новых женских голосов в Центральной Индии:
en-IN-KavyaNeural, , en-IN-AnanyaNeural, en-IN-AashiNeuralhi-IN-KavyaNeuralи hi-IN-AnanyaNeural.
Аватар текста для речи
- Удалена зависимость от Службы коммуникации Azure (ACS) TURN для аватара в режиме реального времени. Код sample был обновлен соответствующим образом, чтобы отразить это изменение.
- Опубликованные цены на текст для аватара речи. Дополнительные сведения см. на странице цен. Обратите внимание, что цены на аватар будут отображаться только для регионов служб, где эта функция доступна.
Выпуск за февраль 2024 г.
Голоса OpenAI
Служба "Речь" Azure поддерживает текст OpenAI для речи в следующих регионах: Центральная часть США и Центральная Швеция. Как и Azure голоса речи, текст OpenAI для голосовых функций обеспечивает высококачественный синтез речи, чтобы преобразовать написанный текст в естественный звуковой звук. Это разблокирует широкий спектр возможностей для иммерсивного и интерактивного взаимодействия с пользователем. Дополнительные сведения см. в разделе "Что такое текст OpenAI для голосов речи?".
Примечание
Текст OpenAI для голоса речи также доступен в Azure OpenAI.
В этом обновлении мы изменили цены на стандартные голоса с Azure речью. Проверьте обновленные цены здесь.
Личный голос
Теперь функция личной голосовой связи поддерживает DragonLatestNeural и PhoenixLatestNeural модели. Эти новые модели повышают естественность синтезированных голосов, лучше напоминая характеристики речи голоса в запросе. Дополнительные сведения см. в статье "Интеграция личного голоса в приложении".
Выпуск за декабрь 2023 г.
Пользовательский API голосовой связи
Пользовательский API голосовой связи доступен для создания профессиональных и личных моделей нейронных голосовых моделей и управления ими.
Пользовательский нейронный голос
Недавно обученные модели голосовой связи теперь поддерживают частоту выборки 48 кГц независимо от версии модели. Для ранее обученных моделей голосовой связи необходимо обновить версию двигателя до не менее 2023.11.13.0 , чтобы повысить частоту выборки до 48 кГц.
Стандартный голос
- Знакомство с новыми многоязычными голосами для общедоступной предварительной версии:
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
de-DE |
Немецкий (Германия) |
de-DE-FlorianMultilingualNeural (мужской) |
de-DE |
Немецкий (Германия) |
de-DE-SeraphinaMultilingualNeural (женщина) |
en-US |
Английский (США) |
en-US-AvaMultilingualNeural (женщина) |
en-US |
Английский (США) |
en-US-EmmaMultilingualNeural (женщина) |
fr-FR |
Французский (Франция) |
fr-FR-RemyMultilingualNeural (мужской) |
en-US |
Английский (США) |
en-US-BrianMultilingualNeural (мужской) |
en-US |
Английский (США) |
en-US-AndrewMultilingualNeural (мужской) |
fr-FR |
Французский (Франция) |
fr-FR-VivienneMultilingualNeural (женщина) |
zh-CN |
Китайский (Мандарин, упрощенное письмо) |
zh-CN-XiaoxiaoMultilingualNeural (женщина) |
zh-CN |
Китайский (Мандарин, упрощенное письмо) |
zh-CN-XiaochenMultilingualNeural (женщина) |
zh-CN |
Китайский (Мандарин, упрощенное письмо) |
zh-CN-YunyiMultilingualNeural (мужской) |
- Знакомство с новыми
zh-CN-XiaoxiaoDialectsNeural голосами для общедоступной предварительной версии, которые поддерживают несколько китайских диалектов и акцентов:
| Имя голоса |
Дополнительный язык |
Диалект/акцент |
zh-CN-XiaoxiaoDialectsNeural |
zh-CN-shaanxi |
Китайский (Zhongyuan Mandarin Shaanxi, упрощено) |
|
zh-CN-sichuan |
Китайский (юго-западная мандарина, упрощенная версия) |
|
zh-CN-shanxi |
Китайский (Shanxi Accent Mandarin, упрощенный) |
|
nan-CN |
Китайский (южный мин, упрощенный) |
|
zh-CN-anhui |
Китайский (Цзянхуай Мандарин Аньхуа, упрощенный) |
|
zh-CN-hunan |
Китайский (Hunan Accent Mandarin, упрощенный) |
|
zh-CN-gansu |
Китайский (Lanyin Mandarin Gansu, упрощено) |
|
zh-CN-shandong |
Китайский (Джилу Мандарин, упрощенное письмо) |
|
zh-CN-henan |
Китайский (Zhongyuan Mandarin Henan, упрощено) |
|
zh-CN-liaoning |
Китайский (северо-восточной части Мандарина, упрощенное письмо) |
|
zh-TW |
Китайский (Тайваньский мандарин, традиционный) |
Выпуск за ноябрь 2023 г.
Личный голос
Личный голос доступен в предварительной версии в следующих регионах: Западная Европа, Восточная ЧАСТЬ США и Юго-Восточная Азия. С помощью личного голоса (предварительная версия) вы можете получить репликацию голоса (или пользователей приложения) с помощью искусственного интеллекта в течение нескольких секунд. Вы предоставляете в качестве звукового запроса один минутный образец речи, а затем используете его для создания речи на любом из более чем 90 языков, поддерживаемых более чем в 100 языковых стандартах.
Дополнительные сведения см. в разделе "Личный голос".
Аватар текста для речи
Аватар речи доступен в предварительной версии в следующих регионах: Западная часть США 2, Западная Европа и Юго-Восточная Азия.
Текст для аватара речи преобразует текст в цифровое видео фотореалистического человека (стандартного аватара или пользовательского текста для аватара речи), выступающего с естественным звуком голоса. Текст для речи аватар видео можно синтезировать асинхронно или в режиме реального времени. Разработчики могут создавать приложения, интегрированные с текстом в речь аватаром через API, или использовать средство создания содержимого в Speech Studio для создания видеоконтента без написания кода.
Дополнительные сведения см. в тексте аватара речи, заметках прозрачности и раскрытии информации о таланте голоса и аватара.
Пользовательский нейронный голос
Добавлена поддержка 24 новых языковых стандартов для межлингового голоса. Дополнительные сведения см. в полном списке языков .
Стандартный голос
Знакомство с новыми голосами для общедоступной предварительной версии:
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
de-DE |
Немецкий (Германия) |
SeraphinaNeural (женщина) |
es-ES |
Испанский (Испания) |
XimenaNeural (женщина) |
fr-CA |
Французский (Канада) |
ThierryNeural (мужской) |
fr-FR |
Французский (Франция) |
VivienneNeural (женщина) |
it-IT |
Итальянский (Италия) |
GiuseppeNeural (мужской) |
ko-KR |
Корейский (Корея) |
HyunsuNeural (мужской) |
pt-BR |
Португальский (Бразилия) |
ThalitaNeural (женщина) |
Модели, обновленные с исправленными ошибками и улучшением качества:
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
es-ES |
Испанский (Испания) |
AlvaroNeural (мужской) |
en-GB |
Английский (Соединенное Королевство) |
RyanNeural (мужской) |
ko-KR |
Корейский (Корея) |
InjoonNeural (мужской) |
Дополнительные сведения см. в полном списке языков и голосовой связи .
Выпуск за октябрь 2023 г.
Пользовательский нейронный голос
- Добавлена поддержка 12 новых языковых стандартов с пользовательским нейронным голосом Pro. Дополнительные сведения см. в полном списке языков .
Выпуск за сентябрь 2023 г.
Стандартный голос
- Знакомство с новыми голосами для общедоступной предварительной версии:
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
en-US |
Английский (США) |
en-US-EmmaNeural (женщина) |
en-US |
Английский (США) |
en-US-AndrewNeural (мужской) |
en-US |
Английский (США) |
en-US-BrianNeural (мужской) |
Дополнительные сведения см. в полном списке языков и голосовой связи .
Внедренный нейронный голос
- Все 147 языковых стандартов здесь (кроме fa-IR, персидского (Ирана)) доступны из коробки либо с 1 выбранной женщиной и/или 1 выбранными мужскими голосами.
Выпуск за август 2023 г.
Пользовательский нейронный голос
- В настоящее время выпущена последняя версия рецепта обучения CNV Lite. В этом выпуске реализовано несколько улучшений качества языковых моделей. Попробуйте использовать Speech Studio.
Выпуск за июль 2023 г.
Пользовательский нейронный голос
Стандартные голоса
Знакомство с новыми en-US гендерными нейтральными голосами для общедоступной предварительной версии:
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
en-US |
Английский (США) |
en-US-BlueNeural (Нейтральный) |
Знакомство с новыми многоязычными голосами для общедоступной предварительной версии:
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
en-US |
Английский (США) |
en-US-JennyMultilingualV2Neural (женщина) |
en-US |
Английский (США) |
en-US-RyanMultilingualNeural (мужской) |
Многоязычные en-US-JennyMultilingualV2Neural голоса и en-US-RyanMultilingualNeural автоматическое обнаружение языка входного текста. Однако элемент по-прежнему можно использовать <lang> для настройки языка речи для этих голосов.
Эти новые многоязычные голоса могут говорить на 41 языках и акцентах: , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , .
Эти многоязычные голоса не полностью поддерживают некоторые элементы SSML, такие как разрыв, акцент, молчание и под.
Важно
Голос en-US-JennyMultilingualV2Neural временно предоставляется в общедоступной предварительной версии исключительно в целях оценки. Он будет удален в будущем.
Для того чтобы говорить на языке, отличном от английского, текущая реализация en-US-JennyMultilingualNeural голоса требует установки <lang xml:lang> элемента. Мы ожидаем, что в течение календарного года Q4 2023 en-US-JennyMultilingualNeural голос будет обновлен, чтобы говорить на языке входного текста без <lang xml:lang> элемента. Это будет в паритете с голосом en-US-JennyMultilingualV2Neural .
Знакомство с новыми функциями в общедоступной предварительной версии для следующих голосов:
- Добавлены латинские входные данные для сербских (Сербии)
sr-RS голосов: sr-latn-RS-SophieNeural и sr-latn-RS-NicholasNeural.
- Добавлена поддержка произношения английского языка для албанских (Албания)
sq-AL голосов: sq-AL-AnilaNeural и sq-AL-IlirNeural.
Выпуск за май 2023 г.
Создание звукового содержимого
- Все стандартные голоса с стилями речи и многоуровневыми пользовательскими голосами поддерживают настройку степени стиля.
- Теперь вы можете исправить произношение слова, говоря слово и записав его. Фонемы можно автоматически распознать из записи.
Функция распознавания речи теперь доступна в общедоступной предварительной версии.
Выпуск за апрель 2023 г.
Стандартные голоса
- Следующие функции этих голосов перемещены из общедоступной предварительной версии в общедоступную версию:
| Стиль |
Голос речи в текст |
| style="chat" |
en-GB-RyanNeural, и es-MX-JorgeNeuralit-IT-IsabellaNeural |
| style="веселый" |
en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeuralfr-FR-DeniseNeuralfr-FR-HenriNeuralиit-IT-IsabellaNeural |
| style="sad" |
en-GB-SoniaNeural, fr-FR-DeniseNeural и fr-FR-HenriNeural |
- Улучшение произношения на английском языке для
hi-INголосов ta-IN и te-IN голосов теперь выполняется в общедоступных регионах предварительной версии
Дополнительные сведения см. в списке языков и голосовых данных.
Выпуск за март 2023 г.
Новые возможности
Язык разметки синтеза речи (SSML) обновляется для поддержки элементов процессора звуковых эффектов, которые оптимизируют качество синтезированных выходных данных речи для определенных сценариев на устройствах. Дополнительные сведения см. в разметке синтеза речи.
Пользовательский нейронный голос
Добавлена поддержка языкового nl-BE стандарта с пользовательским нейронным голосом Pro. Дополнительные сведения см. в полном списке языков и голосовой связи .
Стандартные голоса
Теперь доступны следующие голоса. Дополнительные сведения см. в полном списке языков и голосовой связи .
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
en-AU |
Английский (Австралия) |
en-AU-AnnetteNeural (женщина)
en-AU-CarlyNeural (женщина)
en-AU-DarrenNeural (мужской)
en-AU-DuncanNeural (мужской)
en-AU-ElsieNeural (женщина)
en-AU-FreyaNeural (женщина)
en-AU-JoanneNeural (женщина)
en-AU-KenNeural (мужской)
en-AU-KimNeural (женщина)
en-AU-NeilNeural (мужской)
en-AU-TimNeural (мужской)
en-AU-TinaNeural (женщина)
en-AU-WilliamNeural (мужской) |
en-GB |
Английский (Соединенное Королевство) |
en-GB-RyanNeural (мужской)
en-GB-SoniaNeural (женщина) |
es-ES |
Испанский (Испания) |
es-ES-AbrilNeural (женщина)
es-ES-ArnauNeural (мужской)
es-ES-DarioNeural (мужской)
es-ES-EliasNeural (мужской)
es-ES-EstrellaNeural (женщина)
es-ES-IreneNeural (женщина)
es-ES-LaiaNeural (женщина)
es-ES-LiaNeural (женщина)
es-ES-NilNeural (мужской)
es-ES-SaulNeural (мужской)
es-ES-TeoNeural (мужской)
es-ES-TrianaNeural (женщина)
es-ES-VeraNeural (женщина) |
es-MX |
Испанский (Мексика) |
es-MX-JorgeNeural (мужской) |
fr-FR |
Французский (Франция) |
fr-FR-HenriNeural (мужской) |
it-IT |
Итальянский (Италия) |
it-IT-IsabellaNeural (женщина) |
ja-JP |
Японский (Япония) |
ja-JP-AoiNeural (женщина)
ja-JP-DaichiNeural (мужской)
ja-JP-MayuNeural (женщина)
ja-JP-NaokiNeural (мужской)
ja-JP-ShioriNeural (женщина) |
Добавлена поддержка cheerful стиля с голосом de-DE-ConradNeural .
Выпуск за февраль 2023 г.
Стандартные голоса
Теперь доступны следующие голоса. Дополнительные сведения см. в полном списке языков и голосовой связи .
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
zh-CN |
Китайский (Мандарин, упрощенное письмо) |
zh-CN-XiaomengNeural (женщина)
zh-CN-XiaoyiNeural (женщина)
zh-CN-XiaozhenNeural (женщина)
zh-CN-YunfengNeural (мужской)
zh-CN-YunhaoNeural (мужской)
zh-CN-YunjianNeural (мужской)
zh-CN-YunxiaNeural (мужской)
zh-CN-YunzeNeural (мужской) |
zh-CN-henan |
Китайский (Zhongyuan Mandarin Henan, упрощено) |
zh-CN-henan-YundengNeural (мужской) |
Выпуск за декабрь 2022 г.
REST API пакетного синтеза (предварительная версия)
API синтеза пакетной службы в настоящее время находится в общедоступной предварительной версии. После общедоступной доступности API Long Audio не рекомендуется. Дополнительные сведения см. в разделе "Миграция в API пакетного синтеза".
Выпуск за ноябрь 2022 г.
Стандартные голоса (GA)
Теперь доступны следующие голоса. Дополнительные сведения см. в полном списке языков и голосовой связи .
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
es-MX |
Испанский (Мексика) |
es-MX-BeatrizNeural (женщина)
es-MX-CandelaNeural (женщина)
es-MX-CarlotaNeural (женщина)
es-MX-CecilioNeural (мужской)
es-MX-GerardoNeural (мужской)
es-MX-LarissaNeural (женщина)
es-MX-LibertoNeural (мужской)
es-MX-LucianoNeural (мужской)
es-MX-MarinaNeural (женщина)
es-MX-NuriaNeural (женщина)
es-MX-PelayoNeural (мужской)
es-MX-RenataNeural (женщина)
es-MX-YagoNeural (мужской) |
it-IT |
Итальянский (Италия) |
it-IT-BenignoNeural (мужской)
it-IT-CalimeroNeural (мужской)
it-IT-CataldoNeural (мужской)
it-IT-FabiolaNeural (женщина)
it-IT-FiammaNeural (женщина)
it-IT-GianniNeural (мужской)
it-IT-ImeldaNeural (женщина)
it-IT-IrmaNeural (женщина)
it-IT-LisandroNeural (мужской)
it-IT-PalmiraNeural (женщина)
it-IT-PierinaNeural (женщина)
it-IT-RinaldoNeural (мужской) |
pt-BR |
Португальский (Бразилия) |
pt-BR-BrendaNeural (женщина)
pt-BR-DonatoNeural (мужской)
pt-BR-ElzaNeural (женщина)
pt-BR-FabioNeural (мужской)
pt-BR-GiovannaNeural (женщина)
pt-BR-HumbertoNeural (мужской)
pt-BR-JulioNeural (мужской)
pt-BR-LeilaNeural (женщина)
pt-BR-LeticiaNeural (женщина)
pt-BR-ManuelaNeural (женщина)
pt-BR-NicolauNeural (мужской)
pt-BR-ValerioNeural (мужской)
pt-BR-YaraNeural (женщина) |
Пользовательский нейронный голос
Добавлена следующая поддержка языкового стандарта для пользовательского нейронного голоса. Дополнительные сведения см. в полном списке языков и голосовой связи .
- Добавлена поддержка языкового
fr-BE стандарта с пользовательским нейронным голосом Pro.
- Добавлена поддержка языкового
es-ES стандарта с пользовательским нейронным голосом.
Выпуск за октябрь 2022 г.
Стандартные голоса (GA)
Теперь доступны следующие голоса. Дополнительные сведения см. в полном списке языков и голосовой связи .
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
eu-ES |
Баскский |
eu-ES-AinhoaNeural (женщина)
eu-ES-AnderNeural (мужской) |
hy-AM |
Армянский (Армения) |
hy-AM-AnahitNeural (женщина)
hy-AM-HaykNeural (мужской) |
Стандартные голоса (предварительная версия)
Следующие голоса теперь доступны в общедоступной предварительной версии. Дополнительные сведения см. в полном списке языков и голосовой связи .
| Языковой стандарт (BCP-47) |
Язык |
Голос речи в текст |
en-AU |
Английский (Австралия) |
en-AU-AnnetteNeural(женщина)
en-AU-CarlyNeural(женщина)
en-AU-DarrenNeural(мужской)
en-AU-DuncanNeural(мужской)
en-AU-ElsieNeural(женщина)
en-AU-FreyaNeural(женщина)
en-AU-JoanneNeural(женщина)
en-AU-KenNeural(мужской)
en-AU-KimNeural(женщина)
en-AU-NeilNeural(мужской)
en-AU-TimNeural(мужской)
en-AU-TinaNeural(женщина) |
es-ES |
Испанский (Испания) |
es-ES-AbrilNeural(женщина)
es-ES-AlvaroNeural(мужской)
es-ES-ArnauNeural(мужской)
es-ES-DarioNeural(мужской)
es-ES-EliasNeural(мужской)
es-ES-EstrellaNeural(женщина)
es-ES-IreneNeural(женщина)
es-ES-LaiaNeural(женщина)
es-ES-LiaNeural(женщина)
es-ES-NilNeural(мужской)
es-ES-SaulNeural(мужской)
es-ES-TeoNeural(мужской)
es-ES-TrianaNeural(женщина)
es-ES-VeraNeural(женщина) |
ja-JP |
Японский (Япония) |
ja-JP-AoiNeural(женщина)
ja-JP-DaichiNeural(мужской)
ja-JP-MayuNeural(женщина)
ja-JP-NaokiNeural(мужской)
ja-JP-ShioriNeural(женщина) |
ko-KR |
Корейский (Корея) |
ko-KR-BongJinNeural(мужской)
ko-KR-GookMinNeural(мужской)
ko-KR-JiMinNeural(женщина)
ko-KR-SeoHyeonNeural(женщина)
ko-KR-SoonBokNeural(женщина)
ko-KR-YuJinNeural(женщина) |
wuu-CN |
Китайский (Ву, упрощенное письмо) |
wuu-CN-XiaotongNeural (женщина)
wuu-CN-YunzheNeural (мужской) |
yue-CN |
Китайский (кантонский, упрощенный) |
yue-CN-XiaoMinNeural (женщина)
yue-CN-YunSongNeural (мужской) |
Общие обновления голосовой связи TTS
- Улучшено качество голосов
fil-PH-AngeloNeural и fil-PH-BlessicaNeural голосов.
- Правила нормализации текста обновляются для голосов с языковыми стандартами испанского
es-CL языка (Чили) и uz-UZ узбекистанского (Узбекистана).
- Добавлены английские буквы для голоса с
sq-AL албанскими (Албания) и az-AZ азербайджанцами (Азербайджаном).
- Улучшено произношение английского языка для
zh-HK-WanLungNeural голоса.
- Улучшен тон вопроса для
nl-NL-MaartenNeural голоса и pt-BR-AntonioNeural голоса.
- Добавлена поддержка тега для
<lang ="en-US"> лучшего произношения на английском языке со следующими голосами: de-DE-ConradNeural, es-MX-JorgeNeuralfr-CA-SylvieNeuralfr-FR-DeniseNeuralfr-FR-HenriNeurales-ES-AlvaroNeurales-MX-DaliaNeuralde-DE-KatjaNeuralи . it-IT-DiegoNeuralit-IT-IsabellaNeural
- Добавлена поддержка
style="chat" тега со следующими голосами: en-GB-RyanNeural, es-MX-JorgeNeuralи it-IT-IsabellaNeural.
- Добавлена поддержка тега
style="cheerful" со следующими голосами: en-GB-RyanNeural, en-GB-SoniaNeural, , es-MX-JorgeNeural, fr-FR-DeniseNeuralfr-FR-HenriNeuralи it-IT-IsabellaNeural.
- Добавлена поддержка тега
style="sad" со следующими голосами: en-GB-SoniaNeuralfr-FR-DeniseNeural и fr-FR-HenriNeural.
Выпуск за сентябрь 2022 г.
Стандартный голос
- Все стандартные голоса были обновлены до высокоточных голосов с частотой выборки 48 кбГц.
Выпуск за август 2022 г.
Стандартный голос
Выпущены новые голоса в общедоступной предварительной версии:
- Голоса для английского языка (США):
en-US-AIGenerate1Neural и en-US-AIGenerate2Neural.
- Голоса для китайских региональных языков:
zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeuralи zh-CN-shandong-YunxiangNeural.
Дополнительные сведения см. в списке языков и голосовых данных.
Выпуск за июль 2022 г.
Стандартный голос
- Добавлены 5 новых голосов
zh-CN китайский (Мандарин, упрощенное письмо) и 1 новый голос en-US английский (США) в общедоступной предварительной версии. См. полный список языков и голосовой связи.
| Язык |
Языкового стандарта |
Гендерного |
Имя голоса |
Поддержка стиля |
| Китайский (Мандарин, упрощенное письмо) |
zh-CN |
Женский |
zh-CN-XiaomengNeural
Новые функции |
Общие, несколько стилей, доступных с помощью SSML |
| Китайский (Мандарин, упрощенное письмо) |
zh-CN |
Женский |
zh-CN-XiaoyiNeural
Новые функции |
Общие, несколько стилей, доступных с помощью SSML |
| Китайский (Мандарин, упрощенное письмо) |
zh-CN |
Женский |
zh-CN-XiaozhenNeural
Новые функции |
Общие, несколько стилей, доступных с помощью SSML |
| Китайский (Мандарин, упрощенное письмо) |
zh-CN |
Мужской |
zh-CN-YunxiaNeural
Новые функции |
Общие, несколько стилей, доступных с помощью SSML |
| Китайский (Мандарин, упрощенное письмо) |
zh-CN |
Мужской |
zh-CN-YunzeNeural
Новые функции |
Общие, несколько стилей, доступных с помощью SSML |
| Английский (США) |
en-US |
Мужской |
en-US-RogerNeural
Новые функции |
Общие |
- Поддерживаемые стили и роли для добавленных нейронных голосов.
| Голос |
Стили |
Степень стиля |
Роли |
| zh-CN-XiaomengNeural public preview |
chat |
Поддерживается |
|
| zh-CN-XiaoyiNeural public preview |
affectionate, angrycheerfuldisgruntledembarrassedfearfulgentlesadserious |
Поддерживается |
|
| zh-CN-XiaozhenNeural public preview |
angry, , cheerfulfearfuldisgruntledsad,serious |
Поддерживается |
|
| zh-CN-YunxiaNeural public preview |
angry, , calmcheerful, fearfulsad |
Поддерживается |
|
| zh-CN-YunzeNeural public preview |
angry, calmcheerfuldepresseddisgruntleddocumentary-narrationfearfulsadserious |
Поддерживается |
Поддерживается |
Получение положения лица с помощью viseme
Выпуск за июнь 2022 г.
Стандартный голос
- Добавлено 9 новых языков и вариантов нейронного текста для речи:
| Язык |
Языкового стандарта |
Гендерного |
Имя голоса |
Поддержка стиля |
| Арабский (Ливан) |
ar-LB |
Женский |
ar-LB-LaylaNeural
Новые функции |
Общие |
| Арабский (Ливан) |
ar-LB |
Мужской |
ar-LB-RamiNeural
Новые функции |
Общие |
| Арабский (Оман) |
ar-OM |
Женский |
ar-OM-AyshaNeural
Новые функции |
Общие |
| Арабский (Оман) |
ar-OM |
Мужской |
ar-OM-AbdullahNeural
Новые функции |
Общие |
| Азербайджан (Азербайджан) |
az-AZ |
Женский |
az-AZ-BabekNeural
Новые функции |
Общие |
| Азербайджан (Азербайджан) |
az-AZ |
Мужской |
az-AZ-BanuNeural
Новые функции |
Общие |
| Босния (Босния и Герцеговина) |
bs-BA |
Женский |
bs-BA-VesnaNeural
Новые функции |
Общие |
| Босния (Босния и Герцеговина) |
bs-BA |
Мужской |
bs-BA-GoranNeural
Новые функции |
Общие |
| Грузин (Грузия) |
ka-GE |
Женский |
ka-GE-EkaNeural
Новые функции |
Общие |
| Грузин (Грузия) |
ka-GE |
Мужской |
ka-GE-GiorgiNeural
Новые функции |
Общие |
| Монголия (Монголия) |
mn-MN |
Женский |
mn-MN-YesuiNeural
Новые функции |
Общие |
| Монголия (Монголия) |
mn-MN |
Мужской |
mn-MN-BataaNeural
Новые функции |
Общие |
| Непали (Непал) |
ne-NP |
Женский |
ne-NP-HemkalaNeural
Новые функции |
Общие |
| Непали (Непал) |
ne-NP |
Мужской |
ne-NP-SagarNeural
Новые функции |
Общие |
| Албанский (Албания) |
sq-AL |
Женский |
sq-AL-AnilaNeural
Новые функции |
Общие |
| Албанский (Албания) |
sq-AL |
Мужской |
sq-AL-IlirNeural
Новые функции |
Общие |
| Тамиль (Малайзия) |
ta-MY |
Женский |
ta-MY-KaniNeural
Новые функции |
Общие |
| Тамиль (Малайзия) |
ta-MY |
Мужской |
ta-MY-SuryaNeural
Новые функции |
Общие |
- Ga 36 голосов из общедоступной предварительной версии для
en-GB английского (Соединенное Королевство), fr-FR французский (Франция) и de-DE немецкий (Германия):
| Язык |
Языкового стандарта |
Гендерного |
Имя голоса |
Поддержка стиля |
| Английский (Соединенное Королевство) |
en-GB |
Женский |
en-GB-AbbiNeural |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Женский |
en-GB-BellaNeural |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Женский |
en-GB-HollieNeural |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Женский |
en-GB-MaisieNeural |
Общий, дочерний голос |
| Английский (Соединенное Королевство) |
en-GB |
Женский |
en-GB-OliviaNeural |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Женский |
en-GB-SoniaNeural |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Мужской |
en-GB-AlfieNeural |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Мужской |
en-GB-ElliotNeural |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Мужской |
en-GB-EthanNeural |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Мужской |
en-GB-NoahNeural |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Мужской |
en-GB-OliverNeural |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Мужской |
en-GB-ThomasNeural |
Общие |
| Французский (Франция) |
fr-FR |
Женский |
fr-FR-BrigitteNeural |
Общие |
| Французский (Франция) |
fr-FR |
Женский |
fr-FR-CelesteNeural |
Общие |
| Французский (Франция) |
fr-FR |
Женский |
fr-FR-CoralieNeural |
Общие |
| Французский (Франция) |
fr-FR |
Женский |
fr-FR-EloiseNeural |
Общий, дочерний голос |
| Французский (Франция) |
fr-FR |
Женский |
fr-FR-JacquelineNeural |
Общие |
| Французский (Франция) |
fr-FR |
Женский |
fr-FR-JosephineNeural |
Общие |
| Французский (Франция) |
fr-FR |
Женский |
fr-FR-YvetteNeural |
Общие |
| Французский (Франция) |
fr-FR |
Мужской |
fr-FR-AlainNeural |
Общие |
| Французский (Франция) |
fr-FR |
Мужской |
fr-FR-ClaudeNeural |
Общие |
| Французский (Франция) |
fr-FR |
Мужской |
fr-FR-JeromeNeural |
Общие |
| Французский (Франция) |
fr-FR |
Мужской |
fr-FR-MauriceNeural |
Общие |
| Французский (Франция) |
fr-FR |
Мужской |
fr-FR-YvesNeural |
Общие |
| Немецкий (Германия) |
de-DE |
Женский |
de-DE-AmalaNeural |
Общие |
| Немецкий (Германия) |
de-DE |
Женский |
de-DE-ElkeNeural |
Общие |
| Немецкий (Германия) |
de-DE |
Женский |
de-DE-GiselaNeural |
Общий, дочерний голос |
| Немецкий (Германия) |
de-DE |
Женский |
de-DE-KlarissaNeural |
Общие |
| Немецкий (Германия) |
de-DE |
Женский |
de-DE-LouisaNeural |
Общие |
| Немецкий (Германия) |
de-DE |
Женский |
de-DE-MajaNeural |
Общие |
| Немецкий (Германия) |
de-DE |
Женский |
de-DE-TanjaNeural |
Общие |
| Немецкий (Германия) |
de-DE |
Мужской |
de-DE-BerndNeural |
Общие |
| Немецкий (Германия) |
de-DE |
Мужской |
de-DE-ChristophNeural |
Общие |
| Немецкий (Германия) |
de-DE |
Мужской |
de-DE-KasperNeural |
Общие |
| Немецкий (Германия) |
de-DE |
Мужской |
de-DE-KillianNeural |
Общие |
| Немецкий (Германия) |
de-DE |
Мужской |
de-DE-KlausNeural |
Общие |
| Немецкий (Германия) |
de-DE |
Мужской |
de-DE-RalfNeural |
Общие |
- Добавлены 40 новых голосов испанского (Мексика), итальянского (Италия),
it-ITpt-BR португальского (Бразилия) и 2 акцентов es-MX для zh-CN китайского (Мандарина, упрощенного) в общедоступной предварительной версии:
| Язык |
Языкового стандарта |
Гендерного |
Имя голоса |
Поддержка стиля |
| Испанский (Мексика) |
es-MX |
Женский |
es-MX-BeatrizNeural
Новые функции |
Общие |
| Испанский (Мексика) |
es-MX |
Женский |
es-MX-CarlotaNeural
Новые функции |
Общие |
| Испанский (Мексика) |
es-MX |
Женский |
es-MX-NuriaNeural
Новые функции |
Общие |
| Испанский (Мексика) |
es-MX |
Женский |
es-MX-RenataNeural
Новые функции |
Общие |
| Испанский (Мексика) |
es-MX |
Женский |
es-MX-LarissaNeural
Новые функции |
Общие |
| Испанский (Мексика) |
es-MX |
Женский |
es-MX-CandelaNeural
Новые функции |
Общие |
| Испанский (Мексика) |
es-MX |
Женский |
es-MX-MarinaNeural
Новые функции |
Общие |
| Итальянский (Италия) |
it-IT |
Женский |
it-IT-FiammaNeural
Новые функции |
Общие |
| Итальянский (Италия) |
it-IT |
Женский |
it-IT-IrmaNeural
Новые функции |
Общие |
| Итальянский (Италия) |
it-IT |
Женский |
it-IT-FabiolaNeural
Новые функции |
Общие |
| Итальянский (Италия) |
it-IT |
Женский |
it-IT-PalmiraNeural
Новые функции |
Общие |
| Итальянский (Италия) |
it-IT |
Женский |
it-IT-ImeldaNeural
Новые функции |
Общие |
| Итальянский (Италия) |
it-IT |
Женский |
it-IT-PierinaNeural
Новые функции |
Общие |
| Португальский (Бразилия) |
pt-BR |
Женский |
pt-BR-ElzaNeural
Новые функции |
Общие |
| Португальский (Бразилия) |
pt-BR |
Женский |
pt-BR-ManuelaNeural
Новые функции |
Общие |
| Португальский (Бразилия) |
pt-BR |
Женский |
pt-BR-BrendaNeural
Новые функции |
Общие |
| Португальский (Бразилия) |
pt-BR |
Женский |
pt-BR-LeilaNeural
Новые функции |
Общие |
| Португальский (Бразилия) |
pt-BR |
Женский |
pt-BR-YaraNeural
Новые функции |
Общие |
| Португальский (Бразилия) |
pt-BR |
Женский |
pt-BR-GiovannaNeural
Новые функции |
Общие |
| Португальский (Бразилия) |
pt-BR |
Женский |
pt-BR-LeticiaNeural
Новые функции |
Общие |
| Испанский (Мексика) |
es-MX |
Мужской |
es-MX-CecilioNeural
Новые функции |
Общие |
| Испанский (Мексика) |
es-MX |
Мужской |
es-MX-LibertoNeural
Новые функции |
Общие |
| Испанский (Мексика) |
es-MX |
Мужской |
es-MX-LucianoNeural
Новые функции |
Общие |
| Испанский (Мексика) |
es-MX |
Мужской |
es-MX-PelayoNeural
Новые функции |
Общие |
| Испанский (Мексика) |
es-MX |
Мужской |
es-MX-YagoNeural
Новые функции |
Общие |
| Испанский (Мексика) |
es-MX |
Мужской |
es-MX-GerardoNeural
Новые функции |
Общие |
| Итальянский (Италия) |
it-IT |
Мужской |
it-IT-BenignoNeural
Новые функции |
Общие |
| Итальянский (Италия) |
it-IT |
Мужской |
it-IT-CataldoNeural
Новые функции |
Общие |
| Итальянский (Италия) |
it-IT |
Мужской |
it-IT-LisandroNeural
Новые функции |
Общие |
| Итальянский (Италия) |
it-IT |
Мужской |
it-IT-CalimeroNeural
Новые функции |
Общие |
| Итальянский (Италия) |
it-IT |
Мужской |
it-IT-RinaldoNeural
Новые функции |
Общие |
| Итальянский (Италия) |
it-IT |
Мужской |
it-IT-GianniNeural
Новые функции |
Общие |
| Португальский (Бразилия) |
pt-BR |
Мужской |
pt-BR-DonatoNeural
Новые функции |
Общие |
| Португальский (Бразилия) |
pt-BR |
Мужской |
pt-BR-HumbertoNeural
Новые функции |
Общие |
| Португальский (Бразилия) |
pt-BR |
Мужской |
pt-BR-FabioNeural
Новые функции |
Общие |
| Португальский (Бразилия) |
pt-BR |
Мужской |
pt-BR-JulioNeural
Новые функции |
Общие |
| Португальский (Бразилия) |
pt-BR |
Мужской |
pt-BR-ValerioNeural
Новые функции |
Общие |
| Португальский (Бразилия) |
pt-BR |
Мужской |
pt-BR-NicolauNeural
Новые функции |
Общие |
| Китайский (Мандарин, упрощенное письмо) |
zh-CN-sichuan |
Мужской |
zh-CN-sichuan-YunxiSichuanNeural
Новые функции |
Генерал, Сычуан акцент |
| Китайский (Мандарин, упрощенное письмо) |
zh-CN-liaoning |
Женский |
zh-CN-liaoning-XiaobeiNeural
Новые функции |
Общие, акцент Liaoning |
- Улучшено качество для
en-SG-LunaNeural и en-SG-WayneNeural
- Поддержка выходных данных 48kHz для общедоступной предварительной версии с en-US-JennyNeural, en-US-AriaNeural и zh-CN-XiaoxiaoNeural
Пользовательский нейронный голос
Средство создания аудиоконтентов
- Поддерживаемая разбивка на страницы.
- Включена сортировка по имени, типу файла и времени обновления на странице рабочего файла.
Выпуск за май 2022 г.
Стандартный голос
- Выпущено 5 новых голосов в общедоступной предварительной версии с несколькими стилями, чтобы обогатить разнообразие на американском английском языке. См. полный список языков и голосовой связи.
- Поддерживают эти новые стили
Angry, , HopefulShoutingFriendlyExcitedUnfriendlyTerrifiedSadи Whispering в общедоступной предварительной версии.en-US-AriaNeural
- Поддерживают эти новые стили , , ,
HopefulShoutingFriendlyTerrifiedExcitedSadUnfriendlyи Whispering в общедоступной предварительной версии для en-US-GuyNeural, . en-US-JennyNeuralCheerfulAngry
- Поддержка этих новых стилей
Excited, , Friendly, HopefulShouting, TerrifiedUnfriendlyи Whispering в общедоступной предварительной версии для en-US-SaraNeural. См. стили и роли голоса.
- Выпущены новые голоса
zh-CN-YunjianNeuralи zh-CN-YunhaoNeuralzh-CN-YunfengNeural в общедоступной предварительной версии. См. полный список языков и голосовой связи.
- Поддержка 2 новых стилей
sports-commentaryв sports-commentary-excited общедоступной предварительной версии для zh-CN-YunjianNeural. См. стили и роли голоса.
- Поддержка 1 нового стиля
advertisement-upbeat в общедоступной предварительной версии для zh-CN-YunhaoNeural. См. стили и роли голоса.
- Стили
cheerful и sad стили fr-FR-DeniseNeural доступны во всех регионах.
- SSML обновлен для поддержки элементов MathML для en-US и en-AU голосов. Дополнительные сведения см. в разметке синтеза речи.
Пользовательский нейронный голос
Средство создания аудиоконтентов
- Включена проверка средства создания аудиоконтентов без входа.
- Улучшенный макет для настройки фонем.
- Улучшенная производительность: задается максимальное число (200) файлов, которые нужно отправить одновременно.
- Улучшенная производительность: указан максимальный уровень глубины каталога (5 уровней).
Выпуск за март 2022 г.
Стандартный голос
Пользовательский нейронный голос
Средство создания аудиоконтентов
Выпуск за февраль 2022 г.
Пользовательский нейронный голос
Средство создания аудиоконтентов
- Удалено ограничение длины выходных данных для скачивания звуковых файлов.
Выпуск за январь 2022 г.
Новые языки и голоса
Добавлены 10 новых языков и вариантов для нейронного текста в речь:
| Язык |
Языкового стандарта |
Гендерного |
Имя голоса |
Поддержка стиля |
| Бенгали (Индия) |
bn-IN |
Женский |
bn-IN-TanishaaNeural
Новые функции |
Общие |
| Бенгали (Индия) |
bn-IN |
Мужской |
bn-IN-BashkarNeural
Новые функции |
Общие |
| Исландия (Исландия) |
is-IS |
Женский |
is-IS-GudrunNeural
Новые функции |
Общие |
| Исландия (Исландия) |
is-IS |
Мужской |
is-IS-GunnarNeural
Новые функции |
Общие |
| Каннада (Индия) |
kn-IN |
Женский |
kn-IN-SapnaNeural
Новые функции |
Общие |
| Каннада (Индия) |
kn-IN |
Мужской |
kn-IN-GaganNeural
Новые функции |
Общие |
| Казах (Казахстан) |
kk-KZ |
Женский |
kk-KZ-AigulNeural
Новые функции |
Общие |
| Казах (Казахстан) |
kk-KZ |
Мужской |
kk-KZ-DauletNeural
Новые функции |
Общие |
| Лаос (Лаос) |
lo-LA |
Женский |
lo-LA-KeomanyNeural
Новые функции |
Общие |
| Лаос (Лаос) |
lo-LA |
Мужской |
lo-LA-ChanthavongNeural
Новые функции |
Общие |
| Македонский (Республика Северная Македония) |
mk-MK |
Женский |
mk-MK-MarijaNeural
Новые функции |
Общие |
| Македонский (Республика Северная Македония) |
mk-MK |
Мужской |
mk-MK-AleksandarNeural
Новые функции |
Общие |
| Малаялам (Индия) |
ml-IN |
Женский |
ml-IN-SobhanaNeural
Новые функции |
Общие |
| Малаялам (Индия) |
ml-IN |
Мужской |
ml-IN-MidhunNeural
Новые функции |
Общие |
| Пашто (Афганистан) |
ps-AF |
Женский |
ps-AF-LatifaNeural
Новые функции |
Общие |
| Пашто (Афганистан) |
ps-AF |
Мужской |
ps-AF-GulNawazNeural
Новые функции |
Общие |
| Сербский (Сербия, кириллица) |
sr-RS |
Женский |
sr-RS-SophieNeural
Новые функции |
Общие |
| Сербский (Сербия, кириллица) |
sr-RS |
Мужской |
sr-RS-NicholasNeural
Новые функции |
Общие |
| Синхала (Шри-Ланка) |
si-LK |
Женский |
si-LK-ThiliniNeural
Новые функции |
Общие |
| Синхала (Шри-Ланка) |
si-LK |
Мужской |
si-LK-SameeraNeural
Новые функции |
Общие |
Полный список доступных голосов см. в разделе "Поддержка языка".
Новые голоса в предварительной версии
Добавлены новые голоса для en-GB, fr-FR и de-DE в предварительной версии:
| Язык |
Языкового стандарта |
Гендерного |
Имя голоса |
Поддержка стиля |
| Английский (Соединенное Королевство) |
en-GB |
Женский |
en-GB-AbbiNeural
Новые функции |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Женский |
en-GB-BellaNeural
Новые функции |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Женский |
en-GB-HollieNeural
Новые функции |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Женский |
en-GB-OliviaNeural
Новые функции |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Девушка |
en-GB-MaisieNeural
Новые функции |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Мужской |
en-GB-AlfieNeural
Новые функции |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Мужской |
en-GB-ElliotNeural
Новые функции |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Мужской |
en-GB-EthanNeural
Новые функции |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Мужской |
en-GB-NoahNeural
Новые функции |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Мужской |
en-GB-OliverNeural
Новые функции |
Общие |
| Английский (Соединенное Королевство) |
en-GB |
Мужской |
en-GB-ThomasNeural
Новые функции |
Общие |
| Французский (Франция) |
fr-FR |
Женский |
fr-FR-BrigitteNeural
Новые функции |
Общие |
| Французский (Франция) |
fr-FR |
Женский |
fr-FR-CelesteNeural
Новые функции |
Общие |
| Французский (Франция) |
fr-FR |
Женский |
fr-FR-CoralieNeural
Новые функции |
Общие |
| Французский (Франция) |
fr-FR |
Женский |
fr-FR-JacquelineNeural
Новые функции |
Общие |
| Французский (Франция) |
fr-FR |
Женский |
fr-FR-JosephineNeural
Новые функции |
Общие |
| Французский (Франция) |
fr-FR |
Женский |
fr-FR-YvetteNeural
Новые функции |
Общие |
| Французский (Франция) |
fr-FR |
Девушка |
fr-FR-EloiseNeural
Новые функции |
Общие |
| Французский (Франция) |
fr-FR |
Мужской |
fr-FR-AlainNeural
Новые функции |
Общие |
| Французский (Франция) |
fr-FR |
Мужской |
fr-FR-ClaudeNeural
Новые функции |
Общие |
| Французский (Франция) |
fr-FR |
Мужской |
fr-FR-JeromeNeural
Новые функции |
Общие |
| Французский (Франция) |
fr-FR |
Мужской |
fr-FR-MauriceNeural
Новые функции |
Общие |
| Французский (Франция) |
fr-FR |
Мужской |
fr-FR-YvesNeural
Новые функции |
Общие |
| Немецкий (Германия) |
de-DE |
Женский |
de-DE-AmalaNeural
Новые функции |
Общие |
| Немецкий (Германия) |
de-DE |
Женский |
de-DE-ElkeNeural
Новые функции |
Общие |
| Немецкий (Германия) |
de-DE |
Женский |
de-DE-KlarissaNeural
Новые функции |
Общие |
| Немецкий (Германия) |
de-DE |
Женский |
de-DE-LouisaNeural
Новые функции |
Общие |
| Немецкий (Германия) |
de-DE |
Женский |
de-DE-MajaNeural
Новые функции |
Общие |
| Немецкий (Германия) |
de-DE |
Женский |
de-DE-TanjaNeural
Новые функции |
Общие |
| Немецкий (Германия) |
de-DE |
Девушка |
de-DE-GiselaNeural
Новые функции |
Общие |
| Немецкий (Германия) |
de-DE |
Мужской |
de-DE-BerndNeural
Новые функции |
Общие |
| Немецкий (Германия) |
de-DE |
Мужской |
de-DE-ChristophNeural
Новые функции |
Общие |
| Немецкий (Германия) |
de-DE |
Мужской |
de-DE-KasperNeural
Новые функции |
Общие |
| Немецкий (Германия) |
de-DE |
Мужской |
de-DE-KillianNeural
Новые функции |
Общие |
| Немецкий (Германия) |
de-DE |
Мужской |
de-DE-KlausNeural
Новые функции |
Общие |
| Немецкий (Германия) |
de-DE |
Мужской |
de-DE-RalfNeural
Новые функции |
Общие |
Полный список доступных голосов см. в разделе "Поддержка языка".
Точность произношения
- Улучшено произношение английского слова для всех
he-IL голосов.
- Улучшена точность произношения на уровне слов и
cs-CZda-DK.
- Улучшена обработка арабских диакритических и иврита Никуд.
- Улучшенное чтение сущностей для
ja-JP
Speech Studio
- Пользовательский нейронный голос: включено дополнительное тестирование модели с помощью пакетного API (длинный АУДИО API)
- Создание звукового содержимого: включено больше форматов выходных данных
Выпуск за октябрь 2021 г.
Новые языки и голоса
Добавлены 49 новых языков и 98 голосов для нейронного текста для речи:
Адри в af-ZA Afrikaans (Южная Африка), Виллем в af-ZA Afrikaans (Южная Африка), Мекдес в Амхарике (Эфиопия), Амеха в am-ETam-ET Амхарике (Эфиопия), Фатима на ar-AE арабском языке (Объединенные Арабские Эмираты), Хамдан в ar-AE Арабский (Объединенные Арабские Эмираты), Лайла на ar-BH арабском (Бахрейне), Али на арабском (Бахрейне), Мина на ar-BH арабском (Алжире), Ismael на ar-DZar-DZ арабском (Алжире), Рана ar-IQ на арабском (Ираке), Бассель ar-IQ на арабском (Ираке), Сана на ar-JO арабском языке (Иордания) Taim на ar-JO арабском (Иордании), Нура на ar-KW арабском (Кувейте), Фахед на ar-KW арабском (Кувейте), Иман на ar-LY арабском (Ливия), Омар ar-LY на арабском (Ливия), Муна ar-MA на арабском (Марокко), Джамал ar-MA на арабском (Марокко), Амаль ar-QA на арабском (Катаре), Моаз ar-QA на арабском (Катаре), Амани на арабском (Сирия), Лайт на арабском (Сирия ar-SYar-SY), Рем ar-TN на арабском (Тунисе), Хейди на арабском (Тунисеar-TN), Мэриам ar-YE на арабском (Йемене) Салех на ar-YE арабском (йеменском), Набанита в Бангла (Бангладеш), Прадеп в bn-BDbn-BD Бангла (Бангладеш), Асилия на en-KE английском (Кении), Чилимба en-KE на английском (Кении), Эзинне en-NG на английском (Нигерия), Абео en-NG на английском (Нигерия), Имани en-TZ на английском (Танзания), Элиму на английском (Танзания), София es-BO на испанском (Боливии), Марсело es-BO на испанском (Боливии), Каталина es-CL на испанском (Чили), Лоренцо на en-TZ испанском (Чили), Лоренцо es-CL на испанском (Чили), Марии в es-CR Испанский (Коста-Рика), Хуан на es-CR испанском (Коста-Рике), Белкис на es-CU испанском (Кубе), Мануэль на испанском (Кубе), Рамона на es-DOes-CU испанском (Доминиканской Республике), Эмилио es-DO в испанском (Доминиканская Республика), Андреа es-EC в испанском (Эквадоре), Луисе es-EC в испанском (Эквадоре), Тереза в es-GQ испанском (Экваториальная Гвинея), Хавьере на es-GQ испанском (Гвинее), es-GT Марта в испанском (Гватемале), Андреа es-GT в испанском (Гватемале), Карла в es-HN Испанский (Гондурас), Карлос на es-HN испанском (Гондурасе), Yolanda на es-NI испанском (Никарагуа), Федерико на испанском (Никарагуа), Маргарита es-PA на es-NI испанском (Панаме), Роберто es-PA в испанском (Панаме), Камила es-PE на испанском (Перу), Алекс в испанском (Перу), Карина es-PR на испанском (Пуэрто-Рико), Виктор es-PE в es-PR испанском (Пуэрто-Рико), Таня es-PY на испанском (Парагвае), Марио es-PY на испанском (Парагвае), Лорена es-SV на испанском (Сальвадоре), Родриго в es-SV Испанский (Сальвадор), Валентина на испанском (Уругвае), Матео на es-UY испанском (Уругвае), Паола на es-VE испанском (Венесуэле), Себастиан на es-VE испанском (Венесуэле), Диларе fa-IR в es-UY Персидском (Иране), Фарид в fa-IR Персидском (Иране), Блесика fil-PH в Филиппинах (Филиппины), Анджело (fil-PHФилиппины), Сабела в gl-ES Галициане, Рой в gl-ES Галисиане, Сити в jv-ID Javanese (Индонезия), Димас в Javanese (Индонезия), Sreymom в jv-ID Кхмере (Камбоджа), Писет в km-KHkm-KH Кхмер (Камбоджа), Нилар в my-MM Бирмес (Мьянма), Тира в Бирмазе (Мьянма), Убакс в my-MM Сомали (Сомали), Мууз в so-SO Сомали (Сомали), Тути в so-SOsu-ID Санданезе (Индонезия), Джаджанг в su-ID Санданезе (Индонезия), Рехема в sw-TZ Сухайли (Танзания), Дауд в sw-TZ Суахили (Танзания), Сараня в ta-LK Тамиле (Шри-Ланка), Кумар в Тамиле (Шри-Ланка), Венба в ta-LK Тамиле (Сингапур), Анбу ta-SG в ta-SG Тамиле (Сингапуре), Гуль ur-IN в Урду (Индия), Салман в ur-IN Урду (Индия) Мадина в uz-UZ Узбекистане (Узбекистан), Сардор в uz-UZ Узбекистане , Тандо в zu-ZA Зулу (Южная Африка), Фемба в zu-ZA Зулу (Южная Африка).
Выпуск за сентябрь 2021 г.
-
Новый голос чат-бота в
en-US Английский (США): Сара представляет молодую женщину взрослого, которая разговаривает более случайно и подходит лучше для сценариев чат-бота.
-
Добавлены новые стили для
ja-JP Японский голос Нанами: три новых стиля теперь доступны с Нанами: чат, обслуживание клиентов и веселый.
-
Общее улучшение произношения: Ardi in
id-ID, Premwadee in th-TH, Christel in da-DK, HoaiMy и NamMinh в vi-VN.
-
Два новых голоса в
zh-CN Китайский (Mandarin, Китай) в предварительной версии: Xiaochen и Xiaoyan, оптимизированный для спонтанной речи и сценариев обслуживания клиентов.
Выпуск за июль 2021 г.
Нейронный текст для обновления речи
- Сокращение ошибок произношения на иврите к 20%.
Обновления Speech Studio
-
Настраиваемый нейронный голос: обновлен конвейер обучения до UniTTSv3, с помощью которого качество модели улучшается, а время обучения уменьшается на 50% для акустических моделей.
-
Создание звукового содержимого: исправлена проблема с производительностью "Экспорт" и ошибка при выборе пользовательского нейронного голоса.
Выпуск за июнь 2021 г.
Обновления Speech Studio
-
Пользовательский нейронный голос: настраиваемое обучение нейронных голосов, расширенное для поддержки юго-восточной Азии. Новые функции, выпущенные для поддержки проверки состояния отправки данных.
-
Создание звукового содержимого: выпущена новая функция для поддержки пользовательской лексики. С помощью этой функции пользователи могут легко создавать свои лексические файлы и определять настраиваемое произношение для вывода звука.
Выпуск за май 2021 г.
Новые языки и голоса, добавленные для нейронных TTS
Десять новых языков, появившиеся - 20 новых голосов в 10 новых языковых стандартах добавляются в список языков нейронных TTS: Yan на английском (Гонконге), Сэм на en-HKen-HK английском (Гонконге), Молли en-NZ на английском (Новая Зеландия), Митчелл en-NZ на английском (Новая Зеландия), Луна на en-SG английском (Сингапуре), Уэйн на en-SG английском (Сингапуре), Лиа en-ZA на английском языке (Южная Африка), Люк en-ZA на английском языке (Южная Африка), Dhwani в gu-IN Gujarati (Индия), Ниранджан в gu-IN Гуджарати (Индия), Аарохи в mr-IN Маратхи (Индия), Манохар в mr-IN Маратхи (Индия), Елена на es-AR испанском (Аргентине), Томас es-AR на испанском (Аргентине), Саломе es-CO на испанском (Колумбия), Гонсало es-CO в испанском (Колумбия), Палома в es-US испанском (США), Алонсо в Испанском (США), Цури в es-USsw-KE Суахили (Кения), Рафики sw-KE в Свахили (Кения).
Одиннадцать новых en-US голоса в предварительной версии - 11 новых en-US голоса в предварительной версии добавляются на американский английский, они Эшли, Эмбер, Ана, Брэндон, Кристофер, Кора, Элизабет, Эрик, Мишель, Моника, Джейкоб.
Пять zh-CN Китайский (Мандарин, упрощенное письмо) общедоступен — 5 китайских (Мандарина , упрощенного) голоса изменяются с предварительной версии на общедоступную. Они Хюньси, Сиаомо, Сяомо, Сияоман, Сияоксан, Сиаоруи. Теперь эти голоса доступны во всех регионах. Yunxi добавляется с новым стилем помощника, который подходит для чат-бота и голосового агента. Стили голоса Сиаомо уточнены, чтобы быть более естественными и признаками.
Выпуск за апрель 2021 г.
Нейронный текст для речи доступен в 21 регионах
-
Добавлено двенадцать новых регионов: нейронный текст для речи теперь доступен в этих новых 12 регионах:
Japan East, Japan West, Korea Central. West USWest US 2North Central USNorth EuropeSouth Central USSoutheast AsiaUK Southwest Central USWest Europe
См. полный список поддерживаемых регионов 21.
Выпуск за март 2021 г.
Новые языки и голоса, добавленные для нейронных TTS
Шесть новых языков появились - 12 новых голосов в 6 новых языковых стандартах добавляются в нейронный список языков TTS: Nia in Welsh (Соединенное Королевство), Алед cy-GB в cy-GB Валлии (Соединенное Королевство), Роза на английском (Филиппинах), Джеймс en-PH на en-PH английском (Филиппинах), Шарлайн во французском (Бельгия), Герард во fr-BE французском (Бельгия), Дена nl-BE в fr-BE Нидерланде (Бельгия), Арнауд nl-BE на голландском (Бельгия), Полина на uk-UA украине Ostap на украине (Украина), Узма в uk-UAur-PK Урду (Пакистан), Асад в ur-PK Урду (Пакистан).
Пять языков от предварительной версии до GA - 10 голосов в 5 языковых стандартах, представленных в ноябре, являются GA: Kert в Эстонии (Эстония), Колм ga-IE в Ирландской (Ирландия), Nils lv-LV в et-EE Латышском (Латвии), Леонас в lt-LT Литве (Литва), Джозеф в mt-MT Мальте (Мальта).
Новый мужской голос, добавленный для французского (Канада) - новый голос Антуан доступен для fr-CA французского (Канада).
Улучшение качества - снижение частоты ошибок произношения на hu-HU венгерском - 48,17%, норвежский - 52,76%, nb-NOnl-NL голландский (Нидерланды) - 22,11%.
В этом выпуске мы теперь поддерживаем в общей сложности 142 нейронных голосов на 60 языках и языковых стандартах. Кроме того, более 70 стандартных голосов доступны на 49 языках и языковых стандартах. Посетите поддержку языка для полного списка.
Получение событий поз лица для анимации символов
Нейронный текст для речи теперь включает событие viseme. События Viseme позволяют пользователям получать последовательность поз лица вместе с синтезируемой речью. Visemes можно использовать для управления движением трехмерных и трехмерных моделей аватаров, сопоставляя движения рта с синтезируемой речью. События Viseme доступны только для en-US-AriaNeural голоса в настоящее время.
Добавление элемента закладки в язык разметки синтеза речи (SSML)
Элемент закладки позволяет вставлять пользовательские маркеры в SSML, чтобы получить смещение каждого маркера в звуковом потоке. Его можно использовать для ссылки на определенное расположение в последовательности текста или тега.
Выпуск за февраль 2021 г.
Настраиваемая нейронная голосовая общедоступная версия
Пользовательский нейронный голос является GA в феврале на 13 языках: китайский (Мандарин, упрощенное письмо), английский (Австралия), английский (Индия), английский (Соединенное Королевство), английский (США), французский (Канада), французский (Канада), французский (Франция), немецкий (Германия), итальянский (Италия), японский (Япония), корейский (Корея), португальский (Бразилия), испанский (Мексика) и испанский (Испания). Узнайте больше о том, что такое пользовательский нейронный голос и как использовать его ответственно.
Для пользовательской функции нейронной голосовой связи требуется регистрация и Microsoft может ограничить доступ на основе критериев соответствия Microsoft. Дополнительные сведения об ограниченном доступе.
Выпуск за декабрь 2020 г.
Новые нейронные голоса в общедоступной версии и предварительной версии
Выпущено 51 новых голосов для общей сложности 129 нейронных голосов на 54 языках и языковых стандартах:
46 новых голосов в языковых стандартах GA: Шакир на ar-EG арабском (Египте), Хаме в ar-SA арабском (Саудовская Аравия), Борислав в bg-BG Болгарии (Болгария), Джоана в ca-ES каталонском, Антонин в cs-CZ Чехии (Чехия), Jeppe в da-DK датском (Дании), Джонас на de-AT немецком (Австрия), январь в de-CH немецком (Швейцария), Несторос el-GR в греческом (Греция), Лиам en-CA на английском (Канада), Коннор en-IE на английском (Ирландия), Махур en-IN в Хинди (Индия), Мохан в en-IN Телугу (Индия) Prabhat на en-IN английском (Индия), Valluvar в en-IN Тамиле (Индия), Энрик в Каталоне, Керт в Эстонии( Эстония), Харри fi-FI в et-EE Финляндии, Селма fi-FI в Финляндии, Fabrice fr-CH на es-ES французском (Швейцария), Колм ga-IE в ирландском (Ирландия), Avri на he-IL иврите (Израиль), Srecko hr-HR в хорватском (Хорватия), Тамас в Венгерском (Венгрия), Гадис id-ID в Индонезии (Индонезияlt-LT), Леонас hu-HU в Литве (Литва), Нилс в lv-LV Латышский (Латвия), Осман в ms-MY Малаи (Малайзия), Джозеф в mt-MT Мальте (Мальта), Финн на nb-NO норвежском языке, Bokmål (Норвегия), Перниль в nb-NO норвежском, Букмоле (Норвегия), Фенна в Нидерланде (Нидерланды), Маартен в Нидерланде (Нидерланды), Агнешка pl-PL в nl-NL Польском (Польша), Марек в pl-PL Польском (Польша), Дуарте pt-BR на nl-NL португальском (Бразилия), Ракель на португальском (Потугале), Эмиль в ro-ROpt-PT Румын (Румыния), Дмитрий ru-RU в Русском (Россия), Вялы ru-RU в Русский (Россия), Лукас в Словацком (Словакия), Рок в sk-SKsl-SI Словении (Словения), Маттиас в Шведском (Швеция), Софи sv-SE в sv-SE Шведском (Швеция), Niwat th-TH в Тайском (Таиланде), Ахмет в tr-TR турецком (Türkiye), NamMinh во vi-VN Вьетнамеese (Вьетнам), HsiaoChen в zh-TW Тайваньском Мандарине (Тайвань), YunJhe в zh-TW Тайваньском Мандарине (Тайвань), HiuMaan в zh-HK китайском кантонском (гонконгском специальном административном регионе), WanLung в zh-HK китайском кантонском (Гонконге САР).
5 новых голосов в предварительной версии языковых стандартов: Керт в et-EE Эстонии (Эстония), Колм в Ирландской (Ирландия), Нилс в ga-IE Латышском (Латвии), Леонас в lv-LVlt-LT Литве (Литва), Джозеф в mt-MT Мальте.
В этом выпуске мы теперь поддерживаем в общей сложности 129 нейронных голосов на 54 языках и языковых стандартах. Кроме того, более 70 стандартных голосов доступны на 49 языках и языковых стандартах. Посетите поддержку языка для полного списка.
Обновления для создания аудиоконтентов
- Улучшен пользовательский интерфейс выбора голоса с категориями голосов и подробными описаниями голосов.
- Включена настройка интонации для всех нейронных голосов на разных языках.
- Автоматическая локализация пользовательского интерфейса на основе языка браузера.
- Включенные
StyleDegree элементы управления для всех zh-CN нейронных голосов.
Посетите средство создания аудиоконтентов , чтобы ознакомиться с новыми функциями.
Обновления для голосов zh-CN
- Обновлены все
zh-CN нейронные голоса для поддержки английского языка.
- Включено все
zh-CN нейронные голоса для поддержки корректировки интонации. Средство создания аудиоконтентов или SSML можно использовать для настройки оптимальной интонации.
- Обновлены все
zh-CN многоуровневые нейронные голоса для поддержки StyleDegree управления. Интенсивность эмоций (мягкая или строгая) настраивается.
- Обновлено
zh-CN-YunyeNeural для поддержки нескольких стилей, которые могут выполнять различные эмоции.
Выпуск за ноябрь 2020 г.
Новые языковые параметры и голоса в предварительной версии
- В портфеле речи представлены пять новых голосов и языков. Они: Грейс в Мальте (Мальта), Она в Литве (Литве), Ану в Эстонии (Эстония), Орла в Ирландской (Ирландии) и Эверита в Латышском (Латвии).
-
Пять новых
zh-CN голосов с несколькими стилями и ролями поддержки: Сяохан, Сяомо, Сиаоруи, Сиаоксан и Юньси.
Эти голоса доступны в общедоступной предварительной версии в трех регионах Azure: EastUS, SouthEastAsia и WestEurope.
Нейронный текст для общедоступной службы "Контейнер речи"
- С помощью нейронного текста в контейнер речи разработчики могут выполнять синтез речи с самыми естественными цифровыми голосами в собственной среде для конкретных требований к безопасности и управлению данными. Проверьте , как установить контейнеры службы "Речь".
Новые возможности
-
Пользовательский голос: пользователи с поддержкой копирования голосовой модели из одного региона в другой; поддержка приостановки и возобновления конечной точки. Перейдите на портал Azure здесь.
- Поддержка тега молчания SSML.
- Общие улучшения качества голоса TTS: улучшена точность произношения на уровне слов в nb-NO. Сокращено 53% ошибки произношения.
Подробнее см. в этом техническом блоге.
Выпуск за октябрь 2020 г.
Новые возможности
Общие улучшения качества голосовой связи TTS
- Улучшена точность произношения
pl-PL на уровне слов (снижение частоты ошибок: 51%) и fi-FI (снижение частоты ошибок: 58%)
- Улучшено
ja-JP чтение одного слова для сценария словаря. Уменьшена ошибка произношения на 80%.
-
zh-CN-XiaoxiaoNeural: улучшены тональность/ CustomerService/Newscast/Веселый/Сердитый стиль качества голоса.
-
zh-CN: Улучшено произношение Эрхуа и светлый тон и изысканный космический просодий, который значительно улучшает понятность.
Выпуск за сентябрь 2020 г.
Новые возможности
Нейронный текст для речи
- Расширена поддержка 18 новых языков и языковых стандартов. Они болгарские, чешские, немецкие (Австрия), немецкий (Швейцария), греческий, английский (Ирландия), французский (Швейцария), иврит, хорватский, венгерский, индонезийский, малайский, румынский, словацкий, словенец, тамиль, телугу и вьетнамцы.
- Выпущено 14 новых голосов для обогащения разнообразия существующих языков. См. полный список языков и голосовой связи.
- Новые стили речи для
en-US и zh-CN голосов. Дженни, новый голос на английском языке (США), поддерживает чат-бот, обслуживание клиентов и стили помощника. 10 новых стилей речи доступны с нашим zh-CN голосом, ХяоСиао. Кроме того, нейронный голос XiaoXiao поддерживает StyleDegree настройку. Узнайте , как использовать стили речи в SSML.
Контейнеры: нейронный текст для преобразования речи в контейнер, выпущенный в общедоступной предварительной версии с 16 голосами, доступными на 14 языках. Дополнительные сведения о развертывании контейнеров речи для нейронного текста в речь
Ознакомьтесь с полным объявлением о обновлениях TTS для Ignite 2020
Выпуск за август 2020 г.
Новые возможности
Нейронный текст для речи: новый стиль en-US речи Ария голос. AriaNeural может звучать как новостной кастер при чтении новостей. Стиль "newscast-формальный" звучит более серьезно, в то время как "newscast-случайный" стиль более расслабленный и неофициальный. Узнайте , как использовать стили речи в SSML.
Пользовательский голос: новая функция выпускается для автоматической проверки качества обучающих данных. При отправке данных система изучит различные аспекты данных аудио и транскрибирования, а также автоматически исправляет или фильтрует проблемы, чтобы повысить качество голосовой модели. Это касается громкости звука, уровня шума, точности произношения речи, выравнивания речи с нормализованным текстом, молчанием в звуке, а также форматом звука и скрипта.
Создание аудиоконтентного контента: набор новых возможностей для повышения производительности настройки голоса и управления звуком.
Произношение: функция настройки произношения обновляется до последнего набора фонем. Вы можете выбрать нужный элемент phoneme из библиотеки и уточнить произношение выбранных слов.
Скачать: функция "Скачать"/"Экспорт" улучшена для поддержки создания звука по абзацу. Содержимое можно изменить в одном файле или SSML, создавая несколько звуковых выходов. Структура файла "Скачать" также уточнена. Теперь вы можете легко получить все звуковые файлы в одной папке.
Состояние задачи: улучшен процесс экспорта с несколькими файлами. При экспорте нескольких файлов в прошлом, если один из файлов завершился сбоем, вся задача завершится ошибкой. Но теперь все остальные файлы будут успешно экспортированы. Отчет о задаче обогащен более подробными и структурированными сведениями. Журналы можно проверить для всех неудачных файлов и предложений в отчете.
Документация по SSML: связана с документом SSML, чтобы проверить правила использования всех функций настройки.
API голосового списка обновляется, чтобы включить понятное отображаемое имя и стили речи, поддерживаемые для нейронных голосов.
Общие улучшения качества голосовой связи TTS
Сокращенная ошибка произношения на уровне слова % для ru-RU (ошибки сократились на 56%) и sv-SE (ошибки сократились на 49%)
Улучшено многофоние чтения слов на en-US нейронных голосах на 40%. Примерами многофонийных слов являются "read", "live", "content", "record", "object" и т. д.
Улучшена естественность тона fr-FRвопроса. МОП (средняя оценка мнений): +0,28
Обновлены vocoders для следующих голосов, с улучшениями точности и общей производительностью на 40%.
| Языкового стандарта |
Голос |
en-GB |
Миа |
es-MX |
Даля |
fr-CA |
Сильви |
fr-FR |
Дениз |
ja-JP |
Нанами |
ko-KR |
Sun-Hi |
Исправления ошибок
- Исправлено несколько ошибок с помощью средства создания аудиоконтентов
- Исправлена проблема с автоматическим обновлением.
- Исправлены проблемы с стилями голоса в zh-CN в регионе Юго-Восточной Азии.
- Исправлена проблема стабильности, включая ошибку экспорта с тегом "break" и ошибки в препинаниях.
Выпуск за апрель 2026 г.
Уточнение после потока (общедоступная предварительная версия)
Уточнение после потоков теперь доступно в общедоступной предварительной версии для преобразования речи в текст в режиме реального времени. При включении служба выполняет второй проход распознавания параллельно с потоковой передачей в режиме реального времени, чтобы повысить точность окончательной расшифровки. Промежуточные результаты остаются низкой задержкой; Только окончательный результат для каждого сегмента заменяется более точной версией.
SpeechServiceResponse_PostProcessingOption Задайте для него свойство, чтобы PostRefinement включить его. Дополнительные сведения см. в разделе "Как использовать после обработки и распознавание речи".
Улучшенная модель оценки произношения
Мы обновили модель оценки произношения для de-DEулучшения коэффициентов корреляции Пирсона (PCC), что означает более точные и зависимые оценки.
Обновленная модель готова использовать через API и Microsoft площадку Foundry.
Выпуск за март 2026 г.
Выпуск за февраль 2026 г.
Платформа "речь в текст" на новом портале Microsoft Foundry теперь поддерживает API преобразования речи в текст в режиме реального времени. Вы можете протестировать транскрибирование в режиме реального времени непосредственно в браузере без написания кода. Начало работы с кратким руководством по работе с речью к тексту.
Выпуск за декабрь 2025 г.
Речь в тексте 5.1.0
- Общая доступность диаризации в режиме реального времени с помощью преобразования речи в текстовый контейнер.
- Устраненные уязвимости
Выпуск за ноябрь 2025 г.
API распознавания речи LLM теперь является общедоступной предварительной версией. В нем используется расширенная модель речи с расширенным языком, которая обеспечивает улучшенное качество, глубокое контекстное понимание, многоязычную поддержку и возможности настройки запросов. В настоящее время она поддерживает следующие задачи распознавания речи:
-
transcribe: преобразуйте предварительно записанный звук в текст.
-
translate: преобразуйте предварительно записанный звук в текст на указанном целевом языке.
Дополнительные сведения см. в разделе "Речь LLM".
Быстрая транскрибирование общедоступна. Он может транскрибировать звук гораздо быстрее, чем фактическая продолжительность звука. Дополнительные сведения см. в руководстве по API быстрого транскрибирования.
Чтобы непрерывно и точно расшифровывать многоязычное содержимое в звуковом файле, теперь можно использовать последнюю многоязычную модель без указания кодов языкового стандарта с помощью API быстрого транскрибирования. Дополнительные сведения см. в многоязычном транскрибировании в быстром транскрибировании.
Видеотрансляции теперь доступны в службе "Речь Azure". Дополнительные сведения см. в разделе "Что такое видеотрансляции"?
Выпуск за октябрь 2025 г.
Речь в текстовом REST API версии 2025-10-15
Речь в тексте REST API версии 2025-10-15 выпущена для общедоступной доступности. Дополнительные сведения см. в справочной документации по REST API преобразования речи в текст и руководстве по REST API преобразования речи в текст.
Контроль веса списка фраз для пакета SDK для службы "Речь"
Теперь вы можете контролировать влияние списков фраз на результаты распознавания речи при использовании пакета SDK службы "Речь" с транскрибированием в режиме реального времени. Новая функция веса списка фраз позволяет задать уровень предвзятости от 0,0 (отключено) до 2.0 (максимальное влияние), чтобы точно настроить, сколько терминов списка приоритетных фраз получают по словарю по умолчанию. Дополнительные сведения см. в разделе "Улучшение точности распознавания" со списком фраз.
Выпуск за сентябрь 2025 г.
Речь в тексте 5.0.3-preview
- Исправлены уязвимости
- Поддержка конечной точки redis для диаризации.
- Обновление серверной части и внешнего модуля STT
- Добавлен охват языковых стандартов, поддерживаемых ранее в версии 4.12.
Выпуск за август 2025 г.
Новые языковые стандарты, поддерживаемые в быстрой транскрибировании
Быстрая транскрибирование теперь поддерживает дополнительные языковые стандарта, включая несколько en- вариантов (12 языковых стандартов), es- вариантов (19 языковых стандартов) и ar- вариантов (13 языковых стандартов). Дополнительные сведения см. в разделе "Речь" на поддерживаемых языках с текстом.
Выпуск за июль 2025 г.
Улучшенная речь в текстовых моделях
Английские модели (все en-* модели, кроме en-IN) были обновлены, чтобы включить новый VAD (детектор голосовых действий), который помогает уменьшить задержку на 100 мс или более. Это может повлиять на точность и молчание сегментации как положительно, так и отрицательно, с целью снижения задержки. Дальнейшее расширение языка происходит в ближайшие несколько месяцев.
Выпуск за июнь 2025 г.
Улучшенная модель оценки произношения
Мы развернули значительные обновления для моделей оценки произношения для ta-IN и ms-MY. Вы видите заметный скачок в коэффициентах корреляции Пирсона (PCC), что означает более точные и надежные оценки.
Эти обновленные модели готовы использовать через API и Microsoft площадку Foundry, как и раньше.
Улучшенная речь в текстовых моделях
Точность преобразования речи в текстовые модели в быстром транскрибировании для de-DE, en-US, fr-FRit-ITen-GBes-MXzh-CNes-ESja-JPko-KRpt-BRи языковых стандартов улучшается на 10%-25% процента соответственно, особенно с улучшенной удобочитаемостью и распознаванием сущностей.
Выпуск за май 2025 г.
Улучшенная речь в текстовых моделях
Точность преобразования речи в текстовые модели для ta-INязыковых стандартов и hu-HUte-INen-INязыковых стандартов улучшается на 5–10 процентов соответственно. Мы также приблизимся к 20x сокращению фантомных слов для и te-IN моделейta-IN.
API быстрого транскрибирования — многоязычное транскрибирование речи
Для непрерывной и точной транскрибирования многоязычного содержимого в звуковом файле можно использовать последнюю многоязычную модель без указания кодов языкового стандарта с помощью API быстрого транскрибирования. Дополнительные сведения см. в многоязычном транскрибировании в быстром транскрибировании.
Новые языковые стандарты, поддерживаемые в быстрой транскрибировании
Быстрая транскрибирование теперь поддерживает дополнительные языковые параметры, включая fi-FI, he-IL, id-ID, pl-PL, pt-PT, sv-SEи т. д. Дополнительные сведения см. в разделе "Речь" на поддерживаемых языках с текстом.
Выпуск за апрель 2025 г.
Оценка произношения
Мы рады объявить существенные улучшения наших моделей оценки произношения для этих языковых стандартов: de-DE, , es-MX, it-ITja-JPи ko-KRpt-BR. Эти улучшения обеспечивают значительные достижения в коэффициентах корреляции Пирсона (PCC), обеспечивая более точные и надежные оценки.
Как и раньше, модели доступны через API и Microsoft игровой площадке Foundry.
Выпуск за март 2025 г.
Многоканальный диаризация транскрибирования бесед (прекращена)
28 марта 2025 года расшифровка беседы была прекращена.
Чтобы продолжить использование речи для текста с диаризации, используйте следующие функции:
Эти функции преобразования речи в текст поддерживают только диаризацию для звука с одним каналом. Многоканальный звук, используемый при транскрибировании многоканального диаризации беседы, не поддерживается.
Выпуск за январь 2025 г.
Новая функция — семантическая сегментация
Объявление о выпуске новой функции: семантическая сегментация. Эта функция интегрирует модуль препинания внутри декодера, который сегментирует звук на основе семантической информации, что приводит к более логическим и точным границам сегментации.
Ключевые преимущества:
- Улучшенная точность сегментации. С помощью семантической информации эта функция значительно сокращает экземпляры длинных сегментов, вызванных отсутствием пауз в входном звуке.
- Уменьшение задержки, вызванной недостаточной сегментацией: общая задержка распознавания речи уменьшается, при этом уменьшается 40%-60% сокращение длины самого длинного% сегментов.
- Over-Segmentation устранение рисков. Эта функция также помогает предотвратить чрезмерное сегментирование путем задержки сегментации при создании лучшего предложения.
Поддерживаемые языковые стандарты:
- Английский (en-US, en-GB)
- Китайский (zh-CN, zh-HK)
- Японский (ja-JP)
- Корейский (ko-KR)
- Немецкий (de-DE)
- Французский (fr-FR)
- Итальянский (it-IT)
- Испанский (es-ES, es-MX)
- Хинди (hi-IN)
- Португальский (pt-BR, pt-PT)
- Турецкий (tr-TR)
- Русский (ru-RU)
- Тайский (th-TH)
- Индонезийский (id-ID)
Дополнительные сведения о реализации см. в документации: распознавание речи в разделе "Семантическая сегментация".
Речь в реальном времени к тексту — выпуск новой модели на английском языке
Объявление о выпуске последней модели речи на английском языке (en-US, en-CA), что приводит к значительному улучшению различных показателей производительности. Ниже приведены основные моменты этого выпуска:
- Усовершенствования специальных возможностей: достигнуто 36% сокращение частоты ошибок Word (WER) на Microsoft внутренних наборов тестов специальных возможностей, что делает распознавание речи более точным и надежным для распознавания речи от людей с ограниченными возможностями речи.
- Привидение Word сокращение: замечательное%% сокращение фантомных слов о наборе разработки word и сокращение от 63% до 100% по другим наборам данных призраков word, значительно повышая ясность и точность транскрибирования.
Новая модель также улучшила общую производительность, включая распознавание сущностей и более эффективное распознавание орфографических букв.
Ожидается, что эти улучшения обеспечивают более точный, эффективный и удовлетворяющий интерфейс для всех пользователей. Новая модель доступна через API и Microsoft площадке Foundry. Отзывы рекомендуется дополнительно уточнить свои возможности.
Выпуск за ноябрь 2024 г.
Речь в тексте REST API версии 2024-11-15
Речь в тексте REST API версии 2024-11-15 выпущена для общедоступной доступности. Дополнительные сведения см. в справочной документации по REST API преобразования речи в текст и руководстве по REST API преобразования речи в текст.
Примечание
Речь в тексте REST API версии 2024-05-15-preview устарела.
Быстрое транскрибирование (GA)
Быстрая транскрибирование теперь общедоступна с помощью речи в REST API версии 2024-11-15. Быстрое транскрибирование позволяет транскрибировать аудиофайл точно и синхронно с высоким коэффициентом скорости. Он может транскрибировать звук быстрее, чем фактическая продолжительность звука. Дополнительные сведения см. в руководстве по API быстрого транскрибирования.
Выпуск за октябрь 2024 г.
Речь в режиме реального времени к тексту (двуязычная)
Значительно улучшилось качество распознавания коротких испанских терминов через es-US двуязычные модели. Модель двуязычна, а также поддерживает английский язык. Качество распознавания английского языка также улучшается.
Видеотрансляции (предварительная версия)
API перевода видео теперь доступен в общедоступной предварительной версии. Дополнительные сведения см. в руководстве по использованию видеотрансляции.
Выпуск за сентябрь 2024 г.
Речь в режиме реального времени к тексту
Речь в режиме реального времени к тексту выпустила новые модели с более высоким качеством для следующих языков.
fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ/
Быстрое транскрибирование (предварительная версия)
Быстрая транскрибирование теперь поддерживает диаризацию для распознавания и разделения нескольких динамиков в звуковом файле моноканала. Дополнительные сведения см. в руководстве по API быстрого транскрибирования.
Выпуск за август 2024 г.
Язык обучения (предварительная версия)
Обучение на языке теперь доступно в общедоступной предварительной версии. Интерактивное обучение на языке может сделать ваш опыт обучения более привлекательным и эффективным. Дополнительные сведения см. в интерактивном обучении языка с оценкой произношения.
Оценка произношения
Оценка произношения речи теперь поддерживает 33 языка общедоступен, и каждый язык доступен для всех областей речи в текстовые области. Дополнительные сведения см. в полном списке языков для оценки произношения.
| Язык |
Языковой стандарт (BCP-47) |
| Арабский (Египет) |
ar-EG |
| Арабский (Саудовская Аравия) |
ar-SA |
| Каталанский |
ca-ES |
| Китайский (кантонский, традиционный) |
zh-HK |
| Китайский (Мандарин, упрощенное письмо) |
zh-CN |
| Китайский (Тайваньский мандарин, традиционный) |
zh-TW |
| Датский (Дания) |
da-DK |
| Голландский (Нидерланды) |
nl-NL |
| Английский (Австралия) |
en-AU |
| Английский (Канада) |
en-CA |
| Английский (Индия) |
en-IN |
| Английский (Соединенное Королевство) |
en-GB |
| Английский (США) |
en-US |
| Финский (Финляндия) |
fi-FI |
| Французский (Канада) |
fr-CA |
| Французский (Франция) |
fr-FR |
| Немецкий (Германия) |
de-DE |
| Хинди (Индия) |
hi-IN |
| Итальянский (Италия) |
it-IT |
| Японский (Япония) |
ja-JP |
| Корейский (Корея) |
ko-KR |
| Малайский (Малайзия) |
ms-MY |
| Норвежский Букмол (Норвегия) |
nb-NO |
| Польский (Польша) |
pl-PL |
| Португальский (Бразилия) |
pt-BR |
| Португальский (Португалия) |
pt-PT |
| Русский (Россия) |
ru-RU |
| Испанский (Мексика) |
es-MX |
| Испанский (Испания) |
es-ES |
| Шведский (Швеция) |
sv-SE |
| Тамиль (Индия) |
ta-IN |
| Тайский (Таиланд) |
th-TH |
| Вьетнамцы (Вьетнам) |
vi-VN |
Выпуск за июль 2024 г.
API быстрого транскрибирования (предварительная версия)
Быстрая транскрибирование теперь доступна в общедоступной предварительной версии. Быстрое транскрибирование позволяет транскрибировать аудиофайл точно и синхронно с высоким коэффициентом скорости. Он может транскрибировать звук быстрее, чем фактическая продолжительность звука. Дополнительные сведения см. в руководстве по API быстрого транскрибирования.
Совет
Попробуйте быстро расшифроваться на< портале Foundry Microsoft/c0>.
Выпуск за июнь 2024 г.
Общая доступность REST API для преобразования речи в текст версии 3.2
Теперь общедоступен интерфейс REST API преобразования речи в текст версии 3.2. Дополнительные сведения о речи в REST API версии 3.2 см. в справочной документации по REST API преобразования речи в текст версии 3.2 и руководстве по REST API преобразования речи в текст.
Примечание
Предварительная версия версии 3.2-preview.1 и 3.2-preview.2 прекращена с сентября 2024 года.
Речь в REST API версии 3.1 и версии 3.0 была прекращена 31 марта 2026 г. Дополнительные сведения об обновлении см. в руководствах по миграции службы "Речь" на текст REST API версии 3.0 до версии 3.1 и версии 3.1 до версии 3.2 .
Выпуск за май 2024 г.
Видеотрансляции (предварительная версия)
Видеотрансляции теперь доступны в общедоступной предварительной версии. Видеотрансляции — это функция Azure распознавания речи в средстве Foundry, которая позволяет легко переводить и создавать видео на нескольких языках автоматически. Эта функция предназначена для локализации видеосодержимого для поддержки различных аудиторий по всему миру. Вы можете эффективно создавать иммерсивные, локализованные видео в различных вариантах использования, таких как vlogs, education, news, enterprise training, реклама, фильм, телевизионные шоу и многое другое. Дополнительные сведения см. в обзоре видеотрансляции.
Оценка произношения
Оценка произношения речи теперь поддерживает 24 языка ( с новым добавленным языком), с 7 дополнительными языками, доступными в общедоступной предварительной версии. Дополнительные сведения см. в полном списке языков для оценки произношения.
Выпуск за апрель 2024 г.
Автоматическое многоязычное преобразование речи (предварительная версия)
Автоматический многоязычный перевод речи доступен в общедоступной предварительной версии. Эта инновационная функция революционизирует способ преодоления языковых барьеров, предлагая непарабельные возможности для эффективного взаимодействия между разнообразными лингвистическими ландшафтами.
Основные моменты
- Неопределенный язык ввода: многоязычный перевод речи может получать звук в широком диапазоне языков, и не нужно указывать, какой язык входных данных является ожидаемым. Это делает его бесценной функцией для понимания и совместной работы в глобальных контекстах без необходимости предварительного настройки.
- Переключение на язык: многоязычный перевод речи позволяет говорить на нескольких языках в одном сеансе и переводить их на один и тот же целевой язык. При изменении языка ввода или других действиях сеанса не требуется перезапустить.
Принцип работы
- Интерпретатор путешествий: многоязычный перевод речи может улучшить опыт туристов, посещающих иностранные места назначения, предоставив им информацию и помощь в их предпочтительном языке. Услуги отеля, интерактивные туры и центры посетителей могут использовать эту технологию для удовлетворения различных лингвистических потребностей.
- Международные конференции: многоязычный перевод речи может способствовать обмену данными между участниками из разных регионов, которые могут говорить на различных языках с помощью динамического перевода субтитров. Участники могут говорить на своих языках без необходимости указывать их, обеспечивая простое понимание и совместную работу.
- Учебные собрания: в многокультурных аудиториях или в онлайн-средах обучения многоязычный перевод речи может поддерживать разнообразие языков среди учащихся и преподавателей. Он позволяет легко общаться и участвовать без необходимости указывать язык каждого учащегося или преподавателя.
Как получить доступ
Подробные сведения см. в обзоре перевода речи. Кроме того, можно ознакомиться с примерами кода, чтобы перевести речь. Эта новая функция полностью поддерживается всеми версиями пакета SDK с версии 1.37.0.
Речь в режиме реального времени с диариязацией (GA)
Речь в режиме реального времени к тексту с диариазацией теперь общедоступна.
Вы можете создать речь в текстовых приложениях, использующих диаризацию, чтобы различать различных докладчиков, участвующих в беседе. Дополнительные сведения о диаризации в режиме реального времени см. в кратком руководстве по диаризации в режиме реального времени.
Обновление преобразования речи в текстовую модель
Речь в режиме реального времени выпустила новые модели с двуязычными возможностями. Модель en-IN теперь поддерживает как английский, так и двуязычный сценарии и предлагает улучшенную точность. Арабские языковые стандарта (ar-AE, , ar-BH, ar-KWar-ILar-LBar-IQar-LYar-QAar-OMar-MAar-DZar-SAar-SYar-PS, ar-TN, ar-YE) теперь оснащены двуязычной поддержкой английского, расширенной точности и поддержки центра вызовов.
Пакетное транскрибирование предоставляет модели с новой архитектурой для этих языковых стандартов: es-ES, es-MX, fr-FR, it-ITja-JP, ko-KRpt-BRи zh-CN. Эти модели значительно повышают удобочитаемость и распознавание сущностей.
Выпуск за март 2024 г.
Общедоступная версия whisper (GA)
Речь whisper к текстовой модели с Azure Речь теперь общедоступна.
Ознакомьтесь с Чем является модель Whisper? чтобы узнать больше о том, когда следует использовать Azure речь и Azure OpenAI в Microsoft модели Foundry.
Выпуск за февраль 2024 г.
Оценка произношения
Список фраз
Добавлена поддержка списка фраз для следующих языковых стандартов: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.
Выпуск за ноябрь 2023 г.
Знакомство с двуязычным моделированием речи!
Мы рады обнародовать новое дополнение к моделированию речи в реальном времени — двуязычное моделирование речи. Это значительное улучшение позволяет нашей модели речи легко поддерживать двуязычные языковые пары, такие как английский и испанский, а также английский и французский. Эта функция позволяет пользователям легко переключаться между языками во время взаимодействия в режиме реального времени, отмечая ключевой момент в нашей приверженности улучшению взаимодействия.
Основные моменты:
- Двуязычная поддержка: с помощью нашего последнего выпуска пользователи могут легко переключаться между английским и испанским или между английским и французским во время взаимодействия с речью в режиме реального времени. Эта функция адаптирована для размещения двуязычных ораторов, которые часто переходили между этими двумя языками.
- Расширенный пользовательский интерфейс: двуязычные докладчики, будь то на работе, в доме или в различных параметрах сообщества, будут находить эту функцию очень полезно. Способность модели понять и реагировать как на английский, так и испанский в реальном времени открывает новые возможности для эффективного и гибкого взаимодействия.
Практическое руководство.
Выберите es-US (испанский и английский) или fr-CA (французский и английский) при вызове API службы распознавания речи или попробуйте использовать в Speech Studio. Вы можете говорить на любом языке или смешивать их вместе— модель предназначена для динамической адаптации, обеспечивая точные и контекстные ответы на обоих языках.
Пришло время повысить уровень вашей коммуникационной игры с помощью нашего последнего выпуска функции — простой, многоязычный обмен данными на пальцах!
Обновление текстовых моделей преобразования речи в текст
Мы рады ввести значительное обновление моделей речи, обещая повышенную точность, улучшенную удобочитаемость и улучшенное распознавание сущностей. Это обновление обеспечивает надежную новую структуру, усиленную расширенным набором данных для обучения, обеспечивая заметное улучшение общей производительности. Она включает в себя недавно выпущенные модели для en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ESfr-FR, de-DE, ko-KR, tr-TR, sv-SEи he-IL.
Обзор матча:
- Улучшенная точность с новой структурой модели: переопределенная структура модели, в сочетании с более богатым набором обучающих данных, повышает уровень точности, обещая более точные выходные данные речи.
- Улучшение удобочитаемости: наша последняя модель повышает удобочитаемость, повышая согласованность и ясность речевых материалов.
- Расширенное распознавание сущностей: распознавание сущностей получает существенное обновление, что приводит к более точным и нюансам результатов.
Потенциальные последствия: Несмотря на эти достижения, важно иметь в виду потенциальные последствия:
- Пользовательский тайм-аут молчания: пользователи используют время ожидания пользовательской тишины, особенно с низкими параметрами, может столкнуться с чрезмерной сегментацией и потенциальными упущениями однословных фраз.
- Новая модель может столкнуться с проблемами совместимости с функцией префикса ключевых слов, и пользователям рекомендуется оценить ее производительность в конкретных приложениях.
- Сокращение неблагополучности слов или фраз: пользователи могут заметить снижение количества слов или фраз, таких как "um" или "uh" в выходных данных речи.
- Неточности в продолжительности метки времени слова: некоторые слова неблагополучности могут отображать неточности в продолжительности метки времени, требуя внимания в приложениях, зависящих от точного времени.
- Дисперсию распределения оценки достоверности: пользователи, использующие оценки достоверности и связанные пороговые значения, должны учитывать потенциальные вариации распределения, требуя корректировки для оптимальной производительности.
- Повышение точности функции списка фраз может повлиять на неправильное определение определенных фраз.
Мы рекомендуем вам изучить эти улучшения и рассмотреть потенциальные проблемы для простого перехода, и, как всегда, ваши отзывы играют важную роль в уточнении и продвижении наших услуг.
Оценка произношения
Выпуск за сентябрь 2023 г.
Whisper public preview
Azure Речь теперь поддерживает модель Whisper OpenAI через API пакетной транскрибирования. Дополнительные сведения см. в руководстве по созданию пакетной транскрибирования .
Примечание
Azure OpenAI также поддерживает модель Whisper OpenAI для преобразования речи в текст с синхронным REST API. Дополнительные сведения см. в кратком руководстве.
Ознакомьтесь с Чем является модель Whisper?, чтобы узнать больше о том, когда использовать Azure речь и Azure OpenAI.
Общедоступная предварительная версия REST API преобразования речи в текст версии 3.2
Преобразование речи в текст REST API версии 3.2 доступно в предварительной версии.
Речь в REST API версии 3.1 общедоступна. Речь в REST API версии 3.0 была прекращена 31 марта 2026 г. Дополнительные сведения см. в руководствах по миграции для преобразования речи в текст REST API версии 3.0 до версии 3.1 и версии 3.1 до версии 3.2 .
Выпуск за август 2023 г.
Новая речь в текстовых языковых стандартах:
Речь к тексту поддерживает два новых языковых стандарта, как показано в следующей таблице. Полный список языков см. здесь.
| Языкового стандарта |
Язык |
pa-IN |
Пенджаби (Индия) |
ur-IN |
Урду (Индия) |
Оценка произношения
-
Оценка произношения речи теперь поддерживает 3 дополнительных языка, доступных на английском языке (Канада), английском (Индия) и французском (Канада), а также на 3 дополнительных языках, доступных в предварительной версии. Дополнительные сведения см. в полном списке языков для оценки произношения.
Выпуск за май 2023 г.
Оценка произношения
-
Оценка произношения речи теперь поддерживает 3 дополнительных языка, доступных на немецком языке (Германия), японском (Японии) и испанском (Мексика), а также на 4 дополнительных языках, доступных в предварительной версии. Дополнительные сведения см. в полном списке языков для оценки произношения.
- Теперь вы можете использовать стандартный уровень обязательств "Речь к тексту" для оценки произношения во всех общедоступных регионах. Если вы приобрели уровень обязательств для стандартной речи в текст, расходы на оценку произношения идет к достижению обязательства. См. ценовую категорию обязательств.
Выпуск за февраль 2023 г.
Оценка произношения
-
Оценка произношения речи теперь поддерживает 5 дополнительных языков, доступных на английском языке (Соединенное Королевство), английском (Австралия), французском (Франция), испанском (Испания) и китайском (Mandarin, упрощенном) с другими языками, доступными в предварительной версии.
- Добавлены примеры кодов, демонстрирующих использование оценки произношения в режиме потоковой передачи в собственном приложении.
Настраиваемая речь
Для языковых стандартов добавлена de-AT поддержка аудио и транскрибирования с меткой человека.
Выпуск за январь 2023 г.
Настраиваемая речь
Добавлена поддержка аудио+ транскрибирования, помеченного человеком, для дополнительных языковых стандартов: ar-BH, ar-DZ, ar-EG, ar-MAar-SA, ar-TNar-YEи ja-JP.
Добавлена поддержка структурированной адаптации текста для языкового de-ATстандарта.
Выпуск за декабрь 2022 г.
Преобразование речи в текстовый REST API
Речь в тексте REST API версии 3.1 общедоступна. Версия 3.0 REST API преобразования речи в текст будет прекращена. Дополнительные сведения о переносе см. в руководстве.
Выпуск за октябрь 2022 г.
Новый языковой стандарт преобразования речи в текст
Добавлена поддержка Малаялам (Индия) с языковым стандартом ml-IN . Полный список языков см. здесь.
Выпуск за июль 2022 г.
Новая речь в текстовых языковых стандартах:
Добавлено 7 новых языковых стандартов, как показано в следующей таблице. Полный список языков см. здесь.
| Языкового стандарта |
Язык |
bs-BA |
Босния (Босния и Герцеговина) |
yue-CN |
Китайский (кантонский, упрощенный) |
zh-CN-sichuan |
Китайский (юго-западная мандарина, упрощенная версия) |
wuu-CN |
Китайский (Ву, упрощенное письмо) |
ps-AF |
Пашто (Афганистан) |
so-SO |
Сомали (Сомали) |
cy-GB |
Валлийский (Соединенное Королевство) |
Выпуск за июнь 2022 г.
Новая речь в текстовых языковых стандартах:
Добавлено 10 новых языковых стандартов, как показано в следующей таблице. Полный список языков см. здесь.
| Языкового стандарта |
Язык |
sq-AL |
Албанский (Албания) |
hy-AM |
Армянский (Армения) |
az-AZ |
Азербайджан (Азербайджан) |
eu-ES |
Баскский |
gl-ES |
Галисийский |
ka-GE |
Грузин (Грузия) |
it-CH |
Итальянский (Швейцария) |
kk-KZ |
Казах (Казахстан) |
mn-MN |
Монголия (Монголия) |
ne-NP |
Непали (Непал) |
Выпуск за апрель 2022 г.
Новая речь в текстовых языковых стандартах:
Ниже приведен список новых языковых стандартов. Полный список языков см. здесь.
| Языкового стандарта |
Язык |
bn-IN |
Бенгали (Индия) |
Выпуск за январь 2022 г.
Новая речь в текстовых языковых стандартах:
Ниже приведен список новых языковых стандартов. Полный список языков см. здесь.
| Языкового стандарта |
Язык |
af-ZA |
Afrikaans (Южная Африка) |
am-ET |
Амхарич (Эфиопия) |
de-CH |
Немецкий (Швейцария) |
fr-BE |
Французский (Бельгия) |
is-IS |
Исландия (Исландия) |
jv-ID |
Javanese (Индонезия) |
km-KH |
Кхмер (Камбоджа) |
kn-IN |
Каннада (Индия) |
lo-LA |
Лаос (Лаос) |
mk-MK |
Македонский (Северная Македония) |
my-MM |
Бирмский (Мьянма) |
nl-BE |
Голландский (Бельгия) |
si-LK |
Синхала (Шри-Ланка) |
sr-RS |
Сербский (Сербия) |
sw-TZ |
Суахили (Танзания) |
uk-UA |
Украинский (Украина) |
uz-UZ |
Узбекистан (Узбекистан) |
zu-ZA |
Зулу (Южная Африка) |
Выпуск за июль 2021 г.
Новая речь в текстовых языковых стандартах:
Ниже приведен список новых языковых стандартов. Полный список языков см. здесь.
| Языкового стандарта |
Язык |
ar-DZ |
Арабский (Алжир) |
ar-LY |
Арабский (Ливия) |
ar-MA |
Арабский (Марокко) |
ar-TN |
Арабский (Тунис) |
ar-YE |
Арабский (йеменский) |
bg-BG |
Болгарский (Болгария) |
el-GR |
Греческий (Греция) |
et-EE |
Эстония (Эстония) |
fa-IR |
Персидский (Иран) |
ga-IE |
Ирландский (Ирландия) |
hr-HR |
Хорватский (Хорватия) |
lt-LT |
Литовская (Литва) |
lv-LV |
Латвийский (Латвия) |
mt-MT |
Мальта (Мальта) |
ro-RO |
Румын (Румыния) |
sk-SK |
Словацкий (Словакия) |
sl-SI |
Словен (Словения) |
sw-KE |
Суахили (Кения) |
Выпуск за январь 2021 г.
Новая речь в текстовых языковых стандартах:
Ниже приведен список новых языковых стандартов. Полный список языков см. здесь.
| Языкового стандарта |
Язык |
ar-AE |
Арабский (Объединенные Арабские Эмираты) |
ar-IL |
Арабский (Израиль) |
ar-IQ |
Арабский (Ирак) |
ar-OM |
Арабский (Оман) |
ar-PS |
Арабский (Палестинский орган) |
de-AT |
Немецкий (Австрия) |
en-GH |
Английский (Гана) |
en-KE |
Английский (Кения) |
en-NG |
Английский (Нигерия) |
en-TZ |
Английский (Танзания) |
es-GQ |
Испанский (Экваториальная Гвинея) |
fil-PH |
Филиппин (Филиппины) |
fr-CH |
Французский (Швейцария) |
he-IL |
Иврит (Израиль) |
id-ID |
Индонезия (Индонезия) |
ms-MY |
Малайский (Малайзия) |
vi-VN |
Вьетнамцы (Вьетнам) |
Выпуск за август 2020 г.
Новая речь в языковых стандартах текста:
Речь к тексту выпущена 26 новых языковых стандартов в августе: 2 европейских языков cs-CZ и 5 английских языков и hu-HU19 испанских языков, охватывающих большинство стран и регионов Южной Америки. Ниже приведен список новых языковых стандартов. Полный список языков см. здесь.
| Языкового стандарта |
Язык |
cs-CZ |
Чешская (Чешская Республика) |
en-HK |
Английский (Специальный административный регион Гонконга) |
en-IE |
Английский (Ирландия) |
en-PH |
Английский (Филиппины) |
en-SG |
Английский (Сингапур) |
en-ZA |
Английский (Южная Африка) |
es-AR |
Испанский (Аргентина) |
es-BO |
Испанский (Боливия) |
es-CL |
Испанский (Чили) |
es-CO |
Испанский (Колумбия) |
es-CR |
Испанский (Коста-Рика) |
es-CU |
Испанский (Куба) |
es-DO |
Испанский (Доминиканская Республика) |
es-EC |
Испанский (Эквадор) |
es-GT |
Испанский (Гватемала) |
es-HN |
Испанский (Гондурас) |
es-NI |
Испанский (Никарагуа) |
es-PA |
Испанский (Панама) |
es-PE |
Испанский (Перу) |
es-PR |
Испанский (Пуэрто-Рико) |
es-PY |
Испанский (Парагвай) |
es-SV |
Испанский (Сальвадор) |
es-US |
Испанский (США) |
es-UY |
Испанский (Уругвай) |
es-VE |
Испанский (Венесуэла) |
hu-HU |
Венгерский (Венгрия) |
Выпуск за февраль 2026 г.
Интеграция агента голосовой связи с Службой агента Foundry доступна в предварительной версии с поддержкой пакета SDK для Python, Java, C#и JavaScript. Создание голосовых агентов в режиме реального времени с помощью нового краткого руководства и руководства. Дополнительные сведения см. в статье "Начало работы со службой агента Voice Live и Foundry" и"Как создать голосовой агент".
Доступны новые руководства.
Выпуск за январь 2026 г.
Справочник по 2026-01-01-preview API Голосовой трансляции доступен в предварительной версии с обновленным покрытием событий и конфигурацией для сеансов Голосовой трансляции. Дополнительные сведения см. в справочнике по API голосовой трансляции 2026-01-01-preview.
Ноябрь 2025 г.
Общедоступный API голосовой трансляции. Преобразуйте беседы в удобные интерфейсы с помощью API голосовой трансляции — комплексное решение, объединяющее распознавание речи, создание и преобразование текста в речь в единый интерфейс с низкой задержкой для создания интеллектуальных голосовых агентов. Дополнительные сведения см. в разделе "Голосовая трансляция".
Выпуск за июнь 2025 г.
Нейронный текст для речи 3.11.0
Выпущен нейронный текст для речи версии 3.11.0.
- Добавлена поддержка новых нейронных голосов:
de-DE-SeraphinaMultilingualNeural, es-ES-XimenaMultilingualNeural, fi-FI-SelmaNeural. nb-NO-FinnNeural
- Добавлена поддержка многоязычных пользовательских лексиконс.
Выпуск за май 2025 г.
Добавьте поддержку последних версий модели:
Для преобразования текста в речь:
- Обновите текст на серверную часть речи и подсистему внешнего интерфейса до последних версий.
- Добавлена поддержка многоязычных пользовательских лексиконс.
- Улучшена функция проверки работоспособности. Теперь
/synthesize/healthконечная точка проверки работоспособности . Если служба работоспособна, эта конечная точка возвращает состояние HTTP 200; Если служба неработоспособна, она возвращает состояние HTTP 503.
- Обновлен базовый образ до AspNet 8.0.16, чтобы устранить уязвимости системы безопасности из обновления системы безопасности за март/апрель 2025 Microsoft ASP.NET Core г.
Выпуск за март 2025 г.
Добавьте поддержку последних версий модели:
- Нейронный текст для речи 3.9.0
- Речь в тексте 5.0.1 (предварительная версия)
- Настраиваемая речь в тексте 5.0.1 (предварительная версия)
Для преобразования речи в текст и настраиваемую речь в текст включены следующие функции:
- Поддержка новых моделей речи в текстовых моделях
- Изменение операционной системы на Azure Linux 3.0
- Поддержка новых языковых стандартов: ar-dz, as-in, es-gq or-in, pa-in и ur-in
- Обновление декодировщика
- Возможность использования новых пользовательских моделей (2023+) в контейнере
Для преобразования текста в речь добавлена поддержка новых нейронных голосов: en-GB-OliviaNeuralen-US-ChristopherNeural и nl-NL-FennaNeural.
Выпуск за февраль 2025 г.
Добавьте поддержку последних версий модели:
- Идентификация языка речи 1.18.0
- Нейронный текст для речи 3.7.0
- Речь к тексту 4.12.0
- Настраиваемая речь в тексте 4.12.0
Ниже приведены основные сведения о выпусках:
| Обновление компонентов |
Речь к тексту |
Настраиваемое преобразование речи в текст |
Нейронный текст для речи |
Идентификация языка речи |
| Исправления уязвимостей |
✅ |
✅ |
✅ |
✅ |
| Перенесенная ОС из Ubuntu 20.04 в Ubuntu 22.04 |
✅ |
✅ |
✅ |
✅ |
| Новые языковые стандарта: ar-ly, fr-be, nl-be и uz-uz |
✅ |
✅ |
|
|
| Обновлены пакеты nuget, версия Go |
✅ |
✅ |
|
|
| Добавлена параллелизация загрузки модели для уменьшения времени загрузки модели |
✅ |
✅ |
✅ |
|
Выпуск за октябрь 2024 г.
Добавьте поддержку последних версий модели:
- Идентификация языка речи 1.16.0
- Нейронный текст для речи 3.5.0
- Создание
en-us-ariacpuneural псевдонима en-us-jessacpuneural
- Обновление текста до версии подсистемы серверной части речи
- Речь к тексту 4.10.0
- Восстановление поддержки языкового стандарта
uk-UA
- Исправление параметров молчания для работы с длительными периодами молчания в звуке
- Замена устаревших моделей: , , , ,
tr-TRhu-HUit-CHfr-CAen-GBda-DKcs-CZzh-CN-sichuan
- Настраиваемая речь в тексте 4.10.0
Выпуск за сентябрь 2024 г.
Добавьте поддержку последних версий модели:
- Идентификация языка речи 1.15.0
- Нейронный текст для речи 3.4.0
- Новые голоса:
en-us-andrewmultilingualneural, en-us-jessaneural, es-us-alonsoneural, es-us-palomaneuralit-it-isabellamultilingualneural
- Устранение уязвимостей
- Речь к тексту 4.9.0
- Новые языковые стандарты:
ar-YE, af-ZA, ar-MAam-ET, ar-TN, sw-TZsw-KEzu-ZA
- Устранение уязвимостей
- Обновление устаревших моделей
- Настраиваемая речь в тексте 4.9.0
Выпуск за август 2024 г.
Добавьте поддержку последних версий модели:
- Идентификация языка речи 1.14.0
- Обновление .NET 8.0
- Устранение уязвимостей
- Нейронный текст для речи 3.3.0
- Обновление .NET 8.0
- Устранение уязвимостей
- Речь к тексту 4.8.0
- Обновление .NET 8.0
- Устранение уязвимостей
- Модуль распознавания обновлений
- Исправлена проблема, из-за которой
PropertyId.Speech_SegmentationSilenceTimeoutMs игнорирулось.
- Обновление устаревших моделей
- Удаление языкового
uk-UA стандарта
Выпуск за февраль 2024 г.
Добавьте поддержку последних версий модели:
- Настраиваемая речь в тексте 4.6.0
- Речь в тексте 4.6.0
- Нейронный текст для речи 3.1.0
Обновление речи до текстовых компонентов до последней версии.
Обновите все es модели языковых стандартов до последней версии.
Увеличьте буфер преобразования мультимедиа для преобразования речи в текстовые варианты использования.
Выпуск за ноябрь 2023 г.
Добавьте поддержку последних версий модели:
- Настраиваемая речь в тексте 4.5.0
- Речь к тексту 4.5.0
- Нейронный текст для речи 2.19.0
Выпуск за октябрь 2023 г.
Добавьте поддержку последних версий модели:
- Настраиваемая речь в тексте 4.4.0
- Речь в тексте 4.4.0
- Нейронный текст для речи 2.18.0
Исправьте множество проблем с уязвимостью высокого риска.
Удалите избыточные журналы в контейнерах.
Обновите внутренний компонент мультимедиа до последней версии.
Добавление поддержки голосовой связи en-IN-NeerjaNeural.
Выпуск за сентябрь 2023 г.
Добавьте поддержку последних версий модели:
- Идентификация языка речи 1.12.0
- Настраиваемая речь в тексте 4.3.0
- Речь к тексту 4.3.0
- Нейронный текст для речи 2.17.0
Обновление пользовательской речи до текста и речи до последней платформы.
Устранение проблем с уязвимостью.
Добавление поддержки голосовой связи ar-AE-FatimaNeural.
Выпуск за июль 2023 г.
Добавьте поддержку последних версий модели:
- Настраиваемая речь в тексте 4.1.0
- Речь к тексту 4.1.0
- Нейронный текст для речи 2.15.0
Исправлена проблема при выполнении речи в текстовый контейнер с помощью docker параметров подключения с локальными файлами пользовательской модели.
Исправлена проблема, которая в некоторых случаях RECOGNIZING событие не отображается в ответе через пакет SDK службы "Речь".
Устранение проблем с уязвимостью.
Выпуск за июнь 2023 г.
Добавьте поддержку последних версий модели:
- Настраиваемая речь в тексте 4.0.0
- Речь в тексте 4.0.0
- Нейронный текст для речи 2.14.0
Локальное преобразование речи в текстовые изображения обновляется до .NET 6.0
Обновление моделей отображения для языковых стандартов, включая en-us, ar-eg, ar-bh, ja-jpи ko-krмногое другое.
Обновите речь до компонента текстового контейнера, чтобы устранить проблемы с уязвимостью.
Добавление поддержки голосов языкового de-DE-AmalaNeuralстандарта ,de-AT-IngridNeuralde-AT-JonasNeural иen-US-JennyMultilingualNeural
Выпуск за май 2023 г.
Добавьте поддержку последних версий модели:
- Настраиваемая речь в тексте 3.14.0
- Речь в тексте 3.14.0
- Нейронный текст для речи 2.13.0
Исправлена проблема с препинанием he-IL
Устранение проблем с уязвимостью
Добавление нового языкового стандарта en-US-MichelleNeuralи es-MX-CandelaNeural
Выпуск за апрель 2023 г.
Обновления системы безопасности
Устранение проблем с уязвимостью
Выпуск за март 2023 г.
Добавьте поддержку последних версий модели:
- Настраиваемая речь в тексте 3.12.0
- Речь к тексту 3.12.0
- Идентификация языка речи 1.11.0
- Нейронный текст для речи 2.11.0
Устранение проблем с уязвимостью
Исправлена tr-TR проблема с заглавной буквой
Обновление моделей отображения речи до текстовых en-US моделей
Добавьте поддержку стандартного ar-AE-HamdanNeural голоса.
Выпуск за февраль 2023 г.
Новые версии контейнеров
Добавьте поддержку последних версий модели:
- Настраиваемая речь в тексте 3.11.0
- Речь к тексту 3.11.0
- Нейронный текст для речи 2.10.0
Устранение проблем с уязвимостью
Регулярное обновление моделей речи
Добавьте новые языковые стандарты Abraic:
Обновление моделей отображения иврита и турции
Выпуск за январь 2023 г.
Новые версии контейнеров
Добавьте поддержку последних версий модели:
- Настраиваемая речь в тексте 3.10.0
- Речь к тексту 3.10.0
- Нейронный текст для речи 2.9.0
Исправлена проблема с режимом гипотезы
Устранение проблемы с прокси-сервером HTTP
Режим отключения пользовательской речи к текстовому контейнеру
Добавление поддержки отключенных контейнеров CNV в интерфейсный интерфейс TTS
Добавьте поддержку этих языковых стандартов:
- da-DK-ChristelNeural
- da-DK-JeppeNeural
- en-IN-PrabhatNeural
Выпуск за декабрь 2022 г.
Новые версии контейнеров
Добавьте поддержку последних версий модели:
- Настраиваемая речь в тексте 3.9.0
- Речь к тексту 3.9.0
- Нейронный текст для речи 2.8.0
Исправлена проблема с ipv4/ipv6
Устранение проблемы с уязвимостью
Выпуск за ноябрь 2022 г.
Новые версии контейнеров
Добавьте поддержку последних версий модели:
- Пользовательская речь в тексте 3.8.0
- Речь в тексте 3.8.0
- Нейронный текст для речи 2.7.0
Выпуск за октябрь 2022 г.
Новые версии контейнеров
Добавьте поддержку последних версий модели:
- Настраиваемая речь в тексте 3.7.0
- Речь в тексте 3.7.0
- Нейронный текст для речи 2.6.0
Выпуск за сентябрь 2022 г.
Речь в тексте 3.6.0-amd64
Добавьте поддержку последних версий модели.
Добавьте поддержку этих языковых стандартов:
- az-az
- bn-in
- bs-ba
- cy-gb
- eu-es
- fa-ir
- gl-es
- he-il
- hy-am
- it-ch
- ka-ge
- kk-kz
- mk-mk
- mn-mn
- ne-np
- ps-af
- so-so
- sq-al
- wuu-cn
- yue-cn
- zh-cn-sichuan
Регулярные ежемесячные обновления, включая обновления системы безопасности и исправления уязвимостей.
Пользовательская речь в тексте 3.6.0-amd64
Регулярные ежемесячные обновления, включая обновления системы безопасности и исправления уязвимостей.
Нейронный текст для речи версии 2.5.0
Добавьте поддержку этих стандартных голосов:
az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural
Регулярные ежемесячные обновления, включая обновления системы безопасности и исправления уязвимостей.
Выпуск за май 2022 г.
Контейнер распознавания речи на языке речи версии 1.9.0-amd64-preview
Исправления ошибок для обнаружения речи на языке речи.
Выпуск за март 2022 г.
Настраиваемая речь в текстовом контейнере версии 3.1.0
Добавьте поддержку для получения моделей отображения.
Выпуск за январь 2022 г.
Речь в текстовом контейнере версии 3.0.0
Добавьте поддержку использования контейнеров в отключенных средах.
Речь в текстовом контейнере версии 2.18.0
Регулярные ежемесячные обновления, включая обновления системы безопасности и исправления уязвимостей.
Neural-Neural текст в речь контейнера речи версии 1.12.0
Добавьте поддержку этих стандартных голосов: am-et-amehaneural, am-et-mekdesneural, so-so-muuseneuralи so-so-ubaxneural.
Регулярные ежемесячные обновления, включая обновления системы безопасности и исправления уязвимостей.