Новые возможности Azure речи в средстве Foundry?

Azure речь обновляется на постоянной основе. Чтобы оставаться up-to-date с последними разработками, в этой статье содержатся сведения о новых выпусках и функциях.

Заметки о выпуске

Выбор службы или ресурса

Важно

Пакет SDK для службы "Речь" 1.48.2 и более новые выпуски включают критическое исправление для секционирования списка отзыва сертификатов (CRL) в Linux и Android. Если вы используете любую платформу с включенной проверкой списка отзыва сертификатов, обновите до версии 1.48.2 или более поздней до 1 июля 2026 г. Дополнительные сведения см. в статье об обновлении совместимости CRL.

Важно

Оценка содержимого (предварительная версия) через пакет SDK службы "Речь" была прекращена в июле 2025 года. Вместо этого можно использовать модели OpenAI Azure для получения результатов оценки содержимого, как описано в документации по оценке содержимого контентной оценки.

Пакет SDK для службы "Речь" 1.49.1: выпуск за апрель 2026 г.

Исправления ошибок:

  • Исправлен сбой во встроенной обработке данных телеметрии речи.

Пакет SDK для службы "Речь" 1.49: выпуск за апрель 2026 г.

Заметки о поддержке целевой платформы:

  • Поддержка Android x86 удаляется в этом выпуске.

Новые возможности:

  • Обновлен Android OpenSSL до версии 3.0.19.
  • Python: оптимизирован размер колеса Linux.

Исправления ошибок:

  • Исправлена утечка памяти во встроенной речи.
  • Исправлены символы, не транскрибированные правильно в внедренном распознавании речи.
  • Python: утечки событий синтеза речи.

Пакет SDK службы "Речь" для JavaScript

Новые возможности:

  • Добавлена обработка для PropertyId.SpeechServiceResponse_PostProcessingOption.
  • Добавлены измерения задержки синтеза речи.
  • Добавлена поддержка потоковой передачи текста синтеза речи.
  • Добавлена поддержка обновления синтеза перевода при изменении языков.

Исправления ошибок:

  • Исправлены подробные результаты распознавания, которые не запрашиваются должным образом.
  • Исправлена бесконечная рекурсия при использовании DialogServiceConnector с недопустимым маркером.
  • Исправлено перенаправление URL-адреса синтеза речи, не работающее с указанным пользователем путем.

Пакет SDK для службы "Речь" 1.48.2: выпуск 2026-февраль

Важно

Этот выпуск включает критическое исправление для секционирования списка отзыва сертификатов (CRL) в Linux и Android. Если вы используете любую платформу с включенной проверкой списка отзыва сертификатов, обновите до версии 1.48.2 до 1 июля 2026 г. Дополнительные сведения см. в статье об обновлении совместимости CRL.

Исправления ошибок:

  • Исправлена логика ключа кэша CRL в Linux и Android для правильной обработки секционированных crLs. Теперь пакет SDK использует имя издателя и точку распространения CRL в качестве ключа кэша, предотвращая сбои X509_V_ERR_DIFFERENT_CRL_SCOPE (ошибка 44) при подключении между регионами Azure или после смены сертификатов.
  • Исправлены потенциальные сбои подключения после смены сертификатов в Linux и Android при включенной проверке списка отзыва сертификатов.

Пакет SDK для службы "Речь" 1.48.1: выпуск 2026-февраль

Заметки о поддержке целевой платформы:

  • Поддержка Android x86 будет удалена после этого выпуска.

Новые возможности:

  • Отключенные проверки списка отзыва сертификатов по умолчанию в Linux и Android.
  • Улучшена обработка и ведение журнала сетевых ошибок.
  • Оптимизировано время построения больших списков фраз.
  • Java: добавлена поддержка потоковой передачи текста синтеза речи.
  • Java: улучшено управление памятью JNI.
  • Javascript: Метрики задержки распознавания. Результаты распознавания теперь включают SpeechServiceResponse_RecognitionLatencyMs свойству, измеряющего сквозную задержку от входных данных звука к результату.
  • Javascript: Время ожидания остановки для распознавателей — новое свойство Recognizer_StopTimeoutMs обеспечивает защиту времени ожидания для stopContinuousRecognitionAsync(). Если служба не завершается в течение указанного времени, операция немедленно отменяется, а не ожидается на неопределенный срок.
  • Javascript: Конфигурация сцены аватара — новый класс AvatarSceneConfig позволяет настраивать масштаб аватара, позицию (X/Y), поворот (X/Y/Z) и амплитуду. Сцена может обновляться во время выполнения с помощью AvatarSynthesizer.updateSceneAsync().

Исправления ошибок:

  • Исправлена ошибка в режиме диктовки при включении ведения журнала.
  • Исправлена утечка связанной памяти CRL в сетевом стеке.
  • Исправлены данные счетчиков производительности, иногда отсутствующие во встроенном распознавании речи.
  • Исправлено сопоставление длины молчания с препинанием во встроенном синтезе речи.
  • Исправлена кэширование границ слов в гибридном синтезе речи.
  • Javascript: Автоматическое обнаружение языка источника теперь принимает пустой или пустой параметр языка from.
  • JavaScript: добавлен @azure/core-auth в качестве зависимости пакета SDK для улучшения интеграции удостоверений Azure.

Образцы:

Java, Python: обновлены версии нескольких зависимостей для устранения уязвимостей системы безопасности.

Пакет SDK для службы "Речь" версии 1.47: выпуск за ноябрь 2025 г.

Важно

Windows 32-разрядная поддержка удаляется из-за окончания основной поддержки Windows 10 и, следовательно, 32-разрядной версии x86 и ARM (https://support.microsoft.com/windows/windows-10-support-has-ended-on-october-14-2025-2ca8b313-1946-43d3-b55c-2b95b107f281).

Новые возможности:

  • Изменена политика по умолчанию, чтобы игнорировать ошибки из-за сетевых условий, которые препятствуют доступу к данным отзыва сертификатов в Интернете на клиентах Linux.
  • [JavaScript] Добавлена поддержка указания имени базовой модели для аватаров фотографий.

Исправления ошибок:

Примеры обновлений:

  • Удалены примеры распознавания намерений (за исключением автономной реализации распознавания намерений в C++) из-за выхода на пенсию службы.
  • Удалены примеры распознавания говорящего из-за выхода службы на пенсию.
  • Удалены примеры Unity, так как последние пакеты пакета SDK для службы "Речь" были опубликованы для выпуска 1.44 и больше нет прямой поддержки.

Критические изменения:

Пакет SDK для службы "Речь" 1.46: выпуск за сентябрь 2025 г.

Новые возможности:

  • Добавлена поддержка конфиденциальности событий запуска речи со Speech_StartEventSensitivity свойством.
  • Нерекомендуемое SpeechServiceConnection_EndSilenceTimeoutMs свойство.
  • Удалена функция оценки содержимого в оценке произношения.
  • Обновлен Android OpenSSL до версии 3.0.17.
  • Добавлено ограничение размера в очередь телеметрии, чтобы предотвратить рост использования памяти.
  • Добавлена защита времени ожидания для чтения кэша в TTS, чтобы предотвратить потенциальные зависания операций ввода-вывода.
  • Добавлены настраиваемые свойства для управления поведением кэша перенаправления URL-адресов.
  • [C#] Добавлена поддержка ведения журнала на основе EventSource .
  • [Python] Добавлена поддержка проверки подлинности AzureKeyCredential.

Исправления ошибок

  • Исправлена проблема ja-JP произношения в внедренном тексте в речь.
  • Исправлено заметное увеличение использования памяти в течение длительного периода времени в внедренном тексте.
  • Исправлена ошибка, вызванная состоянием гонки во время ожидания остановки распознавания.
  • [JavaScript] Исправлена проблема, из-за которой fromHost служба контейнеров Docker не работала.

Образцы

  • Обновленные примеры, демонстрирующие использование проверки подлинности AzureKeyCredential и Microsoft Entra ID token credential.
  • [JavaScript, Python] Обновлены примеры для использования fromEndpoint.

Пакет SDK для службы "Речь" 1.45: выпуск 2025-июль

Новые возможности:

  • Добавлена поддержка настройки веса грамматики списка фраз.
  • Добавлены более конкретные коды ошибок открытия файла.
  • Обновлена поддержка пути Юникода, чтобы пакеты SDK Windows DLL могли находиться в путях, отличных от ASCII.
  • Обновленные описания свойств стратегии сегментации для соответствия логике службы.
  • [C#, Java] Добавлена поддержка проверки подлинности с помощью ApiKeyCredential.

Исправления ошибок

  • Исправлена ошибка инициализации Microsoft audio Stack (MAS) о геометрии микрофона в определенных регионах.
  • Исправлены параметры ненормативной лексики, не работающие в переводе речи (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2856).
  • Исправлен сбой в шаблоне распознавания намерений, сопоставленном с японским языком.
  • Исправлено разрешение личного домена, не работающее с Node.js версии 22 или более поздней версии.

Образцы

  • [Java] Добавлен пример кода для демонстрации проверки подлинности учетных данных маркера Microsoft Entra ID.

Пакет SDK для службы "Речь" 1.44.1: исправление

Пакет SDK версии 1.44.1 выпущен только для JavaScript с 4 исправлениями ошибок:

Исправления ошибок

  • Исправлено исключение вне диапазона, если был предоставлен только один параметр элемента управления сегментацией.
  • enableDictation не был правильно передан службе "Речь".
  • ConversationTranscriber не использовал правильный путь URL-адреса при создании с помощью метода fromEndpoint.
  • Исправлена ошибка при отправке данных в входной поток после его отключения.

Пакет SDK для службы "Речь" 1.44: выпуск за май 2025 г.

Важно

Поддержка целевых платформ изменяется:

  • Минимальная поддерживаемая версия Android теперь — Android 8.0 (уровень API 26).
  • Публикация пакетов Unity пакета sdk для службы "Речь" приостановлена после этого выпуска.

Новые возможности:

  • Добавлена поддержка размеров страницы памяти Android 16 КБ.
  • Сокращение задержки событий SpeechStartDetected в встроенном распознавании речи.
  • [C++, Python] Добавлен метод для получения доступного размера AudioDataStream.
  • [C++, Python] Добавлена поддержка пользовательских URL-адресов лексикона и предпочитаемых языковых стандартов в запросах синтеза речи.
  • [Java, Python] Добавлена поддержка проверки подлинности на основе маркеров Microsoft Entra с автоматическим обновлением маркера.
  • [Go] Добавлена поддержка транскрибирования бесед.

Исправления ошибок

  • Исправлена функция синтеза речи перевода, не работающая при обнаружении исходного языка.
  • Исправлены пути к файлам без символов ASCII, которые не работают для внедренных моделей речи, моделей KWS или файлов журналов (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288).
  • Исправлен цикл NoMatch в внедренном распознавании речи в определенных условиях.
  • Исправлен деструктор собственных объектов, блокируемых из-за того, что распознавание не отмечено как остановленное при отключении событий.
  • Исправлен шаблон IntentRecognizer, который не работает правильно с несколькими байтами в определенных условиях.
  • Вызов Close() объекта Connection не был синхронным.
  • Исправлено состояние гонки в соединении, которое может привести к аварии.
  • [macOS] Исправлено сообщение Info:, отображающееся в консоли (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610).

Образцы

  • [Python] Добавлен пример кода для recognizer с использованием учетных данных маркера Microsoft Entra.

Пакет SDK службы "Речь" для JavaScript

Новые возможности:

  • Обновленная зависимость разработки: TypeScript 3.5.3 → 4.5
  • Обновлен параметр TranslationRecognizer для использования конечных точек версии 2 по умолчанию.
  • Обновлена функция SpeechRecognizer для использования конечных точек версии 2.
    • Это приводит к тому, что результаты NoMatch больше не получаются.
  • Добавлена поддержка проверки подлинности на основе маркеров Microsoft Entra для распознавания речи и перевода.
  • Обновленный API FromEndpoint рекомендуется использовать для создания SpeechConfig для большинства сценариев.
    • Применимо к использованию:
      • Speechrecognizer
      • TranslationRecognizer (через SpeechTranslationConfig)
      • ConversationTranscriber
      • SpeechSynthesizer
    • Теперь можно использовать конечную точку на портале Azure для ресурсов Speech и Microsoft Foundry для создания объекта SpeechConfig.
    • Все остальные методы для создания speechConfig продолжают функционировать и поддерживаются.
Исправления ошибок

Пакет SDK для службы "Речь" 1.43: выпуск за март 2025 г.

Примечание

Срок действия "стандартного обслуживания безопасности" ubuntu 20.04 истекает в апреле 2025 г. и больше не будет доступен как агенты сборки ADO. Для будущих выпусков пакета SDK службы "Речь" требуется Ubuntu 22.04 LTS (вместо Ubuntu 20.04) в качестве минимально поддерживаемой версии.

Новые возможности:

  • Обновленный API FromEndpoint рекомендуется использовать для создания SpeechConfig для большинства сценариев.
    • Применимо к использованию:
      • Speechrecognizer
      • TranslationRecognizer (через SpeechTranslationConfig)
      • ConversationTranscriber
      • SpeechSynthesizer во всех языках программирования, кроме JavaScript.
    • Теперь можно использовать конечную точку на портале Azure для ресурсов Службы "Речь" и Cognitive Services для создания объекта SpeechConfig.
    • Все остальные методы для создания speechConfig продолжают функционировать и поддерживаются.
  • Обновлен параметр TranslationRecognizer для использования конечных точек версии 2 по умолчанию.
    • Это перемещает параметры управления из URL-адреса в сообщения в канале при использовании конечной точки версии 2.
    • Изменение поведения: язык по умолчанию, возвращаемый для "zh", теперь "zh-CN" вместо "zh-hans"
  • Добавлены идентификаторы свойств для SpeechSynthesis_FrameTimeoutInterval и SpeechSynthesis_RtfTimeoutThreshold.
  • Оптимизировано время повторного подключения пакета SDK для длительных распознаваний.
  • [C++, Python] Добавлена поддержка указания стиля и температуры в запросах потоковой передачи текста.
  • [C#] Добавлена поддержка автоматического обновления маркера Microsoft Entra ID при использовании FromEndpoint для создания объекта конфигурации.
    • Это добавляет зависимость от пакета SDK службы "Речь" в Azure. Основной пакет NuGet.
    • Пакет SDK службы "Речь" теперь может принимать производные объекты TokenCredential для проверки подлинности при использовании:
      • Speechrecognizer
      • TranslationRecognizer
      • ConversationTranscriber
  • [Objective-C] Обновлен spXTranslationRecognizer для поддержки автоматического обнаружения языка источника из открытого диапазона.
  • [Objective-C , Python] Добавлены API диагностики EventLogger, FileLogger и MemoryLogger.
  • [Go]: добавлена поддержка TranslationRecognizer

Исправления ошибок

Образцы

  • [C++] Добавлен пример для автономного распознавания намерений с помощью сопоставления шаблонов.
    • После выхода из эксплуатации службы LUIS в октябре 2025 г. пакет SDK службы "Речь" также завершит работу с семейством объектов IntentRecognizer.
    • Перед этим мы хотели поделиться реализацией для сопоставления шаблонов.
  • [C++, C#, Java, Python] Обновлены большинство примеров, чтобы использовать API FromEndpoint вместо FromSubscription.
  • [C#] Добавлен пример сценария для многоуровневого приложения распознавания речи.
    • Демонстрирует методологию воспроизведения звука и повторного подключения с пограничного устройства к службе среднего уровня, которая затем перенаправит звук в службу "Речь" через пакет SDK службы "Речь"
  • [C#] Обновлены примеры для использования автоматического обновления маркера Microsoft Entra ID.
  • [Python] Добавлены примеры для новых API диагностики.
  • [Unity] Добавлены инструкции по установке нового Azure. Основная зависимость.

Пакет SDK для службы "Речь" 1.42.0: выпуск 2024-декабрь

Новые возможности

  • Java. Добавлены API ведения журнала диагностики с помощью классов FileLogger, MemoryLogger, EventLogger и SpxTrace.
  • Поддержка отправки свойства JSON "details" участника собрания в службу
  • Go: добавлен идентификатор общедоступного свойства SpeechServiceConnection_ProxyHostBypass, чтобы указать узлы, для которых прокси-сервер не используется.
  • JavaScript, Go: добавлен идентификатор общедоступного свойства Speech_SegmentationStrategy, чтобы определить, когда фраза закончилась, и должен быть создан окончательный распознанный результат (включая семантические сегментации)
  • JavaScript, Go: добавлен идентификатор общедоступного свойства Speech_SegmentationMaximumTimeMs определить конец фразы на основе времени в Java, Python, C#, C++

Исправления ошибок

  • Исправлена встроенная функция TTS,загруженная для каждого синтеза, если имя голоса не задано.
  • Исправлены проблемы вычисления смещения при использовании MeetingTranscriber в некоторых сценариях.
  • Исправлена потенциальная взаимоблокировка при регистрации нескольких прослушивателей событий диагностики параллельно.
  • (JavaScript) Исправлена возможная потеря результатов NoMatch в конце звука. Это исправление также выравнивает поведение в конце речи с другими языками SDK и может привести к тому, что некоторые пустые события больше не вызываются.
  • (JavaScript) Исправление смещения в результате JSON для выравнивания с смещением объектов результатов. Ранее было исправлено только свойство смещения объекта результата до учета повторного подключения службы.
  • Язык Go: исправлена ошибка компиляции https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
  • Исправлено смещение результатов при транскрибировании собраний при повторном подключении к службе.
  • Исправлена взаимоблокировка в журнале.

Образцы

  • Обновлены примеры C# для использования .NET 8.0.
  • Java пример использования API ведения журнала диагностики, показывающий использование новых классов ведения журнала диагностики.

Выпуск за ноябрь 2024 г.

Azure речь в наборе средств Foundry Tools Toolkit для Visual Studio Code

Azure расширение Speech Toolkit теперь доступно для Visual Studio Code пользователей. Он содержит список кратких запусков речи и примеры сценариев, которые можно легко создать и запустить с помощью простых щелчков мыши. Дополнительные сведения см. в разделе Azure Набор средств службы "Речь" в Visual Studio Code Marketplace.

Примеры кода аватара для преобразования текста в речь

Мы добавили текст в примеры кода аватара для Android и iOS. В этих примерах показано, как использовать текст в режиме реального времени для аватаров речи в мобильных приложениях.

Пакет SDK для службы "Речь" 1.41.1: выпуск за октябрь 2024 г.

Новые возможности

  • Добавлена поддержка Amazon Linux 2023 и Azure Linux 3.0.
  • Добавлен идентификатор общедоступного свойства SpeechServiceConnection_ProxyHostBypass, чтобы указать узлы, для которых прокси-сервер не используется.
  • Добавлены свойства для управления новыми стратегиями сегментации фраз.

Исправления ошибок

  • Исправлена неполная поддержка расширенных моделей распознавания ключевых слов, созданных после августа 2024 года.
  • Исправлена утечка памяти в C#, связанная с использованием строк.
  • Исправлено, не удается получить SPXAutoDetectSourceLanguageResult из SPXConversationTranscriptionResult в Objective-C и Swift.
  • Исправлен случайный сбой при использовании Microsoft аудио стека в распознавании.
  • Исправлены указания типов в Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
  • Исправлено, что не удается получить список голосов TTS при использовании пользовательской конечной точки.
  • Исправлена повторная инициализация внедренных TTS для каждого запроса речи при указании голоса коротким именем.
  • Исправлена справочная документация по API для максимальной длительности звука RecognizeOnce.
  • Исправлена обработка произвольных частот выборки ошибок в JavaScript
    • Благодаря rseanhall за этот вклад.
  • Исправлена ошибка вычисления смещения звука в JavaScript
    • Благодаря motamed за этот вклад.

Критические изменения

  • Поддержка распознавания ключевых слов в Windows ARM 32-разрядной версии была удалена из-за требуемой среды выполнения ONNX, недоступной для этой платформы.

Пакет SDK для службы "Речь" версии 1.40: выпуск 2024-август

Примечание

Пакет SDK службы "Речь" версии 1.39.0 был внутренним выпуском и не отсутствует.

Новые возможности

  • Добавлена поддержка потоковой передачи сжатого G.722 звука в распознавании речи.
  • Добавлена поддержка шага, скорости и громкости в входной потоковой передаче текста в синтезе речи.
  • Добавлена поддержка потоковой передачи текста голосового ввода, введя PersonalVoiceSynthesisRequest в синтез речи. Этот API находится в предварительной версии и подлежит изменению в будущих версиях.
  • Добавлена поддержка диаризации промежуточных результатов при ConversationTranscriber использовании.
  • Удалена поддержка CentOS/RHEL 7 из-за окончания поддержки CentOS 7 и окончания поддержки обслуживания RHEL 7 2.
  • Теперь для использования внедренных моделей речи требуется лицензия на модель, а не ключ модели. Если вы являетесь существующим клиентом встроенной речи и хотите обновить службу поддержки, обратитесь в службу поддержки Microsoft для получения дополнительных сведений об обновлениях моделей.

Исправления ошибок

Образцы

  • Обновлены внедренные примеры речи, чтобы использовать лицензию модели вместо ключа.

Пакет SDK для службы "Речь" 1.38.0: выпуск за июнь 2024 г.

Новые возможности

  • Обновление требований к платформе Linux пакета SDK для службы "Речь"
    • Новый минимальный базовый план — Ubuntu 20.04 LTS или совместим с glibc 2.31 или более поздней версией.
    • Двоичные файлы для Linux x86 удаляются в соответствии с поддержкой платформы Ubuntu 20.04.
    • Обратите внимание, что RHEL/CentOS 7 остается поддерживаемым до 30 июня (конец CentOS 7 и окончание поддержки обслуживания RHEL 7 2). Двоичные файлы для них будут удалены в выпуске пакета SDK для службы "Речь" версии 1.39.0.
  • Добавьте поддержку OpenSSL 3 в Linux.
  • Добавьте поддержку формата вывода звука g722-16khz-64kbps с синтезатором речи.
  • Добавьте поддержку отправки сообщений через объект подключения с синтезатором речи.
  • Добавьте API Start/StopKeywordRecognition в Objective-C и Swift.
  • Добавьте API для выбора категории пользовательской модели перевода.
  • Обновление использования GStreamer с помощью синтезатора речи.

Исправления ошибок

  • Исправлена ошибка "Размер сообщения Websocket не может превышать 65 536 байт" во время start/StopKeywordRecognition.
  • Исправлена ошибка сегментации Python во время синтеза речи.

Образцы

  • Обновление примеров C# для использования .NET 6.0 по умолчанию.

Пакет SDK службы "Речь" 1.37.0: выпуск 2024-апрель

Новые возможности

  • Добавьте поддержку потоковой передачи текста ввода в синтез речи.
  • Измените голос синтеза речи по умолчанию на en-US-AvaMultilingualNeural.
  • Обновите сборки Android, чтобы использовать OpenSSL 3.x.

Исправления ошибок

Образцы

  • Обновлено для новых функций.

Пакет SDK для службы "Речь" 1.36.0: выпуск за март 2024 г.

Новые возможности

  • Добавьте поддержку идентификации языка в многоязычном переводе конечных точек версии 2 с помощью AutoDetectSourceLanguageConfig::FromOpenRange().

Исправления ошибок

  • Исправление события SynthesisCanceled, не запущенное при вызове остановки во время события SynthesisStarted.

  • Исправлена проблема с шумом во встроенном синтезе речи.

  • Исправьте сбой во встроенном распознавании речи при параллельном выполнении нескольких распознавателей.

  • Исправьте параметр режима обнаружения фраз в конечных точках версии 1/2.

  • Устранены различные проблемы с Microsoft аудио стеком.

Образцы

  • Обновления новых функций.

Пакет SDK для службы "Речь" 1.35.0: выпуск за февраль 2024 г.

Новые возможности

  • Измените текст по умолчанию на голос речи с en-US-JennyMultilingualNeural на en-US-AvaNeural.
  • Поддержка сведений на уровне слова в внедренных результатах перевода речи с помощью подробного формата выходных данных.

Исправления ошибок

  • Исправление API получения позиции AudioDataStream в Python.
  • Исправление перевода речи с помощью конечных точек версии 2 без обнаружения языка.
  • Исправьте случайный сбой и повторяющиеся события границ слова в внедренном тексте в речь.
  • Возвращает правильный код ошибки отмены для внутренней ошибки сервера в подключениях WebSocket.
  • Исправлена ошибка загрузки библиотеки FPIEProcessor.dll при использовании MAS с C#.

Образцы

  • Незначительные обновления форматирования для примеров встроенного распознавания.

Пакет SDK службы "Речь" 1.34.1: выпуск за январь 2024 г.

Критические изменения

  • Исправление ошибок только

Новые возможности

  • Исправление ошибок только

Исправления ошибок

  • Исправлена регрессия, представленная в версии 1.34.0, где URL-адрес конечной точки службы был создан с плохими сведениями о языковом стандарте для пользователей в нескольких регионах Китая.

Пакет SDK для службы "Речь" 1.34.0: выпуск за ноябрь 2023 г.

Критические изменения

  • SpeechRecognizer обновляется, чтобы использовать новую конечную точку по умолчанию (то есть, если не явно указывать URL-адрес), который больше не поддерживает параметры строки запроса для большинства свойств. Вместо настройки параметров строки запроса непосредственно с помощью ServicePropertyChannel.UriQueryParameter используйте соответствующие функции API.

Новые возможности

  • Совместимость с .NET 8 (исправление для https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 за исключением предупреждения о centos7-x64)
  • Поддержка встроенных метрик производительности речи, которые можно использовать для оценки возможностей устройства для запуска внедренной речи.
  • Поддержка идентификации исходного языка в внедренном многоязычном переводе.
  • Поддержка встроенной речи в текст, текст в речь и перевод для iOS и Swift/Objective-C выпущена в предварительной версии.
  • Встроенная поддержка предоставляется в MicrosoftCognitiveServicesSpeechEmbeddededed-iOS Cocoapod.

Исправления ошибок

  • Исправление для пакета SDK для iOS x2 раз увеличения двоичного размера · Проблема #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Исправление ошибки, чтобы получить метки времени на уровне слова из Azure речи в текстовый API · Проблема #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Исправьте этап уничтожения DialogServiceConnector, чтобы правильно отключить события. Это приводило к сбою иногда.
  • Исправлено исключение во время создания распознавателя при использовании MAS.
  • FPIEProcessor.dll из Microsoft. Пакет NuGet CognitiveServices.Speech.Extension.MAS для Windows UWP x64 и Arm64 имели зависимость от библиотек среды выполнения VC для машинного C++. Проблема была исправлена путем обновления зависимости до исправления библиотек среды выполнения VC (для UWP).
  • Исправление для повторяющих SPXERR_ALREADY_INITIALIZED ся вызовов распознаванияOnceAsync при использовании MAS · Проблема #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Исправлена ошибка встроенного распознавания речи при использовании списков фраз.

Образцы

  • Внедренные примеры iOS для преобразования речи в текст, текст для речи и перевода.

Интерфейс командной строки службы "Речь" 1.34.0: выпуск за ноябрь 2023 г.

Новые возможности

  • Поддержка выходных данных событий границ слова при синтезе речи.

Исправления ошибок

  • Обновлена зависимость JMESPath до последнего выпуска, улучшается оценка строк

Пакет SDK для службы "Речь" 1.33.0: выпуск за октябрь 2023 г.

Уведомление о критических изменениях

  • Новый пакет NuGet, добавленный для Microsoft Audio Stack (MAS), теперь требуется включить в приложения, использующие MAS в файлах конфигурации пакета.

Новые возможности

  • Добавлен новый пакет NuGet Microsoft. CognitiveServices.Speech.Extension.MAS.nupkg, который обеспечивает улучшенную производительность отмены эха при использовании Microsoft аудиотек
  • Оценка произношения: добавлена поддержка просодии и оценки содержимого, которая может оценить речь с точки зрения просодии, словаря, грамматики и темы.

Исправления ошибок

Образцы

Интерфейс командной строки службы "Речь" 1.33.0: выпуск за октябрь 2023 г.

Новые возможности

  • Поддержка выходных данных событий границ слова при синтезе речи.

Исправления ошибок

  • Ни один

Пакет SDK для службы "Речь" версии 1.32.1: выпуск за сентябрь 2023 г.

Исправления ошибок

  • Обновления пакетов Android с последними исправлениями безопасности из OpenSSL1.1.1v
  • JS — свойство WebWorkerLoadType, добавленное для разрешения обхода загрузки URL-адреса данных для рабочей роли времени ожидания
  • JS — исправление отключения перевода бесед через 10 минут
  • JS — маркер проверки подлинности перевода бесед из беседы теперь распространяется на подключение службы перевода

Образцы

Пакет SDK для службы "Речь" 1.31.0: выпуск за август 2023 г.

Новые возможности

  • Поддержка диаризации в режиме реального времени доступна в общедоступной предварительной версии с помощью пакета SDK для службы "Речь" 1.31.0. Эта функция доступна в следующих пакетах SDK: C#, C++, Java, JavaScript, Python и Objective-C/Swift.

  • Синхронизированные события синтеза речи и события viseme с воспроизведением звука

Критические изменения

  • Бывший сценарий транскрибирования бесед переименовывается в "транскрибирование собраний". Например, используйте MeetingTranscriber вместо ConversationTranscriberнего и используйте CreateMeetingAsync вместо CreateConversationAsyncнего. Хотя имена объектов и методов пакета SDK изменились, переименование не изменяет саму функцию. Используйте объекты транскрибирования собраний для транскрибирования собраний с профилями пользователей и подписями голоса. Объекты и методы перевода бесед не влияют на эти изменения. Объект и его методы по-прежнему можно использовать ConversationTranslator для сценариев перевода собраний.

  • Для диаризации в режиме реального времени представлен новый ConversationTranscriber объект. Новая объектная модель транскрибирования бесед и шаблоны вызовов похожи на непрерывное распознавание с SpeechRecognizer объектом. Ключевое различие заключается в том, что ConversationTranscriber объект предназначен для использования в сценарии беседы, в котором требуется различать несколько динамиков (диаризация). Профили пользователей и голосовые подписи не применимы. Дополнительные сведения см. в кратком руководстве по диаризации в режиме реального времени .

В этой таблице показаны предыдущие и новые имена объектов для диаризации в режиме реального времени и транскрибирования собраний. Имя сценария находится в первом столбце, предыдущие имена объектов находятся во втором столбце, а новые имена объектов находятся в третьем столбце.

Имя сценария Предыдущие имена объектов Новые имена объектов
Диаризация в режиме реального времени N/A ConversationTranscriber
Транскрибирование собраний ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant 1
ParticipantChangedReason 1
User 1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting 2

1 Объекты ParticipantParticipantChangedReasonи User объекты применимы как к транскрибированию собраний, так и к сценариям перевода собраний.

2 Объект Meeting является новым и используется с MeetingTranscriber объектом.

Исправления ошибок

Образцы

Пакет SDK для службы "Речь" 1.30.0: выпуск за июль 2023 г.

Новые возможности

  • C++, C#, Java — добавлена поддержка DisplayWords в подробном результате встроенного распознавания речи.
  • Objective-C/Swift — добавлена поддержка ConnectionMessageReceived события в Objective-C/Swift.
  • Objective-C/Swift — улучшенные модели выявления ключевых слов для iOS. Это изменение увеличило размер определенных пакетов, содержащих двоичные файлы iOS (например, NuGet, XCFramework). Мы работаем над уменьшением размера будущих выпусков.

Исправления ошибок

  • Исправлена утечка памяти при использовании распознавателя речи с PhraseListGrammar, как сообщает клиент (проблема GitHub).
  • Исправлена взаимоблокировка текста для преобразования речи в API открытых подключений.

Дополнительные заметки

  • Java . Некоторые методы API public Java были изменены на пакет internal, protected или private. Это изменение не должно влиять на разработчиков, так как мы не ожидаем, что приложения будут использовать их. Отмечается здесь для прозрачности.

Образцы

  • Новые примеры оценки произношения о том, как указать язык обучения в собственном приложении

Пакет SDK для службы "Речь" 1.29.0: выпуск за июнь 2023 г.

Новые возможности

  • C++, C#, Java — предварительная версия внедренных API перевода речи. Теперь вы можете выполнять перевод речи без облачного подключения!
  • JavaScript — непрерывная идентификация языка (LID) теперь включена для перевода речи.
  • JavaScript — вклад сообщества для добавления LocaleName свойства в VoiceInfo класс. Благодарим GitHub пользователя shivsarthak за запрос на вытягивание.
  • C++, C#, Java — добавлена поддержка перенастраивание выходных данных внедренного текста в речь с частотой от 16 кГц до 48 кГц.
  • Добавлена поддержка hi-IN языкового стандарта в распознаватель намерений с помощью простого сопоставления шаблонов.

Исправления ошибок

  • Исправлена авария, вызванная состоянием гонки в Распознаватель речи во время уничтожения объектов, как показано в некоторых наших тестах Android
  • Исправлены возможные взаимоблокировки в распознавателье намерений с помощью простого сопоставления шаблонов

Образцы

  • Новые примеры перевода внедренных речи

Пакет SDK для службы "Речь" 1.28.0: выпуск за май 2023 г.

Критическое изменение

  • Пакет SDK для JavaScript: протокол OCSP (Online Certificate Status Protocol( OCSP) был удален. Это позволяет клиентам лучше соответствовать стандартам браузера и узла для обработки сертификатов. Версия 1.28 и далее больше не будет включать наш пользовательский модуль OCSP.

Новые возможности

  • Встроенное распознавание речи теперь возвращается NoMatchReason::EndSilenceTimeout , когда время ожидания молчания происходит в конце речевых фрагментов. Это соответствует поведению при распознавании с помощью службы распознавания речи в режиме реального времени.
  • Пакет SDK для JavaScript: задайте свойства для SpeechTranslationConfig использования PropertyId значений перечисления.

Исправления ошибок

  • C# на Windows — исправление потенциального состояния гонки или взаимоблокировки в Windows звуковом расширении. В сценариях, которые быстро удаляют средство отрисовки звука, а также используют метод синтезатора для остановки речи, базовое событие не сбрасывается по остановке и может привести к тому, что объект отрисовщика никогда не будет удален, все время как он может хранить глобальную блокировку для удаления, заморозить поток dotnet GC.

Образцы

  • Добавлен внедренный образец речи для MAUI.
  • Обновлен пример внедренной речи для Android Java, чтобы включить текст в речь.

Пакет SDK для службы "Речь" 1.27.0: выпуск за апрель 2023 г.

Уведомление о предстоящих изменениях

  • Мы планируем удалить протокол состояния сертификатов в Интернете (OCSP) в следующем выпуске пакета SDK javaScript. Это позволяет клиентам лучше соответствовать стандартам браузера и узла для обработки сертификатов. Версия 1.27 — это последний выпуск, включающий наш пользовательский модуль OCSP.

Новые возможности

  • JavaScript — добавлена поддержка ввода микрофона из браузера с помощью идентификации и проверки говорящего.
  • Встроенное распознавание речи — обновление поддержки PropertyId::Speech_SegmentationSilenceTimeoutMs параметров.

Исправления ошибок

  • Общие — обновления надежности в логике повторного подключения служб (все языки программирования, кроме JavaScript).
  • General — исправление утечки памяти строк в Windows (все соответствующие языки программирования, кроме JavaScript).
  • Встроенное распознавание речи — исправление сбоя во французском распознавании речи при использовании определенных записей списка грамматики.
  • Документация по исходному коду — исправления в справочной документации по пакету SDK, связанные с ведением журнала звука в службе.
  • Распознавание намерений — исправление приоритетов сопоставления шаблонов, связанных с сущностями списка.

Образцы

  • Правильно обработайте сбой проверки подлинности в примере транскрибирования бесед C# (CTS).
  • Добавлен пример оценки произношения потоковой передачи для Python, JavaScript, Objective-C и Swift.

Пакет SDK для службы "Речь" версии 1.26.0: выпуск за март 2023 г.

Критические изменения

  • Bitcode отключен во всех целевых объектах iOS в следующих пакетах: Cocoapod с xcframework, NuGet (для Xamarin и MAUI) и Unity. Это изменение связано с прекращением поддержки биткода Apple из Xcode 14 и более поздних версий. Это изменение также означает, что если вы используете Xcode 13 версии или явно включили бит-код в приложении с помощью пакета SDK службы "Речь", может возникнуть ошибка с сообщением "платформа не содержит биткода, и необходимо перестроить его". Чтобы устранить эту проблему, убедитесь, что целевые объекты отключили битовый код.
  • Минимальный целевой объект развертывания iOS обновляется до версии 11.0 в этом выпуске, что означает, что armv7 HW больше не поддерживается.

Новые возможности

  • Встроенное распознавание речи (на устройстве) теперь поддерживает как 8, так и 16-кГц входной звук частоты выборки (16-разрядный на выборку, моно PCM).
  • Синтез речи теперь сообщает о задержках подключения, сети и службы, чтобы помочь в комплексной оптимизации задержки.
  • Новые правила нарушения привязки для распознавания намерений с простым сопоставлением шаблонов. Чем больше символов, тем больше байтов, которые совпадают, выиграют над шаблонными совпадениями с нижним числом байтов. Пример: шаблон "Выбрать {что-то} в правом верхнем углу" выиграет "Выбрать {что-то}"

Исправления ошибок

  • Синтез речи: исправлена ошибка, из-за которой эмодзи не правильно в событиях границ слова.
  • Intent Recognition with Conversational Распознавание речи (CLU):
    • Намерения из рабочего процесса оркестратора CLU теперь отображаются правильно.
    • Результат JSON теперь доступен с помощью идентификатора LanguageUnderstandingServiceResponse_JsonResultсвойства.
  • Распознавание речи с активацией ключевых слов: исправление отсутствия звука около 150 мс после распознавания ключевых слов.
  • Исправление сборки выпуска пакета SDK для службы "Речь" для NuGet iOS MAUI, сообщаемой клиентом (проблема GitHub)

Образцы

  • Исправление примера Swift iOS, сообщаемого клиентом (проблема GitHub)

Пакет SDK для службы "Речь" 1.25.0: выпуск за январь 2023 г.

Критические изменения

  • API-интерфейсы идентификации языка (предварительная версия) были упрощены. Если вы обновляете пакет SDK для службы "Речь" версии 1.25 и видите разрыв сборки, посетите страницу идентификации языка , чтобы узнать о новом свойстве SpeechServiceConnection_LanguageIdMode. Это одно свойство заменяет два предыдущих SpeechServiceConnection_SingleLanguageIdPriority и SpeechServiceConnection_ContinuousLanguageIdPriority. Приоритет между низкой задержкой и высокой точностью больше не требуется после недавних улучшений модели. Теперь при выполнении непрерывного распознавания речи или перевода необходимо выбрать, следует ли выполнять функцию при запуске или непрерывной идентификации языка.

Новые возможности

  • C#/C++/Java: внедренный пакет SDK службы "Речь" теперь выпущен в общедоступной предварительной версии. См. документацию по внедренной речи (предварительная версия). Теперь вы можете выполнять речь на устройстве с текстом и текстом, если подключение к облаку периодически или недоступно. Поддерживается на платформах Android, Linux, macOS и Windows
  • C# MAUI: поддержка целевых объектов iOS и Mac Catalyst в Пакете SDK службы "Речь" (Customer проблема)
  • Unity: архитектура Android x86_64 добавлена в пакет Unity (проблема Customer)
  • Перейти:
    • Поддержка прямой потоковой передачи ALAW/MULAW, добавленная для распознавания речи (проблема с клиентом)
    • Добавлена поддержка PhraseListGrammar. Благодарим GitHub пользователя locoko за вклад сообщества!
  • C#/C++: Распознаватель намерений теперь поддерживает модели общения Распознавание речи в C++ и C# с оркестрацией в службе Microsoft

Исправления ошибок

  • Исправление случайного зависания в KeywordRecognizer при попытке остановить его
  • Python:
    • Исправление для получения результатов оценки произношения при установке PronunciationAssessmentGranularity.FullText (проблема Customer)
    • Исправление гендерных свойств для голосов мужчин, которые не извлекаются, при получении голосов синтеза речи
  • Javascript
    • Исправлена проблема синтаксического анализа некоторых WAV-файлов, записанных на устройствах iOS (проблема Customer)
    • Пакет SDK для JS теперь создает без использования npm-force-resolutions (проблема с клиентом)
    • Переводчик бесед теперь правильно задает конечную точку службы при использовании экземпляра speechConfig, созданного с помощью SpeechConfig.fromEndpoint()

Образцы

  • Добавлены примеры использования внедренной речи

  • Добавлен пример речи в текст для MAUI

    Ознакомьтесь с репозиторием примеров пакета SDK Speech SDK.

Пакет SDK для службы "Речь" 1.24.2: выпуск за ноябрь 2022 г.

Новые возможности

  • Нет новых функций, просто исправление встроенного ядра для поддержки новых файлов моделей.

Исправления ошибок

  • Все языки программирования
    • Исправлена проблема с шифрованием внедренных моделей распознавания речи.

Пакет SDK для службы "Речь" 1.24.1: выпуск за ноябрь 2022 г.

Новые возможности

  • Опубликованные пакеты для предварительной версии встроенной речи. Дополнительные сведения см. в статье https://aka.ms/embedded-speech

Исправления ошибок

  • Все языки программирования
    • Исправлена ошибка встроенного сбоя TTS, если шрифт голосовой связи не поддерживается
    • Исправление stopSpeaking() не может остановить воспроизведение в Linux (#1686)
  • JavaScript SDK
    • Исправлена регрессия в том, как транскрибируемый звук беседы.
  • Java
    • Временно опубликовано обновленные файлы POM и Javadocs в Maven Central, чтобы конвейер документов мог обновлять справочные документы в Интернете.
  • Python
    • Исправлена регрессия, когда Python speak_text(ssml) возвращает void.

Пакет SDK для службы "Речь" 1.24.0: выпуск за октябрь 2022 г.

Новые возможности

  • Все языки программирования: AMR-WB (16 кгц), добавленный в поддерживаемый список форматов вывода звука в речь
  • Python: пакет, добавленный для Linux Arm64 для поддерживаемых дистрибутивов Linux.
  • C#/C++/Java/Python: добавлена поддержка ALAW и MULAW прямая потоковая передача в службу распознавания речи (в дополнение к существующему потоку PCM) с помощью AudioStreamWaveFormat.
  • C# MAUI: пакет NuGet обновлен для поддержки целевых объектов Android для разработчиков .NET MAUI (проблема Customer)
  • Mac: добавлен отдельный XCframework для Mac, который не содержит двоичных файлов iOS. Это позволяет разработчикам, которым требуется только двоичные файлы Mac, используя меньший пакет XCframework.
  • Microsoft звуковой стек (MAS):
    • При указании углов формирования луча звук, исходящий за пределами указанного диапазона, будет подавляться лучше.
    • Примерно 70% уменьшить размер libMicrosoft.CognitiveServices.Speech.extension.mas.so Linux ARM32 и Linux Arm64.
  • Распознавание намерений с помощью сопоставления шаблонов:
    • Добавление поддержки орфографии для языков fr, , esdejp
    • Добавлена предварительно созданная поддержка целочисленного числа для языка es.

Исправления ошибок

  • iOS: исправлена ошибка синтеза речи в iOS 16, вызванная сбоем декодирования сжатого звука (проблема Customer).
  • JavaScript:
    • Исправление маркера проверки подлинности, не работающего при получении голосового списка синтеза речи (проблема клиента).
    • Используйте URL-адрес данных для загрузки рабочих ролей (проблема с клиентом).
    • Создайте рабочий лет звукового процессора, только если AudioWorklet поддерживается в браузере (проблема с клиентом). Это был вклад сообщества Уильям Вонг. Спасибо Уильяму!
    • Исправьте распознанный обратный вызов, если ответ LUIS connectionMessage пуст (проблема Customer).
    • Правильно задать время ожидания сегментации речи.
  • Распознавание намерений с помощью сопоставления шаблонов:
    • Символы, отличные от json в моделях, теперь загружают правильно.
    • Исправлена проблема с зависанием при recognizeOnceAsync(text) вызове во время непрерывного распознавания.

Пакет SDK для службы "Речь" версии 1.23.0: выпуск за июль 2022 г.

Новые возможности

  • C#, C++, Java: добавлена поддержка языков zh-cn и zh-hk в распознавании намерений с сопоставлением шаблонов.
  • C#: добавлена поддержка сборок AnyCPU .NET Framework

Исправления ошибок

  • Android: исправлена уязвимость OpenSSL CVE-2022-2068, обновив OpenSSL до версии 1.1.1q
  • Python: исправлен сбой при использовании PushAudioInputStream
  • iOS: исправлена ошибка "EXC_BAD_ACCESS: попытка разыменовать указатель null", как сообщается в iOS (проблема GitHub)

Пакет SDK для службы "Речь" версии 1.22.0: выпуск за июнь 2022 г.

Новые возможности

  • Java: Api IntentRecognitionResult для getEntities(), applyLanguageModels(), и recognizeOnceAsync(text) добавлен для поддержки подсистемы "простого сопоставления шаблонов".
  • Unity: добавлена поддержка пакета Mac M1 (Apple Silicon) для пакета Unity (GitHub)
  • C#: добавлена поддержка x86_64 для Xamarin Android (проблема GitHub)
  • C#: минимальная версия платформы .NET обновлена до версии 4.6.2 для пакета C# пакета SDK, так как версия 4.6.1 прекращена (см. политику жизненного цикла компонентов платформы Microsoft .NET/c1)
  • Linux: добавлена поддержка Debian 11 и Ubuntu 22.04 LTS. Для Ubuntu 22.04 LTS требуется ручная установка libssl1.1 либо в виде двоичного пакета (например , libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb или более поздней версии для x64), либо путем компиляции из источников.

Исправления ошибок

  • UWP: зависимость OpenSSL удалена из библиотек UWP и заменена веб-интерфейсами WinRT websocket и HTTP API для обеспечения соответствия требованиям безопасности и меньшего двоичного пространства.
  • Mac: исправлена проблема "Модуль MicrosoftCognitiveServicesSpeech Not Found" при использовании проектов Swift, предназначенных для платформы macOS
  • Windows, Mac. Исправлена проблема, связанная с платформой, из-за которой источники звука, настроенные с помощью свойств для потоковой передачи в режиме реального времени, иногда отстали и в конечном итоге превысили емкость.

Примеры (GitHub)

  • C#: примеры платформы .NET обновлены для использования версии 4.6.2
  • Unity: пример виртуального помощника, исправленный для Android и UWP
  • Unity: примеры Unity обновлены для версии LTS Unity 2020

Пакет SDK для службы "Речь" 1.21.0: выпуск за апрель 2022 г.

Новые возможности

  • Java & JavaScript: добавлена поддержка непрерывной идентификации языка при использовании объекта SpeechRecognizer
  • JavaScript: добавлены API диагностики для включения ведения журнала консоли и ведения журнала файлов (только для узлов), чтобы помочь Microsoft устранить проблемы, связанные с клиентами.
  • Python: добавлена поддержка транскрибирования бесед
  • Go: добавлена поддержка распознавания говорящего
  • C++ и C#: добавлена поддержка требуемой группы слов в распознавателье намерений (простое сопоставление шаблонов). Например: "(set|start|begin) таймер, в котором должно присутствовать значение "set", "start" или "begin" для распознаваемого намерения.
  • Все языки программирования, синтез речи: добавлено свойство длительности в событиях границ слова. Добавлена поддержка границ препинания и границы предложения
  • Objective-C/Swift/Java: добавлены результаты на уровне слова в объекте результатов оценки произношения (аналогично C#). Приложение больше не должно анализировать строку результатов JSON для получения сведений на уровне слова (GitHub проблема)
  • Платформа iOS: добавлена экспериментальная поддержка архитектуры ARMv7

Исправления ошибок

  • платформа iOS: исправлена возможность создания целевого объекта "Любое устройство iOS", при использовании CocoaPod (проблема GitHub)
  • Платформа Android: версия OpenSSL обновлена до версии 1.1.1n для устранения уязвимости CVE-2022-0778
  • JavaScript: исправлена проблема, из-за которой заголовок wav не был обновлен с размером файла (проблема GitHub)
  • JavaScript: исправление проблем десинхронного перевода идентификатора запроса (проблема GitHub)
  • JavaScript: исправлена проблема при создании экземпляра SpeakerAudioDestination без потока (GitHub]
  • C++: исправление заголовков C++ для удаления предупреждения при компиляции для C++17 или более поздней версии

Примеры GitHub

  • Новые примеры Java для распознавания речи с помощью идентификации языка
  • Новые примеры Python и Java для транскрибирования бесед
  • Новый пример Go для распознавания говорящего
  • Новое средство C++ и C# для Windows, которое перечисляет все устройства записи звука и отрисовки для поиска идентификатора устройства. Этот идентификатор необходим пакетом SDK службы "Речь", если вы планируете записывать звук из или отрисовывать звук в устройство, отличное от времени.

Пакет SDK для службы "Речь" 1.20.0: выпуск за январь 2022 г.

Новые возможности

  • Objective-C, Swift и Python: добавлена поддержка DialogServiceConnector, используемой для сценариев голосового помощника.
  • Python: добавлена поддержка Python 3.10. Поддержка Python 3,6 была удалена на Python в течение 3,6.
  • Unity: пакет SDK службы "Речь" теперь поддерживается для приложений Unity в Linux.
  • C++, C#: IntentRecognizer с использованием сопоставления шаблонов теперь поддерживается в C#. Кроме того, сценарии с пользовательскими сущностями, необязательными группами и ролями сущностей теперь поддерживаются в C++ и C#.
  • C++, C#: улучшено ведение журнала трассировки диагностики с помощью новых классов FileLogger, MemoryLogger и EventLogger. Журналы SDK — это важное средство для Microsoft диагностики проблем, сообщаемых клиентом. Эти новые классы упрощают интеграцию журналов пакета SDK службы "Речь" в собственную систему ведения журнала.
  • Все языки программирования. В файле PronunciationAssessmentConfig теперь есть свойства, чтобы задать нужный алфавит фонемы (IPA или SAPI) и N-Best Phoneme Count (избегая необходимости создавать JSON конфигурации в виде GitHub проблема 1284). Кроме того, выходные данные уровня слога теперь поддерживаются.
  • Android, iOS и macOS (все языки программирования): GStreamer больше не требуется для поддержки сетей с ограниченной пропускной способностью. SpeechSynthesizer теперь использует возможности декодирования звука операционной системы для декодирования сжатых аудиопотоков из текста в службу речи.
  • Все языки программирования: SpeechSynthesizer теперь поддерживает три новых форматов необработанных выходных данных Opus (без контейнера), которые широко используются в динамических сценариях потоковой передачи.
  • JavaScript: добавлен API getVoicesAsync() в SpeechSynthesizer для получения списка поддерживаемых голосов синтеза (GitHub проблема 1350)
  • JavaScript: добавлен API getWaveFormat() в AudioStreamFormat для поддержки форматов волн без PCM (GitHub проблема 452)
  • JavaScript: добавлен метод получения и задания тома и отключение ()/unmute() в SpeakerAudioDestination (GitHub проблема 463)

Исправления ошибок

  • C++, C#, Java, JavaScript, Objective-C и Swift: исправление для удаления 10-секундной задержки при остановке распознавателя речи, использующего PushAudioInputStream. Это касается случаев, когда новый звук не отправляется после вызова StopContinuousRecognition (GitHub проблемы 1318, )
  • Unity в Android и UWP: метафайлы Unity были исправлены для UWP, Android Arm64 и подсистемы Windows для Android (WSA) Arm64 (GitHub проблема 1360)
  • iOS: компиляция приложения пакета SDK службы "Речь" на любом устройстве iOS при использовании CocoaPods теперь исправлена (GitHub проблема 1320)
  • iOS: когда speechSynthesizer настроен для вывода звука непосредственно на динамик, воспроизведение остановлено в начале редких условий. Исправлено.
  • JavaScript: используйте резервный вариант процессора скрипта для ввода микрофона, если не найден звуковой лет (GitHub проблема 455)
  • JavaScript: добавьте протокол для агента для устранения ошибок, обнаруженных с интеграцией Sentry (GitHub проблема 465)

Примеры GitHub

  • C++C#, Python и Java показано, как получить подробные результаты распознавания. Сведения включают альтернативные результаты распознавания, оценку достоверности, Лексическую форму, нормализованную форму, маскированную нормализованную форму с временем на уровне слов для каждого.
  • пример iOS добавлено использование AVFoundation в качестве внешнего источника звука.
  • Java пример, чтобы показать, как получить формат SRT (SubRip Text) с помощью события WordBoundary.
  • Android samples для оценки произношения.
  • C++, C# с использованием новых классов ведения журнала диагностики.

Пакет SDK для службы "Речь" 1.19.0: выпуск 2021-ноябрь

Обзор матча

  • Теперь общедоступная служба распознавания говорящего (GA). API пакета SDK службы "Речь" доступны на C++, C#, Java и JavaScript. Благодаря распознаванию говорящего вы можете точно проверить и идентифицировать динамиков по их уникальным характеристикам голоса. Дополнительные сведения об этом разделе см. в документации.

  • Мы сократили поддержку Ubuntu 16.04 вместе с Azure DevOps и GitHub. Ubuntu 16.04 достигла конца жизни в апреле 2021 года. Перенос рабочих процессов Ubuntu 16.04 в Ubuntu 18.04 или более поздней версии.

  • Связывание OpenSSL в двоичных файлах Linux изменилось на динамическое. Двоичный размер Linux сократился примерно на 50%.

  • Добавлена поддержка кремния на основе Mac M1.

Новые возможности

  • C++/C#/Java: добавлены новые API для включения поддержки обработки звука для ввода речи с помощью Microsoft Audio Stack. Документация здесь.

  • C++: новые API для распознавания намерений для упрощения более расширенного сопоставления шаблонов. Это включает в себя сущности списка и предварительно созданных целых чисел, а также поддержку группирования намерений и сущностей в качестве моделей (документация, обновления и примеры находятся в процессе разработки и будут опубликованы в ближайшем будущем).

  • Mac: поддержка кремния на основе Arm64 (M1) для CocoaPod, Python, Java и пакетов NuGet, связанных с GitHub проблема 1244.

  • iOS/Mac: двоичные файлы iOS и macOS теперь упаковываются в xcframework, связанные с GitHub проблема 919.

  • iOS/Mac: поддержка катализатора Mac, связанного с GitHub проблема 1171.

  • Linux: добавлен новый пакет tar для CentOS7 About the Speech SDK. Пакет Linux .tar теперь содержит определенные библиотеки для RHEL/CentOS 7.lib/centos7-x64 Библиотеки пакета SDK службы "Речь" в lib/x64 по-прежнему применимы ко всем остальным поддерживаемым дистрибутивам Linux x64 (включая RHEL/CentOS 8) и не будут работать в RHEL/CentOS 7.

  • JavaScript: VoiceProfile & SpeakerRecognizer API сделал async/awaitable.

  • JavaScript: поддержка, добавленная для государственных Azure регионов США.

  • Windows: поддержка воспроизведения в Universal Windows Platform (UWP).

Исправления ошибок

  • Android: обновление системы безопасности OpenSSL (обновлено до версии 1.1.1l) для пакетов Android.

  • Python: устранена ошибка, при которой выбор устройства говорящего на Python завершается ошибкой.

  • Ядро. Автоматическое повторное подключение при сбое попытки подключения.

  • iOS: сжатие звука отключено в пакетах iOS из-за нестабильности и проблем сборки бит-кода при использовании GStreamer. Сведения доступны через GitHub проблема 1209.

Примеры GitHub

  • Mac/iOS: обновлены примеры и краткие руководства по использованию пакета xcframework.

  • .NET: примеры обновлены для использования .NET core 3.1 версии.

  • JavaScript: добавлен пример для голосовых помощников.

Пакет SDK для службы "Речь" 1.18.0: выпуск 2021-июль

Примечание. Начало работы с пакетом SDK службы "Речь" здесь.

Сводка по выделению

  • Ubuntu 16.04 достигла конца жизни в апреле 2021 года. С Azure DevOps и GitHub мы опустим поддержку 16.04 в сентябре 2021 года. Перенос рабочих процессов ubuntu-16.04 в ubuntu-18.04 или более поздней версии до этого.

Новые возможности

  • C++: простой шаблон языка, соответствующий распознавательу намерений, теперь упрощает реализацию простых сценариев распознавания намерений.
  • C++/C#/Java. Мы добавили новый API, GetActivationPhrasesAsync() в класс VoiceProfileClient для получения списка допустимых фраз активации на этапе регистрации распознавания говорящего для независимых сценариев распознавания.
    • Важно. Функция распознавания говорящего доступна в предварительной версии. Все профили голосовой связи, созданные в предварительной версии, будут прекращены через 90 дней после перемещения функции распознавания говорящего из предварительной версии в общедоступную доступность. На этом этапе профили голосовой связи предварительной версии перестают работать.
  • Python: добавлено support для объектов непрерывной идентификации языка (LID) для существующих объектов SpeechRecognizer и TranslationRecognizer.
  • Python: добавлен объект new Python с именем SourceLanguageRecognizer для одноразового или непрерывного liD (без распознавания или перевода).
  • JavaScript: getActivationPhrasesAsync API, добавленный в VoiceProfileClient класс для получения списка допустимых фраз активации на этапе регистрации распознавания говорящего для независимых сценариев распознавания речи.
  • JavaScriptVoiceProfileClient' API s enrollProfileAsync теперь является асинхронным для ожидания. Например, использование см. в .

Улучшения

  • Java: AutoCloseable поддерживает множество объектов Java. Теперь модель try-with-resources поддерживается для выпуска ресурсов. См. пример this, использующий try-with-resources. См. также руководство по документации по Oracle Java для Инструкции try-with-resources, чтобы узнать об этом шаблоне.
  • Объем дискового пространства значительно сократился для многих платформ и архитектур. Примеры двоичного файла Microsoft.CognitiveServices.Speech.core: x64 Linux меньше 475 КБ (сокращение% 8.0); Arm64 Windows UWP меньше 464 КБ (сокращение 11,5%); x86 Windows меньше 343 КБ (сокращение 17,5%); а x64 Windows меньше 451 КБ (19,4% сокращение).

Исправления ошибок

  • Java: исправлена ошибка синтеза, когда текст синтеза содержит суррогатные символы. Сведения here.
  • JavaScript: обработка звука микрофона браузера теперь используется AudioWorkletNode вместо нерекомендуемой ScriptProcessorNode. Подробные сведения здесь.
  • JavaScript: правильно держите беседы в живых во время длительных сценариев перевода бесед. Подробные сведения здесь.
  • JavaScript. Исправлена проблема повторного подключения распознавателя к потоку мультимедиа в непрерывном распознавании. Подробные сведения здесь.
  • JavaScript. Исправлена проблема повторного подключения распознавателя к pushStream в непрерывном распознавании. Подробные сведения здесь.
  • JavaScript: исправленное вычисление смещения уровня слова в подробных результатах распознавания. Подробные сведения здесь.

Образцы

  • примеры краткого руководства Java обновлены here.
  • Примеры распознавания говорящего JavaScript обновлены, чтобы показать новое использование enrollProfileAsync(). См. примеры here.

Пакет SDK для службы "Речь" 1.17.0: выпуск за май 2021 г.

Примечание

Начало работы с пакетом SDK службы "Речь" здесь.

Сводка по выделению

  • Меньше места — мы продолжаем уменьшать объем памяти и дисков пакета SDK службы "Речь" и его компонентов.
  • Новый автономный API идентификации языка позволяет распознавать, какой язык произносится.
  • Разработка приложений смешанной реальности и игр с поддержкой речи с помощью Unity в macOS.
  • Теперь вы можете использовать текст для речи в дополнение к распознаванию речи на языке программирования Go.
  • Несколько исправлений ошибок для решения проблем, которые вы, наши ценные клиенты, помечены на GitHub! СПАСИБО! Оставить отзыв ближайшим!

Новые возможности

  • C++/C#: новые автономные At-Start и непрерывное распознавание SourceLanguageRecognizer языка с помощью API. Если вы хотите только обнаружить языки, которые говорят в аудиоконтенте, это API для этого. Дополнительные сведения о C++ и C#.
  • C++/C#: распознавание речи и распознавание перевода теперь поддерживают как при запуске, так и непрерывную идентификацию языка, чтобы программно определить, какие языки говорятся перед их транскрибированием или переводом. См. документацию по распознаванию речи и здесь для перевода речи.
  • C#: добавлена поддержка Unity для macOS (x64). Это разблокирует варианты использования распознавания речи и синтеза речи в смешанной реальности и играх!
  • Go: Мы добавили поддержку синтеза речи для речи на языке программирования Go, чтобы сделать синтез речи доступным в еще большем случае. Ознакомьтесь с нашей документацией quickstart или нашей документацией reference.
  • C++/C#/Java Python/Objective-C/Go: синтезатор речи теперь поддерживает объект connection. Это помогает управлять подключением к службе "Речь" и отслеживать их и особенно полезно предварительно подключиться к снижению задержки. См. документацию здесь.
  • C++/C#/Java/Python/Objective-C/Go: теперь мы предоставляем задержку и время запуска в SpeechSynthesisResult, чтобы помочь вам отслеживать и диагностировать проблемы с задержкой синтеза речи. Дополнительные сведения о C++ C#, Java, Python<>>, Objective-C и Go.
  • C++/C#/Java/Python/Objective-C: текст для речи now использует нейронные голоса по умолчанию, если не указать используемый голос. Это дает более высокую точность выходных данных по умолчанию, но также увеличивает цену по умолчанию.
  • C++/C#/Java/Python/Objective-C/Go<>/c0>: Мы добавили свойство Gender в сведения о синтезе голосовой связи, чтобы упростить выбор голоса на основе пола. Это касается проблемы GitHub #1055.
  • C++, C#, Java, JavaScript: теперь мы поддерживаем retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync и getAllProfilesAsync() в распознавании говорящего, чтобы упростить управление пользователями всех профилей голосовой связи для данной учетной записи. См. документацию по C++, C#, Java, JavaScript. Это устраняет проблему GitHub #338.
  • JavaScript: мы добавили повторную попытку при сбоях подключения, что сделает приложения речи на основе JavaScript более надежными.

Улучшения

  • Двоичные файлы пакета SDK для Linux и Android Для службы "Речь" были обновлены, чтобы использовать последнюю версию OpenSSL (1.1.1k)
  • Улучшения размера кода:
    • Распознавание речи теперь разделен на отдельную библиотеку lu.
    • Windows размер двоичного файла ядра x64 снизился на 14,4%.
    • Размер двоичного файла Android Arm64 снизился на 13,7%.
    • другие компоненты также снизились в размере.

Исправления ошибок

  • All: исправлена проблема GitHub #842 для ServiceTimeout. Теперь вы можете транскрибировать длинные звуковые файлы с помощью пакета SDK службы "Речь" без подключения к службе, завершающейся этой ошибкой. Однако мы по-прежнему рекомендуем использовать пакетное транскрибирование для длинных файлов.
  • C#: исправлена проблема GitHub проблема #947 если входные данные речи не могут оставить приложение в плохом состоянии.
  • Java: исправлена проблема GitHub проблема #997 при сбое пакета SDK службы "Речь" для Java 1.16 при использовании DialogServiceConnector без сетевого подключения или недопустимого ключа подписки.
  • Исправлен сбой при резкой остановке распознавания речи (например, с помощью CTRL+C в консольном приложении).
  • Java. Добавлено исправление для удаления временных файлов на Windows при использовании пакета SDK службы "Речь" для Java.
  • Java: исправлена проблема GitHub #994 при вызове DialogServiceConnector.stopListeningAsync может привести к ошибке.
  • Java: исправлена проблема с клиентом в кратком руководстве виртуального помощника.
  • JavaScript: исправлена проблема GitHub #366 где ConversationTranslator вызвала ошибку "this.cancelSpeech не является функцией".
  • JavaScript: исправлена проблема GitHub проблема #298 где образец "Получить результат в виде потока в памяти" воспроизводил звук вслух.
  • JavaScript: исправлена проблема GitHub #350 при вызове AudioConfig может привести к ошибке "ReferenceError: MediaStream не определен".
  • JavaScript: исправлено предупреждение UnhandledPromiseRejection в Node.js для длительных сеансов.

Образцы

  • Обновленная документация по примерам Unity для macOS here.
  • Пример React Native для службы распознавания речи Azure теперь доступен here.

Пакет SDK для службы "Речь" 1.16.0: выпуск за март 2021 г.

Примечание

Пакет SDK службы "Речь" в Windows зависит от общего распространяемого Microsoft Visual C++ для Visual Studio 2015, 2017 и 2019.

Новые возможности

  • C++/C#/Java/Python: перемещена в последнюю версию GStreamer (1.18.3), чтобы добавить поддержку транскрибирования любого формата мультимедиа в Windows, Linux и Android. См. документацию здесь.
  • C++/C#/Java/Objective-C/Python: добавлена поддержка декодирования сжатых TTS/синтезированного звука в пакет SDK. Если в системе установлен выходной формат звука для PCM и GStreamer, пакет SDK автоматически запрашивает сжатый звук из службы, чтобы сохранить пропускную способность и декодировать звук на клиенте. Вы можете отключить SpeechServiceConnection_SynthEnableCompressedAudioTransmissionfalse эту функцию. Сведения о C++, C#, Java, Objective-C, Python.
  • JavaScript: теперь пользователи Node.js могут использовать AudioConfig.fromWavFileInput API. Это касается проблемы GitHub #252.
  • C++/C#/Java/Objective-C/Python: добавлен метод GetVoicesAsync() для TTS для возврата всех доступных голосов синтеза. Сведения о C++, C#, Java<>/c2>, Objective-C и Python.
  • C++/C#/Java/JavaScript/Objective-C/Python: добавлено событие VisemeReceived для синтеза речи TTS/speech для возврата синхронной анимации виземы. См. документацию здесь.
  • C++/C#/Java/JavaScript/Objective-C/Python: добавлено событие BookmarkReached для TTS. Закладки можно задать в входном SSML и получить смещения звука для каждой закладки. См. документацию здесь.
  • Java: добавлена поддержка API распознавания говорящего. Подробные сведения здесь.
  • C++/C#/Java/JavaScript/Objective-C/Python: добавлено два новых выходных аудиоформата с контейнером WebM для TTS (Webm16Khz16BitMonoOpus и Webm24Khz16BitMonoOpus). Это лучшие форматы потоковой передачи звука с помощью кодека Opus. Сведения о C++, C#Java, JavaScript, Objective-C, Python.
  • C++/C#/Java: добавлена поддержка получения профиля голоса для сценария распознавания говорящего. Сведения о C++, C# и Java.
  • C++/C#/Java/Objective-C/Python: добавлена поддержка отдельной общей библиотеки для управления микрофоном и динамиком. Это позволяет разработчику использовать пакет SDK в средах, которые не имеют необходимых зависимостей аудио библиотеки.
  • Objective-C/Swift: добавлена поддержка платформы модулей с заголовком зонтика. Это позволяет разработчику импортировать пакет SDK службы "Речь" в виде модуля в приложениях iOS/Mac Objective-C/Swift. Это касается проблемы GitHub #452.
  • Python: добавлена поддержка Python 3.9 и удалена поддержка Python 3,5 на Python end-of-life for 3.5.

Известные проблемы

  • C++/C#/Java: DialogServiceConnector не может использовать CustomCommandsConfig для доступа к приложению пользовательских команд и вместо этого возникает ошибка подключения. Это можно обойти, добавив идентификатор приложения в запрос config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)вручную. Ожидаемое поведение CustomCommandsConfig будет восстановлено в следующем выпуске.

Улучшения

  • В рамках нашей работы с несколькими выпусками, чтобы сократить объем памяти пакета SDK службы "Речь" и объем дисков, двоичные файлы Android теперь 3% до 5% меньше.
  • Улучшена точность, удобочитаемость и см. также разделы справочной документации по C#.

Исправления ошибок

  • JavaScript: большие заголовки WAV-файлов теперь анализируются правильно (увеличивает срез заголовка до 512 байт). Эта проблема GitHub проблема #962.
  • JavaScript: исправлена проблема с временем ожидания микрофона, если поток микрофона заканчивается до остановки распознавания речи, устраняя проблему с распознаванием речи, не работающей в Firefox.
  • JavaScript. Теперь мы правильно обработаем обещание инициализации при отключении микрофона браузера перед завершением выключения.
  • JavaScript: мы заменили зависимость URL-адресов синтаксического анализа URL-адресов. Это касается проблемы GitHub #264.
  • Android: исправленные обратные вызовы не работают, если minifyEnabled задано значение true.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY будет правильно задано значение базового ввода-вывода сокета для TTS для уменьшения задержки.
  • C++/C#/Java/Python/Objective-C/Go: исправлен случайный сбой, когда распознаватель был разрушен сразу после запуска распознавания.
  • C++/C#/Java: исправлен случайный сбой при уничтожении распознавателя говорящего.

Образцы

  • JavaScript: примеры Browser больше не требуют отдельного скачивания файла библиотеки JavaScript.

Пакет SDK для службы "Речь" 1.15.0: выпуск 2021-январь

Примечание

Пакет SDK службы "Речь" в Windows зависит от общего распространяемого Microsoft Visual C++ для Visual Studio 2015, 2017 и 2019.

Сводка по выделению

  • Меньше памяти и дискового пространства, что делает пакет SDK более эффективным.
  • Форматы выходных данных с более высокой точностью, доступные для предварительной версии пользовательского нейронного голоса.
  • Распознаватель намерений теперь может получить больше, чем первое намерение, что дает вам возможность сделать отдельную оценку о намерении клиента.
  • Голосовые помощники и боты теперь проще настроить, и вы можете сделать его перестать прослушивать немедленно, и выполнять более широкий контроль над тем, как он реагирует на ошибки.
  • Улучшена производительность устройства с помощью дополнительного сжатия.
  • Используйте пакет SDK службы "Речь" в Windows ARM/Arm64.
  • Улучшена отладка низкого уровня.
  • Функция оценки произношения теперь более широко доступна.
  • Несколько исправлений ошибок для решения проблем, которые вы, наши ценные клиенты, помечены на GitHub! СПАСИБО! Оставить отзыв ближайшим!

Улучшения

  • Пакет SDK для службы "Речь" теперь более эффективный и упрощенный. Мы приступили к работе с несколькими выпусками, чтобы сократить объем памяти пакета SDK службы "Речь" и дискового пространства. В качестве первого шага мы сделали значительное сокращение размера файлов в общих библиотеках на большинстве платформ. По сравнению с выпуском 1.14:
    • 64-разрядные библиотеки, совместимые с UWP Windows, примерно в 30% меньше.
    • 32-разрядные библиотеки Windows пока не видят улучшения размера.
    • Библиотеки Linux меньше 20–25%.
    • Библиотеки Android меньше 3–5% меньше.

Новые возможности

  • Все: новые форматы выходных данных 48 КГц, доступные для предварительной версии пользовательского нейронного голоса через API синтеза речи TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • Все: Пользовательский голос также проще использовать. Добавлена поддержка настройки пользовательского голоса с помощью EndpointId (C++C#, Java, JavaScript, Objective-C, Python). Перед этим изменением пользовательские пользователи голосовой связи должны задать URL-адрес конечной FromEndpoint точки с помощью метода. Теперь клиенты могут использовать FromSubscription метод так же, как стандартные голоса, а затем указать идентификатор развертывания, задав параметр EndpointId. Это упрощает настройку пользовательских голосов.
  • C++/C#/Java/Objective-C/Python: получение больше, чем основное намерениеIntentRecognizer. Теперь он поддерживает настройку результата JSON, содержащего все намерения и не только намерение верхней оценки с помощью LanguageUnderstandingModel FromEndpoint метода с помощью verbose=true параметра URI. Это касается проблемы GitHub #880. См. обновленную документацию здесь.
  • C++/C#/Java. Немедленное прослушивание голосового помощника или бота. DialogServiceConnector (C++, C#, Java) теперь имеет метод StopListeningAsync() для сопровождения ListenOnceAsync(). Это немедленно остановит звукозапись и корректно подождите результата, что делает его идеальным для использования с сценариями нажатия кнопки.
  • C++/C#/Java/JavaScript: сделайте голосовой помощник или бот лучше реагировать на базовые системные ошибки. DialogServiceConnector (C++C#, Java, JavaScript) теперь имеет новый обработчик событий TurnStatusReceived. Эти необязательные события соответствуют каждому разрешению ITurnContext в боте и будут сообщать о сбоях выполнения при их возникновении, например в результате необработанного исключения, времени ожидания или падения сети между Direct Line речью и ботом. TurnStatusReceived упрощает реагирование на условия сбоя. Например, если бот занимает слишком много времени в запросе к серверной базе данных (например, поиск продукта), TurnStatusReceived клиент может узнать, что переигрываться с сообщением "к сожалению, я не получил этого, можно ли повторить попытку" или что-то подобное.
  • C++/C#: используйте пакет SDK службы "Речь" на дополнительных платформах. Пакет NuGet Speech SDK nuGet теперь поддерживает Windows собственных двоичных файлов ARM/Arm64 (UWP уже поддерживается), чтобы сделать пакет SDK службы "Речь" более полезным для других типов компьютеров.
  • Java: DialogServiceConnector теперь имеет метод setSpeechActivityTemplate(), который был непреднамеренно исключен из языка ранее. Это эквивалентно настройке свойства Conversation_Speech_Activity_Template и запрашивает, чтобы все будущие действия Bot Framework, созданные службой Direct Line речь, объединили предоставленное содержимое в полезные данные JSON.
  • Java: улучшена отладка низкого уровня. Теперь класс Connection имеет MessageReceived событие, аналогичное другим языкам программирования (C++, C#). Это событие обеспечивает низкоуровневый доступ к входящим данным из службы и может быть полезным для диагностики и отладки.
  • JavaScript: упрощенная настройка голосовых помощников и ботов с помощью BotFrameworkConfigметодов, которые теперь имеют fromHost() и fromEndpoint() заводские методы, упрощающие использование настраиваемых расположений служб, а также параметры свойств вручную. Мы также стандартизировали необязательное описание botId использования бота, отличного от по умолчанию, в фабриках конфигурации.
  • JavaScript: улучшена производительность устройства с помощью добавленного свойства элемента управления строкой для сжатия websocket. По соображениям производительности мы отключили сжатие websocket по умолчанию. Это можно повторно изменить для сценариев с низкой пропускной способностью. Дополнительные сведения см. здесь. Это устраняет проблему GitHub #242.
  • JavaScript: добавлена поддержка оценки lPronunciation для включения оценки произношения речи. См . краткое руководство.

Исправления ошибок

  • Все (кроме JavaScript): исправлена регрессия в версии 1.14, в которой слишком много памяти было выделено распознавателями.
  • C++: исправлена проблема сборки мусора с DialogServiceConnector, устранение проблемы GitHub #794.
  • C#: исправлена проблема с завершением работы потока, из-за которой объекты блокировали около секунды при удалении.
  • C++/C#/Java. Исправлено исключение, предотвращающее настройку маркера авторизации речи или шаблона действий в DialogServiceConnector.
  • C++/C#/Java: исправлена авария распознавателя из-за состояния расы в сбое.
  • JavaScript: DialogServiceConnector ранее не учитывал необязательный botId параметр, указанный в BotFrameworkConfigфабриках. Это позволило вручную задать botId параметр строки запроса для использования бота, отличного от по умолчанию. Исправлена ошибка, и botId значения, предоставленные BotFrameworkConfigфабрикам, будут учитываться и использоваться, включая новые fromHost() и fromEndpoint() дополнения. Это также относится к параметру applicationId для CustomCommandsConfig.
  • JavaScript: исправлена проблема GitHub проблема #881, позволяющая повторно использовать объект распознавателя.
  • JavaScript: исправлена проблема, из-за которой SKD отправлял speech.config несколько раз в одном сеансе TTS, а пропускная способность пропускалась.
  • JavaScript: упрощенная обработка ошибок при авторизации микрофона, что позволяет более описательное сообщение пузыриться, когда пользователь не разрешил входные данные микрофона в браузере.
  • JavaScript: исправлена проблема GitHub #249 где ошибки типа в ConversationTranslator и ConversationTranscriber вызвали ошибку компиляции для пользователей TypeScript.
  • Objective-C: исправлена проблема, из-за которой сбой сборки GStreamer для iOS в Xcode 11.4, адресация GitHub проблема #911.
  • Python: исправлена проблема GitHub #870, удаление "DeprecationWarning: imp module не рекомендуется использовать в пользу importlib".

Образцы

Пакет SDK для службы "Речь" 1.14.0: выпуск за октябрь 2020 г.

Примечание

Пакет SDK службы "Речь" в Windows зависит от общего распространяемого Microsoft Visual C++ для Visual Studio 2015, 2017 и 2019.

Новые возможности

  • Linux: добавлена поддержка Debian 10 и Ubuntu 20.04 LTS.
  • Python/Objective-C: добавлена поддержка API KeywordRecognizer. Здесь будет приведена документация.
  • C++/Java/C#: добавлена поддержка задания любого HttpHeader key/value через ServicePropertyChannel::HttpHeader.
  • JavaScript: добавлена поддержка ConversationTranscriber API. Ознакомьтесь с документацией здесь.
  • C++/C#: добавлен новый AudioDataStream FromWavFileInput метод (для чтения). WAV-файлы здесь (C++) и здесь (C#).
  • C++/C#/Java/Python/Objective-C/Swift: добавлен метод stopSpeakingAsync() для остановки синтеза текста в речь. Ознакомьтесь со справочной документацией here (C++), here (C#), here (Java), here (Python) и here (Objective-C/Swift).
  • C#, C++, Java: добавлена функция FromDialogServiceConnector() в класс Connection, который можно использовать для мониторинга событий подключения и отключения для DialogServiceConnector. Ознакомьтесь со справочной документацией here (C#), here (C++) и here (Java).
  • C++/C#/Java/Python/Objective-C/Swift: добавлена поддержка оценки произношения, которая оценивает произношение речи и дает ораторам отзывы о точности и свободности речевых звуков. Ознакомьтесь с документацией здесь.

Критическое изменение

  • JavaScript: PullAudioOutputStream.read() имеет тип возвращаемого значения с внутреннего Обещания на собственное обещание JavaScript.

Исправления ошибок

  • Все: исправлена регрессия версии 1.13, в SetServiceProperty которой значения с определенными специальными символами были проигнорированы.
  • C#: исправлены примеры консоли Windows в Visual Studio 2019, не найдя собственные библиотеки DLL.
  • C#: исправлен сбой при управлении памятью, если поток используется в качестве KeywordRecognizer входных данных.
  • ObjectiveC/Swift: исправлен сбой управления памятью, если поток используется в качестве входных данных распознавателя.
  • Windows: исправлена проблема сосуществования с BT HFP/A2DP в UWP.
  • JavaScript: исправлено сопоставление идентификаторов сеансов для улучшения ведения журнала и помощи во внутренних корреляциях отладки и служб.
  • JavaScript: добавлено исправление для DialogServiceConnector отключения ListenOnce вызовов после первого вызова.
  • JavaScript: исправлена проблема, из-за которой выходные данные результата всегда были "простыми".
  • JavaScript: исправлена проблема непрерывного распознавания в Safari в macOS.
  • JavaScript: устранение рисков загрузки ЦП для сценария высокой пропускной способности запросов.
  • JavaScript: разрешить доступ к подробным сведениям о результатах регистрации профиля голосовой связи.
  • JavaScript: добавлено исправление для непрерывного распознавания IntentRecognizer.
  • C++/C#/Java/Python/Swift/ObjectiveC: исправлен неправильный URL-адрес для австралииeast и бразилии в IntentRecognizer.
  • C++/C#: добавлен VoiceProfileType в качестве аргумента VoiceProfile при создании объекта.
  • C++/C#/Java/Python/Swift/ObjectiveC: исправлен потенциал SPX_INVALID_ARG при попытке чтения AudioDataStream из заданной позиции.
  • IOS: исправлен сбой с распознаванием речи в Unity

Образцы

  • ObjectiveC: добавлен пример для распознавания ключевых слов here.
  • C#/JavaScript: добавлено краткое руководство по транскрибированию бесед here (C#) и here (JavaScript).
  • C++/C#/Java/Python/Swift/ObjectiveC: добавлен пример оценки произношения here

Известная проблема

  • Сертификат DigiCert Global Root G2 по умолчанию не поддерживается в HoloLens 2 и Android 4.4 (KitKat) и должен быть добавлен в систему, чтобы сделать пакет SDK службы "Речь" функциональным. Сертификат будет добавлен в HoloLens 2 образов ОС в ближайшем будущем. Клиентам Android 4.4 необходимо добавить обновленный сертификат в систему.

CoVID-19 сокращенное тестирование

Из-за удаленной работы в течение последних нескольких недель мы не могли сделать столько ручного тестирования проверки, сколько мы обычно делаем. Мы не внесли никаких изменений, которые мы думаем, сломали ничего, и наши автоматизированные тесты прошли. В маловероятном случае, что мы пропустили что-то, пожалуйста, сообщите нам о GitHub.
Оставайтесь здоровыми!

Пакет SDK для службы "Речь" 1.13.0: выпуск 2020-июль

Примечание

Пакет SDK службы "Речь" в Windows зависит от общего распространяемого Microsoft Visual C++ для Visual Studio 2015, 2017 и 2019.

Новые возможности

Исправления ошибок

  • Все: исправлена проблема, из-за которой ключевой словаRecognizer не перемещался вперед потоки после распознавания.
  • Все: исправлена проблема, из-за которой поток, полученный из Ключевого словаRecognitionResult, не содержал ключевое слово.
  • Все. Исправлена проблема, из-за которой sendMessageAsync не отправлял сообщение по проводу после того, как пользователи завершат ожидание.
  • Все: исправлен сбой в API распознавания говорящего при вызове метода VoiceProfileClient::SpeakerRecEnrollProfileAsync несколько раз и не ждал завершения вызовов.
  • Все: исправлено включение ведения журнала файлов в классах VoiceProfileClient и SpeakerRecognizer.
  • JavaScript: исправлена проблема с регулированием при сворачивании браузера.
  • JavaScript: исправлена проблема с утечкой памяти в потоках.
  • JavaScript: добавлена кэширование для ответов OCSP из NodeJS.
  • Java: исправлена проблема, из-за которой поля BigInteger всегда возвращали значение 0.
  • iOS: исправлено issue с публикацией приложений пакета SDK для службы "Речь" в Магазине приложений iOS.

Образцы

  • C++: добавлен пример кода для распознавания говорящего here.

CoVID-19 сокращенное тестирование

Из-за удаленной работы в течение последних нескольких недель мы не могли сделать столько ручного тестирования проверки, сколько мы обычно делаем. Мы не внесли никаких изменений, которые мы думаем, сломали ничего, и наши автоматизированные тесты прошли. В маловероятном случае, что мы пропустили что-то, пожалуйста, сообщите нам о GitHub.
Оставайтесь здоровыми!

Пакет SDK для службы "Речь" 1.12.1: выпуск за июнь 2020 г.

Новые возможности

  • C#, C++: предварительная версия распознавания говорящего: эта функция обеспечивает идентификацию говорящего (кто говорит?) и проверку говорящего (является докладчиком, который они утверждают?). Ознакомьтесь с документацией по обзору.

Исправления ошибок

  • C#, C++: фиксированная запись микрофона не работала в версии 1.12 в распознавании говорящего.
  • JavaScript: исправление речи текста в Firefox и Safari в macOS и iOS.
  • Исправление сбоя Windows нарушения доступа проверяющего приложения при транскрибировании бесед при использовании потока восьми каналов.
  • Исправлена ошибка Windows нарушения доступа проверяющего приложения при переводе бесед с несколькими устройствами.

Образцы

  • C#: пример Код для распознавания говорящего.
  • C++: пример Code для распознавания говорящего.
  • Java: Code sample для распознавания намерений в Android.

CoVID-19 сокращенное тестирование

Из-за удаленной работы в течение последних нескольких недель мы не могли сделать столько ручного тестирования проверки, сколько мы обычно делаем. Мы не внесли никаких изменений, которые мы думаем, сломали ничего, и наши автоматизированные тесты прошли. В маловероятном случае, что мы пропустили что-то, пожалуйста, сообщите нам о GitHub.
Оставайтесь здоровыми!

Пакет SDK для службы "Речь" 1.12.0: выпуск за май 2020 г.

Новые возможности

  • Go: Поддержка нового языка Go для распознавания речи и пользовательского голосового помощника. Настройте среду разработки здесь. Пример кода см. в разделе "Примеры" ниже.
  • JavaScript: добавлена поддержка браузера для преобразования текста в речь. См. документацию здесь.
  • C++, C#, Java: новый объект KeywordRecognizer /API, поддерживаемые на платформах Windows, Android, Linux и iOS. Ознакомьтесь с документацией здесь. Пример кода см. в разделе "Примеры" ниже.
  • Java: добавлена поддержка перевода с несколькими устройствами. См. справочную документацию здесь.

Улучшения и оптимизация

  • JavaScript: оптимизированная реализация микрофона браузера улучшает точность распознавания речи.
  • Java: рефакторинг привязок с использованием прямой реализации JNI без SWIG. Это изменение уменьшается на 10x размер привязок для всех пакетов Java, используемых для Windows, Android, Linux и Mac, и упрощает дальнейшую разработку пакета SDK службы "Речь" Java реализации.
  • Linux: обновлена документация по поддержке с помощью последних заметок RHEL 7.
  • Улучшена логика подключения для многократного подключения при возникновении ошибок службы и сети.
  • Обновлен портал. azure.com страница краткого руководства по распознаванию речи, чтобы помочь разработчикам выполнить следующий шаг в Azure пути преобразования речи.

Исправления ошибок

  • C#, Java: исправлено значение issue с загрузкой библиотек SDK в Linux ARM (как 32-разрядная, так и 64-разрядная).
  • C#: исправлено явное удаление собственных дескрипторов для объектов TranslationRecognizer, IntentRecognizer и Connection.
  • C#: исправлено управление временем существования входных данных звука для объекта ConversationTranscriber.
  • Исправлена проблема, из-за IntentRecognizer которой причина результата не была задана должным образом при распознавании намерений из простых фраз.
  • Исправлена проблема, из-за которой SpeechRecognitionEventArgs смещение результата не было задано правильно.
  • Исправлено состояние гонки, в котором пакет SDK пытался отправить сетевое сообщение перед открытием подключения websocket. Воспроизводимый при TranslationRecognizer добавлении участников.
  • Исправлена утечка памяти в обработчике распознавателя ключевых слов.

Образцы

CoVID-19 сокращенное тестирование

Из-за удаленной работы в течение последних нескольких недель мы не могли сделать столько ручного тестирования проверки, сколько мы обычно делаем. Мы не внесли никаких изменений, которые мы думаем, сломали ничего, и наши автоматизированные тесты прошли. Если мы пропустили что-то, пожалуйста, сообщите нам о GitHub.
Оставайтесь здоровыми!

Пакет SDK для службы "Речь" 1.11.0: выпуск за март 2020 г.

Новые возможности

  • Linux: добавлена поддержка Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
  • Linux: добавлена поддержка .NET Core C# в Linux ARM32 и Arm64. Дополнительные сведения см. здесь.
  • C#, C++: добавлен UtteranceIdConversationTranscriptionResult, согласованный идентификатор для всех промежуточных и окончательных результатов распознавания речи. Сведения о C#, C++.
  • Python. Добавлена поддержка Language ID. См. speech_sample.py в репозитории GitHub.
  • Windows. Добавлена поддержка сжатого формата звука для платформы Windows для всех консольных приложений Win32. Подробные сведения здесь.
  • JavaScript: поддержка синтеза речи (текста в речь) в NodeJS. Дополнительные сведения here.
  • JavaScript: добавьте новые API для включения проверки всех отправки и полученных сообщений. Дополнительные сведения here.

Исправления ошибок

  • C#, C++: исправлена проблема, поэтому SendMessageAsync теперь отправляет двоичное сообщение в виде двоичного типа. Сведения о C#, C++.
  • C#, C++: исправлена проблема, из-за которой использование Connection MessageReceived события может привести к сбою при Recognizer удалении перед Connection объектом. Сведения о C#, C++.
  • Android: размер буфера звука с микрофона снизился с 800 мс до 100 мс, чтобы повысить задержку.
  • Android: исправлено issue с эмулятором Android x86 в Android Studio.
  • JavaScript: добавлена поддержка регионов в Китае с fromSubscription помощью API. Подробные сведения здесь.
  • JavaScript: добавьте дополнительные сведения об ошибках подключения из NodeJS.

Образцы

  • Unity. Исправлен общедоступный пример распознавания намерений, в котором произошел сбой импорта JSON LUIS. Сведения here.
  • Python. Пример добавлен для Language ID. Сведения here.

Covid19 сокращенное тестирование: Из-за удаленной работы в течение последних нескольких недель мы не могли сделать столько ручного тестирования проверки устройства, сколько мы обычно делаем. Например, не удалось протестировать входные и динамики микрофона в Linux, iOS и macOS. Мы не внесли никаких изменений, которые мы думаем, могли бы сломать что-либо на этих платформах, и наши автоматизированные тесты все прошли. В маловероятном случае, что мы пропустили что-то, сообщите нам о GitHub.
Спасибо за вашу постоянную поддержку. Как всегда, отправьте вопросы или отзывы о GitHub или Stack Overflow.
Оставайтесь здоровыми!

Пакет SDK для службы "Речь" 1.10.0: выпуск 2020-февраль

Новые возможности

  • Добавлены пакеты Python для поддержки нового выпуска Python версии 3.8.
  • Поддержка Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

    Примечание

    Клиенты должны настроить OpenSSL в соответствии с этими инструкциями.

  • Поддержка Linux ARM32 для Debian и Ubuntu.
  • DialogServiceConnector теперь поддерживает необязательный параметр "идентификатор бота" в BotFrameworkConfig. Этот параметр позволяет использовать несколько ботов службы "Речь" Direct Line с одним ресурсом "Речь". Без указанного параметра будет использоваться бот по умолчанию (как определено страницей конфигурации канала речи Direct Line).
  • DialogServiceConnector теперь имеет свойство SpeechActivityTemplate. Содержимое этой строки JSON будет использоваться Direct Line "Речь" для предварительного формирования разнообразных поддерживаемых полей во всех действиях, которые достигают бота Direct Line речи, включая действия, автоматически созданные в ответ на события, такие как распознавание речи.
  • Теперь TTS использует ключ подписки для проверки подлинности, уменьшая первую задержку байтов первого результата синтеза после создания синтезатора.
  • Обновленные модели распознавания речи для 19 языковых стандартов для среднего снижения частоты ошибок слова 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Новые модели приносят значительные улучшения в нескольких доменах, включая диктовку, Call-Center транскрибирование и сценарии индексирования видео.

Исправления ошибок

  • Исправлена ошибка, из-за которой Transcriber conversation Transcriber не ожидал правильно в API JAVA.
  • Добавление отсутствующих (Get|Set)Property methods to AudioConfig.
  • Исправлена ошибка TTS, из-за которой не удалось остановить audioDataStream при сбое подключения.
  • Использование конечной точки без региона приведет к сбоям USP для переводчика бесед.
  • Создание идентификаторов в универсальных приложениях Windows теперь использует соответствующий уникальный алгоритм GUID; он ранее и непреднамеренно по умолчанию использовался в ступеной реализации, которая часто создавала столкновения над большими наборами взаимодействий.

Образцы

Другие изменения

Пакет SDK для службы "Речь" 1.9.0: выпуск за январь 2020 г.

Новые возможности

  • Беседа с несколькими устройствами: подключите несколько устройств к одной и той же речи или текстовой беседе и при необходимости переводите сообщения, отправленные между ними. Дополнительные сведения см. в этой статье.
  • Поддержка распознавания ключевых слов, добавленная для пакета Android .aar и добавлена поддержка вариантов x86 и x64.
  • Objective-C: SendMessage и SetMessageProperty методы, добавленные в Connection объект. См. документацию здесь.
  • API TTS C++ теперь поддерживается std::wstring как ввод текста синтеза, удаляя необходимость преобразования wstring в строку перед передачей в пакет SDK. Дополнительные сведения см. здесь.
  • C#: теперь доступны идентификатор языка и конфигурация исходного языка .
  • JavaScript: добавлена функция для объекта для Connection передачи пользовательских сообщений из службы "Речь" в качестве обратного receivedServiceMessageвызова.
  • JavaScript: добавлена поддержка FromHost API упрощения использования с локальными контейнерами и суверенными облаками. См. документацию здесь.
  • JavaScript: теперь мы благодарим NODE_TLS_REJECT_UNAUTHORIZED за вклад организации. Дополнительные сведения см. здесь.

Критические изменения

  • OpenSSL обновлен до версии 1.1.1b и статически связан с основной библиотекой пакета SDK службы "Речь" для Linux. Это может привести к разрыву, если папка "Входящие OpenSSL " не была установлена в /usr/lib/ssl каталоге в системе. Ознакомьтесь с нашей документацией в документации по пакету SDK службы "Речь", чтобы обойти проблему.
  • Мы изменили тип данных, возвращаемый для C# WordLevelTimingResult.Offset , int чтобы long разрешить доступ WordLevelTimingResults к данным речи дольше 2 минут.
  • PushAudioInputStream и PullAudioInputStream теперь отправляет сведения заголовка wav в службу "Речь" на основе AudioStreamFormatнеобязательных указаний при создании. Теперь клиенты должны использовать поддерживаемый формат входного звука. Любые другие форматы получат неоптимальные результаты распознавания или могут вызвать другие проблемы.

Исправления ошибок

  • См. OpenSSL обновление в разделе "Критические изменения" выше. Исправлена прерывистая ошибка и проблема с производительностью (блокировка при высокой нагрузке) в Linux и Java.
  • Java. Улучшено закрытие объектов в сценариях высокой параллелизма.
  • Реструктурировал наш пакет NuGet. Мы удалили три копии Microsoft.CognitiveServices.Speech.core.dll и Microsoft.CognitiveServices.Speech.extension.kws.dll в папках lib, что делает пакет NuGet меньше и быстрее для скачивания, и мы добавили заголовки, необходимые для компиляции некоторых собственных приложений C++.
  • Исправлены примеры быстрого запуска here. Они завершались без отображения исключения "микрофон не найден" в Linux, macOS, Windows.
  • Исправлен сбой пакета SDK с длинными результатами распознавания речи в определенных путях кода, например this sample.
  • Исправлена ошибка развертывания пакета SDK в среде веб-приложения Azure для решения проблемы с клиентом .
  • Исправлена ошибка TTS при использовании тега /< > /> тег <а или тега > /> для решения проблемы с клиентом .
  • Исправлена ошибка TTS 401 при восстановлении пакета SDK после приостановки.
  • JavaScript: исправлен циклический импорт звуковых данных благодаря вкладу euirim.
  • JavaScript: добавлена поддержка настройки свойств службы, как добавлено в версии 1.7.
  • JavaScript: исправлена проблема, из-за которой ошибка подключения могла привести к непрерывным, неудачным попыткам повторного подключения websocket.

Образцы

  • Добавлен пример распознавания ключевых слов для Android here.
  • Добавлен пример TTS для сценария сервера here.
  • Здесь добавлены краткие руководства по беседе с несколькими устройствами для C# и C++.

Другие изменения

  • Оптимизированный размер основной библиотеки ПАКЕТА SDK в Android.
  • Пакет SDK версии 1.9.0 и более поздних версий поддерживает оба int типа string в поле версии голосовой подписи для беседы Transcriber.

Пакет SDK для службы "Речь" 1.8.0: выпуск за ноябрь 2019 г.

Новые возможности

  • Добавлен FromHost() API для упрощения использования с локальными контейнерами и независимыми облаками.
  • Добавлена идентификация языка источника для распознавания речи (в Java и C++)
  • Добавлен объект SourceLanguageConfig для распознавания речи, используемый для указания ожидаемых исходных языков (в Java и C++)
  • Добавлена поддержка KeywordRecognizer в Windows (UWP), Android и iOS через пакеты NuGet и Unity
  • Добавлен API удаленной беседы Java для выполнения транскрибирования бесед в асинхронных пакетах.

Критические изменения

  • Функции Транскрибера беседы перемещены в пространство имен Microsoft.CognitiveServices.Speech.Transcription.
  • Части методов Transcriber беседы перемещаются в новый Conversation класс.
  • Удалена поддержка 32-разрядной версии (ARMv7 и x86) iOS

Исправления ошибок

  • Исправление сбоя, если локальный KeywordRecognizer используется без допустимого ключа подписки службы "Речь"

Образцы

  • пример Xamarin для KeywordRecognizer
  • Пример Unity для KeywordRecognizer
  • Примеры C++ и Java для автоматической идентификации языка исходного кода.

Пакет SDK для службы "Речь" 1.7.0: выпуск за сентябрь 2019 г.

Новые возможности

  • Добавлена бета-версия для Xamarin в Universal Windows Platform (UWP), Android и iOS
  • Добавлена поддержка iOS для Unity
  • Добавлена Compressed поддержка входных данных для ALaw, Mulaw, FLAC, в Android, iOS и Linux
  • SendMessageAsync Добавлен в Connection класс для отправки сообщения в службу
  • SetMessageProperty Добавлен в Connection класс для задания свойства сообщения
  • Добавленные привязки TTS для Java (JRE и Android), Python, Swift и Objective-C
  • TTS добавила поддержку воспроизведения для macOS, iOS и Android.
  • Добавлена информация "граница слова" для TTS.

Исправления ошибок

  • Исправлена проблема сборки IL2CPP в Unity 2019 для Android
  • Исправлена проблема с неправильно обработанными заголовками в входных данных wav-файла
  • Исправлена проблема, из-за которой идентификаторы UUID не были уникальными в некоторых свойствах подключения
  • Исправлено несколько предупреждений об описателях null в привязках Swift (могут потребоваться небольшие изменения кода).
  • Исправлена ошибка, из-за которой подключения websocket закрывались неграмотно при сетевой нагрузке.
  • Исправлена проблема в Android, которая иногда приводит к дублированию идентификаторов впечатлений, используемых DialogServiceConnector
  • Улучшение стабильности подключений при взаимодействии с несколькими поворотами и отчеты о сбоях (с помощью Canceled событий) при их возникновении DialogServiceConnector
  • DialogServiceConnector Запуск сеанса теперь будет правильно предоставлять события, включая при вызове ListenOnceAsync() во время активного StartKeywordRecognitionAsync()
  • Устранен сбой, связанный с получаемыми DialogServiceConnector действиями

Образцы

  • Краткое руководство по Xamarin
  • Обновлено краткое руководство по CPP с информацией о Linux Arm64
  • Обновлено краткое руководство по Unity с сведениями о iOS

Пакет SDK для службы "Речь" 1.6.0: выпуск за июнь 2019 г.

Образцы

  • Примеры краткого руководства по распознаванию речи в UWP и Unity
  • Пример краткого руководства для Swift в iOS
  • Примеры Unity для распознавания речи и намерения и перевода
  • Обновленные примеры краткого руководства для DialogServiceConnector

Улучшения и изменения

  • Пространство имен диалогового окна:
    • SpeechBotConnector переименовывается в DialogServiceConnector
    • BotConfig переименовывается в DialogServiceConfig
    • BotConfig::FromChannelSecret() переназначено на DialogServiceConfig::FromBotSecret()
    • Все существующие клиенты службы "Речь" Direct Line продолжают поддерживаться после переименования.
  • Обновление адаптера REST TTS для поддержки прокси-сервера, постоянного подключения
  • Улучшение сообщения об ошибке при передаче недопустимого региона
  • Swift/Objective-C:
    • Улучшенная отчетность об ошибках: методы, которые могут привести к ошибке, теперь присутствуют в двух версиях: один, предоставляющий объект для обработки ошибок, и тот, который NSError вызывает исключение. Бывший подвержен Свифту. Это изменение требует адаптации к существующему коду Swift.
    • Улучшенная обработка событий

Исправления ошибок

  • Исправление для TTS: где SpeakTextAsync будет возвращено будущее, не ожидая завершения отрисовки звука
  • Исправление для маршалинга строк в C# для включения полной поддержки языка
  • Исправлена проблема с .NET основным приложением для загрузки основной библиотеки с целевой платформой net461 в примерах
  • Устранение случайных проблем при развертывании собственных библиотек в выходной папке в примерах
  • Исправление для надежного закрытия веб-сокета
  • Исправление возможного сбоя при открытии подключения под тяжелой нагрузкой на Linux
  • Исправление отсутствующих метаданных в пакете платформы для macOS
  • Устранение проблем с pip install --user на Windows

Пакет SDK для службы "Речь" 1.5.1

Это выпуск исправления ошибок, который влияет только на собственный или управляемый пакет SDK. Это не влияет на версию пакета SDK для JavaScript.

Исправления ошибок

  • Исправление FromSubscription при использовании с транскрибированием бесед.
  • Исправлена ошибка при обнаружении ключевых слов для голосовых помощников.

Пакет SDK для службы "Речь" 1.5.0: выпуск за май 2019 г.

Новые возможности

  • Поиск ключевых слов (KWS) теперь доступен для Windows и Linux. Функции KWS могут работать с любым типом микрофона, официальной поддержкой KWS, однако в настоящее время ограничен массивами микрофонов, найденными в Azure Kinect DK оборудовании или пакете SDK для речевых устройств.
  • Функция указания фраз доступна через пакет SDK. Дополнительные сведения см. здесь.
  • Функции транскрибирования бесед доступны через пакет SDK.
  • Добавьте поддержку голосовых помощников с помощью канала Direct Line службы "Речь".

Образцы

  • Добавлены примеры для новых функций или новых служб, поддерживаемых пакетом SDK.

Улучшения и изменения

  • Добавлены различные свойства распознавателя для настройки поведения службы или результатов службы (например, маскирования ненормативной лексики и других).
  • Теперь распознаватель можно настроить с помощью стандартных свойств конфигурации, даже если вы создали распознаватель FromEndpoint.
  • Objective-C: OutputFormat свойство было добавлено SPXSpeechConfigurationв .
  • Пакет SDK теперь поддерживает Debian 9 в качестве дистрибутива Linux.

Исправления ошибок

  • Исправлена проблема, из-за которой ресурс говорящего был деструктировался слишком рано в тексте речи.

Пакет SDK для службы "Речь" 1.4.2

Это выпуск исправления ошибок, который влияет только на собственный или управляемый пакет SDK. Это не влияет на версию пакета SDK для JavaScript.

Пакет SDK для службы "Речь" 1.4.1

Это выпуск только для JavaScript. Никакие функции не были добавлены. Были сделаны следующие исправления:

  • Запретить загрузку веб-пакета https-proxy-agent.

Пакет SDK для службы "Речь" 1.4.0: выпуск за апрель 2019 г.

Новые возможности

  • Пакет SDK теперь поддерживает службу "Текст в речь" в качестве бета-версии. Она поддерживается в Windows и Linux Desktop из C++ и C#. Дополнительные сведения см. в обзоре преобразования текста в речь.
  • Пакет SDK теперь поддерживает аудиофайлы MP3 и Opus/OGG в виде потоковых входных файлов. Эта функция доступна только в Linux из C++ и C# и в настоящее время находится в бета-версии (дополнительные сведения здесь).
  • Пакет SDK службы "Речь" для Java, .NET core, C++ и Objective-C получил поддержку macOS. В настоящее время Objective-C поддержка macOS доступна в бета-версии.
  • iOS: пакет SDK службы "Речь" для iOS (Objective-C) теперь также публикуется как CocoaPod.
  • JavaScript: поддержка микрофона, отличного от по умолчанию, в качестве входного устройства.
  • JavaScript: поддержка прокси-сервера для Node.js.

Образцы

  • Добавлены примеры использования пакета SDK службы "Речь" с C++ и Objective-C в macOS.
  • Добавлены примеры, демонстрирующие использование службы "Текст для речи".

Улучшения и изменения

  • Python. Дополнительные свойства результатов распознавания теперь предоставляются через свойство properties.
  • Для дополнительной поддержки разработки и отладки можно перенаправить сведения о журнале и диагностике пакета SDK в файл журнала (дополнительные сведения здесь).
  • JavaScript: повышение производительности обработки звука.

Исправления ошибок

  • Mac/iOS: ошибка, которая привела к длительному ожиданию, когда не удалось установить подключение к службе "Речь" было исправлено.
  • Python. Улучшение обработки ошибок для аргументов в Python обратных вызовах.
  • JavaScript: исправлена ошибка отчетов о состоянии для речи, закончившейся при запросеSession.

Пакет SDK для службы "Речь" 1.3.1: обновление за февраль 2019 г.

Это выпуск исправления ошибок, который влияет только на собственный или управляемый пакет SDK. Это не влияет на версию пакета SDK для JavaScript.

Исправление ошибок

  • Исправлена утечка памяти при использовании входных данных микрофона. Входные данные на основе потока или файла не влияют.

Пакет SDK для службы "Речь" 1.3.0: выпуск за февраль 2019 г.

Новые возможности

  • Пакет SDK службы "Речь" поддерживает выбор входного микрофона AudioConfig через класс. Это позволяет передавать звуковые данные в службу "Речь" из микрофона, отличного от микрофона по умолчанию. Дополнительные сведения см. в документации по выбору устройства ввода звука. Эта функция еще не доступна в JavaScript.
  • Пакет SDK службы "Речь" теперь поддерживает Unity в бета-версии. Предоставьте отзыв по разделу проблемы в примере репозитория GitHub. Этот выпуск поддерживает Unity в Windows x86 и x64 (классических или универсальная платформа Windows приложениях) и Android (ARM32/64, x86). Дополнительные сведения см. в кратком руководстве по Unity.
  • Файл Microsoft.CognitiveServices.Speech.csharp.bindings.dll (отправлен в предыдущих выпусках) больше не нужен. Теперь функциональные возможности интегрированы в основной пакет SDK.

Образцы

В нашем примере репозитория доступно следующее новое содержимое:

  • Дополнительные примеры для AudioConfig.FromMicrophoneInput.
  • Дополнительные Python примеры для распознавания намерений и перевода.
  • Дополнительные примеры использования Connection объекта в iOS.
  • Дополнительные Java примеры для перевода с выходными данными звука.
  • Новый пример использования REST API пакетной транскрибирования.

Улучшения и изменения

  • Python
    • Улучшена проверка параметров и сообщения об ошибках.SpeechConfig
    • Добавьте поддержку Connection объекта.
    • Поддержка 32-разрядной Python (x86) в Windows.
    • Пакет SDK службы "Речь" для Python выходит из бета-версии.
  • Ios
    • Пакет SDK теперь создан для пакета SDK для iOS версии 12.1.
    • Пакет SDK теперь поддерживает iOS версии 9.2 и более поздних версий.
    • Улучшение справочной документации и исправление нескольких имен свойств.
  • Javascript
    • Добавьте поддержку Connection объекта.
    • Добавление файлов определения типов для пакетного JavaScript
    • Начальная поддержка и реализация подсказок фраз.
    • Возврат коллекции свойств со службой JSON для распознавания
  • Windows библиотеки DLL теперь содержат ресурс версии.
  • При создании распознавателя FromEndpointможно добавить параметры непосредственно в URL-адрес конечной точки. Использование FromEndpoint распознавателя невозможно настроить с помощью стандартных свойств конфигурации.

Исправления ошибок

  • Пустое имя пользователя прокси-сервера и пароль прокси-сервера не обработаны правильно. В этом выпуске при установке имени пользователя прокси-сервера и пароля прокси-сервера в пустую строку они не будут отправляться при подключении к прокси-серверу.
  • Идентификатор сеанса, созданный пакетом SDK, не всегда был действительно случайным для некоторых языков или сред. Добавлена инициализация случайного генератора для устранения этой проблемы.
  • Улучшена обработка маркера авторизации. Если вы хотите использовать маркер авторизации, укажите и SpeechConfig оставьте ключ API пустым. Затем создайте распознаватель как обычно.
  • В некоторых случаях Connection объект не был выпущен правильно. Эта проблема устранена.
  • Пример JavaScript был исправлен для поддержки аудиоданных для синтеза перевода также в Safari.

Пакет SDK для службы "Речь" версии 1.2.1

Это выпуск только для JavaScript. Никакие функции не были добавлены. Были сделаны следующие исправления:

  • Пожарный конец потока в turn.end, а не в speech.end.
  • Исправьте ошибку в звуковом насосе, который не запланировал следующую отправку, если текущая отправка завершилась ошибкой.
  • Исправление непрерывного распознавания с помощью маркера проверки подлинности.
  • Исправлена ошибка для разных распознавателя или конечных точек.
  • Улучшения документации.

Пакет SDK для службы "Речь" 1.2.0: выпуск за декабрь 2018 г.

Новые возможности

  • Python
    • Бета-версия поддержки Python (3.5 и выше) доступна в этом выпуске. Дополнительные сведения см. здесь](.). /.. /quickstart-python.md).
  • Javascript
    • Пакет SDK службы "Речь" для JavaScript был открыт с открытым кодом. Исходный код доступен в GitHub.
    • Теперь мы поддерживаем Node.js, дополнительные сведения см. здесь.
    • Ограничение длины звуковых сеансов было удалено, повторное подключение будет происходить автоматически под обложкой.
  • Connection Объекта
    • Из объекта Recognizerможно получить доступ Connection . Этот объект позволяет явно инициировать подключение службы и подписаться на события подключения и отключения. (Эта функция пока недоступна в JavaScript и Python.)
  • Поддержка Ubuntu 18.04.
  • Android
    • Поддержка ProGuard во время создания APK.

Улучшения

  • Улучшения в использовании внутреннего потока, уменьшение количества потоков, блокировок, мьютексов.
  • Улучшены отчеты об ошибках и сведениях. В нескольких случаях сообщения об ошибках не были распространены во всем выходе.
  • Обновлены зависимости разработки в JavaScript для использования модулей up-to-date.

Исправления ошибок

  • Исправлена утечка памяти из-за несоответствия типа в RecognizeAsync.
  • В некоторых случаях утечка исключений произошла.
  • Исправлена утечка памяти в аргументах события перевода.
  • Исправлена проблема блокировки при повторном подключении в длительных сеансах.
  • Исправлена проблема, которая может привести к отсутствующим конечным результатам для неудачных переводов.
  • C#: если async операция не ожидалась в основном потоке, то можно было удалить распознаватель до завершения асинхронной задачи.
  • Java. Исправлена проблема, из-за которой произошел сбой Java виртуальной машины.
  • Objective-C: фиксированное сопоставление перечисления; Распознанныйintent был возвращен вместо RecognizingIntent.
  • JavaScript: задайте для формата выходных данных по умолчанию "простой" в SpeechConfig.
  • JavaScript: удаление несоответствий между свойствами объекта конфигурации в JavaScript и других языках.

Образцы

  • Обновлены и исправлены несколько примеров (например, выходные голоса для перевода и т. д.).
  • Добавлены Node.js примеры в репозитории.

Пакет SDK для службы "Речь" 1.1.0

Новые возможности

  • Поддержка Android x86/x64.
  • Поддержка прокси-сервера: в объекте SpeechConfig теперь можно вызвать функцию, чтобы задать сведения о прокси-сервере (имя узла, порт, имя пользователя и пароль). Эта функция пока недоступна в iOS.
  • Улучшен код ошибки и сообщения. Если распознавание вернуло ошибку, это уже установлено Reason (в отмененном событии) или CancellationDetails (в результате распознавания).Error Отмененное событие теперь содержит два дополнительных члена и ErrorCodeErrorDetails. Если сервер вернул дополнительные сведения об ошибке с сообщаемой ошибкой, теперь он будет доступен в новых членах.

Улучшения

  • Добавлена дополнительная проверка в конфигурации распознавателя и добавлено дополнительное сообщение об ошибке.
  • Улучшена обработка длительного молчания в середине звукового файла.
  • Пакет NuGet: для проектов .NET Framework он предотвращает сборку с конфигурацией AnyCPU.

Исправления ошибок

  • Исправлено несколько исключений, обнаруженных в распознавателях. Кроме того, исключения перехватываются и преобразуются в Canceled событие.
  • Исправлена утечка памяти в управлении свойствами.
  • Исправлена ошибка, в которой звуковой входной файл может завершиться сбоем распознавателя.
  • Исправлена ошибка, из-за которой события могут быть получены после события остановки сеанса.
  • Исправлены некоторые условия гонки в потоке.
  • Исправлена проблема совместимости iOS, которая может привести к сбою.
  • Улучшения стабильности для поддержки микрофона Android.
  • Исправлена ошибка, из-за которой распознаватель в JavaScript пропускал язык распознавания.
  • Исправлена ошибка, предотвращающая настройку EndpointId (в некоторых случаях) в JavaScript.
  • Изменен порядок параметров в AddIntent в JavaScript и добавлен отсутствующий AddIntent сигнатуры JavaScript.

Образцы

Пакет SDK для службы "Речь" 1.0.1

Улучшения надежности и исправления ошибок:

  • Исправлена потенциальная неустранимая ошибка из-за состояния гонки при удалении распознавателя
  • Исправлена потенциальная неустранимая ошибка при возникновении неустановленных свойств.
  • Добавлена дополнительная проверка ошибок и параметров.
  • Objective-C: исправлена возможная неустранимая ошибка, вызванная переопределением имен в NSString.
  • Objective-C: скорректированная видимость API
  • JavaScript: исправлено в отношении событий и их полезных данных.
  • Улучшения документации.

В нашем примере репозитория добавлен новый пример для JavaScript.

Azure пакет SDK для службы "Речь" 1.0.0: выпуск 2018-сентябрь

Новые возможности

Критические изменения

  • В этом выпуске вводятся ряд критических изменений. Дополнительные сведения см. на этой странице .

Azure пакет SDK для службы "Речь" 0.6.0: выпуск за август 2018 г.

Новые возможности

  • Теперь приложения UWP, созданные с помощью пакета SDK службы "Речь", могут передавать пакет сертификации приложение для Windows (WACK). Ознакомьтесь с кратким руководством по UWP.
  • Поддержка .NET standard 2.0 в Linux (Ubuntu 16.04 x64).
  • Экспериментальный: поддержка Java 8 на Windows (64-разрядная версия) и Linux (Ubuntu 16.04 x64). Ознакомьтесь с кратким руководством по Java среде выполнения.

Функциональное изменение

  • Предоставление дополнительных сведений об ошибках подключения.

Критические изменения

  • В Java (Android) функция SpeechFactory.configureNativePlatformBindingWithDefaultCertificate больше не требует параметра пути. Теперь путь автоматически обнаруживается на всех поддерживаемых платформах.
  • Метод доступа к свойству EndpointUrl в Java и C# был удален.

Исправления ошибок

  • В Java теперь реализован результат синтеза звука на распознаватель перевода.
  • Исправлена ошибка, которая может привести к неактивным потокам и увеличению числа открытых и неиспользуемых сокетов.
  • Исправлена проблема, из-за которой длительное распознавание может завершиться в середине передачи.
  • Исправлено состояние гонки при завершении работы распознавателя.

Azure пакет SDK службы "Речь" 0.5.0: выпуск 2018-июль

Новые возможности

  • Поддержка платформы Android (API 23: Android 6.0 Marshmallow или более поздней версии). Ознакомьтесь с кратким руководством по Android.
  • Поддержка .NET standard 2.0 в Windows. Ознакомьтесь с кратким руководством .NET Core.
  • Экспериментальный: поддержка UWP на Windows (версия 1709 или более поздняя).
    • Ознакомьтесь с кратким руководством по UWP.
    • Обратите внимание, что приложения UWP, созданные с помощью пакета SDK службы "Речь", еще не передают пакет сертификации приложение для Windows (WACK).
  • Поддержка длительного распознавания с помощью автоматического повторного подключения.

Функциональные изменения

  • StartContinuousRecognitionAsync() поддерживает долгосрочное распознавание.
  • Результат распознавания содержит больше полей. Они смещаются от начала и длительности звука (как в галках) распознанного текста, так и дополнительных значений, представляющих состояние распознавания, например InitialSilenceTimeout и InitialBabbleTimeout.
  • Поддержка AuthorizationToken для создания экземпляров фабрики.

Критические изменения

  • События распознавания: NoMatch тип события был объединен в Error событие.
  • SpeechOutputFormat в C# переименован, чтобы OutputFormat оставаться в соответствии с C++.
  • Возвращаемый тип некоторых методов AudioInputStream интерфейса немного изменился:
    • В Java метод read теперь возвращает long вместо int.
    • В C# Read метод теперь возвращается uint вместо int.
    • В C++ ReadGetFormat вместо методов теперь возвращаются size_tintметоды.
  • C++: теперь экземпляры входных потоков аудио можно передавать только в виде shared_ptr.

Исправления ошибок

  • Исправлены неправильные возвращаемые значения в результате времени RecognizeAsync() ожидания.
  • Зависимость от библиотек основы мультимедиа от Windows была удалена. Теперь пакет SDK использует основные API аудио.
  • Исправление документации. Добавлена страница регионов для описания поддерживаемых регионов.

Известная проблема

  • Пакет SDK службы "Речь" для Android не сообщает о результатах синтеза речи для перевода. Эта проблема будет устранена в следующем выпуске.

Azure пакет SDK службы "Речь" 0.4.0: выпуск 2018-июнь

Функциональные изменения

  • AudioInputStream

    Распознаватель теперь может использовать поток в качестве источника звука. Дополнительные сведения см. в руководстве по работе с соответствующим руководством.

  • Подробный формат выходных данных

    При создании можно запросить Detailed или Simple выходной SpeechRecognizerформат. Содержит DetailedSpeechRecognitionResult оценку достоверности, распознанный текст, необработанную лексическую форму, нормализованную форму и нормализованную форму с маскированной ненормативной лексикой.

Критическое изменение

  • Изменено на SpeechRecognitionResult.TextSpeechRecognitionResult.RecognizedText c#.

Исправления ошибок

  • Исправлена возможная проблема обратного вызова на уровне USP во время завершения работы.
  • Если распознаватель использовал звуковой входной файл, он держался на дескрипторе файла дольше, чем необходимо.
  • Удалено несколько взаимоблокировок между насосом сообщений и распознавательом.
  • NoMatch Срабатывает результат при истечении времени ожидания ответа от службы.
  • Библиотеки основы мультимедиа на Windows загружаются. Эта библиотека необходима только для ввода микрофона.
  • Скорость передачи звуковых данных ограничена примерно в два раза выше исходной скорости звука.
  • В Windows сборки C# .NET теперь имеют строгое имя.
  • Исправление документации: Region требуется информация для создания распознавателя.

Добавлены дополнительные примеры и постоянно обновляются. Последние примеры см. в примерах Speech SDK GitHub репозитория.

Azure пакет SDK для службы "Речь" 0.2.12733: выпуск за май 2018 г.

Этот выпуск является первым общедоступным предварительным выпуском пакета SDK для службы "Речь" Azure.