Поделиться через


Квоты и ограничения службы "Речь"

В этой статье содержится краткий справочник и подробное описание квот и ограничений для службы "Речь" в службах ИИ Azure. Эти сведения верны для всех ценовых категорий службы. Она также содержит некоторые рекомендации по предотвращению регулирования количества запросов.

Ценовая категория "Бесплатный" (F0) см. также ежемесячные пособия на странице ценообразования.

Справочник по квотам и ограничениям

В следующих разделах приведены краткие инструкции по квотам и ограничениям, применяемым к службе "Речь".

Дополнительные сведения о настраиваемых квотах для ресурсов службы "Речь "Стандартный" (S0) см. в дополнительных объяснениях, рекомендациях и инструкциях по корректировке. Квоты и ограничения для ресурсов "Бесплатная речь" (F0) не настраиваются.

Внимание

Если вы переключите ресурс службы "Речь" с бесплатной (F0) на ценовую категорию "Стандартный" (S0), изменение соответствующих квот может занять до нескольких часов.

Квоты и ограничения речи на текст для каждого ресурса

В этом разделе описывается речь в квотах текста и ограничениях для каждого ресурса службы "Речь". Если иное не указано, ограничения не изменяются.

Преобразование речи в режиме реального времени в текст и речь

Вы можете использовать речь в режиме реального времени для текста с помощью пакета SDK службы "Речь" или "Речь" в REST API для короткого звука.

Внимание

Эти ограничения применяются к параллельному распознаванию речи в режиме реального времени к текстовым запросам и запросам на перевод речи в сочетании. Например, если у вас есть 60 одновременных речевых запросов и 40 одновременных запросов на перевод речи, вы достигнете предела в 100 одновременных запросов.

Квота Бесплатный (F0) Standard (S0)
Ограничение на количество одновременных запросов — конечная точка базовой модели 1

Это ограничение не настраивается.
100 (значение по умолчанию)

Скорость настраивается для ресурсов Уровня "Стандартный" (S0). Дополнительные объяснения, рекомендации и инструкции по корректировке.
Ограничение на количество одновременных запросов — пользовательская конечная точка 1

Это ограничение не настраивается.
100 (значение по умолчанию)

Скорость настраивается для ресурсов Уровня "Стандартный" (S0). Дополнительные объяснения, рекомендации и инструкции по корректировке.
Максимальная длина звука для диаризации в режиме реального времени. Н/П 240 минут на файл

Быстрое транскрибирование

Квота Бесплатный (F0) Standard (S0)
Максимальный размер входного аудиофайла Н/П 200 МБ
Максимальная длина звука Н/П 120 минут на файл
Максимальное количество запросов в минуту Н/П 300

Пакетное транскрибирование

Квота Бесплатный (F0) Standard (S0)
Ограничение REST API преобразования речи в текст Недоступно для F0 100 запросов в 10 секунд (600 запросов в минуту)
Максимальный размер входного аудиофайла Н/П 1 ГБ
Максимальное количество больших двоичных объектов в контейнере Н/П 10000
Максимальное количество файлов в одном запросе на транскрибирование (при использовании нескольких URL-адресов содержимого в качестве входных данных). Н/П 1000
Максимальная длина звука для транскрибирования с включенной диаризации. Н/П 240 минут на файл

Настройка модели

Ограничения в этой таблице применяются к ресурсу службы "Речь" при создании пользовательской модели речи.

Квота Бесплатный (F0) Standard (S0)
Ограничение REST API 100 запросов в 10 секунд (600 запросов в минуту) 100 запросов в 10 секунд (600 запросов в минуту)
Максимальное количество наборов речевых данных 2 500
Максимальный размер файла набора акустических данных для импорта данных 2 ГБ 2 ГБ
Максимальный размер файла набора языковых данных для импорта данных 200 МБ 1.5 ГБ
Максимальный размер файла набора данных произношения для импорта данных 1 КБ 1 МБ
Максимальный text размер текста при использовании параметра в запросе API Models_Create 200 КБ 500 КБ

Квоты и ограничения речи для текста для каждого ресурса

В этом разделе описаны квоты речи и ограничения для каждого ресурса службы "Речь".

Текст в режиме реального времени для речи

Вы можете использовать текст в режиме реального времени для речи с помощью пакета SDK службы "Речь" или REST API преобразования текста в речь. Если иное не указано, ограничения не изменяются.

Квота Бесплатный (F0) Standard (S0)
Максимальное количество транзакций в период времени для предварительно созданных нейронных голосов и пользовательских нейронных голосов. 20 транзакций за 60 секунд

Это ограничение не настраивается.
200 транзакций в секунду (TPS) (значение по умолчанию).

Скорость настраивается до 1000 TPS для ресурсов standard (S0). Дополнительные объяснения, рекомендации и инструкции по корректировке.
Максимальная длина созданной аудиозаписи для одного запроса 10 мин. 10 мин.
Макс. совокупное количество различных тегов <voice> и <audio> в SSML 50 50
Максимальный размер сообщения SSML на поворот для websocket 64 КБ 64 КБ

Пакетный синтез

Эти ограничения не настраиваются. Дополнительные сведения о задержке синтеза пакетного синтеза см . в рекомендациях по задержке и задержке синтеза пакетной службы.

Квота Бесплатный (F0) Standard (S0)
Ограничение REST API Недоступно для F0 100 запросов в 10 секунд
Максимальный размер полезных данных JSON для создания задания синтеза Н/П 2 мегабайта
Одновременные активные задания синтеза Н/П Без ограничений
Максимальное число текстовых входных данных на задание синтеза Н/П 10000
Максимальное время жить для задания синтеза, так как оно в окончательном состоянии Н/П До 31 дней (указано с помощью свойств)

Пользовательский нейронный голос — профессиональный

Ограничения в этой таблице применяются к ресурсу "Речь" при создании профессиональной пользовательской нейронной голосовой модели.

Квота Бесплатный (F0) Standard (S0)
Максимальное число транзакций в секунду (TPS) Недоступно для F0 200 транзакций в секунду (TPS) (значение по умолчанию).
Максимальное количество наборов данных Н/П 500
Максимальное число одновременных отправки набора данных Н/П 5
Максимальный размер файла данных для импорта данных на набор данных Н/П 2 ГБ
Отправка длинного звука или звука без скрипта Н/П Да
Максимальное число одновременных обучения моделей Н/П 4
Максимальное количество пользовательских конечных точек Н/П 50

Пользовательский нейронный голос — личный голос

Ограничения в этой таблице применяются к ресурсу "Речь" при создании личного голоса.

Квота Бесплатный (F0) Standard (S0)
Ограничение REST API (не включая синтез речи) Недоступно для F0 50 запросов в 10 секунд
Максимальное число транзакций в секунду (TPS) для синтеза речи Недоступно для F0 200 транзакций в секунду (TPS) (значение по умолчанию).

Пакетный текст для аватара речи

Квота Бесплатный (F0) Standard (S0)
Ограничение REST API Недоступно для F0 2 запроса в минуту

Текст в режиме реального времени для аватара речи

Квота Бесплатный (F0) Standard (S0)
Новые подключения в минуту Недоступно для F0 2 новых подключения в минуту
Максимальная длительность подключения с речью Недоступно для F0 10 минут1
Максимальная длительность подключения с состоянием простоя Недоступно для F0 5 мин

1 . Чтобы обеспечить непрерывную работу аватара в режиме реального времени более 10 минут, можно включить автоматическое повторное подключение. Сведения о настройке автоматического повторного подключения см. в этом примере кода (поиск "автоматическое повторное подключение").

Средство создания аудиосодержимого

Квота Бесплатный (F0) Standard (S0)
Размер файла (обычный текст в SSML)1 З000 символов на один файл 20 000 символов на один файл
Размер файла (lexicon file)2 30 КБ на файл 100 КБ на файл
Оплачиваемые символы в SSML 15 000 символов на файл 100 000 символов на файл
Экспорт в библиотеку аудио 1 одновременная задача Н/П

1 Ограничение применяется только к обычному тексту в SSML и не включает теги.

2 Символы лексического файла не взимается. Только элементы лексикона в SSML считаются оплачиваемыми символами. Дополнительные сведения см. в символах, доступных для выставления счетов.

Квоты распознавания говорящего и ограничения для каждого ресурса

Распознавание говорящего ограничено 20 транзакциями в секунду (TPS).

Подробное описание, корректировка квот и рекомендации

Некоторые квоты службы "Речь" настраиваются. В этом разделе приведены дополнительные объяснения, рекомендации и инструкции по корректировке.

Следующие квоты настраиваются для ресурсов Standard (S0). Ограничения на бесплатный запрос (F0) не настраиваются.

Прежде чем запрашивать увеличение квоты (если применимо), проверьте текущие TPS (транзакции в секунду) и убедитесь, что необходимо увеличить квоту. Служба "Речь" использует технологии автоматического масштабирования для предоставления требуемых вычислительных ресурсов в режиме по требованию. В то же время служба "Речь" пытается снизить затраты, не сохраняя чрезмерное количество аппаратных ресурсов.

Давайте рассмотрим пример. Предположим, что приложение получает код ответа 429, указывающий на слишком большое число запросов. Приложение получает этот ответ, даже если рабочая нагрузка находится в пределах ограничений, указанных в справочнике по квотам и ограничениям. Скорее всего, причина в том, что служба "Речь" находится в процессе масштабирования для удовлетворения вашей потребности и еще не достигла требуемого масштаба. Поэтому служба не может моментально предоставить достаточно ресурсов для обслуживания запроса. В таких случаях увеличение квоты не поможет. В большинстве случаев служба "Речь" будет масштабироваться в ближайшее время, и проблема, приводяшая к устранению кода ответа 429.

Общие рекомендации по предотвращению регулирования количества запросов во время автомасштабирования

Чтобы снизить количество проблем, связанных с регулированием, рекомендуется использовать следующие методы:

  • Реализуйте в приложении логику повторных попыток.
  • Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно. Например, предположим, что приложение использует текст для речи, а текущая рабочая нагрузка составляет 5 TPS. В следующую секунду вы увеличиваете нагрузку до 20 TPS (то есть в четыре раза). Служба "Речь" немедленно начинает масштабирование, чтобы подстроиться к новой нагрузке, но за одну секунду невозможно достигнуть нужного масштаба. Некоторые запросы получают код ответа 429 (слишком много запросов).
  • Протестируйте различные шаблоны увеличения нагрузки. Дополнительные сведения см. в примере шаблона рабочей нагрузки.
  • Создайте дополнительные ресурсы службы "Речь" в разных регионах и распределите рабочую нагрузку между ними. (Создание нескольких ресурсов службы "Речь" в одном регионе не влияет на производительность, так как все ресурсы обслуживаются тем же серверным кластером).

В следующих разделах описаны конкретные случаи настройки квот.

Речь в тексте: увеличение объема речи в режиме реального времени до ограничения параллельного запроса на текст

По умолчанию количество одновременных запросов на перевод речи в режиме реального времени в текстовые и речевые запросы ограничены 100 на ресурс в базовой модели и 100 на пользовательскую конечную точку в пользовательской модели. Для ценовой категории "Стандартный" это значение можно увеличить. Перед отправкой запроса убедитесь, что вы знакомы с материалами, описанными выше в этой статье, например с рекомендациями по снижению регулирования.

Примечание.

Ограничения на число одновременных запросов для базовой и пользовательской моделей необходимо корректировать отдельно. У вас может быть ресурс службы "Речь", связанный с множеством пользовательских конечных точек, в которых размещено множество развертываний пользовательской модели. По мере необходимости необходимо запросить корректировки ограничений на пользовательскую конечную точку отдельно.

Увеличение предельного количества одновременных запросов не влияет на затраты напрямую. Служба "Речь" использует модель оплаты, требующую оплаты только за то, что вы используете. Ограничение определяет, насколько может масштабироваться служба, прежде чем будет начато регулирование запросов.

Существующее значение максимального числа одновременных запросов нельзя просмотреть на портале Azure, в средствах командной строки или запросах API. Чтобы проверить имеющееся значение, отправьте запрос в службу поддержки Azure.

Примечание.

Контейнерам службы "Речь" не требуется увеличение максимального количества одновременных запросов, так как в этом они зависят только от ограничений ЦП оборудования, на котором размещены. Однако контейнеры службы "Речь" имеют собственные ограничения емкости, которые следует учитывать. Дополнительные сведения см. в разделе вопросов и ответов по контейнерам службы "Речь".

Подготовьте необходимые сведения

  • Для базовой модели:
    • Идентификатор ресурса службы "Речь"
    • Область/регион
  • Для пользовательской модели:
    • Область/регион
    • Идентификатор пользовательской конечной точки

Как получить сведения для базовой модели:

  1. Переход на портал Azure.
  2. Выберите ресурс службы "Речь", для которого требуется увеличить максимальное количество одновременных запросов.
  3. Откройте группу Управление ресурсами и выберите элемент Свойства.
  4. Скопируйте и сохраните значения следующих полей:
    • Идентификатор ресурса
    • Расположение (регион конечной точки)

Как получить сведения для пользовательской модели:

  1. Перейдите на портал Speech Studio.
  2. При необходимости войдите в систему и перейдите к пользовательской речи.
  3. Выберите свой проект и перейдите к разделу Развертывание.
  4. Выберите требуемую конечную точку.
  5. Скопируйте и сохраните значения следующих полей:
    • Регион службы (регион конечной точки)
    • Идентификатор конечной точки

Создание и отправка запроса на поддержку

Инициируйте увеличение максимального количества одновременных запросов для своего ресурса или, если необходимо, проверьте текущее ограничение путем отправки запроса на поддержку. Это делается следующим образом:

  1. Убедитесь, что у вас есть необходимые сведения, указанные в предыдущем разделе.
  2. Переход на портал Azure.
  3. Выберите ресурс службы "Речь", для которого требуется увеличить (или проверить) ограничение на число одновременных запросов.
  4. В группе Поддержка и устранение неполадок выберите Новый запрос на поддержку. Откроется новое окно с автоматически заполненными сведениями о подписке Azure и ресурсе Azure.
  5. В сводке опишите нужное значение (например, "Увеличение ограничения запросов на параллелизм текста").
  6. В поле Тип проблемы выберите Проблемы с квотой или подпиской.
  7. В подтипе проблемы выберите один из следующих вариантов:
    • Увеличение квоты или числа одновременных запросов — для запроса на увеличение.
    • Проверка квоты или использования — для проверки существующего ограничения.
  8. По завершении перейдите в раздел Далее: решения. Продолжайте создание запроса.
  9. На вкладке "Сведения" в поле "Описание" введите следующее:
    • Обратите внимание, что запрос относится к объему речи к текстовой квоте.
    • Вашу модель: базовая или пользовательская.
    • Сведения о ресурсах Azure, собранные ранее.
    • Другие необходимые сведения.
  10. На вкладке Проверить и создать выберите Создать.
  11. Запишите номер запроса на поддержку в уведомлениях на портале Azure. Вы обратитесь в ближайшее время о вашем запросе.

Пример рекомендованного шаблона рабочей нагрузки

Ниже приведен общий пример правильного подхода. Он предлагается только как шаблон, который при необходимости можно настроить для собственного использования.

Предположим, что для ресурса службы "Речь" установлено ограничение на число одновременных запросов, равное 300. Запустите рабочую нагрузку с 20 одновременными подключениями и увеличивайте ее на 20 одновременных подключений каждые 90–120 секунд. Контролируйте отклики службы и реализуйте логику отката (сокращения нагрузки) при слишком большом количестве запросов (код отклика 429). Через одну минуту снова увеличьте нагрузку. Если это не поможет, повторите попытку через две минуты. Для интервалов используется шаблон 1-2-4-4 минуты.

Как правило, рекомендуется протестировать рабочую нагрузку и шаблоны рабочей нагрузки перед переходом в рабочую среду.

Текст для речи: увеличение ограничения параллельного запроса

Для ценовой категории "Стандартный" это значение можно увеличить. Перед отправкой запроса убедитесь, что вы знакомы с материалами, описанными выше в этой статье, например с рекомендациями по снижению регулирования.

Увеличение предельного количества одновременных запросов не влияет на затраты напрямую. Служба "Речь" использует модель оплаты, согласно которой вы платите только за фактическое использование. Ограничение определяет, насколько может масштабироваться служба, прежде чем будет начато регулирование запросов.

Существующее значение максимального числа одновременных запросов нельзя просмотреть на портале Azure, в средствах командной строки или запросах API. Чтобы проверить имеющееся значение, отправьте запрос в службу поддержки Azure.

Примечание.

Контейнерам службы "Речь" не требуется увеличение максимального количества одновременных запросов, так как в этом они зависят только от ограничений ЦП оборудования, на котором размещены.

Подготовка необходимых сведений

Чтобы создать запрос на увеличение, необходимо указать сведения.

  • Для предварительно созданного голоса:
    • Идентификатор ресурса службы "Речь"
    • Область/регион
  • Для пользовательского голоса:
    • Регион развертывания
    • Идентификатор пользовательской конечной точки

Как получить сведения для предварительно созданного голоса:

  1. Переход на портал Azure.
  2. Выберите ресурс службы "Речь", для которого требуется увеличить максимальное количество одновременных запросов.
  3. Откройте группу Управление ресурсами и выберите элемент Свойства.
  4. Скопируйте и сохраните значения следующих полей:
    • Идентификатор ресурса
    • Расположение (регион конечной точки)

Как получить сведения для пользовательского голоса:

  1. Перейдите на портал Speech Studio.
  2. При необходимости войдите в систему и перейдите к пользовательскому голосу.
  3. Выберите проект и перейдите к модели развертывания.
  4. Выберите требуемую конечную точку.
  5. Скопируйте и сохраните значения следующих полей:
    • Регион службы (регион конечной точки)
    • Идентификатор конечной точки

Создание и отправка запроса на поддержку

Инициируйте увеличение максимального количества одновременных запросов для своего ресурса или, если необходимо, проверьте текущее ограничение путем отправки запроса на поддержку. Это делается следующим образом:

  1. Убедитесь, что у вас есть необходимые сведения, указанные в предыдущем разделе.
  2. Переход на портал Azure.
  3. Выберите ресурс службы "Речь", для которого требуется увеличить (или проверить) ограничение на число одновременных запросов.
  4. В группе Поддержка и устранение неполадок выберите Новый запрос на поддержку. Откроется новое окно с автоматически заполненными сведениями о подписке Azure и ресурсе Azure.
  5. В сводке опишите нужное значение (например, "Увеличить ограничение запроса на параллелизм речи").
  6. В поле Тип проблемы выберите Проблемы с квотой или подпиской.
  7. В подтипе проблемы выберите один из следующих вариантов:
    • Увеличение квоты или числа одновременных запросов — для запроса на увеличение.
    • Проверка квоты или использования — для проверки существующего ограничения.
  8. На вкладке "Рекомендуемое решение " нажмите кнопку "Далее".
  9. На вкладке "Дополнительные сведения" введите все необходимые элементы. В поле "Сведения" введите следующее:
    • Обратите внимание, что запрос относится к квоте речи на текст.
    • Выберите предварительно созданный голос или пользовательский голос.
    • Сведения о ресурсах Azure, собранные ранее.
    • Другие необходимые сведения.
  10. На вкладке Проверить и создать выберите Создать.
  11. Запишите номер запроса на поддержку в уведомлениях на портале Azure. Вы обратитесь в ближайшее время о вашем запросе.

Аватар преобразования текста в речь: увеличение ограничения новых подключений

Чтобы увеличить ограничение новых подключений в минуту для текста к аватару речи, обратитесь к представителю по продажам, чтобы создать билет со следующими сведениями:

  • Универсальный код ресурса службы "Речь"
  • Запрошено новое ограничение для увеличения
  • Обоснование увеличения
  • Дата начала увеличения
  • Дата окончания увеличения
  • Предварительно созданный аватар или настраиваемый аватар