Поделиться через


Квоты и ограничения модели искусственного интеллекта Azure в службах ИИ Azure

В этой статье содержится краткий справочник и подробное описание квот и ограничений для вывода модели искусственного интеллекта Azure в службах ИИ Azure. Квоты и ограничения, относящиеся к службе Azure OpenAI, см. в разделе "Квота и ограничения" в службе Azure OpenAI.

Справочник по квотам и ограничениям

Azure использует квоты и ограничения для предотвращения переполнения бюджета из-за мошенничества и для учета ограничений емкости Azure. Учитывайте эти ограничения при масштабировании рабочих нагрузок. В следующих разделах приведено краткое руководство по квотам по умолчанию и ограничениям, которые применяются к службе вывода модели ИИ Azure в службах ИИ Azure:

Ограничения ресурсов

Имя ограничения Предельное значение
Ресурсы служб ИИ Azure для каждого региона на подписку Azure 30
Максимальное количество развертываний на ресурс 32

Ограничения скорости

Имя ограничения Применимо к Предельное значение
Маркеры в минуту Модели Azure OpenAI Зависит от модели и номера SKU. Смотрите ограничения для Azure OpenAI.
Число запросов в минуту Модели Azure OpenAI Зависит от модели и номера SKU. См . ограничения для Azure OpenAI.
Токены в минуту DeepSeek-R1 5 000 000
Число запросов в минуту DeepSeek-R1 5,000
Одновременные запросы DeepSeek-R1 300
Токены в минуту Остальная часть моделей 400 000
Число запросов в минуту Остальная часть моделей 1 000
Одновременные запросы Остальная часть моделей 300

Вы можете запросить увеличение ограничений по умолчанию. Из-за высокого спроса запросы на увеличение предела можно отправлять, и они будут оцениваться по каждому запросу.

Другие ограничения

Имя ограничения Предельное значение
Максимальное число пользовательских заголовков в запросахAPI 1 10

1 Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Мы заметили, что некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки не существует решения, кроме уменьшения объема заголовка. В будущих версиях API мы больше не будем передавать пользовательские заголовки. Мы рекомендуем клиентам не опираться на пользовательские заголовки в архитектурах будущих систем.

Уровни использования

Развертывания Global Standard используют глобальную инфраструктуру Azure, динамически маршрутизируя трафик клиентов в центр обработки данных с наилучшей доступностью для аналитических запросов клиента. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть больше вариабилий в задержке ответа.

Ограничение использования задает порог, выше которого клиенты могут наблюдать значительную вариабельность в задержке ответа. Использование клиента определяется для каждой модели и представляет собой общие токены, потребляемые во всех развертываниях, всех подписках и всех регионах для данного арендатора.

Запрос увеличивается до ограничений по умолчанию

Запросы на увеличение лимита можно отправлять и рассматривать по каждому запросу. Откройте онлайн-запрос в службу поддержки клиентов. При отправке запроса на увеличение ограничения конечной точки необходимо предоставить следующие сведения:

  1. При открытии запроса на поддержку выберите Ограничения службы и подписки (квоты) в качестве типа проблемы.

  2. Выберите нужную подписку.

  3. Выберите Cognitive Services в качестве типа квоты.

  4. Выберите Далее.

  5. На вкладке Дополнительные сведения подробно опишите причины увеличения ограничения. Это необходимо для обработки запроса. Обязательно укажите следующие сведения в причине увеличения ограничения:

    • Имя модели, версия модели (если применимо), а также тип развертывания (SKU).
    • Описание сценария и рабочей нагрузки.
    • обоснование запрошенного увеличения;
    • Укажите целевую пропускную способность: токены в минуту, запросы в минуту и т. д.
    • Укажите запланированное время, к которому вам потребуются увеличенные лимиты.
  6. Наконец, нажмите кнопку Сохранить и продолжить.

Общие рекомендации по остаться в пределах ограничений скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:

  • Реализуйте в приложении логику повторных попыток.
  • Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
  • Протестируйте различные шаблоны увеличения нагрузки.
  • Увеличьте назначенную вашему развертыванию квоту. При необходимости переместите квоту из другого развертывания.

Следующие шаги