Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье содержится краткий справочник и подробное описание квот и ограничений для вывода модели искусственного интеллекта Azure в службах ИИ Azure. Квоты и ограничения, относящиеся к службе Azure OpenAI, см. в разделе "Квота и ограничения" в службе Azure OpenAI.
Справочник по квотам и ограничениям
Azure использует квоты и ограничения для предотвращения переполнения бюджета из-за мошенничества и для учета ограничений емкости Azure. Учитывайте эти ограничения при масштабировании рабочих нагрузок. В следующих разделах приведено краткое руководство по квотам по умолчанию и ограничениям, которые применяются к службе вывода модели ИИ Azure в службах ИИ Azure:
Ограничения ресурсов
Имя ограничения | Предельное значение |
---|---|
Ресурсы служб ИИ Azure для каждого региона на подписку Azure | 30 |
Максимальное количество развертываний на ресурс | 32 |
Ограничения скорости
Имя ограничения | Применимо к | Предельное значение |
---|---|---|
Маркеры в минуту | Модели Azure OpenAI | Зависит от модели и номера SKU. Смотрите ограничения для Azure OpenAI. |
Число запросов в минуту | Модели Azure OpenAI | Зависит от модели и номера SKU. См . ограничения для Azure OpenAI. |
Токены в минуту | DeepSeek-R1 | 5 000 000 |
Число запросов в минуту | DeepSeek-R1 | 5,000 |
Одновременные запросы | DeepSeek-R1 | 300 |
Токены в минуту | Остальная часть моделей | 400 000 |
Число запросов в минуту | Остальная часть моделей | 1 000 |
Одновременные запросы | Остальная часть моделей | 300 |
Вы можете запросить увеличение ограничений по умолчанию. Из-за высокого спроса запросы на увеличение предела можно отправлять, и они будут оцениваться по каждому запросу.
Другие ограничения
Имя ограничения | Предельное значение |
---|---|
Максимальное число пользовательских заголовков в запросахAPI 1 | 10 |
1 Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Мы заметили, что некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки не существует решения, кроме уменьшения объема заголовка. В будущих версиях API мы больше не будем передавать пользовательские заголовки. Мы рекомендуем клиентам не опираться на пользовательские заголовки в архитектурах будущих систем.
Уровни использования
Развертывания Global Standard используют глобальную инфраструктуру Azure, динамически маршрутизируя трафик клиентов в центр обработки данных с наилучшей доступностью для аналитических запросов клиента. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть больше вариабилий в задержке ответа.
Ограничение использования задает порог, выше которого клиенты могут наблюдать значительную вариабельность в задержке ответа. Использование клиента определяется для каждой модели и представляет собой общие токены, потребляемые во всех развертываниях, всех подписках и всех регионах для данного арендатора.
Запрос увеличивается до ограничений по умолчанию
Запросы на увеличение лимита можно отправлять и рассматривать по каждому запросу. Откройте онлайн-запрос в службу поддержки клиентов. При отправке запроса на увеличение ограничения конечной точки необходимо предоставить следующие сведения:
При открытии запроса на поддержку выберите Ограничения службы и подписки (квоты) в качестве типа проблемы.
Выберите нужную подписку.
Выберите Cognitive Services в качестве типа квоты.
Выберите Далее.
На вкладке Дополнительные сведения подробно опишите причины увеличения ограничения. Это необходимо для обработки запроса. Обязательно укажите следующие сведения в причине увеличения ограничения:
- Имя модели, версия модели (если применимо), а также тип развертывания (SKU).
- Описание сценария и рабочей нагрузки.
- обоснование запрошенного увеличения;
- Укажите целевую пропускную способность: токены в минуту, запросы в минуту и т. д.
- Укажите запланированное время, к которому вам потребуются увеличенные лимиты.
Наконец, нажмите кнопку Сохранить и продолжить.
Общие рекомендации по остаться в пределах ограничений скорости
Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:
- Реализуйте в приложении логику повторных попыток.
- Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
- Протестируйте различные шаблоны увеличения нагрузки.
- Увеличьте назначенную вашему развертыванию квоту. При необходимости переместите квоту из другого развертывания.
Следующие шаги
- Дополнительные сведения о моделях, доступных в службе вывода модели ИИ Azure