Ограничения службы агентов Foundry, квоты и региональная поддержка

Служба агента Foundry обеспечивает соблюдение квот и ограничений для артефактов агента, отправки файлов, сообщений и регистрации инструментов. Общие сведения об этих ограничениях помогают создавать приложения, масштабируемые без ограничения службы. В этой статье перечислены ограничения по умолчанию, поддерживаемые регионы, совместимые модели и рекомендации по обработке ошибок ограничения.

Примечание

Служба агента Foundry теперь в статусе общего доступа (GA). Некоторые подфункции, такие как размещенные агенты, находятся в общедоступной предварительной версии и могут иметь различные ограничения.

Необходимые условия

Подписка Azure.
Проект Microsoft Foundry.
Развернутая модель, совместимая со службой агентов. Доступность модели и региона может отличаться.

Поддерживаемые регионы

Служба агента Foundry доступна только для проектов Foundry, созданных в регионах, где поддерживается API ответов Azure OpenAI. Проект Foundry должен находиться в одном из этих регионов для использования службы агента. Некоторые модели OpenAI Azure могут быть недоступны в одном регионе. Дополнительные сведения см. в разделе Foundry Models, которые продаются непосредственно Azure.

Важно

Не все средства доступны в каждом регионе. Например, поиск по файлам недоступен в Италии Северная и Южная Бразилия. Полная матрица инструментов представлена в разделе Поддержка инструментов по регионам и моделям.

Помимо моделей Azure OpenAI, агентская служба поддерживает модели из каталога моделей Foundry. Эти модели развертываются и управляются с помощью Foundry и следуют отдельным квотам. Для использования агентов доступны следующие модели.

Модели продаются непосредственно компанией Azure:

MAI-DS-R1: Детерминированное, точностное рассуждение.
grok-4: Гранично масштабное рассуждение для решения сложных многошаговых задач.
grok-4-fast-reasoning: ускоренное агентивное рассуждение, оптимизированное для автоматизации рабочих процессов.
grok-4-fast-non-reasoning: высокая пропускная способность, низкая задержка и системная маршрутизация.
grok-3: строгое обоснование сложных рабочих процессов на уровне системы.
grok-3-mini: упрощенная модель, оптимизированная для интерактивных вариантов использования с большим объемом.
Ллома-3.3-70B-Instruct: универсальная модель для корпоративных вопросов и ответов, поддержки принятия решений и системной оркестрации.
Llama-4-Maverick-17B-128E-Instruct-FP8: модель, оптимизированная под FP8, обеспечивающая быстрое и экономичное выполнение вывода.
DeepSeek-V3-0324: многомодальное понимание текста и изображений.
DeepSeek-V3.1: улучшенное многомодальное рассуждение и прикреплённое извлечение.
DeepSeek-R1-0528: расширенные развернутые формы и многошаговые умозаключения.
gpt-oss-120b: модель open-ecosystem, которая поддерживает прозрачность и воспроизводимость.

Совет

Доступность модели может меняться с течением времени. Чтобы проверить, что можно развернуть для проекта и региона, используйте модель портала Foundry.

Устранение неполадок

Модель или версия недоступна в вашем регионе

Убедитесь, что выбрана правильная вкладка для вашего типа развертывания (глобальный стандарт или подготовленный).
Попробуйте другой регион, поддерживающий API модели и ответов.
Если вы используете модели gpt-5, регистрация требуется. Доступ предоставляется в соответствии с критериями соответствия Microsoft.

Инструмент недоступен в вашем регионе

Не все инструменты поддерживаются в каждом регионе. Например, поиск по файлам недоступен в Италии Северная и Южная Бразилия, а интерпретатор кода недоступен во всех регионах.
Проверьте поддержку средства по регионам и таблице моделей , чтобы подтвердить доступность перед развертыванием.
Если инструмент недоступен, выберите поддерживаемый регион или используйте другое средство.

Развертывание выделенной пропускной способности неудается

Необходимо убедиться, что в вашем распоряжении достаточно PTU в данном регионе.
Просмотрите выделенную пропускную способность и управление избыточным трафиком.

Агент получает ошибки с ограничением скорости (429)

Реализуйте экспоненциальный обратный отсчет со случайными задержками в логике повторных попыток приложения.
Для устойчивых рабочих нагрузок с высокой пропускной способностью рассмотрите возможность развертывания подготовленной пропускной способности.
Просмотрите квоты и ограничения Azure OpenAI для токенов для развертывания в минуту и запросов в минуту.

Квоты и ограничения

Служба агента Foundry налагает ограничения в двух местах:

Ограничения службы агента. Ограничения для артефактов агента и потока, таких как отправка файлов, векторное хранилище вложений, количество сообщений и регистрация инструментов.
Ограничения модели. Квоты и ограничения скорости для развертываний моделей, обращаемых вашими агентами.

Если вы используете потоки и сообщения, см. раздел "Потоки, Запуски и Сообщения в службе агента Foundry". Если вы используете поиск по файлам, см. векторные хранилища для поиска файлов.

Квоты и ограничения по умолчанию для службы

В следующей таблице перечислены ограничения по умолчанию, применяемые службой агента. Эти ограничения применяются ко всем проектам Foundry независимо от типа подписки или региона.

Название лимита	Предел значения
Максимальное количество файлов на агент или поток	10,000
Максимальный размер файла для агентов	512 МБ
Максимальный размер всех отправленных файлов для агентов	300 ГБ
Максимальный размер файла в токенах для присоединения к хранилищу векторов	2 000 000 токенов
Максимальное количество сообщений на поток	100,000
Максимальный размер содержимого `text` на сообщение	1500 000 символов
Максимальное количество инструментов, зарегистрированных на агент	128

Ограничения службы агента в этой таблице фиксируются и применяются равномерно во всех типах подписок. Служба агента не накладывает отдельные ограничения скорости для вызовов API. Ограничение скорости применяется на уровне развертывания модели. См. квоты и ограничения Azure OpenAI для ограничений скорости, связанных с конкретной моделью.

Справочник по ограничениям ошибок

При превышении лимита, Agent Service возвращает ошибку. Обработайте эти ошибки корректно в приложении.

Сценарий ошибки	Состояние HTTP	Код ошибки	Рекомендуемое действие
Слишком большой файл	400	`file_size_exceeded`	Разделение содержимого на небольшие файлы
Ограничение на токены для векторного хранилища	400	`token_limit_exceeded`	Уменьшение содержимого файла или разбиение файлов
Ограничение сообщений потока	400	`message_limit_exceeded`	Создайте новый поток
Слишком большое содержимое сообщения	400	`content_size_exceeded`	Использование поиска файлов для большого содержимого
Слишком много инструментов	400	`tool_limit_exceeded`	Удаление неиспользуемых средств
Превышено ограничение скорости	429	`rate_limit_exceeded`	Внедрение экспоненциального отката

Например:

Размер файла превышает максимальный размер. Отправка файла завершается ошибкой. Разделите содержимое на небольшие файлы или уменьшите размер файла перед отправкой.
Ограничение токенов в векторном хранилище. Прикрепление файла к хранилищу векторов завершается ошибкой, если файл превышает ограничение количества токенов. Уменьшите содержимое файла или разбиите его на несколько файлов.
Ограничение сообщений потока. Добавление сообщений может завершиться неудачей после того, как поток достигнет предела сообщений. Создайте новый поток для нового сеанса беседы или архивируйте и смените потоки в рамках разработки приложения.
Размер содержимого сообщения. Создание сообщения может завершиться ошибкой, если содержимое text слишком велико. Отправляйте небольшие сообщения или перемещайте большое содержимое в файлы и используйте поиск файлов.
Ограничение регистрации инструмента. Создание или обновление агента может не удаться, если вы регистрируете слишком много инструментов. Зарегистрируйте только необходимые инструменты и предпочесть меньшее количество повторно используемых средств.
Превышено ограничение скорости. Вызовы API к развертыванию модели ограничиваются. Реализуйте экспоненциальный откат с помощью jitter.

Сценарии поиска файлов см. в разделе "Векторные хранилища" для поиска файлов, чтобы получить рекомендации по управлению ростом векторного хранилища.

Квоты и ограничения для моделей

Агенты следуют квотам и ограничениям скорости для развертываний моделей, которые они используют.

Сведения о текущих квотах и ограничениях модели см. в разделе:

Чтобы просмотреть или запросить больше квот моделей, см. статью Управление и запрос увеличения квот для ресурсов с помощью Microsoft Foundry (проекты Foundry).

Запрос увеличения ограничения

Ограничения в этой статье являются значениями по умолчанию для службы агента Foundry. Если для рабочей нагрузки требуются более высокие ограничения:

Квоты модели. Вы можете запросить увеличение квот на развертывание модели. См. раздел Управление и повышение квот для ресурсов в Microsoft Foundry.
Ограничения службы агента. Ограничения файлов, сообщений и инструментов, перечисленных в этой статье, являются фиксированными ограничениями службы и не могут быть увеличены. Создайте приложение для работы с этими ограничениями с помощью описанных выше рекомендаций.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-30