Поделиться через


Ограничения службы агентов Foundry, квоты и региональная поддержка

Служба агента Foundry накладывает квоты и ограничения на артефакты агента, загрузку файлов, сообщения и регистрацию инструментов. Общие сведения об этих ограничениях помогают создавать приложения, масштабируемые без ограничения службы. В этой статье перечислены ограничения по умолчанию, поддерживаемые регионы, совместимые модели и рекомендации по обработке ошибок ограничения.

Замечание

Служба агента Foundry стала общедоступной (GA). Некоторые подфункции, такие как размещенные агенты, находятся в общедоступной предварительной версии и могут иметь различные ограничения.

Предпосылки

  • Подписка Azure.
  • Проект Microsoft Foundry.
  • Развернутая модель, совместимая со Службой агентов (Agent Service). Доступность модели и региона может отличаться.

Поддерживаемые регионы

Служба агента Foundry доступна в том же регионе, что и API ответов Azure OpenAI.

Это важно

Не все средства доступны в каждом регионе. Например, поиск по файлам недоступен в Италии Северная и Южная Бразилия. Полную матрицу инструментов по регионам см. в разделе Поддержка инструментов по регионам и моделям.

поддержка модели OpenAI Azure

Служба агента Foundry совместима с текущими моделями openAI Azure. Полный список поддерживаемых моделей и региональную доступность см. в разделе Foundry Models, продаваемых непосредственно Azure.

Другие коллекции моделей

Помимо моделей Azure OpenAI, служба агента поддерживает модели из каталога моделей Foundry. Эти модели развертываются и управляются с помощью Foundry и следуют отдельным квотам. Для использования агентов доступны следующие модели.

Модели продаются непосредственно компанией Azure:

  • MAI-DS-R1: детерминированное умозаключение, ориентированное на точность.
  • grok-4: Масштабное рассуждение для сложного многошагового решения проблем.
  • grok-4-fast-reasoning: ускоренное агентивное мышление, оптимизированное для автоматизации рабочих процессов.
  • grok-4-fast-non-reasoning: высокая пропускная способность, низкой задержки и системная маршрутизация.
  • grok-3: строгое обоснование сложных рабочих процессов на уровне системы.
  • grok-3-mini: упрощенная модель, оптимизированная для интерактивных вариантов использования с большим объемом.
  • Ллома-3.3-70B-Instruct: универсальная модель для корпоративных вопросов и ответов, поддержки принятия решений и системной оркестрации.
  • Llama-4-Maverick-17B-128E-Instruct-FP8: модель, оптимизированная для FP8, которая обеспечивает быстрый и эффективный по затратам инференс.
  • DeepSeek-V3-0324: многомодальное понимание текста и изображений.
  • DeepSeek-V3.1: улучшенное многомодальное анализирование и контекстуальное извлечение.
  • DeepSeek-R1-0528: расширенные долгосрочные и многошаговые рассуждения.
  • gpt-oss-120b: модель open-ecosystem, которая поддерживает прозрачность и воспроизводимость.

Подсказка

Доступность модели может меняться с течением времени. Чтобы проверить, что можно развернуть для проекта и региона, используйте модель портала Foundry.

Устранение неполадок

Модель или версия недоступна в вашем регионе

  • Убедитесь, что вы выбрали правильную вкладку для вашего типа развертывания (глобальный стандарт или подготовленные).
  • Попробуйте другой регион, поддерживающий модель и версию. См. таблицу поддержки модели и региона.
  • Если вы используете модели gpt-5, регистрация требуется. Доступ предоставляется в соответствии с критериями соответствия корпорации Майкрософт.

Инструмент недоступен в вашем регионе

  • Не все инструменты поддерживаются в каждом регионе. Например, поиск по файлам недоступен в Италии Северная и Южная Бразилия, а интерпретатор кода недоступен во всех регионах.
  • Проверьте поддержку средства по регионам и таблице моделей , чтобы подтвердить доступность перед развертыванием.
  • Если инструмент недоступен, выберите поддерживаемый регион или используйте другое средство.

Неудачная попытка развертывания выделенной пропускной способности

Агент получает ошибки с ограничением скорости (429)

  • Реализуйте экспоненциальную обратную передачу с помощью jitter в логике повторных попыток приложения.
  • Для устойчивых рабочих нагрузок с высокой пропускной способностью рассмотрите возможность развертывания подготовленной пропускной способности.
  • Просмотрите квоты и пределы Azure OpenAI на токены в минуту и запросов в минуту для вашего развертывания.

Квоты и ограничения

Служба агента Foundry применяет ограничения в двух случаях:

  • Ограничения службы агента. Ограничения для артефактов агента и потока, таких как загрузка файлов, вложения в векторное хранилище, количество сообщений и регистрация инструментов.
  • Ограничения модели. Квоты и ограничения скорости для развертываний моделей, вызываемых вашими агентами.

Если вы используете потоки и сообщения, см. раздел "Потоки, выполнения и сообщения" в Foundry Agent Service. Если вы используете поиск по файлам, см. векторные хранилища для поиска файлов.

Квоты и ограничения по умолчанию для службы

В следующей таблице перечислены ограничения по умолчанию, применяемые службой агента. Эти ограничения применяются ко всем проектам Foundry независимо от типа подписки или региона.

Имя ограничения Предельное значение
Максимальное количество файлов на агент или поток 10 000
Максимальный размер файла для агентов 512 МБ
Максимальный размер всех отправленных файлов для агентов 300 ГБ
Максимальный размер файла в токенах для присоединения к хранилищу векторов 2 000 000 токенов
Максимальное количество сообщений на тему 100,000
Максимальный размер содержимого text на сообщение 1500 000 символов
Максимальное количество инструментов, зарегистрированных для каждого агента 128

Ограничения службы агента в этой таблице фиксируются и применяются равномерно во всех типах подписок. Служба агента не накладывает отдельные ограничения скорости для вызовов API. Ограничение скорости применяется на уровне развертывания модели. См. квоты и лимиты Azure OpenAI для лимитов скорости конкретной модели.

Справочник по ограничениям ошибок

При превышении предела служба Agent возвращает ошибку. Обработайте эти ошибки корректно в приложении.

Сценарий ошибки Состояние HTTP Код ошибки Рекомендуемое действие
Слишком большой файл 400 file_size_exceeded Разделение содержимого на небольшие файлы
Ограничение токена хранилища векторов 400 token_limit_exceeded Уменьшение содержимого файла или разбиение файлов
Ограничение количества сообщений в потоке 400 message_limit_exceeded Создание нового потока
Слишком большое содержимое сообщения 400 content_size_exceeded Использование поиска файлов для большого содержимого
Слишком много инструментов 400 tool_limit_exceeded Удаление неиспользуемых средств
Превышено ограничение скорости 429 rate_limit_exceeded Реализация экспоненциального отката

Рассмотрим пример.

  • Размер файла превышает максимальный размер. Отправка файла завершается ошибкой. Разделите содержимое на небольшие файлы или уменьшите размер файла перед отправкой.
  • Ограничение на токены в хранилище векторов. Присоединение файла к хранилищу векторов завершается ошибкой, если размер файла превышает ограничение на количество токенов. Уменьшите содержимое файла или разбиите его на несколько файлов.
  • Ограничение на количество сообщений в потоке. Добавление сообщений может не удастся после того, как поток достигнет предела количества сообщений. Создайте новый поток для нового сеанса беседы или архивируйте и смените потоки в рамках разработки приложения.
  • Размер содержимого сообщения. Создание сообщения может завершиться ошибкой, если содержимое text слишком велико. Отправляйте небольшие сообщения или перемещайте большое содержимое в файлы и используйте поиск файлов.
  • Ограничение регистрации инструмента. Создание или обновление агента может завершиться ошибкой, если вы регистрируете слишком много инструментов. Зарегистрируйте только необходимые инструменты и предпочесть меньшее количество повторно используемых средств.
  • Превышено ограничение скорости. Вызовы API к развертыванию модели ограничиваются. Реализуйте экспоненциальный откат с помощью jitter.

Сценарии поиска файлов см. в разделе "Векторные хранилища" для поиска файлов, чтобы получить рекомендации по управлению ростом векторного хранилища.

Рекомендации по соблюдению ограничений

Используйте следующие практики, чтобы сократить количество сбоев, связанных с ограничениями.

  • Держите файлы небольшими и сфокусированными. Предпочтите несколько небольших документов одному большому документу.
  • Избегайте очень больших сообщений. Поместите длинное содержимое в отправленные файлы и запросите его с помощью поиска файлов.
  • Планирование длительных бесед. Рассматривайте потоки как состояние сеанса и переходите на новые потоки, когда беседы становятся очень длинными.
  • Зарегистрируйте только необходимые инструменты. Удалите неиспользуемые инструменты из определений агента.
  • Отслеживайте тенденции использования. Отслеживайте деятельность агента с помощью метрик службы агента Foundry, чтобы выявить рост прежде чем достигнуть пределов.

Квоты и ограничения для моделей

Агенты следуют квотам и ограничениям скорости для используемых развертываний модели.

Сведения о текущих квотах и ограничениях модели см. в разделе:

Чтобы просмотреть или запросить дополнительную квоту модели, см. Управление и увеличение квот для ресурсов с помощью Microsoft Foundry (Foundry projects).

Запрос увеличения ограничения

Ограничения в этой статье являются значениями по умолчанию для службы агента Foundry. Если для рабочей нагрузки требуются более высокие ограничения:

  • Квоты для модели. Вы можете запросить увеличение квот развертывания модели. См. статью "Управление и увеличение квот для ресурсов" с помощью Microsoft Foundry.
  • Ограничения службы агента. Ограничения файлов, сообщений и инструментов, перечисленных в этой статье, являются фиксированными ограничениями службы и не могут быть увеличены. Создайте приложение для работы с этими ограничениями с помощью описанных выше рекомендаций.