Ограничения службы агентов Foundry, квоты и региональная поддержка

Служба агента Foundry обеспечивает соблюдение квот и ограничений для артефактов агента, отправки файлов, сообщений и регистрации инструментов. Общие сведения об этих ограничениях помогают создавать приложения, масштабируемые без ограничения службы. В этой статье перечислены ограничения по умолчанию, поддерживаемые регионы, совместимые модели и рекомендации по обработке ошибок ограничения.

Примечание

Служба агента Foundry теперь в статусе общего доступа (GA). Некоторые подфункции, такие как размещенные агенты, находятся в общедоступной предварительной версии и могут иметь различные ограничения.

Необходимые условия

  • Подписка Azure.
  • Проект Microsoft Foundry.
  • Развернутая модель, совместимая со службой агентов. Доступность модели и региона может отличаться.

Поддерживаемые регионы

Служба агента Foundry доступна только для проектов Foundry, созданных в регионах, где поддерживается API ответов Azure OpenAI. Проект Foundry должен находиться в одном из этих регионов для использования службы агента. Некоторые модели OpenAI Azure могут быть недоступны в одном регионе. Дополнительные сведения см. в разделе Foundry Models, которые продаются непосредственно Azure.

Важно

Не все средства доступны в каждом регионе. Например, поиск по файлам недоступен в Италии Северная и Южная Бразилия. Полная матрица инструментов представлена в разделе Поддержка инструментов по регионам и моделям.

Помимо моделей Azure OpenAI, агентская служба поддерживает модели из каталога моделей Foundry. Эти модели развертываются и управляются с помощью Foundry и следуют отдельным квотам. Для использования агентов доступны следующие модели.

Модели продаются непосредственно компанией Azure:

  • MAI-DS-R1: Детерминированное, точностное рассуждение.
  • grok-4: Гранично масштабное рассуждение для решения сложных многошаговых задач.
  • grok-4-fast-reasoning: ускоренное агентивное рассуждение, оптимизированное для автоматизации рабочих процессов.
  • grok-4-fast-non-reasoning: высокая пропускная способность, низкая задержка и системная маршрутизация.
  • grok-3: строгое обоснование сложных рабочих процессов на уровне системы.
  • grok-3-mini: упрощенная модель, оптимизированная для интерактивных вариантов использования с большим объемом.
  • Ллома-3.3-70B-Instruct: универсальная модель для корпоративных вопросов и ответов, поддержки принятия решений и системной оркестрации.
  • Llama-4-Maverick-17B-128E-Instruct-FP8: модель, оптимизированная под FP8, обеспечивающая быстрое и экономичное выполнение вывода.
  • DeepSeek-V3-0324: многомодальное понимание текста и изображений.
  • DeepSeek-V3.1: улучшенное многомодальное рассуждение и прикреплённое извлечение.
  • DeepSeek-R1-0528: расширенные развернутые формы и многошаговые умозаключения.
  • gpt-oss-120b: модель open-ecosystem, которая поддерживает прозрачность и воспроизводимость.

Совет

Доступность модели может меняться с течением времени. Чтобы проверить, что можно развернуть для проекта и региона, используйте модель портала Foundry.

Устранение неполадок

Модель или версия недоступна в вашем регионе

  • Убедитесь, что выбрана правильная вкладка для вашего типа развертывания (глобальный стандарт или подготовленный).
  • Попробуйте другой регион, поддерживающий API модели и ответов.
  • Если вы используете модели gpt-5, регистрация требуется. Доступ предоставляется в соответствии с критериями соответствия Microsoft.

Инструмент недоступен в вашем регионе

  • Не все инструменты поддерживаются в каждом регионе. Например, поиск по файлам недоступен в Италии Северная и Южная Бразилия, а интерпретатор кода недоступен во всех регионах.
  • Проверьте поддержку средства по регионам и таблице моделей , чтобы подтвердить доступность перед развертыванием.
  • Если инструмент недоступен, выберите поддерживаемый регион или используйте другое средство.

Развертывание выделенной пропускной способности неудается

Агент получает ошибки с ограничением скорости (429)

  • Реализуйте экспоненциальный обратный отсчет со случайными задержками в логике повторных попыток приложения.
  • Для устойчивых рабочих нагрузок с высокой пропускной способностью рассмотрите возможность развертывания подготовленной пропускной способности.
  • Просмотрите квоты и ограничения Azure OpenAI для токенов для развертывания в минуту и запросов в минуту.

Квоты и ограничения

Служба агента Foundry налагает ограничения в двух местах:

  • Ограничения службы агента. Ограничения для артефактов агента и потока, таких как отправка файлов, векторное хранилище вложений, количество сообщений и регистрация инструментов.
  • Ограничения модели. Квоты и ограничения скорости для развертываний моделей, обращаемых вашими агентами.

Если вы используете потоки и сообщения, см. раздел "Потоки, Запуски и Сообщения в службе агента Foundry". Если вы используете поиск по файлам, см. векторные хранилища для поиска файлов.

Квоты и ограничения по умолчанию для службы

В следующей таблице перечислены ограничения по умолчанию, применяемые службой агента. Эти ограничения применяются ко всем проектам Foundry независимо от типа подписки или региона.

Название лимита Предел значения
Максимальное количество файлов на агент или поток 10,000
Максимальный размер файла для агентов 512 МБ
Максимальный размер всех отправленных файлов для агентов 300 ГБ
Максимальный размер файла в токенах для присоединения к хранилищу векторов 2 000 000 токенов
Максимальное количество сообщений на поток 100,000
Максимальный размер содержимого text на сообщение 1500 000 символов
Максимальное количество инструментов, зарегистрированных на агент 128

Ограничения службы агента в этой таблице фиксируются и применяются равномерно во всех типах подписок. Служба агента не накладывает отдельные ограничения скорости для вызовов API. Ограничение скорости применяется на уровне развертывания модели. См. квоты и ограничения Azure OpenAI для ограничений скорости, связанных с конкретной моделью.

Справочник по ограничениям ошибок

При превышении лимита, Agent Service возвращает ошибку. Обработайте эти ошибки корректно в приложении.

Сценарий ошибки Состояние HTTP Код ошибки Рекомендуемое действие
Слишком большой файл 400 file_size_exceeded Разделение содержимого на небольшие файлы
Ограничение на токены для векторного хранилища 400 token_limit_exceeded Уменьшение содержимого файла или разбиение файлов
Ограничение сообщений потока 400 message_limit_exceeded Создайте новый поток
Слишком большое содержимое сообщения 400 content_size_exceeded Использование поиска файлов для большого содержимого
Слишком много инструментов 400 tool_limit_exceeded Удаление неиспользуемых средств
Превышено ограничение скорости 429 rate_limit_exceeded Внедрение экспоненциального отката

Например:

  • Размер файла превышает максимальный размер. Отправка файла завершается ошибкой. Разделите содержимое на небольшие файлы или уменьшите размер файла перед отправкой.
  • Ограничение токенов в векторном хранилище. Прикрепление файла к хранилищу векторов завершается ошибкой, если файл превышает ограничение количества токенов. Уменьшите содержимое файла или разбиите его на несколько файлов.
  • Ограничение сообщений потока. Добавление сообщений может завершиться неудачей после того, как поток достигнет предела сообщений. Создайте новый поток для нового сеанса беседы или архивируйте и смените потоки в рамках разработки приложения.
  • Размер содержимого сообщения. Создание сообщения может завершиться ошибкой, если содержимое text слишком велико. Отправляйте небольшие сообщения или перемещайте большое содержимое в файлы и используйте поиск файлов.
  • Ограничение регистрации инструмента. Создание или обновление агента может не удаться, если вы регистрируете слишком много инструментов. Зарегистрируйте только необходимые инструменты и предпочесть меньшее количество повторно используемых средств.
  • Превышено ограничение скорости. Вызовы API к развертыванию модели ограничиваются. Реализуйте экспоненциальный откат с помощью jitter.

Сценарии поиска файлов см. в разделе "Векторные хранилища" для поиска файлов, чтобы получить рекомендации по управлению ростом векторного хранилища.

Рекомендации по лучшему соблюдению ограничений

Используйте следующие практики, чтобы сократить количество сбоев, связанных с ограничениями.

  • Держите файлы небольшими и сфокусированными. Предпочитайте несколько небольших документов вместо одного большого документа.
  • Избегайте очень больших сообщений. Поместите длинное содержимое в отправленные файлы и запросите его с помощью поиска файлов.
  • Планирование длительных бесед. Обрабатывайте потоки как состояние сеанса и переходите на новые потоки, когда разговоры становятся слишком длинными.
  • Зарегистрируйте только необходимые инструменты. Удалите неиспользуемые инструменты из определений агента.
  • Отслеживайте тенденции использования. Отслеживайте действия агента, используя метрики службы агентов Foundry, чтобы выявить увеличение нагрузки прежде чем достигнут пределы.

Квоты и ограничения для моделей

Агенты следуют квотам и ограничениям скорости для развертываний моделей, которые они используют.

Сведения о текущих квотах и ограничениях модели см. в разделе:

Чтобы просмотреть или запросить больше квот моделей, см. статью Управление и запрос увеличения квот для ресурсов с помощью Microsoft Foundry (проекты Foundry).

Запрос увеличения ограничения

Ограничения в этой статье являются значениями по умолчанию для службы агента Foundry. Если для рабочей нагрузки требуются более высокие ограничения:

  • Квоты модели. Вы можете запросить увеличение квот на развертывание модели. См. раздел Управление и повышение квот для ресурсов в Microsoft Foundry.
  • Ограничения службы агента. Ограничения файлов, сообщений и инструментов, перечисленных в этой статье, являются фиксированными ограничениями службы и не могут быть увеличены. Создайте приложение для работы с этими ограничениями с помощью описанных выше рекомендаций.