Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Служба агента Foundry накладывает квоты и ограничения на артефакты агента, загрузку файлов, сообщения и регистрацию инструментов. Общие сведения об этих ограничениях помогают создавать приложения, масштабируемые без ограничения службы. В этой статье перечислены ограничения по умолчанию, поддерживаемые регионы, совместимые модели и рекомендации по обработке ошибок ограничения.
Замечание
Служба агента Foundry стала общедоступной (GA). Некоторые подфункции, такие как размещенные агенты, находятся в общедоступной предварительной версии и могут иметь различные ограничения.
Предпосылки
- Подписка Azure.
- Проект Microsoft Foundry.
- Развернутая модель, совместимая со Службой агентов (Agent Service). Доступность модели и региона может отличаться.
Поддерживаемые регионы
Служба агента Foundry доступна в том же регионе, что и API ответов Azure OpenAI.
Это важно
Не все средства доступны в каждом регионе. Например, поиск по файлам недоступен в Италии Северная и Южная Бразилия. Полную матрицу инструментов по регионам см. в разделе Поддержка инструментов по регионам и моделям.
поддержка модели OpenAI Azure
Служба агента Foundry совместима с текущими моделями openAI Azure. Полный список поддерживаемых моделей и региональную доступность см. в разделе Foundry Models, продаваемых непосредственно Azure.
Другие коллекции моделей
Помимо моделей Azure OpenAI, служба агента поддерживает модели из каталога моделей Foundry. Эти модели развертываются и управляются с помощью Foundry и следуют отдельным квотам. Для использования агентов доступны следующие модели.
Модели продаются непосредственно компанией Azure:
- MAI-DS-R1: детерминированное умозаключение, ориентированное на точность.
- grok-4: Масштабное рассуждение для сложного многошагового решения проблем.
- grok-4-fast-reasoning: ускоренное агентивное мышление, оптимизированное для автоматизации рабочих процессов.
- grok-4-fast-non-reasoning: высокая пропускная способность, низкой задержки и системная маршрутизация.
- grok-3: строгое обоснование сложных рабочих процессов на уровне системы.
- grok-3-mini: упрощенная модель, оптимизированная для интерактивных вариантов использования с большим объемом.
- Ллома-3.3-70B-Instruct: универсальная модель для корпоративных вопросов и ответов, поддержки принятия решений и системной оркестрации.
- Llama-4-Maverick-17B-128E-Instruct-FP8: модель, оптимизированная для FP8, которая обеспечивает быстрый и эффективный по затратам инференс.
- DeepSeek-V3-0324: многомодальное понимание текста и изображений.
- DeepSeek-V3.1: улучшенное многомодальное анализирование и контекстуальное извлечение.
- DeepSeek-R1-0528: расширенные долгосрочные и многошаговые рассуждения.
- gpt-oss-120b: модель open-ecosystem, которая поддерживает прозрачность и воспроизводимость.
Подсказка
Доступность модели может меняться с течением времени. Чтобы проверить, что можно развернуть для проекта и региона, используйте модель портала Foundry.
Устранение неполадок
Модель или версия недоступна в вашем регионе
- Убедитесь, что вы выбрали правильную вкладку для вашего типа развертывания (глобальный стандарт или подготовленные).
- Попробуйте другой регион, поддерживающий модель и версию. См. таблицу поддержки модели и региона.
- Если вы используете модели gpt-5, регистрация требуется. Доступ предоставляется в соответствии с критериями соответствия корпорации Майкрософт.
Инструмент недоступен в вашем регионе
- Не все инструменты поддерживаются в каждом регионе. Например, поиск по файлам недоступен в Италии Северная и Южная Бразилия, а интерпретатор кода недоступен во всех регионах.
- Проверьте поддержку средства по регионам и таблице моделей , чтобы подтвердить доступность перед развертыванием.
- Если инструмент недоступен, выберите поддерживаемый регион или используйте другое средство.
Неудачная попытка развертывания выделенной пропускной способности
- Убедитесь, что в вашем распоряжении достаточное количество PTU в регионе.
- Просмотрите выделенную пропускную способность и управление избыточным трафиком.
Агент получает ошибки с ограничением скорости (429)
- Реализуйте экспоненциальную обратную передачу с помощью jitter в логике повторных попыток приложения.
- Для устойчивых рабочих нагрузок с высокой пропускной способностью рассмотрите возможность развертывания подготовленной пропускной способности.
- Просмотрите квоты и пределы Azure OpenAI на токены в минуту и запросов в минуту для вашего развертывания.
Квоты и ограничения
Служба агента Foundry применяет ограничения в двух случаях:
- Ограничения службы агента. Ограничения для артефактов агента и потока, таких как загрузка файлов, вложения в векторное хранилище, количество сообщений и регистрация инструментов.
- Ограничения модели. Квоты и ограничения скорости для развертываний моделей, вызываемых вашими агентами.
Если вы используете потоки и сообщения, см. раздел "Потоки, выполнения и сообщения" в Foundry Agent Service. Если вы используете поиск по файлам, см. векторные хранилища для поиска файлов.
Квоты и ограничения по умолчанию для службы
В следующей таблице перечислены ограничения по умолчанию, применяемые службой агента. Эти ограничения применяются ко всем проектам Foundry независимо от типа подписки или региона.
| Имя ограничения | Предельное значение |
|---|---|
| Максимальное количество файлов на агент или поток | 10 000 |
| Максимальный размер файла для агентов | 512 МБ |
| Максимальный размер всех отправленных файлов для агентов | 300 ГБ |
| Максимальный размер файла в токенах для присоединения к хранилищу векторов | 2 000 000 токенов |
| Максимальное количество сообщений на тему | 100,000 |
Максимальный размер содержимого text на сообщение |
1500 000 символов |
| Максимальное количество инструментов, зарегистрированных для каждого агента | 128 |
Ограничения службы агента в этой таблице фиксируются и применяются равномерно во всех типах подписок. Служба агента не накладывает отдельные ограничения скорости для вызовов API. Ограничение скорости применяется на уровне развертывания модели. См. квоты и лимиты Azure OpenAI для лимитов скорости конкретной модели.
Справочник по ограничениям ошибок
При превышении предела служба Agent возвращает ошибку. Обработайте эти ошибки корректно в приложении.
| Сценарий ошибки | Состояние HTTP | Код ошибки | Рекомендуемое действие |
|---|---|---|---|
| Слишком большой файл | 400 | file_size_exceeded |
Разделение содержимого на небольшие файлы |
| Ограничение токена хранилища векторов | 400 | token_limit_exceeded |
Уменьшение содержимого файла или разбиение файлов |
| Ограничение количества сообщений в потоке | 400 | message_limit_exceeded |
Создание нового потока |
| Слишком большое содержимое сообщения | 400 | content_size_exceeded |
Использование поиска файлов для большого содержимого |
| Слишком много инструментов | 400 | tool_limit_exceeded |
Удаление неиспользуемых средств |
| Превышено ограничение скорости | 429 | rate_limit_exceeded |
Реализация экспоненциального отката |
Рассмотрим пример.
- Размер файла превышает максимальный размер. Отправка файла завершается ошибкой. Разделите содержимое на небольшие файлы или уменьшите размер файла перед отправкой.
- Ограничение на токены в хранилище векторов. Присоединение файла к хранилищу векторов завершается ошибкой, если размер файла превышает ограничение на количество токенов. Уменьшите содержимое файла или разбиите его на несколько файлов.
- Ограничение на количество сообщений в потоке. Добавление сообщений может не удастся после того, как поток достигнет предела количества сообщений. Создайте новый поток для нового сеанса беседы или архивируйте и смените потоки в рамках разработки приложения.
- Размер содержимого сообщения. Создание сообщения может завершиться ошибкой, если содержимое
textслишком велико. Отправляйте небольшие сообщения или перемещайте большое содержимое в файлы и используйте поиск файлов. - Ограничение регистрации инструмента. Создание или обновление агента может завершиться ошибкой, если вы регистрируете слишком много инструментов. Зарегистрируйте только необходимые инструменты и предпочесть меньшее количество повторно используемых средств.
- Превышено ограничение скорости. Вызовы API к развертыванию модели ограничиваются. Реализуйте экспоненциальный откат с помощью jitter.
Сценарии поиска файлов см. в разделе "Векторные хранилища" для поиска файлов, чтобы получить рекомендации по управлению ростом векторного хранилища.
Рекомендации по соблюдению ограничений
Используйте следующие практики, чтобы сократить количество сбоев, связанных с ограничениями.
- Держите файлы небольшими и сфокусированными. Предпочтите несколько небольших документов одному большому документу.
- Избегайте очень больших сообщений. Поместите длинное содержимое в отправленные файлы и запросите его с помощью поиска файлов.
- Планирование длительных бесед. Рассматривайте потоки как состояние сеанса и переходите на новые потоки, когда беседы становятся очень длинными.
- Зарегистрируйте только необходимые инструменты. Удалите неиспользуемые инструменты из определений агента.
- Отслеживайте тенденции использования. Отслеживайте деятельность агента с помощью метрик службы агента Foundry, чтобы выявить рост прежде чем достигнуть пределов.
Квоты и ограничения для моделей
Агенты следуют квотам и ограничениям скорости для используемых развертываний модели.
Сведения о текущих квотах и ограничениях модели см. в разделе:
Чтобы просмотреть или запросить дополнительную квоту модели, см. Управление и увеличение квот для ресурсов с помощью Microsoft Foundry (Foundry projects).
Запрос увеличения ограничения
Ограничения в этой статье являются значениями по умолчанию для службы агента Foundry. Если для рабочей нагрузки требуются более высокие ограничения:
- Квоты для модели. Вы можете запросить увеличение квот развертывания модели. См. статью "Управление и увеличение квот для ресурсов" с помощью Microsoft Foundry.
- Ограничения службы агента. Ограничения файлов, сообщений и инструментов, перечисленных в этой статье, являются фиксированными ограничениями службы и не могут быть увеличены. Создайте приложение для работы с этими ограничениями с помощью описанных выше рекомендаций.