Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Служба агента Foundry обеспечивает соблюдение квот и ограничений для артефактов агента, отправки файлов, сообщений и регистрации инструментов. Общие сведения об этих ограничениях помогают создавать приложения, масштабируемые без ограничения службы. В этой статье перечислены ограничения по умолчанию, поддерживаемые регионы, совместимые модели и рекомендации по обработке ошибок ограничения.
Примечание
Служба агента Foundry теперь в статусе общего доступа (GA). Некоторые подфункции, такие как размещенные агенты, находятся в общедоступной предварительной версии и могут иметь различные ограничения.
Необходимые условия
- Подписка Azure.
- Проект Microsoft Foundry.
- Развернутая модель, совместимая со службой агентов. Доступность модели и региона может отличаться.
Поддерживаемые регионы
Служба агента Foundry доступна только для проектов Foundry, созданных в регионах, где поддерживается API ответов Azure OpenAI. Проект Foundry должен находиться в одном из этих регионов для использования службы агента. Некоторые модели OpenAI Azure могут быть недоступны в одном регионе. Дополнительные сведения см. в разделе Foundry Models, которые продаются непосредственно Azure.
Важно
Не все средства доступны в каждом регионе. Например, поиск по файлам недоступен в Италии Северная и Южная Бразилия. Полная матрица инструментов представлена в разделе Поддержка инструментов по регионам и моделям.
Помимо моделей Azure OpenAI, агентская служба поддерживает модели из каталога моделей Foundry. Эти модели развертываются и управляются с помощью Foundry и следуют отдельным квотам. Для использования агентов доступны следующие модели.
Модели продаются непосредственно компанией Azure:
- MAI-DS-R1: Детерминированное, точностное рассуждение.
- grok-4: Гранично масштабное рассуждение для решения сложных многошаговых задач.
- grok-4-fast-reasoning: ускоренное агентивное рассуждение, оптимизированное для автоматизации рабочих процессов.
- grok-4-fast-non-reasoning: высокая пропускная способность, низкая задержка и системная маршрутизация.
- grok-3: строгое обоснование сложных рабочих процессов на уровне системы.
- grok-3-mini: упрощенная модель, оптимизированная для интерактивных вариантов использования с большим объемом.
- Ллома-3.3-70B-Instruct: универсальная модель для корпоративных вопросов и ответов, поддержки принятия решений и системной оркестрации.
- Llama-4-Maverick-17B-128E-Instruct-FP8: модель, оптимизированная под FP8, обеспечивающая быстрое и экономичное выполнение вывода.
- DeepSeek-V3-0324: многомодальное понимание текста и изображений.
- DeepSeek-V3.1: улучшенное многомодальное рассуждение и прикреплённое извлечение.
- DeepSeek-R1-0528: расширенные развернутые формы и многошаговые умозаключения.
- gpt-oss-120b: модель open-ecosystem, которая поддерживает прозрачность и воспроизводимость.
Совет
Доступность модели может меняться с течением времени. Чтобы проверить, что можно развернуть для проекта и региона, используйте модель портала Foundry.
Устранение неполадок
Модель или версия недоступна в вашем регионе
- Убедитесь, что выбрана правильная вкладка для вашего типа развертывания (глобальный стандарт или подготовленный).
- Попробуйте другой регион, поддерживающий API модели и ответов.
- Если вы используете модели gpt-5, регистрация требуется. Доступ предоставляется в соответствии с критериями соответствия Microsoft.
Инструмент недоступен в вашем регионе
- Не все инструменты поддерживаются в каждом регионе. Например, поиск по файлам недоступен в Италии Северная и Южная Бразилия, а интерпретатор кода недоступен во всех регионах.
- Проверьте поддержку средства по регионам и таблице моделей , чтобы подтвердить доступность перед развертыванием.
- Если инструмент недоступен, выберите поддерживаемый регион или используйте другое средство.
Развертывание выделенной пропускной способности неудается
- Необходимо убедиться, что в вашем распоряжении достаточно PTU в данном регионе.
- Просмотрите выделенную пропускную способность и управление избыточным трафиком.
Агент получает ошибки с ограничением скорости (429)
- Реализуйте экспоненциальный обратный отсчет со случайными задержками в логике повторных попыток приложения.
- Для устойчивых рабочих нагрузок с высокой пропускной способностью рассмотрите возможность развертывания подготовленной пропускной способности.
- Просмотрите квоты и ограничения Azure OpenAI для токенов для развертывания в минуту и запросов в минуту.
Квоты и ограничения
Служба агента Foundry налагает ограничения в двух местах:
- Ограничения службы агента. Ограничения для артефактов агента и потока, таких как отправка файлов, векторное хранилище вложений, количество сообщений и регистрация инструментов.
- Ограничения модели. Квоты и ограничения скорости для развертываний моделей, обращаемых вашими агентами.
Если вы используете потоки и сообщения, см. раздел "Потоки, Запуски и Сообщения в службе агента Foundry". Если вы используете поиск по файлам, см. векторные хранилища для поиска файлов.
Квоты и ограничения по умолчанию для службы
В следующей таблице перечислены ограничения по умолчанию, применяемые службой агента. Эти ограничения применяются ко всем проектам Foundry независимо от типа подписки или региона.
| Название лимита | Предел значения |
|---|---|
| Максимальное количество файлов на агент или поток | 10,000 |
| Максимальный размер файла для агентов | 512 МБ |
| Максимальный размер всех отправленных файлов для агентов | 300 ГБ |
| Максимальный размер файла в токенах для присоединения к хранилищу векторов | 2 000 000 токенов |
| Максимальное количество сообщений на поток | 100,000 |
Максимальный размер содержимого text на сообщение |
1500 000 символов |
| Максимальное количество инструментов, зарегистрированных на агент | 128 |
Ограничения службы агента в этой таблице фиксируются и применяются равномерно во всех типах подписок. Служба агента не накладывает отдельные ограничения скорости для вызовов API. Ограничение скорости применяется на уровне развертывания модели. См. квоты и ограничения Azure OpenAI для ограничений скорости, связанных с конкретной моделью.
Справочник по ограничениям ошибок
При превышении лимита, Agent Service возвращает ошибку. Обработайте эти ошибки корректно в приложении.
| Сценарий ошибки | Состояние HTTP | Код ошибки | Рекомендуемое действие |
|---|---|---|---|
| Слишком большой файл | 400 | file_size_exceeded |
Разделение содержимого на небольшие файлы |
| Ограничение на токены для векторного хранилища | 400 | token_limit_exceeded |
Уменьшение содержимого файла или разбиение файлов |
| Ограничение сообщений потока | 400 | message_limit_exceeded |
Создайте новый поток |
| Слишком большое содержимое сообщения | 400 | content_size_exceeded |
Использование поиска файлов для большого содержимого |
| Слишком много инструментов | 400 | tool_limit_exceeded |
Удаление неиспользуемых средств |
| Превышено ограничение скорости | 429 | rate_limit_exceeded |
Внедрение экспоненциального отката |
Например:
- Размер файла превышает максимальный размер. Отправка файла завершается ошибкой. Разделите содержимое на небольшие файлы или уменьшите размер файла перед отправкой.
- Ограничение токенов в векторном хранилище. Прикрепление файла к хранилищу векторов завершается ошибкой, если файл превышает ограничение количества токенов. Уменьшите содержимое файла или разбиите его на несколько файлов.
- Ограничение сообщений потока. Добавление сообщений может завершиться неудачей после того, как поток достигнет предела сообщений. Создайте новый поток для нового сеанса беседы или архивируйте и смените потоки в рамках разработки приложения.
- Размер содержимого сообщения. Создание сообщения может завершиться ошибкой, если содержимое
textслишком велико. Отправляйте небольшие сообщения или перемещайте большое содержимое в файлы и используйте поиск файлов. - Ограничение регистрации инструмента. Создание или обновление агента может не удаться, если вы регистрируете слишком много инструментов. Зарегистрируйте только необходимые инструменты и предпочесть меньшее количество повторно используемых средств.
- Превышено ограничение скорости. Вызовы API к развертыванию модели ограничиваются. Реализуйте экспоненциальный откат с помощью jitter.
Сценарии поиска файлов см. в разделе "Векторные хранилища" для поиска файлов, чтобы получить рекомендации по управлению ростом векторного хранилища.
Рекомендации по лучшему соблюдению ограничений
Используйте следующие практики, чтобы сократить количество сбоев, связанных с ограничениями.
- Держите файлы небольшими и сфокусированными. Предпочитайте несколько небольших документов вместо одного большого документа.
- Избегайте очень больших сообщений. Поместите длинное содержимое в отправленные файлы и запросите его с помощью поиска файлов.
- Планирование длительных бесед. Обрабатывайте потоки как состояние сеанса и переходите на новые потоки, когда разговоры становятся слишком длинными.
- Зарегистрируйте только необходимые инструменты. Удалите неиспользуемые инструменты из определений агента.
- Отслеживайте тенденции использования. Отслеживайте действия агента, используя метрики службы агентов Foundry, чтобы выявить увеличение нагрузки прежде чем достигнут пределы.
Квоты и ограничения для моделей
Агенты следуют квотам и ограничениям скорости для развертываний моделей, которые они используют.
Сведения о текущих квотах и ограничениях модели см. в разделе:
Чтобы просмотреть или запросить больше квот моделей, см. статью Управление и запрос увеличения квот для ресурсов с помощью Microsoft Foundry (проекты Foundry).
Запрос увеличения ограничения
Ограничения в этой статье являются значениями по умолчанию для службы агента Foundry. Если для рабочей нагрузки требуются более высокие ограничения:
- Квоты модели. Вы можете запросить увеличение квот на развертывание модели. См. раздел Управление и повышение квот для ресурсов в Microsoft Foundry.
- Ограничения службы агента. Ограничения файлов, сообщений и инструментов, перечисленных в этой статье, являются фиксированными ограничениями службы и не могут быть увеличены. Создайте приложение для работы с этими ограничениями с помощью описанных выше рекомендаций.