Модель маршрутизатора для Microsoft Foundry

Маршрутизатор модели — это обученная языковая модель, которая интеллектуально направляет запросы в режиме реального времени в наиболее подходящую большую языковую модель (LLM). Вы развертываете модель маршрутизатора, как и любую другую модель Foundry. Таким образом, он обеспечивает высокую производительность, одновременно экономя на затратах, уменьшая задержки и повышая скорость реагирования, сохраняя сравнимое качество, все это интегрировано в одном развертывании модели.

Чтобы быстро попробовать маршрутизатор модели, следуйте инструкциям по использованию маршрутизатора модели. После развертывания маршрутизатора модели отправьте запрос в развертывание. Маршрутизатор модели выбирает базовую модель для каждого запроса на основе параметров маршрутизации. Подробные сведения о конвейере маршрутизации, обучении и логике принятия решений см. в статье Как работает маршрутизатор модели.

Примечание

Вам не нужно отдельно развертывать поддерживаемые LLM для использования с маршрутизатором модели, за исключением моделей Claude. Чтобы использовать маршрутизатор моделей с моделями Claude, сначала разверните их из каталога моделей. Развертывания запускаются маршрутизатором модели, если они выбраны для маршрутизации.

Принцип работы модели маршрутизатора

Будучи обученной языковой моделью, маршрутизатор модели анализирует ваши запросы в режиме реального времени на основе сложности, логики, типов задач и других атрибутов. Он не сохраняет подсказки. Маршрутизирует только подходящие модели на основе типов доступа и развертывания, с соблюдением границ зон данных.

Важно

Эффективное окно контекста ограничено наименьшей базовой моделью. Для более крупных контекстов используйте подмножество модели для выбора моделей, поддерживающих ваши требования.

В сбалансированном режиме (по умолчанию) рассматриваются все базовые модели в пределах небольшого диапазона качества (например, 1% до 2% по сравнению с моделью с высоким качеством для этого запроса) и выбирает наиболее эффективную модель.
В режиме затрат он рассматривает более крупный диапазон качества (например, 5% до 6% по сравнению с моделью высокого качества для этого запроса) и выбирает наиболее эффективную модель.
В режиме качества он выбирает модель с высоким качеством для запроса, игнорируя стоимость.

Зачем использовать модельный маршрутизатор?

Маршрутизатор модели оптимизирует затраты и задержки при сохранении сравнимого качества. Более мелкие и дешевые модели используются, когда они достаточно для задачи, но более крупные и более дорогие модели доступны для более сложных задач. Кроме того, модели рассуждений доступны для задач, требующих сложных рассуждений, а модели без функций рассуждения используются в противном случае. Маршрутизатор модели предоставляет единый интерфейс развертывания и чата, который объединяет лучшие функции из всех базовых моделей чата.

Текущая версия (последняя) 2025-11-18 включает следующие возможности:

Поддержка развертываний Global Standard и Data Zone Standard.
Добавляет поддержку новых моделей: grok-4, grok-4-fast-reasoning, DeepSeek-V3.1, DeepSeek-V3.2, gpt-oss-120b, Llama-4-Maverick-17B-128E-Instruct-FP8, gpt-4o, gpt-4o-mini, gpt-5.2, gpt-5.2-chat, claude-haiku-4-5, claude-sonnet-4-5, claude-opus-4-1 и claude-opus-4-6.
Быстрое развертывание или пользовательское развертывание с параметрами режима маршрутизации и подмножества модели .
Режим маршрутизации. Оптимизация логики маршрутизации для ваших потребностей. Поддерживаемые параметры: Quality, CostBalanced(по умолчанию).
Подмножество модели. Выберите предпочитаемые модели, чтобы создать подмножество модели для маршрутизации.
Поддержка агентских сценариев, включая средства, так что теперь ее можно использовать в службе Foundry Agent Service.

Управление версиями

Маршрутизатор моделей использует версии с отметкой даты. Текущая версия — 2025-11-18 (последняя), которая активно поддерживается— новые базовые модели и функции добавляются в эту версию с течением времени, не изменяя идентификатор версии.

Старые версии (2025-08-07, 2025-05-19) заморожены и не получают новых дополнений модели.

Версия	Status	Описание
`2025-11-18`	Активный (последняя версия)	Получает постоянные обновления модели и функций
`2025-08-07`	Замороженные	Фиксированный набор моделей; нет новых добавлений
`2025-05-19`	Замороженные	Фиксированный набор моделей; нет новых добавлений

Tip

Чтобы получить доступ к новым поддерживаемым моделям, вам не нужно ждать нового номера версии. Версия 2025-11-18 обновляется по мере того, как новые модели становятся доступными.

При выборе автоматического обновления на шаге развертывания (см. раздел "Обновления модели"), развертывание маршрутизатора модели автоматически обновляется, когда новые версии становятся доступными. В этом случае набор базовых моделей также изменяется, что может повлиять на общую производительность модели и затрат.

Поддерживаемые модели

Примечание

Вам не нужно отдельно развертывать поддерживаемые LLM для использования с модельным маршрутизатором, за исключением моделей "Claude". Чтобы использовать маршрутизатор моделей с моделями Claude, сначала разверните их из каталога моделей. Развертывания будут вызываться маршрутизатором модели, если они выбраны для маршрутизации.

Версия модели маршрутизатора	Формат	Модель	Версия
`2025-11-18` (последнее)	OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI DeepSeek DeepSeek OpenAI Мета xAI xAI Anthropic Anthropic Anthropic Anthropic Anthropic	`gpt-4.0` `gpt-4.0-mini` `gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini` `gpt-5-nano` `gpt-5-mini` `gpt-5` `gpt-5-chat` `gpt-5.2` `gpt-5.2-chat` `gpt-5.3-chat` `gpt-5.4-nano` `gpt-5.4-mini` `gpt-5.4` `gpt-5.5` `Deepseek-V3.1` ² `Deepseek-V3.2` ² `gpt-oss-120b` ² `Llama-4-Maverick-17B-128E-Instruct-FP8` ² `grok-4` ² `grok-4-fast-reasoning` ² `claude-haiku-4-5` ³ `claude-sonnet-4-5` ³ `claude-opus-4-1` ³ `claude-opus-4-6` ³ `claude-opus-4-7` ³	`2024-11-20` `2024-07-18` `2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16` `2025-08-07` `2025-08-07` `2025-08-07` `2025-08-07` `2025-12-11` `2025-12-11` `2026-03-03` `2026-03-17` `2026-03-17` `2026-03-05` `2026-04-24` `1` `1` `1` `1` `1` `1` `20251001` `20250929` `20250805` `1` `1`
`2025-08-07`	OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI	`gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini` `gpt-5` ¹ `gpt-5-mini` `gpt-5-nano` `gpt-5-chat`	`2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16` `2025-08-07` `2025-08-07` `2025-08-07` `2025-08-07`
`2025-05-19`	OpenAI OpenAI OpenAI OpenAI	`gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini`	`2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16`

¹Требуется регистрация.
²Поддержка маршрутизатора Model доступна в предварительной версии.
³Поддержка маршрутизаторов модели находится на предварительном этапе. Требуется развертывание модели для использования с модельным маршрутизатором.

Режим маршрутизации

При выборе настраиваемого развертывания можно выбрать режим маршрутизации для оптимизации качества или затрат при сохранении базового уровня производительности. Установка режима маршрутизации является необязательным, и если он не задан, развертывание по умолчанию используется в режиме Balanced.

Доступные режимы маршрутизации:

Режим	Описание
Сбалансированный (по умолчанию)	Учитывает как затраты, так и качество динамически. Идеально подходит для сценариев общего назначения
Качество	Уделяет приоритетное внимание для достижения максимальной точности. Лучше всего подходит для сложных рассуждений или критически важных результатов
Стоимость	Приоритеты для повышения экономии затрат. Идеально подходит для рабочих нагрузок с большим объемом и ограниченным бюджетом.

Управление развертываниями маршрутизатора модели

Если ваша организация использует Политика Azure для управления развертыванием моделей, маршрутизатор модели учитывает ту же встроенную политику развертывания модели Foundry, которая управляет стандартными развертываниями моделей. Политика применяется к подмножеству моделей, которое разработчик может включить в развертывание маршрутизатора моделей, и единообразно применяется в портале Foundry, REST API, Azure CLI и шаблонах ARM. Сведения о порядке назначения ИТ-администратора и об опыте разработчика см. в статье Управление развертываниями маршрутизатора моделей с помощью Политика Azure.

Подмножество модели

Последняя версия маршрутизатора модели поддерживает подмножества моделей: можно указать, какие базовые модели следует включить в решения по маршрутизации. Это обеспечивает больший контроль над затратами, соответствием и производительностью.

Когда новые базовые модели становятся доступными, они не будут включены в ваш выбор, если вы явно не добавите их в список включаемых моделей вашего развертывания.

Автоматическое переключение при отказе

Теперь маршрутизатор модели имеет встроенное автоматическое переключение при отказе. При использовании развертывания по умолчанию для маршрутизации ко всем поддерживаемым моделям маршрутизатор модели прозрачно перенаправляет запрос на следующую наиболее подходящую модель, поэтому временные проблемы с любой отдельной моделью не нарушают работу приложения. Резервирование отказа активировано по умолчанию — дополнительная конфигурация не требуется.

Для пользовательских конфигураций развертывания:

Выбранный режим маршрутизации (Сбалансированный, Стоимость или Качество) продолжает применяться во время отработки отказа.
Настроенное подмножество модели также работает в качестве резервного набора, чтобы предотвратить обработку запросов неутвержденными моделями. Поэтому не забудьте выбрать подмножества моделей с по крайней мере двумя моделями, чтобы воспользоваться резервной возможностью.

Кэширование подсказок

Маршрутизатор модели поддерживает кэширование запросов, так как запросы обрабатываются базовыми моделями, поддерживающими это. Когда маршрутизатор модели делегирует запрос модели, поддерживающей кэширование подсказок, кэшированные токены используются автоматически — дополнительная конфигурация не требуется.

Поведение кэша зависит от того, какая базовая модель маршрутизатор выбирает для данного запроса. Поскольку решения по маршрутизации могут отличаться, преимущества кэширования применяются только в том случае, если та же модель обрабатывает последовательные запросы с перекрывающимися префиксами запроса.

Дополнительные сведения о том, как работает кэширование запросов и какие модели поддерживают его, см. в разделе "Кэширование запросов".

Ограничения

Ограничения ресурсов

Регион	Поддерживаемые типы развертывания
Восточная часть США 2	Глобальный стандарт, Стандарт зоны данных
Центральная Швеция	Глобальный стандарт, Стандарт зоны данных

См. также Azure OpenAI в моделях Microsoft Foundry для доступности текущего региона.

Чтобы преодолеть ограничения в окне контекста и параметрах, используйте функцию подмножества модели, чтобы выбрать модели для маршрутизации, поддерживающей нужные свойства.

Примечание

Ограничение окна контекста, указанное для маршрутизатора модели, является ограничением наименьшей базовой модели. Другие базовые модели совместимы с более крупными окнами контекста, что означает, что вызов API с большим контекстом будет выполнен только в том случае, если запрос будет перенаправлен в правильную модель. Чтобы просмотреть контекстные окна моделей Azure OpenAI в Microsoft Foundry, см. .

Чтобы сократить окно контекста, можно выполнить одно из следующих действий:

Подытожьте запрос перед тем, как передать в модель
Разделите запрос на более релевантные части.
Используйте встраивание документов, чтобы модель чата могла извлекать соответствующие разделы. Дополнительные сведения см. в разделе Что такое Поиск с использованием ИИ Azure?

Уровни квот

Лимиты маршрутизатора моделей зависят от уровня использования вашей подписки. О том, как работают уровни, см. в разделе Уровни квоты.

Уровень	GlobalStandard RPM	GlobalStandard TPM	DataZoneStandard RPM	DataZoneStandard TPM
Уровень 1	1,000	1,000,000	300	300,000
Уровень 2	2 000	2,000,000	670	670 000
Уровень 3	4,000	4 000 000	1,000	1,000,000
Уровень 4	7,000	7,000,000	2 000	2,000,000
Уровень 5	10 000	10 000 000	3,000	3 000 000
Уровень 6	15,000	15 000 000	4,000	4 000 000

Сведения о других ограничениях скорости см. в разделе "Квоты и ограничения".

Маршрутизатор модели принимает входные данные изображения для чатов с поддержкой визуального распознавания (все базовые модели могут принимать входные данные изображения), но решение маршрутизации основано только на вводе текста.

Маршрутизатор модели не обрабатывает входные звуки.

Устранение неполадок

Проблема	Разрешение
Сбой развертывания	Убедитесь, что ресурс Foundry находится в восточной части США 2 или Центральной Швеции.
Модели Claude не выполняют маршрутизацию.	Убедитесь, что модели Claude развертываются отдельно перед включением в маршрутизаторе моделей.
Ошибка превышения контекста	Уменьшите размер запроса или используйте подмножество модели для выбора моделей с большими контекстными окнами.
Непредвиденный выбор модели	Просмотрите параметры режима маршрутизации (баланс, стоимость, качество) и конфигурацию подмножества модели.

Подробные сведения об устранении неполадок с развертыванием см. в статье "Использование маршрутизатора модели".

Сведения о выставлении счетов

Использование маршрутизатора модели взимается за входные запросы по тарифу, указанному на странице цен.

Вы можете отслеживать затраты на развертывание маршрутизатора модели на портале Azure.

Следующий шаг

Как использовать модельный маршрутизатор

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-05-31

Модель маршрутизатора для Microsoft Foundry

Принцип работы модели маршрутизатора

Зачем использовать модельный маршрутизатор?

Управление версиями

Поддерживаемые модели

Режим маршрутизации

Управление развертываниями маршрутизатора модели

Подмножество модели

Автоматическое переключение при отказе

Кэширование подсказок

Ограничения

Ограничения ресурсов

Уровни квот

Устранение неполадок

Сведения о выставлении счетов

Следующий шаг

Обратная связь

Дополнительные ресурсы