Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Маршрутизатор моделей для Microsoft Foundry — это разворачиваемая модель ИИ-чата, которая в режиме реального времени выбирает лучшую большую языковую модель (LLM) для ответа на запрос. В ней используются различные существующие модели для обеспечения высокой производительности и экономии затрат на вычислительные ресурсы в одном развертывании модели. Дополнительные сведения о работе маршрутизатора модели, его преимуществах и ограничениях см. в руководстве по основным понятиям маршрутизатора модели.
Используйте модельный маршрутизатор с помощью API завершения чата так же, как и одну базовую модель, например GPT-5. Выполните те же действия, что и в руководстве по завершениям чата.
Поддерживаемые базовые модели
2025-11-18 С этой версией модель маршрутизатора добавляет девять новых моделей, включая Claude от Anthropic, DeepSeek, Llama и Grok, обеспечивая поддержку всего 18 моделей, доступных для маршрутизации ваших промпов.
Замечание
Вам не нужно отдельно развертывать поддерживаемые LLM для использования с маршрутизатором модели, за исключением моделей Claude. Чтобы использовать маршрутизатор моделей с моделями Claude, сначала разверните их из каталога моделей. Развертывания будут инициироваться модельным маршрутизатором, если они выбраны для маршрутизации.
| Версия модели маршрутизатора | Базовые модели | Базовая версия модели |
|---|---|---|
2025-11-18 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5-nano gpt-5-mini gpt-5 gpt-5-chat gpt-5.2 gpt-5.2-chat Deepseek-v3.1
2 Deepseek-v3.2
2gpt-oss-120b
2 llama4-maverick-instruct
2 grok-4
2 grok-4-fast
2 claude-haiku-4-5
3 claude-sonnet-4-5
3 claude-opus-4-1
3 claude-opus-4-6
3 |
2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 2025-12-11 2025-12-11 Н/Д Н/Д Н/Д Н/Д Н/Д Н/Д Н/Д 2025-09-29 2025-08-05 2025-09-29 2025-08-05 |
2025-08-07 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5
1 gpt-5-mini gpt-5-nano gpt-5-chat |
2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 |
2025-05-19 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
|
2025-04-14 2025-04-14 2025-04-14 2025-04-16 |
- 1Требуется регистрация.
- 2Поддержка маршрутизаторов определенных моделей доступна в предварительной версии.
- 3Поддержка моделей роутеров доступна в предварительной версии. Требуется развертывание модели для использования с маршрутизатором-образцом.
Развернуть модель маршрутизатора
Маршрутизатор-модель упакован как одна модель Foundry, которую вы развертываете. Начните с действий, описанных в руководстве по развертыванию resource.
В каталоге моделей найдите model-router в списке моделей и выберите его. Выберите параметры по умолчанию для режима маршрутизации balanced и маршрута между всеми поддерживаемыми моделями. Чтобы включить дополнительные параметры конфигурации, выберите настраиваемые параметры.
Замечание
Параметры развертывания применяются ко всем базовым моделям чата, которые используют маршрутизатор модели.
- Не развертывайте базовые модели чата отдельно. Модельный маршрутизатор работает независимо от других развернутых моделей.
- Выберите фильтр содержимого при развертывании маршрутизатора модели или примените фильтр позже. Фильтр содержимого применяется ко всему содержимому, передаваемого и из маршрутизатора модели; Не устанавливайте фильтры содержимого для каждой базовой модели чата.
- Параметр ограничения скорости токенов в минуту применяется ко всем действиям к и от маршрутизатора модели. Не устанавливайте ограничения скорости для каждой используемой модели чата.
Выбор режима маршрутизации
Замечание
Изменения в режиме маршрутизации могут занять до пяти минут.
Используйте раскрывающийся список "Режим маршрутизации" , чтобы выбрать профиль маршрутизации. Это задает логику маршрутизации для развертывания.
Когда следует использовать каждый режим:
- Баланс (по умолчанию): большинство рабочих нагрузок. Оптимизирует затраты при сохранении качества.
- Качество: критически важные задачи, такие как юридическая проверка, медицинские сводки или сложные рассуждения.
- Стоимость: высокообъемные рабочие нагрузки, чувствительные к бюджету, такие как классификация содержимого или простые вопросы и ответы.
Выберите подмножество модели
Замечание
Изменения в подмножестве модели могут занять до пяти минут.
Последняя версия маршрутизатора модели поддерживает пользовательские подмножества: можно указать, какие базовые модели следует включить в решения маршрутизации. Это обеспечивает больший контроль над затратами, соответствием и производительностью.
В области развертывания модели маршрутизатора выберите Маршрут к подмножеству моделей. Затем выберите базовые модели, которые необходимо включить.
Это важно
Чтобы включить модели Anthropic (Claude) в развертывание вашего маршрутизатора моделей, необходимо самостоятельно развернуть их в вашем ресурсе Foundry. См. раздел Развертывание и использование моделей Claude.
Замечание
Для маршрутизации необходимо выбрать по крайней мере одну модель. Если модели не выбраны, развертывание использует набор моделей по умолчанию для режима маршрутизации.
Новые модели, представленные позже, исключаются по умолчанию до явного добавления.
Тестовая модель маршрутизатора с использованием API завершений
Вы можете использовать маршрутизатор моделей через API chat completions так же, как и другие модели чата OpenAI. Установите для параметра model название развертывания нашего маршрутизатора модели, а для параметра messages — сообщения, которые вы хотите отправить в модель.
Тестовая модель маршрутизатора на тестовой площадке
На портале Foundry перейдите к развертыванию маршрутизатора модели на странице Models + endpoints и выберите его, чтобы открыть игровую площадку модели. На игровой площадке введите сообщения и просмотрите ответы модели. Каждый ответ показывает, какая базовая модель выбрана маршрутизатором.
Это важно
Вы можете установить параметры Temperature и Top_P.
Параметры stop, presence_penalty, frequency_penalty, logit_bias и logprobs аналогично удаляются для моделей серии O, но используются в противном случае.
Это важно
Начиная с версии 2025-11-18, параметр reasoning_effort (см. руководство по моделям ) теперь поддерживаемый в маршрутизаторе модели. Если маршрутизатор модели выбирает модель рассуждений для вашей подсказки, он будет использовать входное значение reasoning_effort с основной моделью.
Подключить маршрутизатор определенной модели к агенту Foundry
Если вы создали агент ИИ в Foundry, можно подключить развертывание маршрутизатора модели для использования в качестве базовой модели агента. Выберите его в раскрывающемся меню модели на игровой площадке агента. Агент будет иметь все средства и инструкции, которые вы настроили для него, но базовая модель, обрабатывающая ответы, будет выбрана маршрутизатором модели.
Это важно
Если в потоках используются средства службы агентов, для маршрутизации будут использоваться только модели OpenAI.
Формат вывода
Ответ JSON, полученный от маршрутизатора модели, идентичен ответу стандартного API завершения чата. Обратите внимание, что поле показывает, "model" какая базовая модель была выбрана для ответа на запрос.
Следующий пример ответа был создан с помощью версии 2025-11-18API:
{
"choices": [
{
"content_filter_results": {
"hate": {
"filtered": "False",
"severity": "safe"
},
"protected_material_code": {
"detected": "False",
"filtered": "False"
},
"protected_material_text": {
"detected": "False",
"filtered": "False"
},
"self_harm": {
"filtered": "False",
"severity": "safe"
},
"sexual": {
"filtered": "False",
"severity": "safe"
},
"violence": {
"filtered": "False",
"severity": "safe"
}
},
"finish_reason": "stop",
"index": 0,
"logprobs": "None",
"message": {
"content": "I'm doing well, thank you! How can I assist you today?",
"refusal": "None",
"role": "assistant"
}
}
],
"created": 1745308617,
"id": "xxxx-yyyy-zzzz",
"model": "gpt-4.1-nano-2025-04-14",
"object": "chat.completion",
"prompt_filter_results": [
{
"content_filter_results": {
"hate": {
"filtered": "False",
"severity": "safe"
},
"jailbreak": {
"detected": "False",
"filtered": "False"
},
"self_harm": {
"filtered": "False",
"severity": "safe"
},
"sexual": {
"filtered": "False",
"severity": "safe"
},
"violence": {
"filtered": "False",
"severity": "safe"
}
},
"prompt_index": 0
}
],
"system_fingerprint": "xxxx",
"usage": {
"completion_tokens": 15,
"completion_tokens_details": {
"accepted_prediction_tokens": 0,
"audio_tokens": 0,
"reasoning_tokens": 0,
"rejected_prediction_tokens": 0
},
"prompt_tokens": 21,
"prompt_tokens_details": {
"audio_tokens": 0,
"cached_tokens": 0
},
"total_tokens": 36
}
}
Мониторинг метрик модели маршрутизатора
Мониторинг производительности
Отслеживайте производительность развертывания модели маршрутизатора в Azure Monitor (AzMon) в портале Azure.
- Перейдите на страницу Monitoring>Метрики для ресурса OpenAI Azure в Azure portal.
- Фильтруйте по имени развертывания маршрутизатора модели.
- При необходимости разделите метрики по базовым моделям.
Мониторинг затрат
Вы можете контролировать расходы на маршрутизатор модели, которые составляют сумму затрат, связанных с базовыми моделями.
- Перейдите на страницу Resource Management ->Cost analysis на странице Azure portal.
- При необходимости отфильтруйте по Azure ресурсу.
- Затем фильтруйте по имени развертывания: фильтруйте по тегу, выберите " Развертывание " в качестве типа тега, а затем выберите имя развертывания маршрутизатора модели в качестве значения.
Устранение неполадок модели маршрутизатора
Распространенные проблемы
| Проблема | Причина | Резолюция |
|---|---|---|
| Превышено ограничение скорости | Слишком много запросов на моделирование развертывания маршрутизатора | Увеличьте квоту токенов в минуту или реализуйте повторные попытки с экспоненциальной отсрочкой |
| Непредвиденный выбор модели | Логика маршрутизации выбрала другую модель, чем ожидалось | Просмотр параметров режима маршрутизации; рекомендуется использовать подмножество модели для ограничения параметров |
| Большая задержка | Затраты на маршрутизатор, а также обработка базовой модели | Использование режима затрат для рабочих нагрузок с учетом задержки; более мелкие модели реагируют быстрее |
| Модель Claude не выполняет маршрутизацию. | Для моделей Claude требуется отдельное развертывание | Развертывание моделей Claude из каталога моделей перед включением в подмножество |
Коды ошибок
Коды ошибок API и устранение неполадок см. в справочнике Azure REST API OpenAI.
Ресурсы
Следующие репозитории с открытым кодом демонстрируют маршрутизатор модели в разных сценариях. Каждый репозиторий находится на сайте GitHub — учитесь, форкайте и расширяйте, чтобы ускорить своё обучение. Для большинства примеров требуется наличие развернутого маршрутизатора моделей; смотрите статью "Развертывание маршрутизатора моделей", чтобы начать работу.
| Ресурс | Учиться | Extend |
|---|---|---|
| Интерактивная демонстрация возможностей маршрутизатора модели (Python) | Сравнение режимов маршрутизации Balanced, Cost и Quality с пользовательскими запросами. Просмотр данных динамического теста для экономии затрат, задержки и распределения маршрутизации. | Добавьте собственные наборы запросов, интегрируйте с конвейером CI или подключитесь к развертыванию для тестирования A/B. |
| Анализ распределения маршрутов моделей (Python) | Выполнение пакетов запросов в профилях маршрутизации и подмножествах модели. Посмотрите, какие модели выбирает маршрутизатор и в каких пропорциях. | Подключите журналы репрезентативных запросов, чтобы оценить компромиссы перед внедрением политики маршрутизации в масштабе. |
| Сценарии многокомандной работы с оценкой качества и стоимости (Python, семинар) | Развертывание модуля маршрутизации моделей, выполнение бенчмарков для развертываний фиксированных моделей и анализ оптимизации затрат и задержки в сценарии корпоративного предприятия с несколькими командами. | Переключите на собственные модели, запросы и профили маршрутизации для бенчмаркинга ваших шаблонов рабочей нагрузки. |
| Демонстрация многоагентного Copilot в режиме ожидания (Python) | Узнайте, как маршрутизатор модели динамически выбирает нужную модель для каждого шага агента — быструю, низкозатратную модель для классификации и модель рассуждения для анализа первопричин. | Адаптируйте архитектуру с несколькими агентами, роли агента и пути эскалации для собственных операций или сценариев поддержки. |
Это важно
Эти примеры предназначены только для обучения и экспериментирования и не готовы к работе. Прежде чем развертывать любой код, производный от этих репозиториев, просмотрите его в соответствии с безопасностью, соответствием и ответственными политиками ИИ вашей организации. Дополнительные сведения см. в принципах ответственного искусственного интеллекта Майкрософт .
Дальнейшие шаги
- Концепции моделирования маршрутизатора - Узнайте, как работают режимы маршрутизации
- Квоты и ограничения — ограничения по скорости для модельного маршрутизатора
- Создайте агента — используйте маршрутизатор модели с агентами Foundry