Мгновенные модели в Microsoft Foundry (предварительная версия)

Мгновенные модели позволяют вызывать любую поддерживаемую модель по имени. Развертывание не требуется. Создайте проект Foundry, запустите код и сразу же используйте любую доступную модель.

Необходимые условия

  • Подписка Azure. Создайте аккаунт бесплатно.
  • Войдите в Microsoft Foundry. Убедитесь, что переключатель New Foundry включен. Эти действия относятся к Foundry (new).
  • Проект Foundry в Западной части США 3 (единственный поддерживаемый регион для мгновенных моделей во время предварительной версии). Если вам нужно создать проект, см. статью "Создание проекта".
  • Роль пользователя Foundry в проекте или учетной записи.

Important

Роли RBAC в Foundry были недавно переименованы. Foundry User, Foundry Owner, Foundry Account Owner и Foundry Project Manager ранее назывались пользователь Azure AI, владелец Azure AI, владелец учетной записи Azure AI и руководитель проекта Azure AI. Пока новое название внедряется, в некоторых местах вы всё ещё можете видеть прежние названия. Идентификаторы ролей и основные разрешения не меняются из-за переименования.

Начните использовать модели мгновенно

При использовании мгновенных моделей рабочий процесс прост— используйте поддерживаемое имя модели в коде. Развертывание не требуется. Тот же API, пакет SDK и клиент, который уже используется для развертываний, работает с мгновенными моделями. Нет второго пакета SDK, отдельного клиента, никаких изменений конфигурации.

Единственным изменением по сравнению с кодом, основанным на развертывании, является параметр model. В приведенном ниже коде замените "gpt-5-mini" имя любой мгновенной модели.

from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient

# Format: "https://resource_name.ai.azure.com/api/projects/project_name"
PROJECT_ENDPOINT = "your_project_endpoint"

# Create project and openai clients to call Foundry API
project = AIProjectClient(
    endpoint=PROJECT_ENDPOINT,
    credential=DefaultAzureCredential(),
)
openai = project.get_openai_client()

# Run a responses API call
response = openai.responses.create(
    model="gpt-5-mini",
    input="What is the size of France in square miles?",
)
print(f"Response output: {response.output_text}")

Почему мгновенные модели важны

  • Переключение моделей путем изменения одной строки — используйте любое мгновенное имя модели в строке model= без создания или удаления развертываний.
  • Один и тот же API и пакет SDK — одни и те же вызовы работают как для мгновенных моделей, так и для развертываний.
  • Работает с вашими инструментами разработчика — мгновенные модели интегрируются с Foundry CLI, VS Code и CI/CD-конвейерами так же, как и развертывания.

Развёртывания никуда не денутся. Они остаются правильным выбором, если требуется зарезервированная пропускная способность, пользовательские фильтры содержимого, расположение данных или расширенные корпоративные конфигурации. Модели мгновенного запуска упрощают начало работы, так что развёртывание становится этапом, к которому вы переходите по мере роста, а не обязательным барьером, который нужно преодолеть, прежде чем начать пользоваться моделью.

Поддерживаемые модели

Для новых моделей мгновенный доступ включён по умолчанию сразу после выпуска. Поддержка дополнительных моделей рассматривается в зависимости от спроса клиента.

Чтобы просмотреть все модели, поддерживающие мгновенный доступ:

  1. Откройте проект в Западной части США 3 в новом интерфейсе Foundry,
  2. Выберите "Обнаружить " в правой верхней части навигации, а затем " Модели " на левой панели.
  3. В каталоге моделей выберите "Мгновенное создание" в разделе "Параметры разработки ", чтобы просмотреть доступные мгновенные модели.

Вы также можете вывести список мгновенных моделей программным способом:

SUBSCRIPTION_ID="<your-subscription-id>"
LOCATION="westus3"

az rest --method get \
  --url "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/providers/Microsoft.CognitiveServices/locations/$LOCATION/models?api-version=2025-06-01" \
  --output json \
| jq -r '(.value // .models // .)[]
  | select((.model.capabilities.instant // "false" | tostring | ascii_downcase) == "true")
  | .model.name' \
| sort -u

Note

Во время предварительной версии мгновенные модели доступны только в проектах на западе США 3 .

Некоторые мгновенные модели могут отображаться в списке, даже если у вашей подписки нет квоты для них. Дополнительные сведения см. в разделе "Квоты и ограничения" для моделей Foundry.

Когда использовать мгновенные модели, а когда — развертывания

Сценарий Рекомендуемый подход
Начало работы, прототипирование или экспериментирование Мгновенные модели
Использование последней модели сразу после выпуска Мгновенные модели
Требуется зарезервированная емкость или прогнозируемая пропускная способность Deployment
Требуется выделенная пропускная способность (PTU) Deployment
Требуется размещение данных в определенном регионе Deployment
Пользовательские политики фильтрации содержимого для каждой модели Deployment
Пользовательские ограничения для каждой модели Deployment
Конфигурация, специфичная для конкретного эндпоинта (например, фиксация версий для каждого эндпоинта) Deployment
Гибкое разделение квот между командами Deployment
Точно настроенные модели Deployment

Мгновенные модели и развертывания могут сосуществовать в одном проекте. Вы можете начать с мгновенных моделей и создавать развертывания позже по мере развития ваших требований.

Версии модели

По умолчанию мгновенные модели направляются к последней вечной версии модели. Чтобы закрепить к определенной версии, добавьте дату версии в имя модели в виде дефисированного суффикса:

То, что вы передаете как model Behavior
model-name Маршруты до последней версии
model-name-2025-04-01 Маршруты к этой конкретной версии

Закрепление версий является необязательным. Если приложению требуется стабильность, включите суффикс версии. В противном случае вы всегда получаете последнюю версию автоматически.

Как расходуется квота

Мгновенные модели используют глобальный пул квот для каждой модели, выделенный вашей подписке. Эта квота отличается от региональной квоты, используемой стандартными развертываниями.

  • Вы не выделяете и не разделяете глобальную квоту — она автоматически распределяется между всеми использованиями мгновенных моделей в рамках вашей подписки.
  • Развертывания типа Global Standard резервируют часть вашей глобальной квоты. Мгновенные модели используют все останки емкости.
  • Другие типы развертывания (региональные стандартные, подготовленные) используют отдельную региональную квоту и не влияют на емкость мгновенной модели.
  • Если запросы к мгновенной модели ограничиваются, можно запросить увеличение квоты или создать развертывание с зарезервированной емкостью.

Дополнительные сведения о взаимодействии глобальных и региональных квот см. в статье "Управление и увеличение квот".

Корпоративные элементы управления

Capability Принцип работы
Блокировать определенные модели или поставщики Политика Azure определения применяются к мгновенным моделям так же, как они применяются к развертываниям.
Закрепить к версии модели Добавьте суффикс версии к имени модели (см. версии модели)
Отключение мгновенных моделей полностью Администраторы могут отключить мгновенные модели на уровне подписки с помощью Политика Azure

Чтобы удалить мгновенные модели из учетной записи, настройте параметры с помощью Bicep или ARM REST.

Обновите учетную запись с помощью:

PATCH https://management.azure.com/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.CognitiveServices/accounts/{account}?api-version=2026-01-15-preview
Authorization: Bearer {arm_token}
Content-Type: application/json

Используйте этот текст запроса для эффективного отключения мгновенного доступа к модели:

{
  "properties": {
    "instant": {
      "raiPolicyName": "Microsoft.DefaultV2",
      "modelAllowList": []
    }
  }
}

Important

Все мгновенные модели используют стандартные ограничения безопасности и фильтры контента. Однако для моделей instant нельзя настраивать пользовательские ограничения или политики ответственного ИИ (RAI) для каждой модели отдельно. Политику RAI по умолчанию можно задать на уровне учетной записи через API, но эта политика применяется равномерно ко всем мгновенным моделям. Если вам нужны различные политики фильтрации контента для отдельных моделей, используйте развертывание.

Конфликты имен развертываний

Новые развертывания не могут использовать имя, соответствующее существующему имени модели. Если у вас уже есть развертывание, имя которого совпадает с именем модели, приоритет имеет развертывание, и мгновенный доступ к модели с таким именем в этом проекте недоступен.

Ограничения во время предварительной версии

  • Доступно только в западной части США 3 .
  • Точно настроенные модели не поддерживаются. Чтобы использовать настраиваемую модель, создайте развертывание.
  • Ограничители, пользовательские политики RAI и фильтры контента не настраиваются для мгновенных моделей.
  • Допустимы только модели, перечисленные в поддерживаемых моделях .