Развертывание точно настроенной модели для вывода

После настройки модели можно ее развернуть и использовать в собственном приложении.

При развертывании модели вы предоставляете её для инференции, и за это взимается почасовая плата за размещение. Однако точно настроенные модели можно хранить в Microsoft Foundry без затрат, пока вы не будете готовы к их использованию.

Azure OpenAI предоставляет варианты типов развертывания для точно настроенных моделей в хостинговой структуре, которая подходит для различных бизнес-моделей и сценариев использования: Standard, Global Standard (предварительная версия) и Предоставленная Пропускная способность (предварительная версия). Дополнительные сведения о типах развертывания для точно настроенных моделей и понятиях всех типов развертывания.

Разверните вашу точно настроенную модель

Важно

Для того чтобы развернуть модели, вам необходимо быть назначенным на роль Azure AI Owner или любую роль с действием Microsoft.CognitiveServices/accounts/deployments/write.

Чтобы развернуть настраиваемую модель, выберите пользовательскую модель для развертывания и нажмите кнопку "Развернуть".

Откроется диалоговое окно "Развертывание модели ". В диалоговом окне введите имя развертывания и нажмите кнопку "Создать ", чтобы начать развертывание пользовательской модели.

Снимок экрана: развертывание пользовательской модели на портале Foundry.

Ход развертывания можно отслеживать на панели "Развертывания " на портале Foundry.

Портал не поддерживает развертывание между регионами. Вместо этого используйте пакет SDK Python или REST API.

Важно

После развертывания настраиваемой модели, если развертывание в любое время остается неактивным в течение более 15 дней, развертывание удаляется. Развертывание настраиваемой модели неактивно, если модель была развернута более 15 дней назад и в течение непрерывного 15-дневного периода не выполнялись вызовы API на завершение чата или вызовы API получения ответов.

Удаление неактивного развертывания не влияет на базовую настраиваемую модель. Настраиваемая модель может быть развернута в любое время.

Как описано в ценообразовании модели Azure OpenAI в Microsoft Foundry, каждая кастомизированная (тонко настроенная) модель, которая развертывается, требует почасовой оплаты за размещение, независимо от того, проводятся ли завершения чата или делаются вызовы к API модели. Дополнительные сведения о планировании и управлении затратами на Azure OpenAI см. в статье Plan и управление затратами на Azure OpenAI.

Используйте развернутую адаптированную модель

После развертывания пользовательской модели, её можно использовать как любую другую развернутую модель. Вы можете использовать игровые площадки на портале Foundry для экспериментов с новым развертыванием. Вы можете продолжать использовать те же параметры для своей пользовательской модели, например temperature и max_tokens, как и с другими развернутыми моделями.

Снимок экрана: панель

Кэширование запросов

Azure OpenAI точной настройке поддерживает кэширование запросов для определённых моделей. Кэширование запросов позволяет сократить общую задержку запроса и затраты на более длинные запросы, имеющие идентичное содержимое в начале запроса. Дополнительные сведения о кэшировании запросов см. в статье о начале работы с кэшированием запросов.

Типы развертывания

Azure OpenAI поддерживает тонкую настройку для следующих типов развертывания.

Стандартный

Стандартные развертывания предоставляют модель оплаты за токен с размещением данных, ограниченного развернутым регионом.

Модели Восточная часть США2 Северная часть США Центральная Швеция
o4-mini
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
GPT-4o
GPT-4o-mini

Глобальный стандарт

Global standard точно настроенные развертывания предлагают экономию затрат, но пользовательские весы моделей могут временно храниться за пределами географического региона ресурса Azure OpenAI.

Глобальные стандартные развертывания доступны во всех регионах OpenAI Azure для следующих моделей:

  • o4-mini
  • GPT-4.1
  • GPT-4.1-mini
  • GPT-4.1-nano
  • GPT-4o
  • GPT-4o-mini

Снимок экрана: пользовательский опыт глобального стандартного развертывания с точно настроенной моделью.

Уровень разработчика

Развертывания, настроенные для разработчиков, предлагают аналогичный опыт использования, как и Global Standard, без почасовой платы за размещение, но не предлагают SLA доступности. Развертывания разработчиков предназначены для оценки моделей-кандидатов, а не для промышленной эксплуатации.

Развертывания для разработчиков доступны во всех регионах Azure OpenAI для следующих моделей:

Модели Доступность
o4-mini Все регионы
GPT-4.1 Все регионы
GPT-4.1-mini Все регионы
GPT-4.1-nano Все регионы

Подготовленная пропускная способность

Модели Северная часть США Центральная Швеция
GPT-4.1
GPT-4o
GPT-4o-mini

Развертывания с предоставленной пропускной способностью обеспечивают прогнозируемую производительность для агентов и приложений, чувствительных к задержкам. Они используют ту же региональную пропускную способность (PTU), что и базовые модели, поэтому если у вас уже есть региональная квота PTU, вы можете развернуть предобученную модель в поддерживаемых регионах.

Очистите развертывание

Чтобы удалить развертывание, используйте Deployments - Delete REST API и отправьте HTTP DELETE запрос непосредственно в ресурс развертывания. Как и при создании развертываний, необходимо включить следующие параметры:

  • идентификатор подписки Azure
  • имя группы ресурсов Azure
  • имя ресурса Azure OpenAI
  • Имя развертывания для удаления

Ниже приведен пример REST API для удаления развертывания:

curl -X DELETE "https://management.azure.com/subscriptions/<SUBSCRIPTION>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.CognitiveServices/accounts/<RESOURCE_NAME>/deployments/<MODEL_DEPLOYMENT_NAME>?api-version=2024-10-21" \
  -H "Authorization: Bearer <TOKEN>"

Вы также можете удалить развертывание на портале Foundry или использовать Azure CLI.

Дальнейшие действия