Поделиться через


Развертывание точно настроенной модели для вывода

После того как ваша модель будет доработана, вы можете развернуть её и использовать в вашем собственном приложении.

When you deploy the model, you make the model available for inferencing, and that incurs an hourly hosting charge. Однако точно настроенные модели можно хранить в Azure AI Foundry без затрат, пока вы не будете готовы к использованию.

Azure OpenAI предоставляет варианты типов развертывания для тонко настроенных моделей на структуре размещения, которая подходит для различных бизнес- и пользовательских шаблонов: Standard, Global Standard (предварительная версия) и Управляемая подготовленная (предварительная версия). Дополнительные сведения о типах развертывания для точно настроенных моделей и понятиях всех типов развертывания.

Разверните точно настроенную модель

To deploy your custom model, select the custom model to deploy, and then select Deploy.

Откроется диалоговое окно "Развертывание модели ". In the dialog box, enter your Deployment name and then select Create to start the deployment of your custom model.

Снимок экрана: развертывание пользовательской модели на портале Azure AI Foundry.

Вы можете отслеживать ход развертывания на панели Развертывания в портале Azure AI Foundry.

Пользовательский интерфейс не поддерживает развертывание между регионами, а пакет SDK для Python или REST поддерживается.

Это важно

После развертывания настраиваемой модели, если в любое время развертывание остается неактивным в течение более чем пятнадцати дней (15) развертывание удаляется. Развертывание настраиваемой модели неактивно, если модель была развернута более 15 дней назад, и в течение непрерывного 15-дневного периода не выполнялись вызовы завершений задач или завершений чата.

Удаление неактивного развертывания не влияет на базовую настраиваемую модель, а настраиваемую модель можно повторно развернуть в любое время. Как описано в ценах на услугу Azure OpenAI, каждая настроенная модель, развернутая несет почасовую стоимость размещения, независимо от того, выполняются ли вызовы завершения или завершения чата для модели. Дополнительные сведения о планировании и управлении затратами с помощью Azure OpenAI см. в руководстве по управлению затратами на Службу Azure OpenAI.

Используйте развернутую и настроенную модель

После развертывания пользовательской модели её можно использовать как любую другую развернутую модель. Вы можете использовать игровые площадки на портале Azure AI Foundry для экспериментов с новым развертыванием. Вы можете продолжать использовать те же параметры с вашей пользовательской моделью, например, temperature и max_tokens, как и с другими развернутыми моделями.

Снимок экрана: панель

Быстрое кэширование

Тонкая настройка Azure OpenAI поддерживает кэширование запросов с выбранными моделями. Кэширование запросов позволяет сократить общую задержку запроса и затраты на более длинные запросы, имеющие идентичное содержимое в начале запроса. Дополнительные сведения о кэшировании запросов см. в разделе начало работы с кэшированием запросов.

Типы развертывания

Настройка Azure OpenAI поддерживает следующие типы развертывания.

Стандарт

Стандартные развертывания предоставляют платежную модель за каждый вызов, и доступная модель в каждом регионе, а также пропускная способность могут быть ограничены.

Модели Регион
GPT-4o-finetune Восточная часть США 2, северная часть США, Центральная Швеция
gpt-4o-mini-2024-07-18 Северо-Центральный США, Центральная Швеция
GPT-4-finetune Северо-Центральный США, Центральная Швеция
GPT-35-Turbo-finetune Восточная часть США 2, северная часть США, Центральная Швеция, Западная Швейцария
GPT-35-Turbo-1106-finetune Восточная часть США 2, северная часть США, Центральная Швеция, Западная Швейцария
GPT-35-Turbo-0125-finetune Восточная часть США 2, северная часть США, Центральная Швеция, Западная Швейцария

Global Standard (предварительная версия)

Модели Регион
GPT-4o-finetune Восточная часть США 2, северная часть США и Центральная Швеция
GPT-4o-mini-finetune Восточная часть США 2, северная часть США и Центральная Швеция

Глобальные стандартные точно настроенные развертывания обеспечивают экономию затрат, но веса пользовательских моделей могут временно храниться за пределами географического региона ресурса Azure OpenAI.

Снимок экрана: интерфейс глобального стандартного развертывания с точно настроенной моделью.

В настоящее время точно настроенные развертывания по глобальному стандарту поддерживают только структурированные выходные данные на GPT-4o.

Подготовленное с управлением (предварительная версия)

Модели Регион
GPT-4o-finetune Северная часть США, Западная Швейцария
GPT-4o-mini-finetune Северная часть США, Западная Швейцария
  • gpt-4o-mini-2024-07-18
  • gpt-4o-2024-08-06

Подготовленные управляемые точно настроенные развертывания обеспечивают прогнозируемую производительность для точно настроенных развертываний. В рамках общедоступной предварительной версии подготовленные управляемые развертывания могут создаваться регионально с помощью версии REST API уровня данных версии 2024-10-01 или более поздней. Примеры см. ниже.

В настоящее время подготовленные, контролируемые и точно настроенные развертывания поддерживают структурированные выходные данные только в GPT-4o.

Создание подготовленного управляемого развертывания

Чтобы создать новое развертывание, выполните вызов HTTP PUT через Deployments - Create or Update REST API. Такой подход аналогичен выполнению развертывания между регионами со следующими исключениями:

  • Необходимо указать sku имя ProvisionedManaged.
  • Емкость должна быть указана в ЕТЕ.
  • api-version должен быть версии 2024-10-01 или более поздней.
  • Метод HTTP должен быть PUT.

Например, чтобы развернуть модель gpt-4o-mini:

curl -X PUT "https://management.azure.com/subscriptions/<SUBSCRIPTION>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.CognitiveServices/accounts/<RESOURCE_NAME>/deployments/<MODEL_DEPLOYMENT_NAME>api-version=2024-10-01" \
  -H "Authorization: Bearer <TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "sku": {"name": "ProvisionedManaged", "capacity": 25},
    "properties": {
        "model": {
            "format": "OpenAI",
            "name": "gpt-4omini-ft-model-name",
            "version": "1",
            "source": "/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/{SourceResourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{SourceAOAIAccountName}"
        }
    }
  }'

Масштабирование точно настроенной модели с управляемой подготовкой ресурсов

Чтобы масштабировать настроенное управляемое развертывание для увеличения или уменьшения емкости PTU, выполните тот же PUT вызов REST API, что и при создании развертывания и укажите обновленное значение для sku. Помните, что подготовленные развертывания должны масштабироваться с минимальными увеличениями.

Например, чтобы масштабировать модель, развернутую в предыдущем разделе, от 25 до 40 PTU, выполните другой PUT вызов и увеличьте емкость:

curl -X PUT "https://management.azure.com/subscriptions/<SUBSCRIPTION>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.CognitiveServices/accounts/<RESOURCE_NAME>/deployments/<MODEL_DEPLOYMENT_NAME>api-version=2024-10-01" \
  -H "Authorization: Bearer <TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "sku": {"name": "ProvisionedManaged", "capacity": 40},
    "properties": {
        "model": {
            "format": "OpenAI",
            "name": "gpt-4omini-ft-model-name",
            "version": "1",
            "source": "/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/{SourceResourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{SourceAOAIAccountName}"
        }
    }
  }'

Очистите своё развертывание

Чтобы удалить развертывание, используйте Deployments - Delete REST API и отправьте HTTP-запрос DELETE на ресурс развертывания. Как и при создании развертываний, необходимо включить следующие параметры:

  • Идентификатор подписки Azure
  • Имя группы ресурсов Azure
  • Имя ресурса Azure OpenAI
  • Имя развертывания, которое нужно удалить

Ниже приведен пример REST API для удаления развертывания:

curl -X DELETE "https://management.azure.com/subscriptions/<SUBSCRIPTION>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.CognitiveServices/accounts/<RESOURCE_NAME>/deployments/<MODEL_DEPLOYMENT_NAME>api-version=2024-10-21" \
  -H "Authorization: Bearer <TOKEN>"

Вы также можете удалить развертывание на портале Azure AI Foundry или использовать Azure CLI.

Дальнейшие действия