Поделиться через


Ограничения и регионы развертывания модели

В этой статье приведены ограничения и доступность регионов для обслуживания моделей ИИ Мозаики и поддерживаемых типов конечных точек.

Ограничения ресурсов и полезной нагрузки

Служба модели ИИ мозаики накладывает ограничения по умолчанию, чтобы обеспечить надежную производительность. Если у вас есть отзывы об этих ограничениях, обратитесь к группе учетной записи Databricks.

В следующей таблице перечислены ограничения ресурсов и объема данных для конечных точек модели.

Функция Степень детализации Предел
Размер полезной нагрузки По запросу 16 МБ. Для конечных точек, обслуживающих базовые модели, внешние модели или агенты ИИ , ограничение составляет 4 МБ.
Размер запроса и ответа По запросу Любой запрос или ответ более 1 МБ не будет зарегистрирован.
Число запросов в секунду (QPS) В расчете на рабочую область 200, но может быть увеличено до 25 000 или более, обратившись к команде по работе с учетными записями Databricks.
Длительность выполнения модели По запросу 120 секунд
Использование памяти модели конечной точки ЦП По конечной точке 4 ГБ
Использование памяти модели конечной точки графического процессора По конечной точке Больше или равно назначенной памяти GPU зависит от размера рабочей нагрузки GPU
Выделенная одновременность По модели и рабочему пространству Одновременность 200. Для увеличения, свяжитесь с вашей командой по работе с аккаунтом Databricks.
Задержка накладных расходов По запросу Менее 50 миллисекунда
Скрипты инициализации Скрипты инициализации не поддерживаются.
Ограничения скорости оплаты за токены (API модели Foundation) В расчете на рабочую область Если для вашего варианта использования недостаточно указанных ниже ограничений, Databricks рекомендует использовать подготовленную пропускную способность.
  • Claude Sonnet 4 имеет ограничение в 2 запроса в секунду.
  • Клод Opus 4 имеет ограничение в 2 запроса в секунду.
  • Llama 4 Maverick имеет ограничение в 4 запроса в секунду и 2400 запросов в час.
  • Claude 3.7 Sonnet имеет ограничение в 4 запроса в секунду и 2400 запросов в час.
  • Лама 3.3 70B Instruct имеет ограничение в 4 запроса в секунду и 2400 запросов в час.
  • Лама 3.1 405B Instruct имеет ограничение в 1 запрос в секунду и 1200 запросов в час.
  • Лама 3.1 8B Инструкция имеет ограничение в 2 запроса в секунду.
  • GtE Large (En) имеет ограничение скорости 150 запросов в секунду
  • BGE Large (En) имеет ограничение скорости в 600 запросов в секунду.
Ограничения скорости API моделей Foundation (выделенная пропускная способность) В расчете на рабочую область 200 запросов в секунду.

Ограничения сети и безопасности

  • Конечные точки обслуживания моделей защищены с помощью управления доступом и уважают правила входящего трафика, связанные с сетью, настроенные в рабочей области, такие как списки разрешений IP и приватный канал.
  • Частное подключение (например, Приватный канал Azure) поддерживается только для конечных точек обслуживания моделей, использующих подготовленную пропускную способность или конечные точки, обслуживающие пользовательские модели.
  • По умолчанию Model Serving не поддерживает Private Link для внешних конечных точек (например, Azure OpenAI). Поддержка этой функции оценивается и реализуется на основе каждого региона. Свяжитесь с командой по работе с учетными записями Azure Databricks для получения дополнительной информации.
  • Модельный сервис не предоставляет обновления безопасности для имеющихся образов моделей из-за риска дестабилизации в производственных развертываниях. Новый образ модели, созданный из новой версии модели, будет содержать последние исправления. Обратитесь к группе учетных записей Databricks, чтобы получить дополнительные сведения.

Стандарты профиля безопасности соответствия требованиям: рабочие нагрузки ЦП

В следующей таблице перечислены поддерживаемые стандарты соответствия профилю безопасности для основных функций обслуживания моделей на рабочих нагрузках ЦП.

Примечание.

Эти стандарты соответствия требуют, чтобы контейнеры были созданы в течение последних 30 дней. Databricks автоматически перестраивает устаревшие контейнеры от вашего имени. Однако если это автоматическое задание завершается сбоем, появится сообщение журнала событий, например следующее, и содержит рекомендации по обеспечению соответствия конечным точкам:

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact [email protected]."

Регион Местоположение HIPAA HITRUST PCI-DSS ИРАП (IRAP) CCCS Medium (Защищенный уровень B) Cyber Essentials Plus (Соединенное Королевство)
australiacentral Центральная Австралия            
australiacentral2 АвстралияCentral2            
australiaeast Восточная Австралия      
australiasoutheast Австралия Юго-Восток            
brazilsouth Южная Бразилия      
canadacentral Канада Централ      
canadaeast КанадаИст            
centralindia CentralIndia      
centralus Центральная часть США      
chinaeast2 ChinaEast2            
chinaeast3 ChinaEast3            
chinanorth2 ChinaNorth2            
chinanorth3 ChinaNorth3            
eastasia EastAsia      
eastus Восточный регион США (EastUS)      
eastus2 EastUS2      
francecentral FranceCentral      
germanywestcentral ГерманияWestCentral      
japaneast ЯпонияВосток      
japanwest Япония Запад            
koreacentral КореяCentral      
mexicocentral МексикаCentral            
northcentralus NorthCentralUS      
northeurope NorthEurope      
norwayeast Норвегия Восток            
qatarcentral КатарЦентрал            
southafricanorth Южная Африка Север            
southcentralus SouthCentralUS      
southeastasia Юго-Восточная Азия      
southindia Южная Индия            
swedencentral ШвецияCentral      
switzerlandnorth Север Швейцарии      
switzerlandwest ШвейцарияWest            
uaenorth ОАЭ Север      
uksouth UKSouth    
ukwest UKWest            
westcentralus WestCentralUS            
westeurope WestEurope      
westindia WestIndia            
westus ВестЮС      
westus2 ВестУС2      
westus3 WestUS3      

Ограничения API основной модели

Примечание.

В рамках предоставления API интерфейсов модели Foundation, Databricks может обрабатывать ваши данные за пределами региона их происхождения, но не за пределами соответствующего географического положения .

Для рабочих нагрузок оплаты за токен и выделенной пропускной способности:

  • Только администраторы рабочей области могут изменять параметры управления, такие как ограничения скорости для конечных точек API модели Foundation. Чтобы изменить ограничения скорости, выполните следующие действия.
    1. Откройте пользовательский интерфейс обслуживания в рабочей области, чтобы увидеть конечные точки обслуживания.
    2. В меню kebab в конечной точке API-интерфейсов модели Foundation, которую вы хотите изменить, выберите "Просмотреть сведения".
    3. В меню kebab в правой верхней части страницы сведений о конечных точках выберите ограничение скорости изменения.
  • Модели векторизации GTE Large (En) не создают нормализованных векторов.

Ограничения на оплату за токен

Ниже приведены ограничения, касающиеся рабочих нагрузок для API модели Foundation с оплатой за токен.

  • Рабочие нагрузки с оплатой за токены соответствуют ТРЕБОВАНИЯМ HIPAA.
    • Для клиентов с включенным профилем безопасности соответствия доступны рабочие нагрузки с оплатой за токены, если выбран стандарт соответствия HIPAA или Отсутствует. Другие стандарты соответствия не поддерживаются для рабочих нагрузок с оплатой за токен.
  • Следующие модели оплаты за каждый токен поддерживаются только в регионах США, где API модели Foundation поддерживает оплату за токен.
    • Антропический Клод Сонет 4
    • Anthropic Claude Opus 4
    • Метта Ллама 3.1 405B Инструкт
    • BGE Large (en)
  • Anthropic Claude 3.7 Sonnet доступен в поддерживаемых регионах ЕС и США с оплатой за токен. Если ваша рабочая область не находится в регионе ЕС или США, но находится в поддерживаемом регионе обслуживания моделей, вы можете включить межрегионную обработку данных для доступа к этой модели.
  • Если рабочая область находится в регионе обслуживания моделей, но не в регионе США или ЕС, ваша рабочая область должна быть включена для обработки данных между регионами. При включении ваша рабочая нагрузка с оплатой за каждый токен направляется в географический регион США Databricks. Сведения о том, какие географические регионы обрабатывают нагрузки с оплатой за использование токенов, см. в разделе Databricks Designated Services.

Ограничения предоставленной пропускной способности

Ниже приведены ограничения, относящиеся к API моделей Foundation для нагрузок с обеспеченной пропускной способностью .

  • Подготовленная пропускная способность поддерживает профиль соответствия HIPAA и рекомендуется для рабочих нагрузок, требующих сертификации соответствия.

  • Чтобы развернуть модель Meta Llama из system.ai каталога Unity, необходимо выбрать соответствующую версию инструкции . Базовые версии моделей Meta Llama не поддерживаются для развертывания из каталога Unity. См. статью [Рекомендуется] Развертывание базовых моделей из каталога Unity.

  • Для рабочих нагрузок с подготовленной пропускной способностью, использующих Llama 4 Maverick:

    • Поддержка этой модели для подготовленных рабочих нагрузок пропускной способности доступна в общедоступной предварительной версии.
    • Автомасштабирование не поддерживается.
    • Панели метрик не поддерживаются.
    • Разделение трафика не поддерживается в конечной точке, которая обслуживает Llama 4 Maverick. Вы не можете обслуживать несколько моделей в конечной точке, которая обслуживает Llama 4 Maverick.

Доступность по регионам

Примечание.

Если требуется конечная точка в неподдерживаемом регионе, обратитесь к группе учетной записи Azure Databricks.

Если рабочая область развернута в регионе, поддерживающем обслуживание моделей, но управляется контроллером в неподдерживаемом регионе, рабочая область не поддерживает обслуживание моделей. Если вы пытаетесь использовать модель, обслуживаемую в такой рабочей области, вы увидите сообщение об ошибке о том, что ваша рабочая область не поддерживается. Свяжитесь с командой по работе с учетными записями Azure Databricks для получения дополнительной информации.

Дополнительные сведения о региональной доступности каждой функции обслуживания моделей см. в разделе "Модель обслуживания региональной доступности".

Сведения о доступности региона модели, размещенной в Databricks, см. в моделях Foundation, размещенных в Databricks.