Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье приведены ограничения и доступность регионов для обслуживания моделей ИИ Мозаики и поддерживаемых типов конечных точек.
Ограничения ресурсов и полезной нагрузки
Служба модели ИИ мозаики накладывает ограничения по умолчанию, чтобы обеспечить надежную производительность. Если у вас есть отзывы об этих ограничениях, обратитесь к группе учетной записи Databricks.
В следующей таблице перечислены ограничения ресурсов и объема данных для конечных точек модели.
Функция | Степень детализации | Предел |
---|---|---|
Размер полезной нагрузки | По запросу | 16 МБ. Для конечных точек, обслуживающих базовые модели, внешние модели или агенты ИИ , ограничение составляет 4 МБ. |
Размер запроса и ответа | По запросу | Любой запрос или ответ более 1 МБ не будет зарегистрирован. |
Число запросов в секунду (QPS) | В расчете на рабочую область | 200, но может быть увеличено до 25 000 или более, обратившись к команде по работе с учетными записями Databricks. |
Длительность выполнения модели | По запросу | 120 секунд |
Использование памяти модели конечной точки ЦП | По конечной точке | 4 ГБ |
Использование памяти модели конечной точки графического процессора | По конечной точке | Больше или равно назначенной памяти GPU зависит от размера рабочей нагрузки GPU |
Выделенная одновременность | По модели и рабочему пространству | Одновременность 200. Для увеличения, свяжитесь с вашей командой по работе с аккаунтом Databricks. |
Задержка накладных расходов | По запросу | Менее 50 миллисекунда |
Скрипты инициализации | Скрипты инициализации не поддерживаются. | |
Ограничения скорости оплаты за токены (API модели Foundation) | В расчете на рабочую область | Если для вашего варианта использования недостаточно указанных ниже ограничений, Databricks рекомендует использовать подготовленную пропускную способность.
|
Ограничения скорости API моделей Foundation (выделенная пропускная способность) | В расчете на рабочую область | 200 запросов в секунду. |
Ограничения сети и безопасности
- Конечные точки обслуживания моделей защищены с помощью управления доступом и уважают правила входящего трафика, связанные с сетью, настроенные в рабочей области, такие как списки разрешений IP и приватный канал.
- Частное подключение (например, Приватный канал Azure) поддерживается только для конечных точек обслуживания моделей, использующих подготовленную пропускную способность или конечные точки, обслуживающие пользовательские модели.
- По умолчанию Model Serving не поддерживает Private Link для внешних конечных точек (например, Azure OpenAI). Поддержка этой функции оценивается и реализуется на основе каждого региона. Свяжитесь с командой по работе с учетными записями Azure Databricks для получения дополнительной информации.
- Модельный сервис не предоставляет обновления безопасности для имеющихся образов моделей из-за риска дестабилизации в производственных развертываниях. Новый образ модели, созданный из новой версии модели, будет содержать последние исправления. Обратитесь к группе учетных записей Databricks, чтобы получить дополнительные сведения.
Стандарты профиля безопасности соответствия требованиям: рабочие нагрузки ЦП
В следующей таблице перечислены поддерживаемые стандарты соответствия профилю безопасности для основных функций обслуживания моделей на рабочих нагрузках ЦП.
Примечание.
Эти стандарты соответствия требуют, чтобы контейнеры были созданы в течение последних 30 дней. Databricks автоматически перестраивает устаревшие контейнеры от вашего имени. Однако если это автоматическое задание завершается сбоем, появится сообщение журнала событий, например следующее, и содержит рекомендации по обеспечению соответствия конечным точкам:
"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact [email protected]."
Регион | Местоположение | HIPAA | HITRUST | PCI-DSS | ИРАП (IRAP) | CCCS Medium (Защищенный уровень B) | Cyber Essentials Plus (Соединенное Королевство) |
---|---|---|---|---|---|---|---|
australiacentral |
Центральная Австралия | ||||||
australiacentral2 |
АвстралияCentral2 | ||||||
australiaeast |
Восточная Австралия | ✓ | ✓ | ✓ | |||
australiasoutheast |
Австралия Юго-Восток | ||||||
brazilsouth |
Южная Бразилия | ✓ | ✓ | ✓ | |||
canadacentral |
Канада Централ | ✓ | ✓ | ✓ | |||
canadaeast |
КанадаИст | ||||||
centralindia |
CentralIndia | ✓ | ✓ | ✓ | |||
centralus |
Центральная часть США | ✓ | ✓ | ✓ | |||
chinaeast2 |
ChinaEast2 | ||||||
chinaeast3 |
ChinaEast3 | ||||||
chinanorth2 |
ChinaNorth2 | ||||||
chinanorth3 |
ChinaNorth3 | ||||||
eastasia |
EastAsia | ✓ | ✓ | ✓ | |||
eastus |
Восточный регион США (EastUS) | ✓ | ✓ | ✓ | |||
eastus2 |
EastUS2 | ✓ | ✓ | ✓ | |||
francecentral |
FranceCentral | ✓ | ✓ | ✓ | |||
germanywestcentral |
ГерманияWestCentral | ✓ | ✓ | ✓ | |||
japaneast |
ЯпонияВосток | ✓ | ✓ | ✓ | |||
japanwest |
Япония Запад | ||||||
koreacentral |
КореяCentral | ✓ | ✓ | ✓ | |||
mexicocentral |
МексикаCentral | ||||||
northcentralus |
NorthCentralUS | ✓ | ✓ | ✓ | |||
northeurope |
NorthEurope | ✓ | ✓ | ✓ | |||
norwayeast |
Норвегия Восток | ||||||
qatarcentral |
КатарЦентрал | ||||||
southafricanorth |
Южная Африка Север | ||||||
southcentralus |
SouthCentralUS | ✓ | ✓ | ✓ | |||
southeastasia |
Юго-Восточная Азия | ✓ | ✓ | ✓ | |||
southindia |
Южная Индия | ||||||
swedencentral |
ШвецияCentral | ✓ | ✓ | ✓ | |||
switzerlandnorth |
Север Швейцарии | ✓ | ✓ | ✓ | |||
switzerlandwest |
ШвейцарияWest | ||||||
uaenorth |
ОАЭ Север | ✓ | ✓ | ✓ | |||
uksouth |
UKSouth | ✓ | ✓ | ✓ | ✓ | ||
ukwest |
UKWest | ||||||
westcentralus |
WestCentralUS | ||||||
westeurope |
WestEurope | ✓ | ✓ | ✓ | |||
westindia |
WestIndia | ||||||
westus |
ВестЮС | ✓ | ✓ | ✓ | |||
westus2 |
ВестУС2 | ✓ | ✓ | ✓ | |||
westus3 |
WestUS3 | ✓ | ✓ | ✓ |
Ограничения API основной модели
Примечание.
В рамках предоставления API интерфейсов модели Foundation, Databricks может обрабатывать ваши данные за пределами региона их происхождения, но не за пределами соответствующего географического положения .
Для рабочих нагрузок оплаты за токен и выделенной пропускной способности:
- Только администраторы рабочей области могут изменять параметры управления, такие как ограничения скорости для конечных точек API модели Foundation. Чтобы изменить ограничения скорости, выполните следующие действия.
- Откройте пользовательский интерфейс обслуживания в рабочей области, чтобы увидеть конечные точки обслуживания.
- В меню kebab в конечной точке API-интерфейсов модели Foundation, которую вы хотите изменить, выберите "Просмотреть сведения".
- В меню kebab в правой верхней части страницы сведений о конечных точках выберите ограничение скорости изменения.
- Модели векторизации GTE Large (En) не создают нормализованных векторов.
Ограничения на оплату за токен
Ниже приведены ограничения, касающиеся рабочих нагрузок для API модели Foundation с оплатой за токен.
- Рабочие нагрузки с оплатой за токены соответствуют ТРЕБОВАНИЯМ HIPAA.
- Для клиентов с включенным профилем безопасности соответствия доступны рабочие нагрузки с оплатой за токены, если выбран стандарт соответствия HIPAA или Отсутствует. Другие стандарты соответствия не поддерживаются для рабочих нагрузок с оплатой за токен.
- Следующие модели оплаты за каждый токен поддерживаются только в регионах США, где API модели Foundation поддерживает оплату за токен.
- Антропический Клод Сонет 4
- Anthropic Claude Opus 4
- Метта Ллама 3.1 405B Инструкт
- BGE Large (en)
- Anthropic Claude 3.7 Sonnet доступен в поддерживаемых регионах ЕС и США с оплатой за токен. Если ваша рабочая область не находится в регионе ЕС или США, но находится в поддерживаемом регионе обслуживания моделей, вы можете включить межрегионную обработку данных для доступа к этой модели.
- Если рабочая область находится в регионе обслуживания моделей, но не в регионе США или ЕС, ваша рабочая область должна быть включена для обработки данных между регионами. При включении ваша рабочая нагрузка с оплатой за каждый токен направляется в географический регион США Databricks. Сведения о том, какие географические регионы обрабатывают нагрузки с оплатой за использование токенов, см. в разделе Databricks Designated Services.
Ограничения предоставленной пропускной способности
Ниже приведены ограничения, относящиеся к API моделей Foundation для нагрузок с обеспеченной пропускной способностью .
Подготовленная пропускная способность поддерживает профиль соответствия HIPAA и рекомендуется для рабочих нагрузок, требующих сертификации соответствия.
Чтобы развернуть модель Meta Llama из
system.ai
каталога Unity, необходимо выбрать соответствующую версию инструкции . Базовые версии моделей Meta Llama не поддерживаются для развертывания из каталога Unity. См. статью [Рекомендуется] Развертывание базовых моделей из каталога Unity.Для рабочих нагрузок с подготовленной пропускной способностью, использующих Llama 4 Maverick:
- Поддержка этой модели для подготовленных рабочих нагрузок пропускной способности доступна в общедоступной предварительной версии.
- Автомасштабирование не поддерживается.
- Панели метрик не поддерживаются.
- Разделение трафика не поддерживается в конечной точке, которая обслуживает Llama 4 Maverick. Вы не можете обслуживать несколько моделей в конечной точке, которая обслуживает Llama 4 Maverick.
Доступность по регионам
Примечание.
Если требуется конечная точка в неподдерживаемом регионе, обратитесь к группе учетной записи Azure Databricks.
Если рабочая область развернута в регионе, поддерживающем обслуживание моделей, но управляется контроллером в неподдерживаемом регионе, рабочая область не поддерживает обслуживание моделей. Если вы пытаетесь использовать модель, обслуживаемую в такой рабочей области, вы увидите сообщение об ошибке о том, что ваша рабочая область не поддерживается. Свяжитесь с командой по работе с учетными записями Azure Databricks для получения дополнительной информации.
Дополнительные сведения о региональной доступности каждой функции обслуживания моделей см. в разделе "Модель обслуживания региональной доступности".
Сведения о доступности региона модели, размещенной в Databricks, см. в моделях Foundation, размещенных в Databricks.