Поделиться через


Развертывание Azure Databricks в виртуальной сети Azure (внедрение виртуальной сети)

Разверните Azure Databricks в виртуальной сети Azure, чтобы включить настройку сети, безопасное подключение к службам Azure и локальным источникам данных и возможности проверки трафика.

Почему использовать интеграцию VNet

Инжекция в виртуальную сеть (VNet) разворачивает классические ресурсы вычислительной плоскости Azure Databricks в вашей виртуальной сети (VNet), что позволяет:

  • Частное подключение к службам Azure с помощью конечных точек службы или частных конечных точек
  • Локальный доступ через определяемые пользователем маршруты
  • Проверка трафика с виртуальными сетевыми устройствами
  • Настраиваемая конфигурация DNS
  • Контроль над исходящим трафиком с дополнительными правилами NSG
  • Гибкие диапазоны адресов CIDR (виртуальная сеть: от /16 до /24, подсети: до /26)

Требования к разрешениям

Разрешения Azure: создатель рабочей области должен иметь роль участника сети в виртуальной сети или пользовательскую роль с Microsoft.Network/virtualNetworks/subnets/join/action разрешениями.Microsoft.Network/virtualNetworks/subnets/write

Конфигурация виртуальной сети

  1. Чтобы развернуть рабочую область Azure Databricks, необходимо настроить виртуальную сеть. Вы можете использовать существующую виртуальную сеть или создать новую. Виртуальная сеть должна соответствовать следующим требованиям:
    • Регион. Виртуальная сеть должна находиться в том же регионе, что и рабочая область Azure Databricks.
    • Подписка. Виртуальная сеть должна находиться в той же подписке, что и рабочая область Azure Databricks.
    • Адресное пространство: блок CIDR между /16 и /24 для виртуальной сети. Рекомендации по максимальному размеру узлов кластера на основе размера виртуальной сети см. в руководстве по адресным пространствам.
    • Подсети: виртуальная сеть должна включать две подсети, выделенные для рабочей области Azure Databricks:
      • Подсеть контейнера (иногда называется частной подсетью)
      • Подсеть хоста (иногда называется публичной подсетью)
      • Каждая подсеть должна использовать блок CIDR размером, по крайней мере, /26. Databricks не рекомендует подсеть меньше /26.
      • Вы не можете совместно использовать подсети в рабочих областях или развертывать другие ресурсы Azure в подсетях, используемых рабочей областью Azure Databricks.
      • Рекомендуется, чтобы размер подсетей совпадал.
    • Исходящее подключение для исходящего трафика: Databricks рекомендует использовать шлюз NAT Azure для обеих подсетей для стабильных IP-адресов исходящего трафика. После 31 марта 2026 г. новые виртуальные сети требуют явных методов исходящего подключения. Ознакомьтесь с безопасным подключением к кластеру.
    • Правила группы безопасности сети: см. правила группы безопасности сети

Примечание.

При развертывании рабочей области с помощью безопасного подключения к кластеру как подсеть контейнера, так и подсеть хоста используют частные IP-адреса.

Руководство по адресному пространству

Для рабочей области Azure Databricks требуется две подсети в виртуальной сети: подсеть контейнера и подсеть узла. Azure резервирует пять IP-адресов в каждой подсети. Azure Databricks требует двух IP-адресов для каждого узла кластера: один IP-адрес узла в подсети узла и один IP-адрес контейнера в подсети контейнера.

При планировании адресного пространства следует учитывать следующее:

  • Может потребоваться создать несколько рабочих областей в одной виртуальной сети. Так как вы не можете совместно использовать подсети между рабочими областями, планируйте подсети, которые не используют общее адресное пространство виртуальной сети.
  • Выделите адресное пространство для двух новых подсетей, находящихся в адресном пространстве виртуальной сети, и не перекрывайте адресное пространство текущих или будущих подсетей в этой виртуальной сети.

В рабочей области с небольшой виртуальной сетью IP-адреса (сетевое пространство) могут закончиться быстрее, чем в рабочей области с большой виртуальной сетью. Используйте блок CIDR между /16 и /24 для виртуальной сети и блок CIDR до /26 для двух подсетей: подсети контейнера и подсети узла. Вы можете создать блок CIDR размером до /28 для вашей подсети, однако Azure Databricks не рекомендует использовать подсети размером меньше, чем /26.

Шаг 1. Создание рабочей области

Создайте рабочую область на портале Azure и разверните ее в виртуальной сети.

  1. На портале Azure выберите +Создать ресурс > Аналитика > Azure Databricks или выполните поиск по Azure Databricks.

  2. На вкладке "Сеть" выберите виртуальную сеть.

    Внимание

    Если виртуальная сеть не отображается, убедитесь, что рабочая область и виртуальная сеть находятся в одном регионе Azure.

  3. Настройте подсети с диапазонами CIDR до /26 (не более 80 символов для имен):

    • Существующие подсети: введите точные имена подсетей и соответствующие диапазоны IP-адресов
    • Новые подсети: введите новые имена и диапазоны IP-адресов в адресном пространстве виртуальной сети.

    Примечание.

    Диапазоны CIDR подсети нельзя изменить после развертывания. Azure Databricks автоматически настраивает правила NSG и делегирование подсети для Microsoft.Databricks/workspaces.

  4. Нажмите кнопку "Создать" , чтобы развернуть рабочую область.

Шаг 2. Проверка развертывания рабочей области

  1. Перейдите на портал Azure и перейдите к ресурсу рабочей области Azure Databricks.

  2. На странице обзора проверьте следующее:

    • Рабочая область находится в исправном состоянии (без ошибок).
    • Перечислены группа ресурсов и управляемая группа ресурсов.
    • Пиринг между виртуальными сетями отключен (это ожидается для внедрения виртуальной сети).

Управляемая группа ресурсов не изменяется и не может использоваться для создания виртуальных машин. Создайте виртуальные машины в управляемой группе ресурсов.

Шаг 3. Проверка конфигурации группы безопасности сети

  1. На портале Azure перейдите к виртуальной сети.

  2. Щелкните подсети в разделе Параметры.

  3. Проверьте, что у подсети контейнера и подсети узла есть:

    • Подключенная группа безопасности сети
    • Делегирование в Microsoft.Databricks/workspaces
  4. Щелкните группу безопасности сети и убедитесь, что настроены необходимые правила для входящего и исходящего трафика. Сведения о ожидаемых правилах см. в справочнике по правилам группы безопасности сети.

Шаг 4. Создание кластера

Создав рабочую область, создайте классический вычислительный кластер, чтобы убедиться, что внедрение виртуальной сети работает правильно.

  1. Перейдите в рабочую область Azure Databricks и нажмите кнопку "Запустить рабочую область " на странице обзора .

  2. Щелкните "Значок вычисленийВычисления" на боковой панели.

  3. На странице "Вычислительная среда" щелкните элемент Создать кластер.

  4. Введите имя кластера, оставьте оставшиеся значения в состоянии по умолчанию и нажмите кнопку "Создать кластер".

После запуска кластера управляемая группа ресурсов содержит новые виртуальные машины, диски, IP-адреса и сетевые интерфейсы. Сетевой интерфейс создается в каждой из общедоступных и частных подсетей с IP-адресами.

Шаг 5. Проверка конфигурации сети кластера

  1. В рабочей области Azure Databricks перейдите в группу управляемых ресурсов на портале Azure.

  2. Убедитесь, что существуют следующие ресурсы:

    • Виртуальные машины для узлов кластера
    • Диски, подключенные к виртуальным машинам
    • IP-адреса для узлов кластера
    • Сетевые интерфейсы в общедоступных и частных подсетях
  3. В рабочей области Azure Databricks щелкните созданный кластер.

  4. Перейдите к пользовательскому интерфейсу Spark и перейдите на вкладку "Исполнители ".

  5. Убедитесь, что адреса драйвера и исполнителя находятся в диапазоне частной подсети. Например, если ваша частная подсеть — 10.179.0.0/18, драйвер может быть 10.179.0.6, а исполнители — 10.179.0.4 и 10.179.0.5. Ip-адреса могут отличаться.

Стабильные IP-адреса исходящего трафика

Для рабочих областей с безопасным подключением к кластеру и внедрением виртуальной сети Databricks рекомендует настроить стабильный общедоступный IP-адрес исходящего трафика. Стабильные IP-адреса обеспечивают внешние списки разрешений для таких служб, как Salesforce и списки доступа к IP-адресам.

Предупреждение

После 31 марта 2026 г. новые виртуальные сети Azure по умолчанию имеют частные конфигурации без возможности исходящего доступа в Интернет. Для новых рабочих областей Azure Databricks требуются явные методы исходящего подключения, такие как шлюз NAT. Существующие рабочие области не затрагиваются. Ознакомьтесь с объявлением Майкрософт.

Сведения о настройке стабильного IP-адреса исходящего трафика см. в разделе "Исходящий трафик" с внедрением виртуальной сети.

Правила группы безопасности сети

Azure Databricks автоматически провизирует и управляет правилами NSG, перечисленными ниже, посредством делегирования подсети в Microsoft.Databricks/workspaces службу. Эти правила необходимы для функционирования рабочего пространства. Не изменяйте или не удаляйте эти правила.

Примечание.

Некоторые правила используют VirtualNetwork как источник, так и назначение. Внутренние политики сети предотвращают взаимодействие между кластерами, в том числе между рабочими областями в одной виртуальной сети.

Databricks рекомендует использовать уникальную группу безопасности сети для каждой рабочей области.

Внимание

Добавьте правила запрета в группы безопасности сети, подключенные к прочим сетям и подсетям в той же или одноранговых виртуальных сетях. Примените правила запрета для входящих и исходящих подключений, чтобы ограничить трафик на и от вычислительных ресурсов Azure Databricks. Разрешить доступ только к минимальным ресурсам, необходимым для кластеров.

правила группы безопасности сети для рабочих пространств

В этой таблице перечислены правила группы безопасности сети для рабочих областей и два правила группы безопасности входящего трафика, которые добавляются только в том случае, если безопасное подключение к кластеру (SCC) отключено.

Направление Протокол Источник Исходный порт Назначение Порт назначения Б/у
Входящий трафик Любой Виртуальная сеть Любой Виртуальная сеть Любой По умолчанию.
Входящий трафик Протокол tcp AzureDatabricks (тег службы)
Только если SCC отключен
Любой Виртуальная сеть двадцать два Общедоступный IP-адрес
Входящий трафик Протокол tcp AzureDatabricks (тег службы)
Только если SCC отключен
Любой Виртуальная сеть 5557 Общедоступный IP-адрес
Исходящие Протокол tcp Виртуальная сеть Любой AzureDatabricks (тег службы) 443, 3306, 8443-8451 По умолчанию.
Исходящие Протокол tcp Виртуальная сеть Любой SQL 3306 По умолчанию.
Исходящие Протокол tcp Виртуальная сеть Любой Хранилище 443 По умолчанию.
Исходящие Любой Виртуальная сеть Любой Виртуальная сеть Любой По умолчанию.
Исходящие Протокол tcp Виртуальная сеть Любой Концентратор событий 9093 По умолчанию.

Примечание.

Если вы ограничиваете правила исходящего трафика, Databricks рекомендует открывать порты 111 и 2049 для включения определенных установок библиотеки.

Внимание

Azure Databricks — это служба Microsoft Azure, развернутая в глобальной инфраструктуре общедоступного облака Azure. Все связи между компонентами службы, включая общедоступные IP-адреса в плоскости управления и плоскости вычислений клиента, остаются в пределах сетевой магистрали Microsoft Azure. См. также статью о глобальной сети Майкрософт.

Расширение емкости виртуальной сети

Если в виртуальной сети рабочей области недостаточно емкости для активных узлов кластера, у вас есть два варианта:

  • Обновление конфигурации виртуальной сети: эта функция доступна в общедоступной предварительной версии. См. раздел "Обновление конфигурации сети рабочей области".
  • Разверните текущий диапазон CIDR: обратитесь к команде, отвечающей за вашу учетную запись в Azure Databricks, чтобы запросить увеличение диапазона CIDR для подсети рабочей области.