Поделиться через


Краткое руководство: Создание рабочей области Azure Databricks в собственной виртуальной сети

При развертывании Azure Databricks по умолчанию создается виртуальная сеть, которой управляет Databricks. В этом кратком руководстве показано, как создать рабочую область Azure Databricks в вашей собственной виртуальной сети. В этой рабочей области также создается кластер Apache Spark.

Дополнительные сведения о том, почему вам может понадобиться создать рабочую область Azure Databricks в своей виртуальной сети, см. в статье Развертывание Azure Databricks в вашей виртуальной сети Azure (инъекция VNet).

Требования

  • Если у вас еще нет подписки Azure, создайте бесплатную учетную запись. Это руководство не может быть выполнено с помощью бесплатной пробной подписки Azure. Если у вас есть бесплатная учетная запись, перейдите к профилю и измените подписку на подписку с оплатой по мере использования. Дополнительные сведения см. на странице создания бесплатной учетной записи Azure. Затем удалить ограничение расходов, а запросить увеличение квоты для виртуальных ЦП в вашем регионе. При создании рабочей области Azure Databricks можно выбрать ценовую категорию "Пробная версия (Премиум - бесплатные DBU на 14 дней)", чтобы предоставить рабочей области доступ к бесплатным премиальным DBU Azure Databricks в течение 14 дней.

  • Вы должны быть участником Azure или владельцем, а поставщик ресурсов Microsoft.ManagedIdentity должен быть зарегистрирован в вашей подписке. Инструкции приведены в разделе Регистрация поставщика ресурсов.

Войдите на портал Azure

Войдите на портал Azure.

Примечание.

Если вы хотите создать рабочую область Azure Databricks в коммерческом облаке Azure, которая отвечает требованиям соблюдения сертификатов соответствия для государственных организаций США, таких как FedRAMP High, обратитесь к вашей команде по работе с клиентами Microsoft или Databricks, чтобы получить доступ к этому функционалу.

Создание виртуальной сети

  1. В меню портала Azure выберите Создать ресурс. Затем выберите Сетевую > виртуальную сеть.

    Создание виртуальной сети на портале Azure

  2. В разделе Создание виртуальной сети укажите следующие параметры:

    Настройки Предлагаемое значение Описание
    Подписка <Ваша подписка> Выберите подписку Azure, которую вы хотите использовать.
    Группа ресурсов Databricks-быстрый старт Выберите Создать новую и введите новое имя группы ресурсов для вашей учетной записи.
    Имя. Databricks-быстрый старт Выберите имя виртуальной сети.
    Область/регион <Выберите регион, ближайший к вашим пользователям> Выберите географическое расположение, в котором можно разместить виртуальную сеть. Используйте расположение, которое ближе всего к вашим пользователям.

    Основные сведения о виртуальной сети на портале Azure

  3. Выберите Далее: IP-адреса > и примените следующие параметры. Затем выберите Проверить + создать.

    Настройки Предлагаемое значение Описание
    Диапазон IPv4-адресов 10.2.0.0/16 Диапазон адресов виртуальной сети в нотации CIDR. Префикс CIDR должен находиться в диапазоне от /16 до /24
    Имя подсети по умолчанию Выберите имя подсети по умолчанию в виртуальной сети.
    Диапазон адресов подсети 10.2.0.0/24 Диапазон адресов подсети в нотации CIDR. Он должен содержаться в адресном пространстве виртуальной сети. Диапазон адресов используемой подсети изменить нельзя.

    Настройте конфигурации IP-адресов для виртуальной сети на портале Azure

  4. На вкладке Проверка и создание выберите Создать для развертывания виртуальной сети. После завершения развертывания перейдите к виртуальной сети и выберите адресное пространство в разделе "Параметры ". В поле с надписью Добавить дополнительный диапазон адресоввставьте 10.179.0.0/16 и нажмите Сохранить.

    Диапазон адресов виртуальной сети Azure

Создайте рабочую область Azure Databricks.

  1. В меню портала Azure выберите Создать ресурс. Затем выберите Analytics > Databricks.

    Создание рабочей области Azure Databricks на портале Azure

  2. В разделе Служба Azure Databricks укажите следующие параметры:

    Настройки Предлагаемое значение Описание
    имя рабочей области. Databricks-быстрый старт Выберите имя рабочей области Azure Databricks.
    Подписка <Ваша подписка> Выберите подписку Azure, которую вы хотите использовать.
    Группа ресурсов Databricks-быстрый старт Выберите ту же группу ресурсов, которую вы использовали для виртуальной сети.
    Расположение <Выберите регион, ближайший к вашим пользователям> Выберите расположение, аналогичное расположению вашей виртуальной сети.
    Ценовая категория Вы можете выбрать уровень "Стандартный" или "Премиум". Дополнительные сведения о ценовых категориях см. страницу Цены на Databricks.

    Создание рабочей области Azure Databricks: основные сведения

  3. После завершения ввода параметров на странице Основы нажмите кнопку Далее: Сетевые настройки > и примените указанные ниже параметры:

    Настройки Предлагаемое значение Описание
    Разверните рабочую область Azure Databricks в вашей виртуальной сети (VNet) Да Указанные ниже параметры позволят развернуть рабочую область Azure Databricks в существующей виртуальной сети.
    Виртуальная сеть Databricks-быстрый старт Выберите виртуальную сеть, созданную в предыдущем разделе.
    Имя общедоступной подсети публичная подсеть Используйте имя общедоступной подсети по умолчанию.
    Диапазон CIDR общедоступной подсети 10.179.64.0/18 Используйте диапазон CIDR до /26 включительно.
    Имя частной подсети частная подсеть Используйте имя частной подсети по умолчанию.
    Диапазон CIDR частной подсети 10.179.0.0/18 Используйте диапазон CIDR до /26 включительно.

    Добавление сведений о виртуальной сети в рабочую область Azure Databricks на портале Azure

  4. После завершения развертывания перейдите к ресурсу Azure Databricks. Обратите внимание, что пиринг виртуальной сети отключен. Также обратите внимание на группу ресурсов и управляемую группу ресурсов на странице обзора.

    Страница обзора службы Azure Databricks на портале Azure

    Управляемую группу ресурсов нельзя изменить, как и использовать для создания виртуальных машин. Виртуальные машины можно создавать только в группе ресурсов, которой управляете вы.

    Управляемая группа ресурсов Azure Databricks

    Если при развертывании рабочей области произойдет сбой, она все равно будет создана в ошибочном состоянии. Удалите несостоявшуюся рабочую область и создайте новую рабочую область, чтобы устранить ошибки развертывания. При удалении неудачной рабочей области также удаляются управляемая группа ресурсов и все успешно развернутые ресурсы.

Создание кластера

Примечание.

Чтобы использовать бесплатную учетную запись для создания кластера Azure Databricks, перед созданием кластера перейдите в свой профиль и измените свою подписку на оплату по мере использования. Дополнительные сведения см. на странице создания бесплатной учетной записи Azure.

  1. Вернитесь в службу Azure Databricks и выберите Запустить рабочую область на странице Обзор.

  2. Выберите кластеры >и создайте кластер. Укажите имя кластера, например databricks-quickstart-cluster, и не изменяйте остальные параметры, заданные по умолчанию. Выберите Создать кластер.

    Создание кластера Azure Databricks

  3. После запуска кластера вернитесь в управляемую группу ресурсов на портале Azure. Обратите внимание на созданные виртуальные машины, диски, IP-адреса и сетевые интерфейсы. Сетевой интерфейс создается в каждой общедоступной и частной подсетях с IP-адресами.

  4. Вернитесь в рабочую область Azure Databricks и выберите созданный кластер. Затем перейдите на вкладку Executors (Исполнители) на странице Spark UI (Пользовательский интерфейс Spark). Обратите внимание, что адреса драйвера и исполнителей находятся в диапазоне частных подсетей. В этом примере драйвер имеет адрес 10.179.0.6, а исполнители — 10.179.0.4 и 10.179.0.5. У вас IP-адреса могут быть другими.

    Исполнители пользовательского интерфейса Spark в Azure Databricks

Очистка ресурсов

Когда вы выполните задачи в статье, можно будет завершить работу кластера. Для этого в рабочей области Azure Databricks в левой панели выберите Кластеры. Для завершения кластера переместите курсор на значок с многоточием в столбце Действия и выберите значок 'Завершить' . Это останавливает кластер.

Если не завершить работу кластера вручную, это можно сделать автоматически, выбрав флажок Terminate after __ minutes of inactivity (Завершить работу после __ минут бездействия) во время создания кластера. В этом случае работа кластера автоматически завершается, если он был неактивным в течение определенного времени.

Если вы не собираетесь повторно использовать кластер, можно удалить группу ресурсов, созданную на портале Azure.

Следующие шаги

Из этой статьи вы узнали, как создать кластер Spark в Azure Databricks и развернуть его в виртуальной сети. Перейдите к следующей статье, чтобы узнать, как выполнить запрос к контейнеру Linux Docker для SQL Server в виртуальной сети с использованием JDBC из записной книжки Azure Databricks.

Выполнение запроса к контейнеру Docker для SQL Server на Linux в виртуальной сети из записной книжки Azure Databricks