Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Замечание
Эта статья относится к Databricks Connect для Databricks Runtime 13.3 LTS и выше.
Databricks Connect позволяет подключать популярные интегрированные среды разработки, такие как PyCharm, серверы записных книжек и другие пользовательские приложения к средствам вычислений Azure Databricks. См. Databricks Connect.
В этой статье показано, как быстро приступить к работе с Databricks Connect для Python с помощью PyCharm. Вы создадите проект в PyCharm, установите Databricks Connect для Databricks Runtime 13.3 LTS и более поздних версий и выполните простой код для классических вычислений в рабочей области Databricks из PyCharm.
Требования
Чтобы завершить работу с этим руководством, необходимо выполнить следующие требования:
- Рабочая область, локальная среда и вычислительные ресурсы соответствуют требованиям Databricks Connect для Python. См. сведения о требованиях к использованию Databricks Connect.
- Установлен PyCharm. Это руководство было протестировано с помощью PyCharm Community Edition 2023.3.5. Если вы используете другую версию или выпуск PyCharm, следующие инструкции могут отличаться.
- Если вы используете классические вычисления, вам потребуется идентификатор кластера. Чтобы получить идентификатор кластера, в рабочей области щелкните "Вычислить " на боковой панели и выберите имя кластера. В адресной строке веб-браузера скопируйте строку символов между
clustersиconfigurationв URL-адресе.
Шаг 1. Настройка проверки подлинности Azure Databricks
В этом руководстве используется проверка подлинности Azure Databricks OAuth пользователь-машина (U2M) и профиль конфигурации Azure Databricks для проверки подлинности в рабочей области Azure Databricks. Сведения об использовании другого типа проверки подлинности см. в разделе "Настройка свойств подключения".
Для настройки проверки подлинности OAuth U2M требуется интерфейс командной строки Databricks. Сведения об установке интерфейса командной строки Databricks см. в разделе "Установка или обновление интерфейса командной строки Databricks".
Инициируйте проверку подлинности OAuth U2M следующим образом:
Используйте Databricks CLI для начала управления токенами OAuth на локальном уровне, выполнив следующую команду для каждой целевой рабочей области.
В следующей команде замените
<workspace-url>URL-адресом Azure Databricks per-workspace, напримерhttps://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --configure-cluster --host <workspace-url>Подсказка
Сведения об использовании бессерверных вычислений с Databricks Connect см. в разделе "Настройка подключения к бессерверным вычислениям".
Интерфейс командной строки Databricks запрашивает сохранение сведений, введенных в качестве профиля конфигурации Azure Databricks
. Нажмите, Enterчтобы принять предлагаемое имя профиля, или введите имя нового или существующего профиля. Любой существующий профиль с тем же именем перезаписывается с введенными сведениями. Профили можно использовать для быстрого переключения контекста проверки подлинности в нескольких рабочих областях.Чтобы получить список существующих профилей в отдельном терминале или командной строке, используйте интерфейс командной строки Databricks для выполнения команды
databricks auth profiles. Чтобы просмотреть существующие параметры конкретного профиля, выполните командуdatabricks auth env --profile <profile-name>.В веб-браузере выполните инструкции на экране, чтобы войти в рабочую область Azure Databricks.
В списке доступных кластеров, отображаемых в терминале или командной строке, используйте клавиши стрелки ВВЕРХ и СТРЕЛКА ВНИЗ, чтобы выбрать целевой кластер Azure Databricks в рабочей области, а затем нажмите клавишу
Enter. Вы также можете ввести любую часть отображаемого имени кластера, чтобы отфильтровать список доступных кластеров.Чтобы просмотреть текущее значение маркера OAuth профиля и метку времени окончания срока действия маркера, выполните одну из следующих команд:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Если у вас есть несколько профилей с одинаковым значением
--host, может потребоваться указать параметры--hostи-pвместе, чтобы помочь Databricks CLI найти правильную информацию о соответствующем токене OAuth.
Шаг 2. Создание проекта
- Запустите PyCharm.
- В главном меню щелкните File > New Project.
- В диалоговом окне New Project щелкните Pure Python.
- Для Location щелкните значок папки и заполните инструкции на экране, чтобы указать путь к новому проекту Python.
- Оставьте выбранным создание сценария приветствия main.py.
- Для типа Interpreter щелкните Project venv.
- Разверните версия Python и используйте значок папки или раскрывающийся список, чтобы указать путь к интерпретатору Python, указанному в предыдущих требованиях.
- Нажмите кнопку Создать.
Шаг 3. Добавление пакета Databricks Connect
- В главном меню PyCharm щелкните View > Tool Windows > Python Packages.
- В поле поиска введите
databricks-connect. - В списке репозитория PyPI выберите databricks-connect.
- В раскрывающемся списке области результатов выберите версию, соответствующую версии среды выполнения Databricks кластера. Например, если в кластере установлена среда выполнения Databricks 14.3, выберите 14.3.1.
- Нажмите кнопку " Установить пакет".
- После установки пакета можно закрыть окно Python Пакеты.
Шаг 4. Добавление кода
В окне инструментов Project щелкните правой кнопкой мыши корневую папку project и щелкните New > Python File.
Введите
main.pyи дважды щелкните файл Python.Введите следующий код в файл, а затем сохраните его в зависимости от имени вашего профиля конфигурации.
Если профиль конфигурации из шага 1 называется
DEFAULT, введите следующий код в файл и сохраните файл:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)Если профиль конфигурации из шага 1 не называется
DEFAULT, введите следующий код в файл. Замените заполнитель<profile-name>именем профиля конфигурации на шаге 1, а затем сохраните файл:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Шаг 5. Запуск кода
- Запустите целевой кластер в удаленной рабочей области Azure Databricks.
- После запуска кластера в главном меню нажмите кнопку "Выполнить > команду main".
- В окне средства Run (View > Tool Windows > Run), в основном разделе вкладки Run отображаются первые 5 строк .
Шаг 6. Отладка кода
- Пока кластер продолжает работу, щелкните на поле рядом с
df.show(5), чтобы задать точку останова в приведенном выше коде. - В главном меню нажмите кнопку "Выполнить > отладку main".
- В окне средства Debug (View > Tool Windows > Debug) на вкладке Debugger панели Variables, разверните узлы df и spark для просмотра информации о
dfиsparkпеременных. - На боковой панели окна средства отладки щелкните значок зеленой стрелки (возобновить программу).
- На вкладке Отладчик, в панели Консоль отображаются первые 5 строк
samples.nyctaxi.trips.