Поделиться через


Azure Databricks для разработчиков на Scala

В этой статье содержится руководство по разработке записных книжек и заданий в Azure Databricks с помощью языка Scala. Первый раздел содержит ссылки на руководства по общим рабочим процессам и задачам. Второй раздел содержит ссылки на API, библиотеки и ключевые инструменты.

Базовый рабочий процесс для начала работы

После этого вы можете перейти к статьям по более конкретным темам:

Учебники

В приведенных ниже руководствах приведены примеры кода и записных книжек, чтобы узнать о распространенных рабочих процессах. Инструкции по импорту примеров записных книжек в рабочую область см. в разделе Импорт записной книжки.

Справочные материалы

В приведенных ниже подразделах перечислены ключевые функции и советы, которые помогут вам приступить к разработке в Azure Databricks с помощью Scala.

программный интерфейс Scala

По этим ссылкам можно перейти к источникам с начальными сведениями и справочнику по Apache Spark Scala API.

Управление кодом с помощью записных книжек и папок Databricks Git

Нотубуки Databricks поддерживают Scala. Функциональные возможности этих записных книжек аналогичны возможностями Jupyter с некоторыми дополнениями, например: встроенные визуализации с использованием больших данных, интеграции Apache Spark для отладки и мониторинга производительности, интеграции MLflow для отслеживания экспериментов машинного обучения. Начните с импорта записной книжки. Получив доступ к кластеру, вы сможете подключить записную книжку к этому кластеру и запустить записную книжку.

Совет

Чтобы сбросить состояние вашего ноутбука, перезапустите ядро. Для пользователей Jupyter параметр "перезапустить ядро" в Jupyter соответствует отсоединению и повторному прикреплению записной книжки в Databricks. Чтобы перезапустить ядро в записной книжке, на панели инструментов записной книжки щелкните селектор вычислений и наведите курсор на подключенный кластер или хранилище SQL в списке, чтобы отобразить боковое меню. Выберите Отсоединить & повторно подключить. Это отсоединяет записную книжку от вашего кластера и повторно присоединяет её, что приводит к перезапуску процесса.

Папки Databricks Git позволяют пользователям синхронизировать ноутбуки и другие файлы с репозиториями Git. Папки Databricks Git помогают в работе с версиями кода и совместной работой, а также могут упростить импорт полного репозитория кода в Azure Databricks, просмотр последних версий записных книжек и интеграцию с разработкой интегрированной среды разработки. Начните с клонирования удаленного Git-репозитория. Затем можно открыть или создать записные книжки с клонированием репозитория, подключить записную книжку к кластеру и запустить записную книжку.

Кластеры и библиотеки

Вычислительные ресурсы Azure Databricks обеспечивают управление вычислительными ресурсами для кластеров любого размера: от кластеров одного узла до крупных кластеров. Вы можете настроить для кластера оборудование и библиотеки в соответствии с вашими потребностями. Специалисты по обработке и анализу данных обычно начинают работу, создавая кластер или используя существующий общий кластер. Получив доступ к кластеру, вы можете подключить записную книжку к кластеру или запустить задание в кластере.

  • Для небольших рабочих нагрузок, для которых требуются только отдельные узлы, специалисты по обработке и анализу данных могут использовать вычислительные ресурсы с одним узлом для экономии затрат.
  • Подробные советы см. в рекомендациях по настройке вычислений
  • Администраторы могут настроить политики кластера для упрощения и руководства по созданию кластера.

Кластеры Azure Databricks используют среду выполнения Databricks, которая предоставляет множество популярных библиотек вне коробки, включая Apache Spark, Delta Lake и многое другое. Вы также можете установить дополнительные сторонние или пользовательские библиотеки для использования с записными книжками и заданиями.

Визуализации

Ноутбуки Azure Databricks для Scala имеют встроенную поддержку множества типов визуализаций. Вы также можете использовать устаревшие визуализации:

Совместимость

В данном разделе приведено описание инструментов, обеспечивающих комбинирование Scala и SQL.

Работы

Вы можете автоматизировать рабочие нагрузки Scala в виде запланированных или триггерных заданий в Azure Databricks. Задания могут запускать ноутбуки и JAR-файлы.

  • Дополнительные сведения о создании задания с помощью пользовательского интерфейса см. Настройка и изменение заданий Databricks.
  • Пакеты SDK Databricks позволяют создавать, изменять и удалять задания программным способом.
  • Интерфейс командной строки Databricks предоставляет удобный интерфейс командной строки для автоматизации заданий.

Интегрированные среды разработки, средства разработки и комплекты SDK

Помимо разработки кода Scala в записных книжках Azure Databricks, вы можете разрабатывать вне среды с помощью интегрированных сред разработки (IDE), таких как IntelliJ IDEA. Чтобы синхронизировать работу между внешними средами разработки и Azure Databricks, существует несколько вариантов:

  • Код. Вы можете синхронизировать код с помощью Git. Смотрите интеграцию с Git для папок Databricks Git.
  • Библиотеки и задания. Вы можете создавать библиотеки извне и отправлять их в Azure Databricks. Эти библиотеки можно импортировать в записные книжки Azure Databricks или использовать их для создания заданий. См. библиотеки и оркестрацию с помощью заданий Databricks.
  • Выполнение на удаленном компьютере. Вы можете запустить код из локальной интегрированной среды разработки для интерактивной разработки и тестирования. Интегрированная среда разработки может взаимодействовать с Azure Databricks для выполнения больших вычислений в кластерах Azure Databricks. Например, с Databricks Connect можно использовать IntelliJ IDEA.

Databricks предоставляет набор пакетов SDK, поддерживающих автоматизацию и интеграцию с внешними инструментами. Пакеты SDK Databricks можно использовать для управления ресурсами, такими как кластеры и библиотеки, код и другие объекты рабочей области, рабочие нагрузки и задания и многое другое. Просмотрите пакеты SDK Databricks.

Дополнительные сведения об интегрированных средах разработки, средствах разработчика и SDK см. в Локальные средства разработки.

Дополнительные ресурсы

  • Академия Databricks предлагает курсы для самостоятельного изучения и с инструкторами по многим темам.