Преобразование данных путем выполнения действия Azure Databricks

Действие Azure Databricks в Фабрике данных для Microsoft Fabric позволяет управлять следующими заданиями Azure Databricks:

  • Записная книжка
  • Банка
  • Питон
  • Job

В этой статье приведены пошаговые инструкции по созданию действия Azure Databricks с помощью интерфейса фабрики данных.

Предпосылки

Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:

Настройка активности в Azure Databricks

Чтобы использовать действие Azure Databricks в конвейере, выполните следующие действия.

Настройка подключения

  1. Создайте конвейер в рабочей области.

  2. Выберите Добавить активность конвейера и найдите Azure Databricks.

    Скриншот главной страницы проводок Fabric с выделенной активностью Azure Databricks.

  3. Кроме того, вы можете найти Azure Databricks в панели действий конвейера и выбрать его, чтобы добавить на полотно конвейера.

    Снимок экрана: пользовательский интерфейс Fabric с выделенной областью действий и действием Azure Databricks.

  4. Выберите новое действие Azure Databricks на холсте, если оно еще не выбрано.

    Снимок экрана: вкладка

Ознакомьтесь с руководством по общим параметрам , чтобы настроить вкладку "Общие параметры".

Настройка кластеров

  1. Перейдите на вкладку "Кластер ". Затем можно выбрать существующее или создать подключение Azure Databricks, а затем выбрать новый кластер заданий, существующий интерактивный кластер или существующий пул экземпляров.

  2. В зависимости от того, что вы выбрали для кластера, заполните соответствующие поля, как показано.

    • В новом кластере заданий и существующем пуле экземпляров также есть возможность настроить количество рабочих узлов и включить спотовые экземпляры.
  3. Кроме того, можно указать другие параметры кластера, такие как политика кластера, конфигурация Spark, переменные среды Spark и настраиваемые теги, необходимые для подключаемого кластера. Скрипты databricks init и путь назначения журнала кластера также можно добавить в дополнительные параметры кластера.

    Замечание

    Все расширенные свойства кластера и динамические выражения, поддерживаемые в связанной службе Фабрики данных Azure Databricks, теперь также поддерживаются в действии Azure Databricks в Microsoft Fabric в разделе "Дополнительная конфигурация кластера" в пользовательском интерфейсе. Так как эти свойства теперь включены в пользовательский интерфейс действия, их можно использовать с выражением (динамическим содержимым) без необходимости в расширенной спецификации JSON.

    Снимок экрана: вкладка

  4. Действие Azure Databricks теперь также поддерживает поддержку политики кластера и каталога Unity.

    • В разделе "Дополнительные параметры" можно выбрать политику кластера , чтобы указать, какие конфигурации кластера разрешены.
    • Кроме того, в разделе "Дополнительные параметры" можно настроить режим доступа к каталогу Unity для дополнительной безопасности. Доступные типы режима доступа :
      • Режим доступа к одному пользователю Этот режим предназначен для сценариев, в которых каждый кластер используется одним пользователем. Это гарантирует, что доступ к данным в кластере ограничен только этим пользователем. Этот режим полезен для задач, требующих изоляции и обработки отдельных данных.
      • Режим общего доступа В этом режиме несколько пользователей могут получить доступ к одному кластеру. Он объединяет управление данными каталога Unity с устаревшими списками управления доступом к таблицам (ACL). Этот режим обеспечивает совместный доступ к данным при сохранении протоколов управления и безопасности. Однако он имеет определенные ограничения, такие как отсутствие поддержки Databricks Runtime ML, задания Spark-submit и определенных API Spark и определяемых пользователем функций.
      • Нет режима доступа Этот режим отключает взаимодействие с каталогом Unity, то есть кластеры не имеют доступа к данным, управляемым каталогом Unity. Этот режим полезен для рабочих нагрузок, которые не требуют функций управления каталогом Unity.

    Снимок экрана, показывающий идентификатор политики и каталог Unity на вкладке

Настройка параметров

Выбрав вкладку Параметры, вы можете выбрать один из 4 вариантов того, какой тип Azure Databricks вы хотите оркестрировать.

Снимок экрана: вкладка

Организация работы с типом Notebook в активности Azure Databricks.

На вкладке "Параметры" можно выбрать переключатель "Записная книжка" , чтобы запустить записную книжку. Для выполнения задания необходимо указать путь к записной книжке для выполнения в Azure Databricks, необязательные базовые параметры для передачи в записную книжку, а также любые дополнительные библиотеки для установки в кластере.

Снимок экрана, показывающий тип записных книжек в активности Azure Databricks.

Оркестрация активности типа Jar в Azure Databricks.

На вкладке "Параметры" можно выбрать переключатель Jar для запуска jar-файла. Необходимо указать имя класса, выполняемого в Azure Databricks, необязательные базовые параметры, передаваемые jar-файлу, и все дополнительные библиотеки, которые должны быть установлены в кластере для выполнения задания.

Снимок экрана, показывающий тип Jar для активности в Azure Databricks.

Организация задач Python в активности Azure Databricks:

На вкладке "Параметры" можно выбрать переключатель Python для запуска файла Python. Необходимо указать путь в Azure Databricks к исполняемому файлу Python, необязательным базовым параметрам, передаваемым и любым дополнительным библиотекам, установленным в кластере для выполнения задания.

Снимок экрана, показывающий тип действия Azure Databricks в языке Python.

Организация типа задания в задаче Azure Databricks:

На вкладке "Параметры" можно выбрать переключатель Job, чтобы запустить задание Databricks. В раскрывающемся списке необходимо указать задание, которое будет выполняться в Azure Databricks, и любые необязательные параметры задания, которые нужно передать. С помощью этого параметра можно выполнять бессерверные задания.

Снимок экрана, показывающий тип задания для активности Azure Databricks.

Поддерживаемые библиотеки для задачи Azure Databricks

В приведенном выше определении действия Databricks можно указать следующие типы библиотек: jar, яйцо, whl, maven, pypi, cran.

Дополнительные сведения см. в документации по Databricks для типов библиотек.

Обмен параметрами между активностью Azure Databricks и конвейерами

Параметры можно передать в записные книжки с помощью свойства baseParameters в действии Databricks.

Снимок экрана, показывающий, как передать базовые параметры в действии Azure Databricks.

Иногда может потребоваться возвращать значения из записной книжки в службу для управления потоком выполнения или использовать в дальнейших действиях (с ограничением размера 2 МБ).

  1. Например, в вашей записной книжке можно вызвать dbutils.notebook.exit("returnValue"), и соответствующий "returnValue" будет возвращён в службу.

  2. Выходные данные в службе можно использовать с помощью таких выражений, как @{activity('databricks activity name').output.runOutput}.

Сохраните и запустите конвейер или запланируйте его

Перейдите на вкладку "Главная " в верхней части редактора конвейера и нажмите кнопку "Сохранить", чтобы сохранить конвейер. Выберите "Выполнить" , чтобы запустить его напрямую или запланировать выполнение в определенный момент времени или интервалы. Дополнительные сведения о запусках конвейера см. в статье "Планирование запусков конвейера".

снимок экрана: вкладка

После выполнения можно отслеживать выполнение конвейера и просматривать журнал выполнения с вкладки "Выходные данные " под холстом.

Мониторинг запусков конвейера