Преобразование данных путем выполнения действия Azure Databricks

2025-05-06

Действие Azure Databricks в Фабрике данных для Microsoft Fabric позволяет управлять следующими заданиями Azure Databricks:

Записная книжка
Банка
Питон
Задание (предварительная версия)

В этой статье приведены пошаговые инструкции по созданию действия Azure Databricks с помощью интерфейса фабрики данных.

Это важно

Тип заданий Azure Databricks в настоящее время находится в предварительной версии. Эта информация относится к предварительному продукту, который может быть существенно изменен до его выпуска. Корпорация Майкрософт не предоставляет никаких гарантий, выраженных или подразумеваемых, в отношении информации, предоставленной здесь.

Предпосылки

Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:

Учетная запись клиента с активной подпиской. Создайте учетную запись бесплатно.
Рабочая область создана.

Настройка активности в Azure Databricks

Чтобы использовать действие Azure Databricks в конвейере, выполните следующие действия.

Настройка подключения

Создайте конвейер в рабочей области.
Нажмите, чтобы добавить действие конвейера и найдите Azure Databricks.
Кроме того, вы можете найти Azure Databricks в панели действий конвейера и выбрать его, чтобы добавить на полотно конвейера.
Выберите новое действие Azure Databricks на холсте, если оно еще не выбрано.

Ознакомьтесь с руководством по общим параметрам , чтобы настроить вкладку "Общие параметры".

Настройка кластеров

Перейдите на вкладку "Кластер ". Затем можно выбрать существующее или создать подключение Azure Databricks, а затем выбрать новый кластер заданий, существующий интерактивный кластер или существующий пул экземпляров.
В зависимости от того, что вы выбрали для кластера, заполните соответствующие поля, как показано.
- В новом кластере заданий и существующем пуле экземпляров также есть возможность настроить количество рабочих узлов и включить спотовые экземпляры.
Можно также указать дополнительные параметры кластера, такие как политика кластера, конфигурация Spark, переменные среды Spark и настраиваемые теги, необходимые для подключаемого кластера. Скрипты databricks init и путь назначения журнала кластера также можно добавить в дополнительные параметры кластера.

Замечание

Все расширенные свойства кластера и динамические выражения, поддерживаемые в связанной службе Фабрики данных Azure Databricks, теперь также поддерживаются в действии Azure Databricks в Microsoft Fabric в разделе "Дополнительная конфигурация кластера" в пользовательском интерфейсе. Поскольку эти свойства теперь включены в пользовательский интерфейс активности, их можно легко использовать с выражением (динамическим содержимым) без необходимости в расширенной спецификации JSON в связанной службе Azure Data Factory и Azure Databricks.
Действие Azure Databricks теперь также поддерживает поддержку политики кластера и каталога Unity.
- В разделе "Дополнительные параметры" можно выбрать политику кластера , чтобы указать, какие конфигурации кластера разрешены.
- Кроме того, в разделе "Дополнительные параметры" можно настроить режим доступа к каталогу Unity для дополнительной безопасности. Доступные типы режима доступа :
  - Режим доступа к одному пользователю Этот режим предназначен для сценариев, в которых каждый кластер используется одним пользователем. Это гарантирует, что доступ к данным в кластере ограничен только этим пользователем. Этот режим полезен для задач, требующих изоляции и обработки отдельных данных.
  - Режим общего доступа В этом режиме несколько пользователей могут получить доступ к одному кластеру. Он объединяет управление данными каталога Unity с устаревшими списками управления доступом к таблицам (ACL). Этот режим обеспечивает совместный доступ к данным при сохранении протоколов управления и безопасности. Однако он имеет определенные ограничения, такие как отсутствие поддержки Databricks Runtime ML, задания Spark-submit и определенных API Spark и определяемых пользователем функций.
  - Нет режима доступа Этот режим отключает взаимодействие с каталогом Unity, то есть кластеры не имеют доступа к данным, управляемым каталогом Unity. Этот режим полезен для рабочих нагрузок, для которых не требуются функции управления каталогом Unity.

Настройка параметров

Выбрав вкладку Параметры, вы можете выбрать один из 4 вариантов того, какой тип Azure Databricks вы хотите оркестрировать.

Снимок экрана: вкладка

Организация работы с типом Notebook в активности Azure Databricks.

На вкладке "Параметры" можно выбрать переключатель "Записная книжка" , чтобы запустить записную книжку. Для выполнения задания необходимо указать путь к записной книжке, который будет выполняться в Azure Databricks, необязательные базовые параметры, передаваемые в записную книжку, и все дополнительные библиотеки, установленные в кластере.

Оркестрация активности типа Jar в Azure Databricks.

На вкладке "Параметры" можно выбрать переключатель Jar для запуска jar-файла. Для выполнения задания необходимо указать имя класса, выполняемого в Azure Databricks, необязательные базовые параметры, передаваемые jar-файлу, и все дополнительные библиотеки, установленные в кластере.

Организация задач Python в активности Azure Databricks:

На вкладке "Параметры" можно выбрать переключатель Python для запуска файла Python. Для выполнения задания необходимо указать путь в Azure Databricks к исполняемому файлу Python, необязательным базовым параметрам и любым дополнительным библиотекам, установленным в кластере.

Управление типом задания (предварительная версия) в функции Azure Databricks:

На вкладке "Параметры" можно выбрать переключатель Job, чтобы запустить задание Databricks. Вам потребуется указать задание с помощью раскрывающегося списка для выполнения в Azure Databricks, а также передать любые дополнительные параметры задания. С помощью этого параметра можно выполнять бессерверные задания.

Поддерживаемые библиотеки для задачи Azure Databricks

В приведенном выше определении действия Databricks можно указать следующие типы библиотек: jar, яйцо, whl, maven, pypi, cran.

Дополнительные сведения см. в документации по Databricks для типов библиотек.

Обмен параметрами между активностью Azure Databricks и конвейерами

Параметры можно передать в записные книжки с помощью свойства baseParameters в действии Databricks.

В некоторых случаях может потребоваться передать определенные значения из ноутбука обратно в службу, которые могут использоваться для управления потоками (условных проверок) в службе или для использования в последующих действиях (ограничение размера составляет 2 МБ).

Например, в своей записной книжке вы можете вызвать dbutils.notebook.exit("returnValue"), и соответствующее "returnValue" будет возвращено в службу.
Выходные данные в службе можно использовать с помощью таких выражений, как @{activity('databricks activity name').output.runOutput}.

Снимок экрана, показывающий, как передать базовые параметры в действии Azure Databricks.

Сохраните и запустите конвейер или запланируйте его

После настройки других действий, необходимых для конвейера, перейдите на вкладку "Главная " в верхней части редактора конвейера и нажмите кнопку "Сохранить", чтобы сохранить конвейер. Выберите "Запустить", чтобы запустить его напрямую, или "Запланировать", чтобы запланировать его. Вы также можете просмотреть журнал выполнения здесь или настроить другие параметры.

Снимок экрана, демонстрирующий, как сохранить и запустить конвейер.

Мониторинг запусков конвейера