Преобразование данных путем выполнения действия Azure Databricks
Действие Azure Databricks в Фабрике данных для Microsoft Fabric позволяет управлять следующими заданиями Azure Databricks:
- Записная книжка
- Jar
- Python
В этой статье приведены пошаговые инструкции по созданию действия Azure Databricks с помощью интерфейса фабрики данных.
Необходимые компоненты
Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:
- Учетная запись клиента с активной подпиской. Создайте учетную запись бесплатно .
- Создается рабочая область.
Настройка действия Azure Databricks
Чтобы использовать действие Azure Databricks в конвейере, выполните следующие действия.
Настройка подключения
Создайте конвейер в рабочей области.
Щелкните добавить действие конвейера и найдите Azure Databricks.
Кроме того, вы можете найти Azure Databricks в области действий конвейера и выбрать его, чтобы добавить его на холст конвейера.
Выберите новое действие Azure Databricks на холсте, если оно еще не выбрано.
Ознакомьтесь с руководством по общим параметрам, чтобы настроить вкладку "Общие параметры".
Настройка кластеров
Перейдите на вкладку "Кластер". Затем можно выбрать существующее или создать подключение Azure Databricks, а затем выбрать новый кластер заданий, существующий интерактивный кластер или существующий пул экземпляров.
В зависимости от того, что вы выбрали для кластера, заполните соответствующие поля, как показано.
- В новом кластере заданий и существующем пуле экземпляров также есть возможность настроить количество рабочих ролей и включить точечные экземпляры.
Можно также указать дополнительные параметры кластера, такие как политика кластера, конфигурация Spark, переменные среды Spark и настраиваемые теги, необходимые для подключаемого кластера. Скрипты databricks init и путь назначения журнала кластера также можно добавить в дополнительные параметры кластера.
Примечание.
Все расширенные свойства кластера и динамические выражения, поддерживаемые в связанной службе Фабрика данных Azure Azure Databricks, теперь также поддерживаются в действии Azure Databricks в Microsoft Fabric в разделе "Дополнительная конфигурация кластера" в пользовательском интерфейсе. Так как эти свойства теперь включены в пользовательский интерфейс действия; их можно легко использовать с выражением (динамическим содержимым) без необходимости в расширенной спецификации JSON в связанной службе Azure Databricks Фабрика данных Azure.
Действие Azure Databricks теперь также поддерживает поддержку политики кластера и каталога Unity.
- В разделе "Дополнительные параметры" можно выбрать политику кластера, чтобы указать, какие конфигурации кластера разрешены.
- Кроме того, в разделе "Дополнительные параметры" можно настроить режим доступа к каталогу Unity для дополнительной безопасности. Доступные типы режима доступа:
- Режим доступа к одному пользователю предназначен для сценариев, в которых каждый кластер используется одним пользователем. Это гарантирует, что доступ к данным в кластере ограничен только этим пользователем. Этот режим полезен для задач, требующих изоляции и обработки отдельных данных.
- Режим общего доступа в этом режиме несколько пользователей могут получить доступ к одному кластеру. Он объединяет управление данными каталога Unity с устаревшими списками управления доступом к таблицам (ACL). Этот режим обеспечивает совместный доступ к данным при сохранении протоколов управления и безопасности. Однако он имеет определенные ограничения, такие как отсутствие поддержки машинного обучения Databricks Runtime, заданий отправки Spark и определенных API Spark и определяемых пользователем пользователей.
- Этот режим доступа не отключает взаимодействие с каталогом Unity, то есть кластеры не имеют доступа к данным, управляемым каталогом Unity. Этот режим полезен для рабочих нагрузок, для которых не требуются функции управления каталогом Unity.
Настройка параметров
Выбрав вкладку "Параметры" , можно выбрать один из 3 параметров, тип которых azure Databricks требуется оркестровать.
Оркестрация типа Notebook в действии Azure Databricks:
На вкладке "Параметры" можно выбрать переключатель "Записная книжка", чтобы запустить записную книжку. Для выполнения задания необходимо указать путь к записной книжке, который будет выполняться в Azure Databricks, необязательные базовые параметры, передаваемые в записную книжку, и все дополнительные библиотеки, установленные в кластере.
Оркестрация типа Jar в действии Azure Databricks:
На вкладке "Параметры" можно выбрать переключатель Jar для запуска jar-файла. Для выполнения задания необходимо указать имя класса, выполняемого в Azure Databricks, необязательные базовые параметры, передаваемые jar-файлу, и все дополнительные библиотеки, установленные в кластере.
Оркестрация типа Python в действии Azure Databricks:
На вкладке "Параметры" можно выбрать переключатель Python для запуска файла Python . Для выполнения задания необходимо указать путь в Azure Databricks к исполняемому файлу Python, необязательным базовым параметрам и любым дополнительным библиотекам, установленным в кластере.
Поддерживаемые библиотеки для действия Azure Databricks
В приведенном выше определении действия Databricks можно указать следующие типы библиотек: jar, яйцо, whl, maven, pypi, cran.
Дополнительные сведения см. в документации Databricks по типам библиотек.
Передача параметров между действием Azure Databricks и конвейерами
Вы можете передавать параметры в записные книжки с помощью свойства baseParameters в действии Databricks.
Иногда может требоваться передать определенные значения из записной книжки обратно в службу для потока управления (условные проверки) в службе или для использования нисходящими действиями (ограничение размера — 2 МБ).
Например, в записной книжке можно вызвать dbutils.notebook.exit("returnValue") и соответствующий "returnValue" будет возвращен в службу.
Выходные данные в службе можно использовать с помощью выражения, такого как
@{activity('databricks activity name').output.runOutput}
.
Сохранение и запуск или планирование конвейера
После настройки других действий, необходимых для конвейера, перейдите на вкладку "Главная " в верхней части редактора конвейера и нажмите кнопку "Сохранить", чтобы сохранить конвейер. Выберите "Запустить ", чтобы запустить его напрямую, или запланировать его. Вы также можете просмотреть журнал выполнения здесь или настроить другие параметры.