Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Действие Azure Databricks в Фабрике данных для Microsoft Fabric позволяет управлять следующими заданиями Azure Databricks:
- Записная книжка
- Банка
- Питон
- Задание (предварительная версия)
В этой статье приведены пошаговые инструкции по созданию действия Azure Databricks с помощью интерфейса фабрики данных.
Это важно
Тип заданий Azure Databricks в настоящее время находится в предварительной версии. Эта информация относится к предварительному продукту, который может быть существенно изменен до его выпуска. Корпорация Майкрософт не предоставляет никаких гарантий, выраженных или подразумеваемых, в отношении информации, предоставленной здесь.
Предпосылки
Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:
- Учетная запись клиента с активной подпиской. Создайте учетную запись бесплатно.
- Рабочая область создана.
Настройка активности в Azure Databricks
Чтобы использовать действие Azure Databricks в конвейере, выполните следующие действия.
Настройка подключения
Создайте конвейер в рабочей области.
Нажмите, чтобы добавить действие конвейера и найдите Azure Databricks.
Кроме того, вы можете найти Azure Databricks в панели действий конвейера и выбрать его, чтобы добавить на полотно конвейера.
Выберите новое действие Azure Databricks на холсте, если оно еще не выбрано.
Ознакомьтесь с руководством по общим параметрам , чтобы настроить вкладку "Общие параметры".
Настройка кластеров
Перейдите на вкладку "Кластер ". Затем можно выбрать существующее или создать подключение Azure Databricks, а затем выбрать новый кластер заданий, существующий интерактивный кластер или существующий пул экземпляров.
В зависимости от того, что вы выбрали для кластера, заполните соответствующие поля, как показано.
- В новом кластере заданий и существующем пуле экземпляров также есть возможность настроить количество рабочих узлов и включить спотовые экземпляры.
Можно также указать дополнительные параметры кластера, такие как политика кластера, конфигурация Spark, переменные среды Spark и настраиваемые теги, необходимые для подключаемого кластера. Скрипты databricks init и путь назначения журнала кластера также можно добавить в дополнительные параметры кластера.
Замечание
Все расширенные свойства кластера и динамические выражения, поддерживаемые в связанной службе Фабрики данных Azure Databricks, теперь также поддерживаются в действии Azure Databricks в Microsoft Fabric в разделе "Дополнительная конфигурация кластера" в пользовательском интерфейсе. Поскольку эти свойства теперь включены в пользовательский интерфейс активности, их можно легко использовать с выражением (динамическим содержимым) без необходимости в расширенной спецификации JSON в связанной службе Azure Data Factory и Azure Databricks.
Действие Azure Databricks теперь также поддерживает поддержку политики кластера и каталога Unity.
- В разделе "Дополнительные параметры" можно выбрать политику кластера , чтобы указать, какие конфигурации кластера разрешены.
- Кроме того, в разделе "Дополнительные параметры" можно настроить режим доступа к каталогу Unity для дополнительной безопасности. Доступные типы режима доступа :
- Режим доступа к одному пользователю Этот режим предназначен для сценариев, в которых каждый кластер используется одним пользователем. Это гарантирует, что доступ к данным в кластере ограничен только этим пользователем. Этот режим полезен для задач, требующих изоляции и обработки отдельных данных.
- Режим общего доступа В этом режиме несколько пользователей могут получить доступ к одному кластеру. Он объединяет управление данными каталога Unity с устаревшими списками управления доступом к таблицам (ACL). Этот режим обеспечивает совместный доступ к данным при сохранении протоколов управления и безопасности. Однако он имеет определенные ограничения, такие как отсутствие поддержки Databricks Runtime ML, задания Spark-submit и определенных API Spark и определяемых пользователем функций.
- Нет режима доступа Этот режим отключает взаимодействие с каталогом Unity, то есть кластеры не имеют доступа к данным, управляемым каталогом Unity. Этот режим полезен для рабочих нагрузок, для которых не требуются функции управления каталогом Unity.
Настройка параметров
Выбрав вкладку Параметры, вы можете выбрать один из 4 вариантов того, какой тип Azure Databricks вы хотите оркестрировать.
Организация работы с типом Notebook в активности Azure Databricks.
На вкладке "Параметры" можно выбрать переключатель "Записная книжка" , чтобы запустить записную книжку. Для выполнения задания необходимо указать путь к записной книжке, который будет выполняться в Azure Databricks, необязательные базовые параметры, передаваемые в записную книжку, и все дополнительные библиотеки, установленные в кластере.
Оркестрация активности типа Jar в Azure Databricks.
На вкладке "Параметры" можно выбрать переключатель Jar для запуска jar-файла. Для выполнения задания необходимо указать имя класса, выполняемого в Azure Databricks, необязательные базовые параметры, передаваемые jar-файлу, и все дополнительные библиотеки, установленные в кластере.
Организация задач Python в активности Azure Databricks:
На вкладке "Параметры" можно выбрать переключатель Python для запуска файла Python. Для выполнения задания необходимо указать путь в Azure Databricks к исполняемому файлу Python, необязательным базовым параметрам и любым дополнительным библиотекам, установленным в кластере.
Управление типом задания (предварительная версия) в функции Azure Databricks:
На вкладке "Параметры" можно выбрать переключатель Job, чтобы запустить задание Databricks. Вам потребуется указать задание с помощью раскрывающегося списка для выполнения в Azure Databricks, а также передать любые дополнительные параметры задания. С помощью этого параметра можно выполнять бессерверные задания.
Поддерживаемые библиотеки для задачи Azure Databricks
В приведенном выше определении действия Databricks можно указать следующие типы библиотек: jar, яйцо, whl, maven, pypi, cran.
Дополнительные сведения см. в документации по Databricks для типов библиотек.
Обмен параметрами между активностью Azure Databricks и конвейерами
Параметры можно передать в записные книжки с помощью свойства baseParameters в действии Databricks.
В некоторых случаях может потребоваться передать определенные значения из ноутбука обратно в службу, которые могут использоваться для управления потоками (условных проверок) в службе или для использования в последующих действиях (ограничение размера составляет 2 МБ).
Например, в своей записной книжке вы можете вызвать dbutils.notebook.exit("returnValue"), и соответствующее "returnValue" будет возвращено в службу.
Выходные данные в службе можно использовать с помощью таких выражений, как
@{activity('databricks activity name').output.runOutput}
.
Сохраните и запустите конвейер или запланируйте его
После настройки других действий, необходимых для конвейера, перейдите на вкладку "Главная " в верхней части редактора конвейера и нажмите кнопку "Сохранить", чтобы сохранить конвейер. Выберите "Запустить", чтобы запустить его напрямую, или "Запланировать", чтобы запланировать его. Вы также можете просмотреть журнал выполнения здесь или настроить другие параметры.