Поделиться через


Преобразование данных путем выполнения задания Databricks

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Подсказка

Попробуйте Data Factory in Microsoft Fabric, универсальное аналитическое решение для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Действие задания Azure Databricks (в режиме предварительного просмотра) в конвейере запускает задания Databricks в рабочей области Azure Databricks, включая бессерверные задания. Данная статья основана на материалах статьи о действиях преобразования данных , в которой приведен общий обзор преобразования данных и список поддерживаемых действий преобразования. Azure Databricks — это управляемая платформа для запуска Apache Spark.

Задание Databricks можно создать непосредственно через пользовательский интерфейс Azure Data Factory Studio.

Это важно

В настоящее время действие заданий Azure Databricks находится в предварительной версии. Эта информация относится к предварительному продукту, который может быть существенно изменен до его выпуска. Корпорация Майкрософт не предоставляет никаких гарантий, выраженных или подразумеваемых, в отношении информации, предоставленной здесь.

Добавьте активность задания для Azure Databricks в конвейер, используя пользовательский интерфейс.

Чтобы использовать действие задания для Azure Databricks в конвейере, выполните следующие действия.

  1. Найдите Задание в области действий конвейера и перетащите активность "Задание" на холст конвейера.

  2. Выберите новое действие задания на холсте, если оно еще не выбрано.

  3. Перейдите на вкладку Azure Databricks , чтобы выбрать или создать связанную службу Azure Databricks, которая выполняет действие задания.

    Снимок экрана пользовательского интерфейса задания с выделенной вкладкой Azure Databricks.

  4. Выберите вкладку "Параметры " и укажите задание, выполняемого в Azure Databricks, необязательные базовые параметры, передаваемые заданию, и любые другие библиотеки, которые должны быть установлены в кластере для выполнения задания.

    Снимок экрана: пользовательский интерфейс для действия задания с выделенной вкладкой

Определение действия задания Databricks

Ниже приведен пример JSON-определения для активности задания в Databricks.

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksJob",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "jobID": "012345678910112",
            "jobParameters": {
                "testParameter": "testValue"
            },
        }
    }
}

Свойства активности задания в Databricks

В следующей таблице приведено описание свойств, используемых в определении JSON.

Недвижимость Описание Обязательно
имя Имя действия в конвейере. Да
описание Описание того, что делает действие. нет
тип Для действия задания Databricks тип действия — DatabricksJob. Да
ИмяСвязанногоСервиса Имя связанной службы Databricks, в которой выполняется задание Databricks. Чтобы узнать больше об этой связанной службе, см. статью Связанные вычислительные службы. Да
jobId Идентификатор задания, выполняемого в рабочей области Databricks. Да
параметры работы Массив пар "ключ-значение". Параметры задания можно использовать для каждого выполнения операции. Если задание принимает параметр, который не указан, будет использоваться значение по умолчанию из задания. Найдите больше информации о параметрах в заданиях Databricks. нет

Передача параметров между заданиями и конвейерами

Параметры можно передать заданиям с помощью свойства jobParameters в действии Databricks.

Замечание

Параметры задания поддерживаются только в среде Self-hosted IR версии 5.52.0.0 или выше.