Запустите Databricks Notebook с помощью действия Databricks Notebook в Azure Data Factory

ПРИМЕНИМО К: Azure Data Factory Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

В этом руководстве вы используете портал Azure для создания конвейера Azure Data Factory, выполняющего записную книжку Databricks в кластере заданий Databricks. Во время выполнения параметры Azure Data Factory передаются в записную книжку Databricks.

В этом руководстве вы выполните следующие шаги:

  • Создали фабрику данных.

  • создадите конвейер, который использует действие Databricks Notebook.

  • Запустите конвейер.

  • Контролируйте запуск конвейера.

Если у вас нет подписки Azure, создайте учетную запись free перед началом работы.

Примечание.

Полные сведения об использовании действия Записной книжки Databricks, включая использование библиотек и передачу входных и выходных параметров, см. документацию по действию Записной книжки Databricks.

Предварительные условия

  • рабочее пространство Azure Databricks. Создайте рабочую область Databricks или используйте существующую. Вы создаете записную книжку Python в рабочей области Azure Databricks. Затем вы выполняете записную книжку и передаете в нее параметры с помощью Azure Data Factory.

Создание фабрики данных

  1. Запустите веб-браузер Microsoft Edge или Google Chrome. В настоящее время пользовательский интерфейс фабрики данных поддерживается только в Microsoft Edge и веб-браузерах Google Chrome.

  2. Выберите Create a resource в меню портала Azure, а затем выберите Analytics>Data Factory:

    Снимок экрана: выбор

  3. На странице Create Data Factory в разделе Basics перейдите на вкладку Azure Subscription, в которой требуется создать фабрику данных.

  4. Для группы ресурсов выполните одно из следующих действий:

    1. Выберите существующую группу ресурсов из раскрывающегося списка.

    2. Выберите Создать новую и укажите имя новой группы ресурсов.

    Дополнительные сведения о группах ресурсов см. в статье Пользование групп ресурсов для управления ресурсами Azure.

  5. Для параметра Расположение выберите расположение фабрики данных.

    В списке отображаются только те расположения, которые поддерживаются Azure Data Factory и в которых будут храниться метаданные вашего Azure Data Factory. Связанные хранилища данных (например, Azure Storage и Azure SQL Database) и вычислительные ресурсы (например, Azure HDInsight), которые использует Data Factory, могут работать в других регионах.

  6. Введите ADFTutorialDataFactory в поле Имя.

    Имя фабрики данных Azure должно быть уникальным в мире. Если отображется следующая ошибка, измените имя фабрики данных (например, используйте <вашеимя>ADFTutorialDataFactory). Правила именования для артефактов службы "Фабрика данных Azure" приведены в статье Фабрика данных Azure — правила именования.

    Снимок экрана: ошибка, когда имя недоступно.

  7. Укажите V2 при выборе версии.

  8. Нажмите «Далее: Конфигурация Git», а затем установите флажок «Настроить Git позже».

  9. Щелкните Просмотр и создание и выберите Создать после прохождения проверки.

  10. Когда создание завершится, щелкните элемент Перейти к ресурсу, чтобы открыть страницу Фабрика данных. Щелкните плитку Open Azure Data Factory Studio, чтобы запустить приложение пользовательского интерфейса Azure Data Factory на отдельной вкладке браузера.

    Скриншот главной страницы Azure Data Factory с элементом Open Azure Data Factory Studio.

Создание связанных служб

В этом разделе вы создаёте связанную службу Databricks. Эта связанная служба содержит сведения о подключении к кластеру Databricks.

Создание связанной службы Azure Databricks

  1. На домашней странице перейдите на вкладку Управление на панели слева.

    Снимок экрана: вкладка

  2. Выберите Связанные службы в разделе Подключения, затем выберите + Создать.

    Снимок экрана: создание нового подключения.

  3. В окне Создание связанной службы выберите Compute>Azure Databricks, а затем выберите Продолжить.

    Снимок экрана: как указать связанную службу Databricks.

  4. В окне Новая связанная служба выполните следующие действия:

    1. В качестве имени введите AzureDatabricks_LinkedService.

    2. Выберите соответствующую рабочую область Databricks, в которую вы запустите записную книжку.

    3. В поле Выбрать кластер выберите Новый кластер задания.

    4. Для URL-адреса рабочей области Databricks сведения должны заполняться автоматически.

    5. Для типа Аутентификация, если вы выберете токен доступа, создайте его в рабочей области Azure Databricks. Инструкции можно найти здесь. Для удостоверения службы Managed Identity и User Assigned Managed Identity предоставьте роль Участника для обоих удостоверений в меню Управление доступом ресурса Azure Databricks.

    6. В поле Версия кластера выберите версию, которую хотите использовать.

    7. В поле Тип узла кластера выберите Standard_D3_v2 в категории Общего назначения (HDD).

    8. В поле Рабочие введите 2.

    9. Нажмите кнопку создания.

      Screenshot, показывающий конфигурацию новой связанной службы Azure Databricks.

Создание конвейера

  1. Нажмите кнопку + (плюс) и в меню выберите Pipeline (Конвейер).

    Снимок экрана: кнопки для создания нового конвейера.

  2. Создайте параметр для использования в конвейере. Позже вы передадите этот параметр в активность Databricks Notebook. В пустом конвейере выберите вкладку Параметры, затем выберите + Создать и присвойте параметру имя name.

    Снимок экрана: как создать новый параметр.

    Снимок экрана: как создать параметр name.

  3. На панели инструментов Действия разверните Databricks. Перетащите активность Notebook из панели Действия на поверхность конструктора конвейера.

    Снимок экрана, демонстрирующий, как перетащить записную книжку на поверхность конструктора.

  4. В свойствах для окна действия DatabricksNotebook в нижней части страницы выполните следующие действия:

    1. Перейдите на вкладку Azure Databricks.

    2. Выберите AzureDatabricks_LinkedService (который вы создали в предыдущем шаге).

    3. Переключитесь на вкладку Параметры .

    4. Перейдите для выбора пути к записной книжке Databricks. Давайте создадим записную книжку и укажем путь. Чтобы получить путь к записной книжке, выполните следующие действия.

      1. Запустите рабочую область Azure Databricks.

      2. В рабочей области выберите команду создания папки и присвойте папке имя adftutorial.

      3. Создайте записную книжку, давайте вызовем ее mynotebook. Щелкните правой кнопкой мыши папку adftutorial и выберите "Создать".

      4. В недавно созданной записной книжке mynotebook добавьте следующий код:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        
      5. В этом случае путь к Notebook — /adftutorial/mynotebook.

  5. Вернитесь к инструменту для создания пользовательского интерфейса фабрики данных. В активности Notebook1 перейдите на вкладку Настройки.

    a. Добавьте параметр в активность Notebook. Вы используете тот же параметр, который добавили ранее в пайплайн.

    Снимок экрана показывающий, как добавить параметр.

    б. Присвойте параметру имя input и укажите в качестве значения выражение @pipeline().parameters.name.

  6. Чтобы проверить работу конвейера, нажмите кнопку Проверка на панели инструментов. Чтобы закрыть окно проверки, нажмите кнопку Закрыть.

    Снимок экрана: как проверить конвейер.

  7. Выберите Опубликовать все. Пользовательский интерфейс Azure Data Factory публикует сущности (связанные службы и конвейеры) в службе Azure Data Factory.

    Скриншот, показывающий, как опубликовать сущности новой фабрики данных.

Запуск конвейера

На панели инструментов выберите Добавить триггер, а затем Активировать сейчас.

Снимок экрана: как выбрать команду

В диалоговом окне Запуск конвейера появится запрос на ввод параметра name. Укажите /path/filename в качестве параметра. Нажмите ОК.

Снимок экрана, показывающий, как указать значение для параметров имени.

Мониторинг конвейера

  1. Перейдите на вкладку "Монитор ". Убедитесь, что вы видите запуск конвейера. Для создания кластера заданий Databricks, где выполняется записная книжка, требуется приблизительно 5–8 минут.

    Снимок экрана: как выполнять мониторинг конвейера.

  2. Периодически нажимайте Обновить, чтобы контролировать состояние выполнения конвейера.

  3. Чтобы просмотреть активности, связанные с выполнением конвейера, выберите ссылку pipeline1 в столбце Имя конвейера.

  4. На странице Выполнения действий выберите Выходные данные в столбце Имя действия, чтобы просмотреть выходные данные каждого действия. На панели Выходные данные можно найти ссылку на журналы Databricks, чтобы получить более подробные журналы Spark.

  5. Чтобы вернуться к представлению "Выполнения конвейера", в меню навигации вверху выберите ссылку Все запуски конвейеров.

Проверка выходных данных

Вы можете войти в рабочую область Azure Databricks, перейдите в раздел Запуски задач и вы увидите состояние Задачи как ожидаемое выполнение, выполняется или завершено.

Вы можете выбрать имя задания и перейти к дополнительным сведениям. При успешном выполнении можно проверить переданные параметры и выходные данные записной книжки Python.

Итоги

В этом примере конвейер запускает процедуру в Databricks Notebook и передает ей параметр. Вы научились выполнять следующие задачи:

  • Создали фабрику данных.

  • Создайте конвейер, который использует действие Databricks Notebook.

  • Запустите конвейер.

  • Контролируйте запуск конвейера.