Запуск записной книжки Databricks с помощью действия Databricks Notebook в фабрике данных Azure

2025-01-15

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этом руководстве вы используете портал Azure, чтобы создать конвейер в Data Factory Azure, который выполняет Databricks-ноутбук в кластере заданий Databricks. Конвейер также передает параметры Azure Data Factory в записную книжку Databricks во время выполнения.

В этом руководстве вы выполните следующие шаги:

Создали фабрику данных.
создадите конвейер, который использует действие Databricks Notebook.
Запустите конвейер.
Контролируйте запуск конвейера.

Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем приступить к работе.

Примечание.

Полные сведения об использовании действия Записной книжки Databricks, включая использование библиотек и передачу входных и выходных параметров, см. документацию по действию Записной книжки Databricks.

Предварительные условия

Рабочая область Azure Databricks. Создайте рабочую область Databricks или используйте существующую. Вы создадите записную книжку Python в рабочей области Azure Databricks. Затем выполните блокнот и передайте в него параметры, используя Azure Data Factory.

Создание фабрики данных

Запустите веб-браузер Microsoft Edge или Google Chrome. В настоящее время пользовательский интерфейс Data Factory поддерживается только в веб-браузерах Microsoft Edge и Google Chrome.
Выберите "Создать ресурс" в меню портала Azure, а затем выберите"Фабрика данных>".
На странице Создание фабрики данных на вкладке Основные сведения выберите подписку Azure, в рамках которой вы хотите создать фабрику данных.
Для группы ресурсов выполните одно из следующих действий:
1. Выберите существующую группу ресурсов из раскрывающегося списка.
2. Выберите Создать новую и укажите имя новой группы ресурсов.
Сведения о группах ресурсов см. в статье, где описывается использование групп ресурсов для управления ресурсами Azure.
Для параметра Расположение выберите расположение фабрики данных.

В списке отображаются только расположения, которые поддерживаются Фабрикой данных и в которых будут храниться метаданные Фабрики данных Azure. Связанные хранилища данных (например, Служба хранилища Azure и База данных SQL Azure) и вычислительные среды (например, Azure HDInsight), используемые службой "Фабрика данных", могут выполняться в других регионах.
Введите ADFTutorialDataFactory в поле Имя.

Имя фабрики данных Azure должно быть глобально уникальным. Если отображется следующая ошибка, измените имя фабрики данных (например, используйте <вашеимя>ADFTutorialDataFactory). Правила именования для артефактов службы "Фабрика данных Azure" приведены в статье Фабрика данных Azure — правила именования.
Укажите V2 при выборе версии.
Нажмите «Далее: Конфигурация Git», а затем установите флажок «Настроить Git позже».
Щелкните Просмотр и создание и выберите Создать после прохождения проверки.
Когда создание завершится, щелкните элемент Перейти к ресурсу, чтобы открыть страницу Фабрика данных. Чтобы запустить приложение пользовательского интерфейса "Фабрика данных Azure" на отдельной вкладке браузера, выберите элемент Открыть студию Фабрики данных Azure.

Создание связанных служб

В этом разделе вы создаёте связанную службу Databricks. Эта связанная служба содержит сведения о подключении к кластеру Databricks.

Создание связанной службы Azure Databricks

На домашней странице перейдите на вкладку Управление на панели слева.
Выберите Связанные службы в разделе Подключения, затем выберите + Создать.
В окне Новая связанная служба выберите Службы вычислений>Azure Databricks и щелкните Продолжить.
В окне Новая связанная служба выполните следующие действия:
1. В качестве имени введите AzureDatabricks_LinkedService.
2. Выберите соответствующую рабочую область Databricks, в которую вы запустите записную книжку.
3. В поле Выбрать кластер выберите Новый кластер задания.
4. Для URL-адреса рабочей области Databricks сведения должны заполняться автоматически.
5. Для типа аутентификации при выборе токена доступа создайте его в рабочей области Azure Databricks. Инструкции можно найти здесь. Для Управляемого удостоверения службы и Управляемого удостоверения, назначаемого пользователем, предоставьте обеим удостоверениям роль участника в меню Управление доступом ресурса Azure Databricks.
6. В поле Версия кластера выберите версию, которую хотите использовать.
7. В поле Тип узла кластера выберите Standard_D3_v2 в категории Общего назначения (HDD).
8. В поле Рабочие введите 2.
9. Нажмите кнопку создания.

Создание конвейера

Нажмите кнопку + (плюс) и в меню выберите Pipeline (Конвейер).
Создайте параметр для использования в конвейере. Позже вы передадите этот параметр в активность Databricks Notebook. В пустом конвейере выберите вкладку Параметры, затем выберите + Создать и присвойте параметру имя name.
На панели инструментов Действия разверните Databricks. Перетащите активность Notebook из панели Действия на поверхность конструктора конвейера.
В свойствах для окна действия DatabricksNotebook в нижней части страницы выполните следующие действия:
1. Откройте вкладку Azure Databricks.
2. Выберите AzureDatabricks_LinkedService (который вы создали в предыдущем шаге).
3. Переключитесь на вкладку Параметры .
4. Перейдите для выбора пути к записной книжке Databricks. Давайте создадим записную книжку и укажем путь. Чтобы получить путь к записной книжке, выполните следующие действия.
  1. Запуск рабочей области Azure Databricks.
  2. В рабочей области выберите команду создания папки и присвойте папке имя adftutorial.
  3. Создайте записную книжку, давайте вызовем ее mynotebook. Щелкните правой кнопкой мыши папку adftutorial и выберите "Создать".
  4. В недавно созданной записной книжке mynotebook добавьте следующий код:
```
# Creating widgets for leveraging parameters, and printing the parameters

dbutils.widgets.text("input", "","")
y = dbutils.widgets.get("input")
print ("Param -\'input':")
print (y)
```
  5. В этом случае путь к Notebook — /adftutorial/mynotebook.
Вернитесь к инструменту для создания пользовательского интерфейса фабрики данных. В активности Notebook1 перейдите на вкладку Настройки.

a. Добавьте параметр в активность Notebook. Вы используете тот же параметр, который добавили ранее в пайплайн.

б. Присвойте параметру имя input и укажите в качестве значения выражение @pipeline().parameters.name.
Чтобы проверить работу конвейера, нажмите кнопку Проверка на панели инструментов. Чтобы закрыть окно проверки, нажмите кнопку Закрыть.
Выберите Опубликовать все. Интерфейс Azure Data Factory публикует объекты (связанные службы и конвейеры) в службу Azure Data Factory.

Запуск конвейера

На панели инструментов выберите Добавить триггер, а затем Активировать сейчас.

Снимок экрана: как выбрать команду

В диалоговом окне Запуск конвейера появится запрос на ввод параметра name. Укажите /path/filename в качестве параметра. Нажмите ОК.

Снимок экрана, показывающий, как указать значение для параметров имени.

Мониторинг конвейера

Перейдите на вкладку "Монитор ". Убедитесь, что вы видите запуск конвейера. Для создания кластера заданий Databricks, где выполняется записная книжка, требуется приблизительно 5–8 минут.
Периодически нажимайте Обновить, чтобы контролировать состояние выполнения конвейера.
Чтобы просмотреть активности, связанные с выполнением конвейера, выберите ссылку pipeline1 в столбце Имя конвейера.
На странице Выполнения действий выберите Выходные данные в столбце Имя действия, чтобы просмотреть выходные данные каждого действия. На панели Выходные данные можно найти ссылку на журналы Databricks, чтобы получить более подробные журналы Spark.
Чтобы вернуться к представлению "Выполнения конвейера", в меню навигации вверху выберите ссылку Все запуски конвейеров.

Проверка выходных данных

Вы можете войти в рабочую область Azure Databricks, перейти к запускам заданий и просмотреть состояние задания как ожидающее выполнение, выполнение или завершение.

Вы можете выбрать имя задания и перейти к дополнительным сведениям. При успешном запуске можно проверить переданные параметры и выходные данные записной книжки Python.

Итоги

В этом примере конвейер запускает процедуру в Databricks Notebook и передает ей параметр. Вы научились выполнять следующие задачи:

Создали фабрику данных.
Создайте конвейер, который использует действие Databricks Notebook.
Запустите конвейер.
Контролируйте запуск конвейера.