Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
ПРИМЕНИМО К:
Azure Data Factory
Azure Synapse Analytics
Совет
Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.
В этом руководстве вы используете портал Azure для создания конвейера Azure Data Factory, выполняющего записную книжку Databricks в кластере заданий Databricks. Во время выполнения параметры Azure Data Factory передаются в записную книжку Databricks.
В этом руководстве вы выполните следующие шаги:
Создали фабрику данных.
создадите конвейер, который использует действие Databricks Notebook.
Запустите конвейер.
Контролируйте запуск конвейера.
Если у вас нет подписки Azure, создайте учетную запись free перед началом работы.
Примечание.
Полные сведения об использовании действия Записной книжки Databricks, включая использование библиотек и передачу входных и выходных параметров, см. документацию по действию Записной книжки Databricks.
Предварительные условия
- рабочее пространство Azure Databricks. Создайте рабочую область Databricks или используйте существующую. Вы создаете записную книжку Python в рабочей области Azure Databricks. Затем вы выполняете записную книжку и передаете в нее параметры с помощью Azure Data Factory.
Создание фабрики данных
Запустите веб-браузер Microsoft Edge или Google Chrome. В настоящее время пользовательский интерфейс фабрики данных поддерживается только в Microsoft Edge и веб-браузерах Google Chrome.
Выберите Create a resource в меню портала Azure, а затем выберите Analytics>Data Factory:
На странице Create Data Factory в разделе Basics перейдите на вкладку Azure Subscription, в которой требуется создать фабрику данных.
Для группы ресурсов выполните одно из следующих действий:
Выберите существующую группу ресурсов из раскрывающегося списка.
Выберите Создать новую и укажите имя новой группы ресурсов.
Дополнительные сведения о группах ресурсов см. в статье Пользование групп ресурсов для управления ресурсами Azure.
Для параметра Расположение выберите расположение фабрики данных.
В списке отображаются только те расположения, которые поддерживаются Azure Data Factory и в которых будут храниться метаданные вашего Azure Data Factory. Связанные хранилища данных (например, Azure Storage и Azure SQL Database) и вычислительные ресурсы (например, Azure HDInsight), которые использует Data Factory, могут работать в других регионах.
Введите ADFTutorialDataFactory в поле Имя.
Имя фабрики данных Azure должно быть уникальным в мире. Если отображется следующая ошибка, измените имя фабрики данных (например, используйте <вашеимя>ADFTutorialDataFactory). Правила именования для артефактов службы "Фабрика данных Azure" приведены в статье Фабрика данных Azure — правила именования.
Укажите V2 при выборе версии.
Нажмите «Далее: Конфигурация Git», а затем установите флажок «Настроить Git позже».
Щелкните Просмотр и создание и выберите Создать после прохождения проверки.
Когда создание завершится, щелкните элемент Перейти к ресурсу, чтобы открыть страницу Фабрика данных. Щелкните плитку Open Azure Data Factory Studio, чтобы запустить приложение пользовательского интерфейса Azure Data Factory на отдельной вкладке браузера.
Создание связанных служб
В этом разделе вы создаёте связанную службу Databricks. Эта связанная служба содержит сведения о подключении к кластеру Databricks.
Создание связанной службы Azure Databricks
На домашней странице перейдите на вкладку Управление на панели слева.
Выберите Связанные службы в разделе Подключения, затем выберите + Создать.
В окне Создание связанной службы выберите Compute>Azure Databricks, а затем выберите Продолжить.
В окне Новая связанная служба выполните следующие действия:
В качестве имени введите AzureDatabricks_LinkedService.
Выберите соответствующую рабочую область Databricks, в которую вы запустите записную книжку.
В поле Выбрать кластер выберите Новый кластер задания.
Для URL-адреса рабочей области Databricks сведения должны заполняться автоматически.
Для типа Аутентификация, если вы выберете токен доступа, создайте его в рабочей области Azure Databricks. Инструкции можно найти здесь. Для удостоверения службы Managed Identity и User Assigned Managed Identity предоставьте роль Участника для обоих удостоверений в меню Управление доступом ресурса Azure Databricks.
В поле Версия кластера выберите версию, которую хотите использовать.
В поле Тип узла кластера выберите Standard_D3_v2 в категории Общего назначения (HDD).
В поле Рабочие введите 2.
Нажмите кнопку создания.
Создание конвейера
Нажмите кнопку + (плюс) и в меню выберите Pipeline (Конвейер).
Создайте параметр для использования в конвейере. Позже вы передадите этот параметр в активность Databricks Notebook. В пустом конвейере выберите вкладку Параметры, затем выберите + Создать и присвойте параметру имя name.
На панели инструментов Действия разверните Databricks. Перетащите активность Notebook из панели Действия на поверхность конструктора конвейера.
В свойствах для окна действия DatabricksNotebook в нижней части страницы выполните следующие действия:
Перейдите на вкладку Azure Databricks.
Выберите AzureDatabricks_LinkedService (который вы создали в предыдущем шаге).
Переключитесь на вкладку Параметры .
Перейдите для выбора пути к записной книжке Databricks. Давайте создадим записную книжку и укажем путь. Чтобы получить путь к записной книжке, выполните следующие действия.
Запустите рабочую область Azure Databricks.
В рабочей области выберите команду создания папки и присвойте папке имя adftutorial.
Создайте записную книжку, давайте вызовем ее mynotebook. Щелкните правой кнопкой мыши папку adftutorial и выберите "Создать".
В недавно созданной записной книжке mynotebook добавьте следующий код:
# Creating widgets for leveraging parameters, and printing the parameters dbutils.widgets.text("input", "","") y = dbutils.widgets.get("input") print ("Param -\'input':") print (y)В этом случае путь к Notebook — /adftutorial/mynotebook.
Вернитесь к инструменту для создания пользовательского интерфейса фабрики данных. В активности Notebook1 перейдите на вкладку Настройки.
a. Добавьте параметр в активность Notebook. Вы используете тот же параметр, который добавили ранее в пайплайн.
б. Присвойте параметру имя input и укажите в качестве значения выражение @pipeline().parameters.name.
Чтобы проверить работу конвейера, нажмите кнопку Проверка на панели инструментов. Чтобы закрыть окно проверки, нажмите кнопку Закрыть.
Выберите Опубликовать все. Пользовательский интерфейс Azure Data Factory публикует сущности (связанные службы и конвейеры) в службе Azure Data Factory.
Запуск конвейера
На панели инструментов выберите Добавить триггер, а затем Активировать сейчас.
В диалоговом окне Запуск конвейера появится запрос на ввод параметра name. Укажите /path/filename в качестве параметра. Нажмите ОК.
Мониторинг конвейера
Перейдите на вкладку "Монитор ". Убедитесь, что вы видите запуск конвейера. Для создания кластера заданий Databricks, где выполняется записная книжка, требуется приблизительно 5–8 минут.
Периодически нажимайте Обновить, чтобы контролировать состояние выполнения конвейера.
Чтобы просмотреть активности, связанные с выполнением конвейера, выберите ссылку pipeline1 в столбце Имя конвейера.
На странице Выполнения действий выберите Выходные данные в столбце Имя действия, чтобы просмотреть выходные данные каждого действия. На панели Выходные данные можно найти ссылку на журналы Databricks, чтобы получить более подробные журналы Spark.
Чтобы вернуться к представлению "Выполнения конвейера", в меню навигации вверху выберите ссылку Все запуски конвейеров.
Проверка выходных данных
Вы можете войти в рабочую область Azure Databricks, перейдите в раздел Запуски задач и вы увидите состояние Задачи как ожидаемое выполнение, выполняется или завершено.
Вы можете выбрать имя задания и перейти к дополнительным сведениям. При успешном выполнении можно проверить переданные параметры и выходные данные записной книжки Python.
Итоги
В этом примере конвейер запускает процедуру в Databricks Notebook и передает ей параметр. Вы научились выполнять следующие задачи:
Создали фабрику данных.
Создайте конвейер, который использует действие Databricks Notebook.
Запустите конвейер.
Контролируйте запуск конвейера.