Преобразование данных путем выполнения действия Azure HDInsight

Статья
05/21/2024

Действие Azure HDInsight в Фабрике данных для Microsoft Fabric позволяет управлять следующими типами заданий Azure HDInsight:

Выполнение запросов Hive
Вызов программы MapReduce
Выполнение запросов Pig
Выполнение программы Spark
Выполнение программы Hadoop Stream

В этой статье содержится пошаговое руководство по созданию действия Azure HDInsight с помощью интерфейса фабрики данных.

Необходимые компоненты

Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:

Учетная запись клиента с активной подпиской. Создайте учетную запись бесплатно .
Создается рабочая область.

Добавление действия Azure HDInsight (HDI) в конвейер с пользовательским интерфейсом

Создайте конвейер данных в рабочей области.
Найдите Azure HDInsight на домашнем экране карта и выберите его или выберите действие на панели действий, чтобы добавить его на холст конвейера.
- Создание действия на домашнем экране карта:
- Создание действия на панели действий:
Выберите новое действие Azure HDInsight на холсте редактора конвейера, если оно еще не выбрано.

Ознакомьтесь с руководством по общим параметрам , чтобы настроить параметры, найденные на вкладке "Общие параметры ".

Настройка кластера HDI

Перейдите на вкладку кластера HDI. Затем можно выбрать существующее или создать новое подключение HDInsight.
Для подключения к ресурсу выберите Хранилище BLOB-объектов Azure, ссылающуюся на кластер Azure HDInsight. Вы можете выбрать существующее хранилище BLOB-объектов или создать новый.

Настройка параметров

Перейдите на вкладку Параметры, чтобы просмотреть дополнительные параметры действия.

Снимок экрана: вкладка Параметры свойств действия Azure HDInsight в окне редактора конвейера.

Все расширенные свойства кластера и динамические выражения, поддерживаемые в связанной службе Фабрика данных Azure и Synapse Analytics HDInsight, теперь также поддерживаются в действии Azure HDInsight для фабрики данных в Microsoft Fabric в разделе "Дополнительно" в пользовательском интерфейсе. Все эти свойства поддерживают настраиваемые параметризованные выражения с динамическим содержимым.

Тип кластера

Чтобы настроить параметры для кластера HDInsight, сначала выберите свой тип из доступных параметров, включая Hive, Map Reduce, Pig , Spark и Потоковую передачу.

Куст

При выборе Hive для типа действие выполняет запрос Hive. При необходимости можно указать подключение скрипта, ссылающееся на учетную запись хранения, содержащую тип Hive. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать путь к файлу для выполнения в Azure HDInsight. При необходимости можно указать дополнительные конфигурации в разделе "Дополнительно", "Сведения об отладке", "Время ожидания запроса", "Аргументы", "Параметры" и "Переменные".

Снимок экрана: тип кластера Hive.

Map Reduce

Если выбрать map Reduce для типа, действие вызывает программу Map Reduce. При необходимости можно указать в jar-подключении, ссылающегося на учетную запись хранения, содержащую тип Map Reduce. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать имя класса и путь к файлу для выполнения в Azure HDInsight. При необходимости можно указать дополнительные сведения о конфигурации, такие как импорт библиотек Jar, сведения об отладке, аргументы и параметры в разделе "Дополнительно ".

Снимок экрана: выбор параметра Map Reduce для типа кластера HDInsight.

Pig,

Если выбрать Pig для типа, действие вызывает запрос Pig. При необходимости можно указать параметр подключения скрипта, который ссылается на учетную запись хранения, содержащую тип Pig. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать путь к файлу для выполнения в Azure HDInsight. При необходимости можно указать дополнительные конфигурации, такие как сведения об отладке, аргументы, параметры и переменные в разделе "Дополнительно ".

Снимок экрана: выбор типа Pig для кластера HDInsight.

Spark

При выборе Spark для типа действие вызывает программу Spark. Выберите скрипт или Jar для типа Spark. При необходимости можно указать подключение задания, ссылающееся на учетную запись хранения, содержащую тип Spark. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать путь к файлу для выполнения в Azure HDInsight. При необходимости можно указать дополнительные конфигурации, например имя класса, прокси-пользователя, сведения об отладке, аргументы и конфигурацию Spark в разделе "Дополнительно".

Снимок экрана: выбор типа Spark для кластера HDInsight.

Потоковая передача

Если выбрать потоковую передачу для типа, действие вызывает программу потоковой передачи. Укажите имена Mapper и Reducer, и при необходимости можно указать подключение к файлу, ссылающееся на учетную запись хранения, содержащую тип потоковой передачи. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать путь к файлу для Mapper и пути к файлу для выполнения редукторов в Azure HDInsight. Включите параметры ввода и вывода, а также для пути WASB. При необходимости можно указать дополнительные конфигурации, такие как сведения об отладке, аргументы и параметры в разделе "Дополнительно".

Снимок экрана: выбор типа потоковой передачи для кластера HDInsight.

Справочные данные по свойствам

Свойство	Описание:	Обязательное поле
type	Для действия потоковой передачи Hadoop используется тип действия HDInsightStreaming.	Да
mapper	Указывает имя исполняемого файла средства сопоставления.	Да
reducer	Указывает имя исполняемого файла средства приведения.	Да
combiner	Указывает имя исполняемого файла средства объединения.	No
Подключение к файлу	Ссылки на связанные службы хранилища Azure, используемые для хранения программ средств сопоставления, объединения и приведения, которые следует выполнить.	No
	Здесь поддерживаются только подключения Хранилище BLOB-объектов Azure и ADLS 2-го поколения. Если это подключение не указано, используется подключение к хранилищу, определенное в подключении HDInsight.
filePath	Предоставьте массив путей к программам Mapper, Combiner и Reducer, хранящимся в служба хранилища Azure, на которые ссылается подключение к файлу.	Да
input	Указывает путь WASB к входному файлу для средства сопоставления.	Да
output	Указывает путь WASB к выходному файлу для средства приведения.	Да
getDebugInfo	Указывает, когда файлы журнала копируются в службу хранилища Azure, используемую кластером HDInsight или определенную scriptLinkedService.	No
	Допустимые значения: None, Always или Failure. Значение по умолчанию: None.
аргументы	Указывает массив аргументов для задания Hadoop. Аргументы передаются в качестве аргументов командной строки в каждую задачу.	No
defines	Параметры в виде пары "ключ — значение", ссылки на которые указываются в скрипте Hive.	No

Сохранение и запуск или планирование конвейера

После настройки других действий, необходимых для конвейера, перейдите на вкладку "Главная" в верхней части редактора конвейера и нажмите кнопку "Сохранить", чтобы сохранить конвейер. Выберите "Запустить ", чтобы запустить его напрямую, или запланировать его. Вы также можете просмотреть журнал выполнения здесь или настроить другие параметры.

Снимок экрана: вкладка

Мониторинг запусков конвейера

Поделиться через

Преобразование данных путем выполнения действия Azure HDInsight

Необходимые компоненты

Добавление действия Azure HDInsight (HDI) в конвейер с пользовательским интерфейсом

Настройка кластера HDI