Поделиться через


Преобразование данных путем выполнения действия Azure HDInsight

Действие Azure HDInsight в Фабрике данных для Microsoft Fabric позволяет управлять следующими типами заданий Azure HDInsight:

  • Выполнение запросов Hive
  • Вызов программы MapReduce
  • Выполнение запросов Pig
  • Выполнение программы Spark
  • Выполнение программы Hadoop Stream

В этой статье содержится пошаговое руководство по созданию действия Azure HDInsight с помощью интерфейса фабрики данных.

Необходимые компоненты

Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:

Добавление действия Azure HDInsight (HDI) в конвейер с пользовательским интерфейсом

  1. Создайте конвейер данных в рабочей области.

  2. Найдите Azure HDInsight на домашнем экране карта и выберите его или выберите действие на панели действий, чтобы добавить его на холст конвейера.

    • Создание действия на домашнем экране карта:

      Снимок экрана: место создания нового действия Azure HDInsight.

    • Создание действия на панели действий:

      Снимок экрана: создание нового действия Azure HDInsight на панели действий в окне редактора конвейера.

  3. Выберите новое действие Azure HDInsight на холсте редактора конвейера, если оно еще не выбрано.

    Снимок экрана: действие Azure HDInsight на холсте редактора конвейера.

    Ознакомьтесь с руководством по общим параметрам , чтобы настроить параметры, найденные на вкладке "Общие параметры ".

Настройка кластера HDI

  1. Перейдите на вкладку кластера HDI. Затем можно выбрать существующее или создать новое подключение HDInsight.

  2. Для подключения к ресурсу выберите Хранилище BLOB-объектов Azure, ссылающуюся на кластер Azure HDInsight. Вы можете выбрать существующее хранилище BLOB-объектов или создать новый.

    Снимок экрана: свойства кластера HDI для действия Azure HDInsight.

Настройка параметров

Перейдите на вкладку Параметры, чтобы просмотреть дополнительные параметры действия.

Снимок экрана: вкладка Параметры свойств действия Azure HDInsight в окне редактора конвейера.

Все расширенные свойства кластера и динамические выражения, поддерживаемые в связанной службе Фабрика данных Azure и Synapse Analytics HDInsight, теперь также поддерживаются в действии Azure HDInsight для фабрики данных в Microsoft Fabric в разделе "Дополнительно" в пользовательском интерфейсе. Все эти свойства поддерживают настраиваемые параметризованные выражения с динамическим содержимым.

Тип кластера

Чтобы настроить параметры для кластера HDInsight, сначала выберите свой тип из доступных параметров, включая Hive, Map Reduce, Pig, Spark и Потоковую передачу.

Куст

При выборе Hive для типа действие выполняет запрос Hive. При необходимости можно указать подключение скрипта, ссылающееся на учетную запись хранения, содержащую тип Hive. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать путь к файлу для выполнения в Azure HDInsight. При необходимости можно указать дополнительные конфигурации в разделе "Дополнительно", "Сведения об отладке", "Время ожидания запроса", "Аргументы", "Параметры" и "Переменные".

Снимок экрана: тип кластера Hive.

Map Reduce

Если выбрать map Reduce для типа, действие вызывает программу Map Reduce. При необходимости можно указать в jar-подключении, ссылающегося на учетную запись хранения, содержащую тип Map Reduce. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать имя класса и путь к файлу для выполнения в Azure HDInsight. При необходимости можно указать дополнительные сведения о конфигурации, такие как импорт библиотек Jar, сведения об отладке, аргументы и параметры в разделе "Дополнительно ".

Снимок экрана: выбор параметра Map Reduce для типа кластера HDInsight.

Pig,

Если выбрать Pig для типа, действие вызывает запрос Pig. При необходимости можно указать параметр подключения скрипта, который ссылается на учетную запись хранения, содержащую тип Pig. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать путь к файлу для выполнения в Azure HDInsight. При необходимости можно указать дополнительные конфигурации, такие как сведения об отладке, аргументы, параметры и переменные в разделе "Дополнительно ".

Снимок экрана: выбор типа Pig для кластера HDInsight.

Spark

При выборе Spark для типа действие вызывает программу Spark. Выберите скрипт или Jar для типа Spark. При необходимости можно указать подключение задания, ссылающееся на учетную запись хранения, содержащую тип Spark. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать путь к файлу для выполнения в Azure HDInsight. При необходимости можно указать дополнительные конфигурации, например имя класса, прокси-пользователя, сведения об отладке, аргументы и конфигурацию Spark в разделе "Дополнительно".

Снимок экрана: выбор типа Spark для кластера HDInsight.

Потоковая передача

Если выбрать потоковую передачу для типа, действие вызывает программу потоковой передачи. Укажите имена Mapper и Reducer, и при необходимости можно указать подключение к файлу, ссылающееся на учетную запись хранения, содержащую тип потоковой передачи. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать путь к файлу для Mapper и пути к файлу для выполнения редукторов в Azure HDInsight. Включите параметры ввода и вывода, а также для пути WASB. При необходимости можно указать дополнительные конфигурации, такие как сведения об отладке, аргументы и параметры в разделе "Дополнительно".

Снимок экрана: выбор типа потоковой передачи для кластера HDInsight.

Справочные данные по свойствам

Свойство Описание: Обязательное поле
type Для действия потоковой передачи Hadoop используется тип действия HDInsightStreaming. Да
mapper Указывает имя исполняемого файла средства сопоставления. Да
reducer Указывает имя исполняемого файла средства приведения. Да
combiner Указывает имя исполняемого файла средства объединения. No
Подключение к файлу Ссылки на связанные службы хранилища Azure, используемые для хранения программ средств сопоставления, объединения и приведения, которые следует выполнить. No
Здесь поддерживаются только подключения Хранилище BLOB-объектов Azure и ADLS 2-го поколения. Если это подключение не указано, используется подключение к хранилищу, определенное в подключении HDInsight.
filePath Предоставьте массив путей к программам Mapper, Combiner и Reducer, хранящимся в служба хранилища Azure, на которые ссылается подключение к файлу. Да
input Указывает путь WASB к входному файлу для средства сопоставления. Да
output Указывает путь WASB к выходному файлу для средства приведения. Да
getDebugInfo Указывает, когда файлы журнала копируются в службу хранилища Azure, используемую кластером HDInsight или определенную scriptLinkedService. No
Допустимые значения: None, Always или Failure. Значение по умолчанию: None.
аргументы Указывает массив аргументов для задания Hadoop. Аргументы передаются в качестве аргументов командной строки в каждую задачу. No
defines Параметры в виде пары "ключ — значение", ссылки на которые указываются в скрипте Hive. No

Сохранение и запуск или планирование конвейера

После настройки других действий, необходимых для конвейера, перейдите на вкладку "Главная" в верхней части редактора конвейера и нажмите кнопку "Сохранить", чтобы сохранить конвейер. Выберите "Запустить ", чтобы запустить его напрямую, или запланировать его. Вы также можете просмотреть журнал выполнения здесь или настроить другие параметры.

Снимок экрана: вкладка

Мониторинг запусков конвейера