Преобразование данных путем выполнения действия Azure HDInsight
Действие Azure HDInsight в Фабрике данных для Microsoft Fabric позволяет управлять следующими типами заданий Azure HDInsight:
- Выполнение запросов Hive
- Вызов программы MapReduce
- Выполнение запросов Pig
- Выполнение программы Spark
- Выполнение программы Hadoop Stream
В этой статье содержится пошаговое руководство по созданию действия Azure HDInsight с помощью интерфейса фабрики данных.
Необходимые компоненты
Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:
- Учетная запись клиента с активной подпиской. Создайте учетную запись бесплатно .
- Создается рабочая область.
Добавление действия Azure HDInsight (HDI) в конвейер с пользовательским интерфейсом
Создайте конвейер данных в рабочей области.
Найдите Azure HDInsight на домашнем экране карта и выберите его или выберите действие на панели действий, чтобы добавить его на холст конвейера.
Выберите новое действие Azure HDInsight на холсте редактора конвейера, если оно еще не выбрано.
Ознакомьтесь с руководством по общим параметрам , чтобы настроить параметры, найденные на вкладке "Общие параметры ".
Настройка кластера HDI
Перейдите на вкладку кластера HDI. Затем можно выбрать существующее или создать новое подключение HDInsight.
Для подключения к ресурсу выберите Хранилище BLOB-объектов Azure, ссылающуюся на кластер Azure HDInsight. Вы можете выбрать существующее хранилище BLOB-объектов или создать новый.
Настройка параметров
Перейдите на вкладку Параметры, чтобы просмотреть дополнительные параметры действия.
Все расширенные свойства кластера и динамические выражения, поддерживаемые в связанной службе Фабрика данных Azure и Synapse Analytics HDInsight, теперь также поддерживаются в действии Azure HDInsight для фабрики данных в Microsoft Fabric в разделе "Дополнительно" в пользовательском интерфейсе. Все эти свойства поддерживают настраиваемые параметризованные выражения с динамическим содержимым.
Тип кластера
Чтобы настроить параметры для кластера HDInsight, сначала выберите свой тип из доступных параметров, включая Hive, Map Reduce, Pig, Spark и Потоковую передачу.
Куст
При выборе Hive для типа действие выполняет запрос Hive. При необходимости можно указать подключение скрипта, ссылающееся на учетную запись хранения, содержащую тип Hive. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать путь к файлу для выполнения в Azure HDInsight. При необходимости можно указать дополнительные конфигурации в разделе "Дополнительно", "Сведения об отладке", "Время ожидания запроса", "Аргументы", "Параметры" и "Переменные".
Map Reduce
Если выбрать map Reduce для типа, действие вызывает программу Map Reduce. При необходимости можно указать в jar-подключении, ссылающегося на учетную запись хранения, содержащую тип Map Reduce. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать имя класса и путь к файлу для выполнения в Azure HDInsight. При необходимости можно указать дополнительные сведения о конфигурации, такие как импорт библиотек Jar, сведения об отладке, аргументы и параметры в разделе "Дополнительно ".
Pig,
Если выбрать Pig для типа, действие вызывает запрос Pig. При необходимости можно указать параметр подключения скрипта, который ссылается на учетную запись хранения, содержащую тип Pig. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать путь к файлу для выполнения в Azure HDInsight. При необходимости можно указать дополнительные конфигурации, такие как сведения об отладке, аргументы, параметры и переменные в разделе "Дополнительно ".
Spark
При выборе Spark для типа действие вызывает программу Spark. Выберите скрипт или Jar для типа Spark. При необходимости можно указать подключение задания, ссылающееся на учетную запись хранения, содержащую тип Spark. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать путь к файлу для выполнения в Azure HDInsight. При необходимости можно указать дополнительные конфигурации, например имя класса, прокси-пользователя, сведения об отладке, аргументы и конфигурацию Spark в разделе "Дополнительно".
Потоковая передача
Если выбрать потоковую передачу для типа, действие вызывает программу потоковой передачи. Укажите имена Mapper и Reducer, и при необходимости можно указать подключение к файлу, ссылающееся на учетную запись хранения, содержащую тип потоковой передачи. По умолчанию используется подключение к хранилищу, указанное на вкладке кластера HDI. Необходимо указать путь к файлу для Mapper и пути к файлу для выполнения редукторов в Azure HDInsight. Включите параметры ввода и вывода, а также для пути WASB. При необходимости можно указать дополнительные конфигурации, такие как сведения об отладке, аргументы и параметры в разделе "Дополнительно".
Справочные данные по свойствам
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Для действия потоковой передачи Hadoop используется тип действия HDInsightStreaming. | Да |
mapper | Указывает имя исполняемого файла средства сопоставления. | Да |
reducer | Указывает имя исполняемого файла средства приведения. | Да |
combiner | Указывает имя исполняемого файла средства объединения. | No |
Подключение к файлу | Ссылки на связанные службы хранилища Azure, используемые для хранения программ средств сопоставления, объединения и приведения, которые следует выполнить. | No |
Здесь поддерживаются только подключения Хранилище BLOB-объектов Azure и ADLS 2-го поколения. Если это подключение не указано, используется подключение к хранилищу, определенное в подключении HDInsight. | ||
filePath | Предоставьте массив путей к программам Mapper, Combiner и Reducer, хранящимся в служба хранилища Azure, на которые ссылается подключение к файлу. | Да |
input | Указывает путь WASB к входному файлу для средства сопоставления. | Да |
output | Указывает путь WASB к выходному файлу для средства приведения. | Да |
getDebugInfo | Указывает, когда файлы журнала копируются в службу хранилища Azure, используемую кластером HDInsight или определенную scriptLinkedService. | No |
Допустимые значения: None, Always или Failure. Значение по умолчанию: None. | ||
аргументы | Указывает массив аргументов для задания Hadoop. Аргументы передаются в качестве аргументов командной строки в каждую задачу. | No |
defines | Параметры в виде пары "ключ — значение", ссылки на которые указываются в скрипте Hive. | No |
Сохранение и запуск или планирование конвейера
После настройки других действий, необходимых для конвейера, перейдите на вкладку "Главная" в верхней части редактора конвейера и нажмите кнопку "Сохранить", чтобы сохранить конвейер. Выберите "Запустить ", чтобы запустить его напрямую, или запланировать его. Вы также можете просмотреть журнал выполнения здесь или настроить другие параметры.