Преобразование данных с помощью действия Hadoop Hive в Azure Data Factory или Synapse Analytics

ПРИМЕНИМО К: Azure Data Factory Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

Действие HDInsight Hive в Azure Data Factory или Synapse Analytics pipeline выполняет запросы Hive на собственном или по требованию кластере HDInsight. Данная статья основана на материалах статьи о действиях преобразования данных , в которой приведен общий обзор преобразования данных и список поддерживаемых действий преобразования.

Если вы не знакомы с Azure Data Factory и Synapse Analytics, ознакомьтесь с руководствами по Azure Data Factory или Synapse Analytics и выполните Tutorial: преобразование данных перед чтением этой статьи.

Добавление действия HDInsight Hive в конвейер с помощью пользовательского интерфейса

Чтобы использовать действие HDInsight Hive для Azure Data Lake Analytics в конвейере, выполните следующие действия:

  1. Выполните поиск элемента Hive на панели конвейера «Действия» и перетащите действие Hive на холст конвейера.

  2. Выберите новое действие Hive на холсте, если оно еще не выбрано.

  3. Перейдите на вкладку Кластер HDI, чтобы выбрать или создать связанную службу для кластера HDInsight, которая будет использоваться для выполнения действия Hive.

    Отображает пользовательский интерфейс для действия Hive.

  4. Перейдите на вкладку Скрипт, чтобы выбрать или создать связанную службу хранилища, и путь в месте хранения, в котором будет размещен скрипт.

    Отображает пользовательский интерфейс для вкладки

Синтаксис

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveScript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Сведения о синтаксисе

Свойство Описание: Обязательное поле
имя Название деятельности. Да
описание Текст, описывающий, для чего используется действие Нет
тип Для действия Hive используется тип действия HDinsightHive. Да
linkedServiceName Ссылка на кластер HDInsight, зарегистрированный в качестве связанной службы. Чтобы узнать больше об этой связанной службе, см. статью Связанные службы вычислений. Да
scriptLinkedService Ссылка на службу Azure Storage, используемую для хранения скрипта Hive, который будет выполнен. Поддерживаются только Azure Blob Storage и ADLS Gen2 связанные службы. Если вы не укажете эту связанную службу, используется служба Azure Storage, определенная в связанной службе HDInsight. Нет
scriptPath Укажите путь к файлу скрипта, хранящимся в Azure Storage, на который ссылается scriptLinkedService. Имя файла чувствительно к регистру. Да
getDebugInfo Указывает, когда файлы журналов копируются в Azure Storage, используемое кластером HDInsight или указанное с помощью scriptLinkedService. Допустимые значения: None (Нет), Always (Всегда) или Failure (Ошибка). Значение по умолчанию: None. Нет
аргументы Указывает массив аргументов для задания Hadoop. Аргументы передаются как аргументы командной строки в каждую задачу. Нет
определяет Укажите параметры в виде пар "ключ — значение" для использования в скрипте Hive. Нет
queryTimeout Значение времени ожидания запроса (в минутах). Применяется, если кластер HDInsight с включённым корпоративным пакетом безопасности. Нет

Примечание.

По умолчанию значение queryTimeout равно 120 минутам.

Ознакомьтесь со следующими ссылками, в которых описаны способы преобразования данных другими способами: