Преобразуйте данные с помощью потоковой обработки Hadoop в Azure Data Factory или Synapse Analytics

ПРИМЕНИМО К: Azure Data Factory Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

Действие потоковой передачи HDInsight в конвейере Azure Data Factory или Synapse Analytics pipeline выполняет программы потоковой передачи Hadoop в вашем вашем или по требованию кластере HDInsight. Данная статья основана на материалах статьи о действиях преобразования данных , в которой приведен общий обзор преобразования данных и список поддерживаемых действий преобразования.

Чтобы узнать больше, ознакомьтесь со статьями о Azure Data Factory и Synapse Analytics и выполните Tutorial: преобразование данных перед чтением этой статьи.

Добавить действие стриминга HDInsight в конвейер с помощью UI

Чтобы использовать потоковую активность HDInsight в конвейере, выполните следующие действия.

Найдите Streaming на панели действий конвейера и перетащите активность Streaming на холст конвейера.
Выберите стриминговое действие на экране, если оно еще не выбрано.
Перейдите на вкладку Кластер HDI, чтобы выбрать или создать связанную службу для кластера HDInsight, которая будет использоваться для выполнения действия Streaming.
Перейдите на вкладку File, чтобы указать имена сопоставителя и редуктора для вашего задания потоковой передачи, а также выбрать или создать новую связанную службу с учетной записью Azure Storage, которая будет использовать файлы сопоставителя, редуктора, входные и выходные файлы для задания. Вы также можете настроить расширенные параметры: конфигурацию отладки, аргументы и параметры, которые будут переданы в задачу.

Пример JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Сведения о синтаксисе

Свойство	Описание:	Обязательное поле
имя	Название деятельности.	Да
описание	Текст, описывающий, для чего используется действие	Нет
тип	Для действия Hadoop Streaming используется тип действия HDInsightStreaming.	Да
linkedServiceName	Ссылка на кластер HDInsight, зарегистрированный в качестве связанной службы. Чтобы узнать больше об этой связанной службе, см. статью Связанные службы вычислений.	Да
маппер	Указывает имя исполняемого файла маппера.	Да
редуктор	Указывает имя исполняемого файла редуктора.	Да
устройство комбайнирования	Указывает имя исполняемого файла средства объединения.	Нет
fileLinkedService	Ссылка на привязанную службу Azure Storage, используемую для хранения программ Mapper, Combiner и Reducer для выполнения. Поддерживаются только Azure Blob Storage и ADLS Gen2 связанные службы. Если вы не укажете эту связанную службу, используется служба Azure Storage, определенная в связанной службе HDInsight.	Нет
путь к файлу	Предоставьте массив путей к программам Mapper, Combiner и Reducer, хранящимся в Azure Storage, на которые ссылается fileLinkedService. Путь чувствителен к регистру букв.	Да
ввод	Указывает путь WASB к входному файлу для Картировщика.	Да
выходные данные	Указывает путь WASB к результирующему файлу для редьюсера.	Да
getDebugInfo	Указывает, когда файлы журналов копируются в Azure Storage, используемое кластером HDInsight или указанное с помощью scriptLinkedService. Допустимые значения: None (Нет), Always (Всегда) или Failure (Ошибка). Значение по умолчанию: None.	Нет
аргументы	Указывает массив аргументов для задания Hadoop. Аргументы передаются как аргументы командной строки в каждую задачу.	Нет
определяет	Укажите параметры в виде пар "ключ — значение" для использования в скрипте Hive.	Нет

Ознакомьтесь со следующими ссылками, в которых описаны способы преобразования данных другими способами:

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-22