Поделиться через


Использование MapReduce с Apache Hadoop в HDInsight с SSH

Узнайте, как отправлять задания MapReduce из подключения Secure Shell (SSH) к HDInsight.

Примечание.

Если вы уже знакомы с использованием серверов Apache Hadoop под управлением Linux, но вы не знакомы с HDInsight, ознакомьтесь с советами HDInsight на основе Linux.

Предпосылки

Кластер Apache Hadoop в HDInsight. См. Создание кластеров Apache Hadoop с использованием портала Azure.

Использование команд Hadoop

  1. С помощью команды ssh command подключитесь к кластеру. Измените приведенную ниже команду, заменив CLUSTERNAME именем своего кластера, а затем введите команду:

    ssh [email protected]
    
  2. После подключения к кластеру HDInsight выполните следующую команду, чтобы запустить задание MapReduce:

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    Эта команда запускает wordcount класс, содержащийся в hadoop-mapreduce-examples.jar файле. Он использует /example/data/gutenberg/davinci.txt документ в качестве входных данных и выходные данные хранятся в /example/data/WordCountOutput.

    Примечание.

    Дополнительные сведения об этом задании MapReduce и примерах данных см. в статье "Использование MapReduce" в Apache Hadoop в HDInsight.

    Задание выдает сведения по мере его обработки и возвращает сведения, аналогичные следующему тексту, когда задание завершается:

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. По завершении задания используйте следующую команду, чтобы получить список выходных файлов:

    hdfs dfs -ls /example/data/WordCountOutput
    

    Эта команда отображает два файла _SUCCESS и part-r-00000. Файл part-r-00000 содержит выходные данные для этого задания.

    Примечание.

    Некоторые задания MapReduce могут разделить результаты по нескольким файлам part-r-##### . В этом случае используйте суффикс #####, чтобы указать порядок файлов.

  4. Чтобы просмотреть выходные данные, используйте следующую команду:

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    Эта команда отображает список слов, содержащихся в файле wasbs://example/data/gutenberg/davinci.txt , и количество раз, когда каждое слово произошло. Следующий текст является примером данных, содержащихся в файле:

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

Дальнейшие действия

Как видно, команды Hadoop позволяют легко запускать задания MapReduce в кластере HDInsight, а затем просматривать выходные данные задания. Дополнительная информация о других способах работы с Hadoop в HDInsight: