Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Узнайте, как отправлять задания MapReduce из подключения Secure Shell (SSH) к HDInsight.
Примечание.
Если вы уже знакомы с использованием серверов Apache Hadoop под управлением Linux, но вы не знакомы с HDInsight, ознакомьтесь с советами HDInsight на основе Linux.
Предпосылки
Кластер Apache Hadoop в HDInsight. См. Создание кластеров Apache Hadoop с использованием портала Azure.
Использование команд Hadoop
С помощью команды ssh command подключитесь к кластеру. Измените приведенную ниже команду, заменив CLUSTERNAME именем своего кластера, а затем введите команду:
ssh [email protected]
После подключения к кластеру HDInsight выполните следующую команду, чтобы запустить задание MapReduce:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
Эта команда запускает
wordcount
класс, содержащийся вhadoop-mapreduce-examples.jar
файле. Он использует/example/data/gutenberg/davinci.txt
документ в качестве входных данных и выходные данные хранятся в/example/data/WordCountOutput
.Примечание.
Дополнительные сведения об этом задании MapReduce и примерах данных см. в статье "Использование MapReduce" в Apache Hadoop в HDInsight.
Задание выдает сведения по мере его обработки и возвращает сведения, аналогичные следующему тексту, когда задание завершается:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623
По завершении задания используйте следующую команду, чтобы получить список выходных файлов:
hdfs dfs -ls /example/data/WordCountOutput
Эта команда отображает два файла
_SUCCESS
иpart-r-00000
. Файлpart-r-00000
содержит выходные данные для этого задания.Примечание.
Некоторые задания MapReduce могут разделить результаты по нескольким файлам part-r-##### . В этом случае используйте суффикс #####, чтобы указать порядок файлов.
Чтобы просмотреть выходные данные, используйте следующую команду:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
Эта команда отображает список слов, содержащихся в файле wasbs://example/data/gutenberg/davinci.txt , и количество раз, когда каждое слово произошло. Следующий текст является примером данных, содержащихся в файле:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Дальнейшие действия
Как видно, команды Hadoop позволяют легко запускать задания MapReduce в кластере HDInsight, а затем просматривать выходные данные задания. Дополнительная информация о других способах работы с Hadoop в HDInsight: