Подключение Excel к Apache Hadoop с помощью Power Query
Одной из ключевых особенностей решения Майкрософт для работы с большими данными является интеграция компонентов бизнес-аналитики Майкрософт с кластерами Apache Hadoop в службе Azure HDInsight. Важнейшим примером является возможность подключения Excel к учетной записи хранения Azure, в которой хранятся данные, связанные с кластером Hadoop, с помощью надстройки Microsoft Power Query для Excel. В этой статье приводится пошаговое руководство по настройке и использованию Power Query для запроса данных, связанных с кластером Hadoop, который управляется с помощью HDInsight.
Необходимые компоненты
- Кластер Apache Hadoop в HDInsight. Ознакомьтесь со статьей Краткое руководство. Использование Apache Hadoop и Apache Hive в Azure HDInsight с шаблоном Resource Manager.
- Рабочая станция под управлением Windows 10, 7, Windows Server 2008 R2 или последующих версий операционной системы.
- Приложения Microsoft 365 для предприятий, Office 2016, Office 2013 профессиональный плюс, Excel 2013 автономный или Office 2010 профессиональный плюс.
Установка Microsoft Power Query
Power Query может импортировать данные, которые были выведены или созданы заданием Hadoop, выполняющимся в кластере HDInsight.
В Excel 2016 надстройка Power Query находится на вкладке "Данные" ленты в группе "Скачать & преобразовать". В предыдущих версиях Excel необходимо скачать надстройку Microsoft Power Query для Excel из Центра загрузки Майкрософт и установить ее.
Импорт данных HDInsight в Excel
Надстройка Power Query для Excel удобна для импорта данных из кластера HDInsight в Excel, где можно использовать средства бизнес-аналитики, такие как PowerPivot и Power Map, для изучения, анализа и представления данных.
Запустите Excel.
Создайте новую пустую книгу.
Выполните указанные ниже действия для вашей версии Excel.
Excel 2016
Выберите >Данные>Получить данные>Из Azure>Из Azure HDInsight(HDFS).
Excel 2013 или 2010
Выберите Power Query>из Azure>из Microsoft Azure HDInsight.
Примечание. Если меню Power Query не отображается, последовательно выберите пункты Файл>Параметры>Надстройки, затем выберитеНадстройки COM в раскрывающемся списке Управление в нижней части страницы. Нажмите кнопку Перейти... и убедитесь, что установлен флажок «Power Query для Excel».
Примечание. Power Query также позволяет импортировать данные из HDFS, для этого нужно выбрать Из других источников.
В диалоговом окне Azure HDInsight (HDFS) в текстовом поле Имя учетной записи или URL-адрес введите имя учетной записи хранилища больших двоичных объектов Azure, связанной с кластером. Затем выберите OK. Это может быть учетная запись хранения по умолчанию или связанная учетная запись хранения. Формат —
https://StorageAccountName.blob.core.windows.net/
.В поле Ключ учетной записи введите ключ для учетной записи хранения больших двоичных объектов Azure, а затем нажмите кнопку Подключиться. (Вводить данные учетной записи требуется только при первом доступе к этому магазину.)
В области Навигатор слева от окна редактора запросов дважды щелкните имя контейнера хранилища больших двоичных объектов, связанного с вашим кластером. По умолчанию имя контейнера совпадает с именем кластера.
Найдите HiveSampleData.txt в столбце Имя (путь папки: ../hive/warehouse/hivesampletable/), а затем выберите Двоичный код в левой части HiveSampleData.txt. HiveSampleData.txt поставляется вместе с кластером. При необходимости можно использовать собственный файл.
Если необходимо, можно переименовать имена столбцов. Когда будете готовы, нажмите кнопку Закрыть и загрузить. Данные загружены в книгу.
Следующие шаги
В этой статье было показано, как использовать Power Query для извлечения данных из HDInsight в Excel. Аналогичным образом можно извлекать данные из HDInsight в базу данных SQL Azure. Можно также передавать данные в HDInsight. Дополнительные сведения см. в следующих разделах:
- Визуализация данных Apache Hive с помощью Microsoft Power BI в Azure HDInsight
- Visualize Interactive Query Hive data with Microsoft Power BI using DirectQuery in Azure HDInsight (Визуализация данных Hive из кластера Interactive Query с помощью Microsoft Power BI и DirectQuery в Azure HDInsight).
- Выполнение запросов Apache Hive в Azure HDInsight с помощью Apache Zeppelin
- Подключение Excel к Hadoop в Azure HDInsight с помощью Microsoft Hive ODBC Driver
- Подключение к Azure HDInsight и выполнение запросов Apache Hive с помощью Средств Data Lake для Visual Studio
- Использование средств Azure HDInsight для Visual Studio Code.
- Отправка данных в HDInsight