Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Одной из ключевых функций решения microsoft big-data является интеграция компонентов бизнес-аналитики Майкрософт с кластерами Apache Hadoop в Azure HDInsight. Основным примером является возможность подключения Excel к учетной записи хранения Azure, содержащей данные, связанные с кластером Hadoop, с помощью надстройки Microsoft Power Query для Excel. В этой статье описывается, как настроить и использовать Power Query для запроса данных, связанных с кластером Hadoop, управляемым с HDInsight.
Предпосылки
- Кластер Apache Hadoop в HDInsight. См. Начало работы с HDInsight на Linux.
- Рабочая станция под управлением Windows 10, 7, Windows Server 2008 R2 или более поздней операционной системы.
- Приложения Microsoft 365 для предприятий, Office 2016, Office 2013 Профессиональный Плюс, Автономный Excel 2013 или Office 2010 Профессиональный Плюс.
Установка Microsoft Power Query
Power Query может импортировать данные, полученные или созданные заданием Hadoop в кластере HDInsight.
В Excel 2016, Power Query был интегрирован во вкладку Данные, в разделе "Получить и преобразовать". Для более старых версий Excel загрузите Microsoft Power Query для Excel из Центра загрузки Майкрософт и установите его.
Импорт данных HDInsight в Excel
Надстройка Power Query для Excel упрощает импорт данных из кластера HDInsight в Excel, где такие средства бизнес-аналитики, как PowerPivot и Power Map, можно использовать для проверки, анализа и представления данных.
Запустите Excel.
Создайте новую пустую книгу.
Выполните следующие действия на основе версии Excel:
Excel 2016
Выберите >Данные>Получить данные>из Azure>из Azure HDInsight(HDFS).
Excel 2013/2010
Выберите Power Query>Источник из Azure>Источник из Microsoft Azure HDInsight.
Заметка: Если вы не видите меню Power Query, перейдите к файлу>параметрам>надстройкам и выберите надстройки COM в раскрывающемся списке управления Manage внизу страницы. Нажмите кнопку Go... и убедитесь, что установлен флажок для надстройки Power Query для Excel.
Заметка: Power Query также позволяет импортировать данные из HDFS, выбрав "Из других источников".
В диалоговом окне Azure HDInsight(HDFS) в текстовом поле "Имя учетной записи" или "URL-адрес " введите имя учетной записи хранения BLOB-объектов Azure, связанной с кластером. Затем выберите OK. Эта учетная запись может быть учетной записью хранения по умолчанию или связанной учетной записью хранения. Формат —
https://StorageAccountName.blob.core.windows.net/
.В поле "Ключ учетной записи" введите ключ для учетной записи хранения BLOB-объектов и нажмите кнопку "Подключить". (Необходимо ввести сведения об учетной записи только при первом доступе к этому хранилищу.)
В области Навигатора слева от Редактора запросов дважды щелкните имя контейнера хранилища BLOB-объектов, связанное с вашим кластером. По умолчанию имя контейнера совпадает с именем кластера.
Найдите HiveSampleData.txt в столбце "Имя" (путь к папке — .. /hive/warehouse/hivesampletable/), а затем выберите binary слева от HiveSampleData.txt. HiveSampleData.txt поставляется со всем кластером. При необходимости можно использовать собственный файл.
Если вы хотите, можно переименовать имена столбцов. Когда вы будете готовы, нажмите кнопку "Закрыть" и "Загрузить". Данные загружены в вашу книгу:
Дальнейшие действия
Из этой статьи вы узнали, как использовать Power Query для получения данных из HDInsight в Excel. Аналогичным образом можно получить данные из HDInsight в базу данных SQL Azure. Кроме того, можно передать данные в HDInsight. Дополнительные сведения см. в следующих разделах:
- Визуализация данных Apache Hive с помощью Microsoft Power BI в Azure HDInsight
- Visualize Interactive Query Hive data with Microsoft Power BI using DirectQuery in Azure HDInsight (Визуализация данных Hive из кластера Interactive Query с помощью Microsoft Power BI и DirectQuery в Azure HDInsight).
- Выполнение запросов Apache Hive в Azure HDInsight с помощью Apache Zeppelin
- Подключение Excel к HDInsight с помощью Microsoft Hive ODBC Driver
- Подключение к Azure HDInsight и выполнение запросов Apache Hive с помощью Средств Data Lake для Visual Studio
- Использование средств Azure HDInsight для Visual Studio Code.
- Отправка данных в HDInsight.