Подключение Excel к Apache Hadoop с помощью драйвера Microsoft Hive ODBC в Azure HDInsight
Решение Майкрософт для работы с большими данными включает в себя компоненты бизнес-аналитики (БА) Майкрософт с кластерами Apache Hadoop, развернутыми в HDInsight. Примером может служить возможность подключения Excel к хранилищу данных Hive кластера Hadoop. Подключение с помощью драйвера Microsoft Hive Open Database Connectivity (ODBC).
Вы можете подключить данные, связанные с кластером HDInsight, из Excel с помощью надстройки Microsoft Power Query для Excel. Дополнительные сведения см. в статье Подключение Excel к HDInsight с помощью Power Query.
Необходимые компоненты
Перед началом работы с этой статьей необходимо иметь следующее:
- Кластер HDInsight Hadoop. Дополнительные сведения о создании кластера см. в статье Приступая к работе с Hadoop в HDInsight.
- Рабочая станция с Office 2010 Professional Plus или более поздней версии или Excel 2010 или более поздней версии.
Установка драйвера Microsoft Hive ODBC
Скачайте и установите драйвер Microsoft Hive ODBC. Выберите версию, которая соответствует версии приложения, где будет использоваться драйвер ODBC. В рамках данной статьи используется драйвер для Office Excel.
Создание источника данных Apache Hive ODBC
Ниже показано, как создать источник данных Hive ODBC.
В Windows откройте Пуск > Средства администрирования Windows > Источники данных ODBC (32-разрядная или 64-разрядная версия). В результате откроется окно Администратор источников данных ODBC.
На вкладке "Имя пользователя" нажмите кнопку "Добавить ", чтобы открыть
Create New Data Source
окно.Выберите Microsoft Hive ODBC Driver, а затем — Готово, чтобы открыть окно Microsoft Hive ODBC Driver DSN Setup (Настройка DSN Microsoft Hive ODBC Driver).
Введите или выберите следующие значения:
Свойство Description Имя источника данных Присвойте имя источнику данных Хозяева Введите HDInsightClusterName.azurehdinsight.net
. Например,myHDICluster.azurehdinsight.net
. Примечание.HDInsightClusterName-int.azurehdinsight.net
поддерживается до тех пор, пока клиентская виртуальная машина соединена с той же виртуальной сетью.Порт Используйте 443. (Этот порт был изменен с 563 на 443.) База данных Используйте значение по умолчанию. Механизм Выберите Windows Azure HDInsight Service. Имя пользователя Введите имя пользователя HTTP кластера HDInsight. Имя пользователя по умолчанию — admin
.Пароль Введите пароль пользователя кластера HDInsight. Установите флажок Save Password (Encrypted) (Сохранить пароль (зашифрованный)). Необязательно: выберите Дополнительные параметры...
Параметр Описание Использовать исходный запрос При выборе этого параметра драйвер ODBC НЕ пытается преобразовать TSQL в HiveQL. Следует использовать только при полной уверенности в отправке действительных инструкций HiveQL. При подключении к серверу SQL Server или базе данных Azure SQL необходимо снять этот флажок. Строки, загружаемые для каждого блока При получении большого количества записей может потребоваться настройка этого параметра, чтобы обеспечить оптимальную производительность. Длина столбца строки по умолчанию, длина столбца двоичного кода, масштаб столбца десятичных значений Длина и точность типа данных может повлиять на способ выведения данных. Это приведет к возврату недопустимой информации из-за потери точности и/или усечения. Щелкните Тест для проверки источника данных. При правильной настройке источника результатом теста будет слово УСПЕШНО!.
Нажмите кнопку ОК, чтобы закрыть окно тестов.
Нажмите кнопку ОК, чтобы закрыть окно Microsoft Hive ODBC Driver DSN Setup (Настройка DSN Microsoft Hive ODBC Driver).
Нажмите кнопку ОК, чтобы закрыть окно Администратор источников данных ODBC.
Импорт данных в Excel из службы HDInsight
Ниже описан способ импорта данных из таблицы Hive в рабочую книгу Excel с помощью источника данных ODBC, созданного в предыдущем разделе.
Откройте новую или существующую рабочую книгу в Excel.
На вкладке Данные перейдите к разделу Получить данные>Из других источников>Из ODBC, чтобы открыть окно Из ODBC.
Из раскрывающегося списка выберите имя источника данных, который вы создали в предыдущем разделе, и щелкните ОК.
При первом использовании откроется диалоговое окно Драйвер ODBC. В меню слева выберите пункт Windows. Затем нажмите кнопку Подключиться, чтобы открыть окно Навигатор.
В окне Навигатор перейдите к HIVE>по умолчанию>hivesampletable, а затем нажмите кнопку Загрузить. Для импорта данных в Excel потребуется несколько секунд.
Следующие шаги
В рамках этой статьи вы узнали, как получить данные из службы HDInsight в Excel с помощью драйвера Microsoft Hive ODBC. Аналогичным образом можно получать данные из службы HDInsight в базу данных SQL. Можно также передавать данные в службу HDInsight. Дополнительные сведения см. на следующих ресурсах:
- Визуализация данных Apache Hive с помощью Microsoft Power BI в Azure HDInsight
- Visualize Interactive Query Hive data with Microsoft Power BI using DirectQuery in Azure HDInsight (Визуализация данных Hive из кластера Interactive Query с помощью Microsoft Power BI и DirectQuery в Azure HDInsight).
- Подключение Excel к Apache Hadoop с помощью Power Query
- Подключение к Azure HDInsight и выполнение запросов Apache Hive с помощью Средств Data Lake для Visual Studio