Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Большинство решений по обработке больших данных предназначены для анализа и составления отчетов, что позволяет получить важную информацию. Это могут быть готовые отчеты и визуализации или средства интерактивного просмотра данных.
Варианты при выборе технологии для анализа данных
В Azure есть несколько предложений для анализа, визуализаций и отчетов. Вы можете выбрать вариант, который соответствует вашим требованиям:
- Power BI
- Записные книжки Jupyter
- записные книжки Zeppelin;
- Записные книжки Jupyter в Visual Studio Code (VS Code)
Power BI
Power BI — это набор средств для бизнес-аналитики. Их можно подключить к сотням источников данных и использовать для ad-hoc-анализа. В этом списке перечислены поддерживаемые в настоящее время источники данных. Интегрируйте Power BI в пользовательские приложения при помощи Power BI Embedded. Для этого не требуются дополнительные лицензии.
В организациях можно использовать Power BI для создания отчетов и их публикации в организации. Все пользователи могут создавать панели мониторинга и настраивать их в соответствии со своими потребностями. В панели встроены функции защиты и управления. Power BI использует идентификатор Microsoft Entra для проверки подлинности пользователей, которые входят в служба Power BI, и используют учетные данные входа Power BI, когда пользователь пытается получить доступ к ресурсам, которым требуется проверка подлинности.
Jupyter Ноутбуки
Записные книжки Jupyter предоставляют браузерную оболочку, которая позволяет специалистами по обработке и анализу данных создавать файлы записных книжек с кодом Python, Scala или R и текстом разметки. Это очень эффективное средство, которое позволяет совместно работать с кодом, а также документировать код и результаты выполнения в одном документе.
Большинство типов кластеров HDInsight, например Spark и Hadoop, поставляются с предварительно настроенными записными книжками Jupyter для взаимодействия с данными и отправки заданий на обработку. В зависимости от типа используемого кластера HDInsight, для интерпретации и выполнения кода вам будет предоставлено одно или несколько ядер. Например, кластеры Spark на HDInsight предоставляют ядра, связанные со Spark, из которых вы можете выбрать для выполнения кода Python или Scala с использованием движка Spark.
Записные книжки Jupyter предоставляют удобную среду для анализа, визуализации и обработки данных перед созданием более сложных визуализаций в средствах бизнес-аналитики и создания отчетов, таких как Power BI.
записные книжки Zeppelin;
Записные книжки Zeppelin — это еще один вариант браузерной оболочки, функции которой аналогичны Jupyter. Некоторые кластеры HDInsight предоставляются с предварительно настроенными записными книжками Zeppelin. Если вы используете кластер HDInsight Interactive Query (Hive LLAP), единственным вариантом записной книжки, который можно использовать для интерактивных запросов Hive, сейчас является Zeppelin. Кроме того, если вы используете присоединенный к домену кластер HDInsight, Zeppelin является единственным типом записной книжки, который позволяет назначить разные имена входа для управления доступом к записным книжкам и базовым таблицам Hive.
Ноутбуки Jupyter в VS Code
VS Code — это бесплатный редактор кода и платформа разработки, которую можно использовать локально или подключено к удаленным вычислениям. В сочетании с расширением Jupyter он предлагает полную среду для разработки Jupyter, которая может быть улучшена с помощью дополнительных расширений языка. Если вы хотите получить лучший в своем классе бесплатный интерфейс Jupyter с возможностью выбора вычислительных ресурсов, это отличный вариант. С помощью VS Code можно разрабатывать и запускать блокноты на удаленных серверах и в контейнерах. Чтобы упростить переход из записных книжек Azure, мы сделали образ контейнера доступным, чтобы его можно было использовать с VS Code.
Jupyter (ранее IPython Notebook) — это проект с открытым исходным кодом, который позволяет легко объединить текст Markdown и исполняемый исходный код Python на одном холсте, называемом записной книжкой. Visual Studio Code поддерживает работу с Jupyter Notebook в собственном коде и с помощью файлов кода Python.
Основные критерии выбора
Чтобы ограничить количество вариантов, сначала ответьте на следующие вопросы:
Нужно ли вам подключаться к многочисленным источникам данных, предоставляя централизованную платформу для создания отчетов по данным, распределённым по вашему домену? Если нужно, то выберите вариант, который позволяет подключаться к сотням источников данных.
Нужно ли вам внедрять динамические визуализации в веб-сайт или приложение стороннего производителя? Если да, то выберите вариант с возможностями внедрения.
Нужно ли вам создавать визуализации и (или) отчеты в автономном режиме? Если да, то выберите вариант с возможностями автономной работы.
Нужны ли вам большие вычислительные мощности для обучения больших или сложных моделей искусственного интеллекта или для работы с очень большими наборами данных? Если да, то выберите вариант с поддержкой подключений к кластерам больших данных.
Матрица возможностей
В следующих таблицах перечислены основные различия в возможностях.
Общие возможности
Возможность | Power BI | Jupyter Notebooks | записные книжки Zeppelin; | Записные книжки «Jupyter» в VS Code |
---|---|---|---|---|
Подключение к кластеру больших данных для дополнительной обработки | Да | Да | Да | Нет |
Управляемая служба | Да | Да 1 | Да 1 | Да |
Подключение к сотням источников данных | Да | Нет | Нет | Нет |
Возможности автономной работы | Да 2 | Нет | Нет | Нет |
Возможности встраивания | Да | Нет | Нет | Нет |
Автоматическое обновление данных | Да | Нет | Нет | Нет |
Доступ к множеству пакетов с открытым исходным кодом | Нет | Да 3 | Да 3 | Да 4 |
Параметры преобразования и очистки данных | Power Query, R | 40 языков, включая Python, R, Julia и Scala | Более 20 интерпретаторов, включая Python, JDBC и R | Python, F#, R |
Цены | Бесплатно для Power BI Desktop (создание отчетов), см. цену на варианты размещения | Бесплатно | Бесплатно | Бесплатно |
Многопользовательское сотрудничество | Да | Да (через предоставление совместного доступа или с применением многопользовательского сервера, например JupyterHub) | Да | Да (через предоставление совместного доступа) |
[1] Если используется в рамках управляемого кластера HDInsight.
[2] С помощью Power BI Desktop.
[2] В репозитории Maven вы найдете пакеты, предоставленные сообществом.
[3] Пакеты Python можно установить с помощью pip или Conda. Пакеты R можно установить из CRAN или GitHub. Пакеты для языка F# можно установить с сайта nuget.org с помощью диспетчера зависимостей Paket.
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.
Основной автор:
- Зойнер Теджада | Генеральный директор и архитектор
Следующие шаги
- Начните работу с блокнотами Jupyter для Python
- Записные книжки
- Запуск записных книжек Azure Databricks с помощью Azure Data Factory
- Запускайте блокноты Jupyter в вашем рабочем пространстве
- Что такое Power BI?