Поделиться через


Выбор технологии аналитики данных и отчетов в Azure

Большинство решений по обработке больших данных предназначены для анализа и составления отчетов, что позволяет получить важную информацию. Анализ и отчеты могут включать предварительно настроенные отчеты и визуализации или интерактивное исследование данных.

Параметры технологии аналитики данных

В Azure есть несколько предложений для анализа, визуализаций и отчетов. Вы можете выбрать вариант, который соответствует вашим требованиям:

Power BI

Power BI — это набор средств для бизнес-аналитики. Он может подключаться к сотням источников данных, и его можно использовать для незапланированного анализа. Используйте Power BI Embedded для интеграции Power BI в собственные приложения, не требуя дополнительного лицензирования.

В организациях можно использовать Power BI для создания отчетов и их публикации в организации. Все пользователи могут создавать панели мониторинга и настраивать их в соответствии со своими потребностями. В панели встроены функции защиты и управления. Power BI использует идентификатор Microsoft Entra для проверки подлинности пользователей, которые входят в службу Power BI. Он использует учетные данные Power BI, когда пользователь пытается получить доступ к ресурсам, требующим проверки подлинности.

Записные книжки Jupyter

Записные книжки Jupyter предоставляют оболочку на основе браузера, которая позволяет специалистам по обработке и анализу данных создавать файлы записных книжек , содержащие код Python, Scala или R и текст Markdown. Эти возможности делают записные книжки эффективным способом совместной работы, предоставляя общий доступ к коду и документируя их, и приводит к одному документу.

Большинство разновидностей кластеров HDInsight, таких как Spark или Hadoop, предварительно настроены с помощью записных книжек Jupyter для взаимодействия с данными и отправки заданий для обработки. В зависимости от типа используемого кластера HDInsight предоставляется один или несколько ядер для интерпретации и запуска кода. Например, кластеры Spark в HDInsight предоставляют ядра, связанные с Spark, которые можно выбрать для запуска кода Python или Scala с помощью обработчика Spark.

Записные книжки Jupyter предоставляют эффективную среду для анализа, визуализации и обработки данных перед созданием более сложных визуализаций с помощью средства создания отчетов бизнес-аналитики, например Power BI.

Записные книжки Zeppelin

Записные книжки Zeppelin также предоставляют оболочку на основе браузера, которая имеет аналогичную функциональность для записных книжек Jupyter. Некоторые кластеры HDInsight предварительно настроены с помощью записных книжек Zeppelin. Однако если вы используете кластер интерактивного запроса HDInsight (также называемого Apache Hive LLAP), Zeppelin — единственная записная книжка, которую можно использовать для выполнения интерактивных запросов Hive. Кроме того, если вы используете кластер HDInsight, присоединенный к домену, записные книжки Zeppelin являются единственным типом записных книжек, которые позволяют назначать разные имена входа пользователей для управления доступом к записным книжкам и базовым таблицам Hive.

Записные книжки Jupyter в VS Code

VS Code — это бесплатный редактор кода и платформа разработки, которую можно использовать локально или подключено к удаленным вычислениям. При использовании VS Code с расширением Jupyter она предоставляет полностью интегрированную среду для разработки Jupyter, которая может быть улучшена с дополнительными расширениями языка. Выберите этот параметр, если вам нужен лучший в классе, бесплатный интерфейс Jupyter и возможность использовать выбранные вычислительные ресурсы.

С помощью VS Code можно разрабатывать и выполнять блокноты на удаленных серверах и в контейнерах. Чтобы упростить переход из записных книжек Azure, образ контейнера также доступен для использования с VS Code.

Jupyter (ранее IPython Notebook) — это проект с открытым исходным кодом, который позволяет легко объединить текст Markdown и исполняемый исходный код Python на одном холсте, называемом записной книжкой. VS Code поддерживает работу с записными книжками Jupyter в собственном коде и с помощью файлов кода Python.

Основные критерии выбора

Начните сузить выбор, ответив на следующие вопросы:

  • Нужно ли подключаться к многочисленным источникам данных и предоставлять централизованное место для создания отчетов для распространения данных по всему домену? Если это сделать, выберите вариант, позволяющий подключаться к сотням источников данных.

  • Нужно ли вам внедрять динамические визуализации в веб-сайт или приложение стороннего производителя? Если это сделать, выберите вариант, предоставляющий возможности внедрения.

  • Нужно ли вам создавать визуализации и (или) отчеты в автономном режиме? Если вы это сделаете, выберите вариант с функцией работы в автономном режиме.

  • Требуется ли высокая мощность обработки для обучения больших или сложных моделей ИИ или работы с большими наборами данных? Если это сделать, выберите вариант, который может подключиться к кластеру больших данных.

Матрица возможностей

В следующей таблице приведены основные различия в возможностях.

Общие возможности

Возможность Power BI Записные книжки Jupyter Записные книжки Zeppelin Записные книжки Jupyter в VS Code
Подключение к кластерам больших данных для расширенной обработки Да Да Да Нет
Управляемая служба Да Да 1 Да 1 Да
Подключение к сотням источников данных Да Нет Нет Нет
Возможности автономной работы Да 2 Нет Нет Нет
Возможности встраивания Да Нет Нет Нет
Автоматическое обновление данных Да Нет Нет Нет
Доступ к многочисленным пакетам с открытым кодом Нет Да 3 Да 3 Да 4
Параметры преобразования или очистки данных Power Query, R 40 языков, включая Python, R, Julia и Scala Более 20 интерпретаторов, включая Python, JDBC и R Python, F#, R
Цены Бесплатно для Power BI Desktop (разработка). См. цены на Power BI для параметров размещения. Бесплатно Бесплатно Бесплатно
Многопользовательское сотрудничество Да Да (через общий доступ или с несколькими серверами, такими как JupyterHub) Да Да (через общий доступ)

[1] Если используется в рамках управляемого кластера HDInsight.

[2] С помощью Power BI Desktop.

[3] Вы можете искать репозиторий Maven для пакетов, внесенных сообществом.

[4] Пакеты Python можно установить с помощью pip или Conda. Пакеты R можно установить из CRAN или GitHub. Пакеты в F# можно установить с помощью nuget.org с помощью диспетчера зависимостей Paket.

Соавторы

Корпорация Майкрософт поддерживает эту статью. Следующие авторы написали эту статью.

Основной автор:

Чтобы просмотреть неопубликованные профили LinkedIn, войдите в LinkedIn.

Следующие шаги