Поделиться через


Что такое обработка и анализ данных в Microsoft Fabric?

Для обогащения данных и бизнес-аналитики Microsoft Fabric предлагает возможности обработки и анализа данных, которые позволяют пользователям создавать комплексные рабочие процессы обработки и анализа данных. Вы можете выполнить широкий спектр действий по всему процессу обработки и анализа данных:

  • Исследование данных
  • подготовка данных
  • очистка данных
  • экспериментирование
  • моделирование
  • Оценка модели
  • предоставление прогнозной аналитики в отчетах бизнес-аналитики

Пользователи Microsoft Fabric могут получить доступ к домашней странице обработки и анализа данных. Затем они могут обнаруживать и получать доступ к различным соответствующим ресурсам, как показано на следующем снимке экрана:

Снимок экрана: домашняя страница для обработки и анализа данных.

Большинство проектов машинного обучения следуют процессу обработки и анализа данных. На высоком уровне этот процесс включает следующие действия:

  • формулировка и идея проблемы
  • Обнаружение и предварительная обработка данных
  • экспериментирование и моделирование
  • обогащение и операционализация
  • Построение инсайтов

Схема процесса обработки и анализа данных.

В этой статье описываются возможности обработки и анализа данных Microsoft Fabric с точки зрения процесса обработки и анализа данных. Для каждого шага процесса обработки и анализа данных в этой статье перечислены возможности Microsoft Fabric, которые могут помочь.

Формулировка и идея проблемы

Пользователи обработки и анализа данных в Microsoft Fabric работают на той же платформе, что и бизнес-пользователи и аналитики. Общий доступ к данным и совместная работа становятся более простыми в разных ролях в результате. Аналитики могут легко обмениваться отчетами и наборами данных Power BI с специалистами по обработке и анализу данных. Простота совместной работы между ролями в Microsoft Fabric упрощает передачу на этапе разработки проблем.

Обнаружение и предварительная обработка данных

Пользователи Microsoft Fabric могут взаимодействовать с данными в OneLake с помощью ресурса Lakehouse. Чтобы просматривать и взаимодействовать с данными, Lakehouse легко присоединяется к записной книжке. Пользователи могут легко считывать данные из Lakehouse непосредственно в DataFrame Pandas. Для исследования становится возможным беспрепятственное чтение данных из OneLake.

Мощный набор инструментов доступен для конвейеров приема данных и оркестрации данных с конвейерами интеграции данных — встроенной частью Microsoft Fabric. Конвейеры данных легкой сборки могут получать доступ к данным и преобразовывать их в формат, который может использовать машинное обучение.

Исследование данных

Важной частью процесса машинного обучения является понимание данных с помощью изучения и визуализации.

В зависимости от расположения хранилища данных Microsoft Fabric предлагает средства для изучения и подготовки данных для аналитики и машинного обучения. Сами записные книжки становятся эффективными и действенными инструментами для анализа данных.

Apache Spark и Python для подготовки данных

Microsoft Fabric может преобразовывать, подготавливать и просматривать данные в большом масштабе. С помощью Spark пользователи могут использовать средства PySpark/Python, Scala и SparkR/SparklyR для предварительной обработки данных в масштабе. Мощные библиотеки визуализации с открытым исходным кодом могут улучшить возможности изучения данных для лучшего понимания данных.

Средство обработки данных для бесперебойной очистки данных

Чтобы использовать Data Wrangler, в среде Microsoft Fabric Notebook добавлена функция инструмента для работы с кодом, которая подготавливает данные и создает код на Python. Этот опыт упрощает ускорение мученных и безумных задач, например очистку данных. С его помощью можно также создавать автоматизацию и повторяемость с помощью созданного кода. Дополнительные сведения о Data Wrangler см. в разделе "Data Wrangler" этого документа.

Экспериментирование и моделирование машинного обучения

С помощью таких средств, как PySpark/Python и SparklyR/R, записные книжки могут обрабатывать обучение модели машинного обучения. Алгоритмы и библиотеки машинного обучения помогают обучать модели машинного обучения. Средства управления библиотеками могут устанавливать эти библиотеки и алгоритмы. Затем пользователи могут использовать популярные библиотеки машинного обучения для обучения модели машинного обучения в Microsoft Fabric. Кроме того, популярные библиотеки, такие как Scikit Learn, также могут разрабатывать модели.

Эксперименты и запуски в MLflow могут отслеживать процесс обучения моделей машинного обучения. Для журналов экспериментов и моделей Microsoft Fabric предлагает встроенный интерфейс MLflow, поддерживающий взаимодействие. Узнайте больше об использовании MLflow для отслеживания экспериментов и управления моделями в Microsoft Fabric.

SynapseML

Корпорация Майкрософт владеет и управляет библиотекой с открытым кодом SynapseML (известной ранее как MMLSpark). Это упрощает создание конвейера машинного обучения с большим объемом масштабирования. Как экосистема инструментов расширяет платформу Apache Spark в нескольких новых направлениях. SynapseML объединяет несколько существующих платформ машинного обучения и новые алгоритмы Майкрософт в единый масштабируемый API. Библиотека SynapseML с открытым исходным кодом включает в себя богатую экосистему средств машинного обучения для разработки прогнозных моделей и использует предварительно обученные модели ИИ из служб ИИ Azure. Дополнительные сведения см. в ресурсе SynapseML .

Обогащение и внедрение

Записные книжки могут обрабатывать пакетную оценку модели машинного обучения с помощью библиотек с открытым кодом для прогнозирования. Кроме того, они могут обрабатывать масштабируемую универсальную функцию Прогнозирования Spark в Microsoft Fabric. Эта функция поддерживает упакованные модели MLflow в реестре моделей Microsoft Fabric.

Получение аналитических сведений

В Microsoft Fabric можно легко записывать прогнозируемые значения в OneLake. Оттуда отчеты Power BI могут бесшовно интегрироваться с ними с помощью режима Direct Lake Power BI. Затем специалисты по обработке и анализу данных могут легко поделиться результатами своей работы с заинтересованными лицами , и это упрощает эксплуатацию.

Вы можете использовать функции планирования записных книжек для планирования запусков записных книжек, содержащих пакетную оценку. Вы также можете запланировать пакетную оценку в рамках действий конвейера данных или заданий Spark. С помощью режима Direct Lake в Microsoft Fabric Power BI автоматически получает последние прогнозы без необходимости загружать или обновлять данные.

Специалисты по обработке и анализу данных и бизнес-аналитики проводят много времени, пытаясь понять, очистить и преобразовать данные до начала понятного анализа. Бизнес-аналитики обычно работают с семантической моделью и кодируют свои знания о домене и бизнес-логику в меры Power BI. С другой стороны, специалисты по обработке и анализу данных могут работать с теми же данными, но обычно в другой среде кода или языке. Благодаря семантической связи специалисты по обработке и анализу данных могут установить связь между семантическими моделями Power BI и Synapse Data Science в среде Microsoft Fabric через библиотеку Python SemPy. Чтобы упростить аналитику данных, SemPy записывает и использует семантику данных, так как пользователи выполняют различные преобразования в семантических моделях. Когда специалисты по обработке и анализу данных используют семантическую связь, они могут

  • Избегайте повторного выполнения бизнес-логики и знаний домена в коде.
  • Легко получить доступ к показателям Power BI и использовать их в коде.
  • используйте семантику для работы с новыми интерфейсами, например семантические функции
  • изучение и проверка функциональных зависимостей и связей между данными

Когда организации используют SemPy, они могут ожидать

  • повышение производительности и ускорение совместной работы между командами, работающими в одном наборе данных.
  • повышение совместной работы между бизнес-аналитикой и командами искусственного интеллекта
  • снижение неоднозначности и более простая кривая обучения при подключении к новой модели или набору данных

Дополнительные сведения о семантической ссылке см. в ресурсе "Что такое семантическая ссылка?" .