Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Для обогащения данных и бизнес-аналитики Microsoft Fabric предлагает возможности обработки и анализа данных, которые позволяют пользователям создавать комплексные рабочие процессы обработки и анализа данных. Вы можете выполнить широкий спектр действий по всему процессу обработки и анализа данных:
- Исследование данных
- подготовка данных
- очистка данных
- экспериментирование
- моделирование
- Оценка модели
- предоставление прогнозной аналитики в отчетах бизнес-аналитики
Пользователи Microsoft Fabric могут получить доступ к домашней странице обработки и анализа данных. Затем они могут обнаруживать и получать доступ к различным соответствующим ресурсам, как показано на следующем снимке экрана:
Большинство проектов машинного обучения следуют процессу обработки и анализа данных. На высоком уровне этот процесс включает следующие действия:
- формулировка и идея проблемы
- Обнаружение и предварительная обработка данных
- экспериментирование и моделирование
- обогащение и операционализация
- Построение инсайтов
В этой статье описываются возможности обработки и анализа данных Microsoft Fabric с точки зрения процесса обработки и анализа данных. Для каждого шага процесса обработки и анализа данных в этой статье перечислены возможности Microsoft Fabric, которые могут помочь.
Формулировка и идея проблемы
Пользователи обработки и анализа данных в Microsoft Fabric работают на той же платформе, что и бизнес-пользователи и аналитики. Общий доступ к данным и совместная работа становятся более простыми в разных ролях в результате. Аналитики могут легко обмениваться отчетами и наборами данных Power BI с специалистами по обработке и анализу данных. Простота совместной работы между ролями в Microsoft Fabric упрощает передачу на этапе разработки проблем.
Обнаружение и предварительная обработка данных
Пользователи Microsoft Fabric могут взаимодействовать с данными в OneLake с помощью ресурса Lakehouse. Чтобы просматривать и взаимодействовать с данными, Lakehouse легко присоединяется к записной книжке. Пользователи могут легко считывать данные из Lakehouse непосредственно в DataFrame Pandas. Для исследования становится возможным беспрепятственное чтение данных из OneLake.
Мощный набор инструментов доступен для конвейеров приема данных и оркестрации данных с конвейерами интеграции данных — встроенной частью Microsoft Fabric. Конвейеры данных легкой сборки могут получать доступ к данным и преобразовывать их в формат, который может использовать машинное обучение.
Исследование данных
Важной частью процесса машинного обучения является понимание данных с помощью изучения и визуализации.
В зависимости от расположения хранилища данных Microsoft Fabric предлагает средства для изучения и подготовки данных для аналитики и машинного обучения. Сами записные книжки становятся эффективными и действенными инструментами для анализа данных.
Apache Spark и Python для подготовки данных
Microsoft Fabric может преобразовывать, подготавливать и просматривать данные в большом масштабе. С помощью Spark пользователи могут использовать средства PySpark/Python, Scala и SparkR/SparklyR для предварительной обработки данных в масштабе. Мощные библиотеки визуализации с открытым исходным кодом могут улучшить возможности изучения данных для лучшего понимания данных.
Средство обработки данных для бесперебойной очистки данных
Чтобы использовать Data Wrangler, в среде Microsoft Fabric Notebook добавлена функция инструмента для работы с кодом, которая подготавливает данные и создает код на Python. Этот опыт упрощает ускорение мученных и безумных задач, например очистку данных. С его помощью можно также создавать автоматизацию и повторяемость с помощью созданного кода. Дополнительные сведения о Data Wrangler см. в разделе "Data Wrangler" этого документа.
Экспериментирование и моделирование машинного обучения
С помощью таких средств, как PySpark/Python и SparklyR/R, записные книжки могут обрабатывать обучение модели машинного обучения. Алгоритмы и библиотеки машинного обучения помогают обучать модели машинного обучения. Средства управления библиотеками могут устанавливать эти библиотеки и алгоритмы. Затем пользователи могут использовать популярные библиотеки машинного обучения для обучения модели машинного обучения в Microsoft Fabric. Кроме того, популярные библиотеки, такие как Scikit Learn, также могут разрабатывать модели.
Эксперименты и запуски в MLflow могут отслеживать процесс обучения моделей машинного обучения. Для журналов экспериментов и моделей Microsoft Fabric предлагает встроенный интерфейс MLflow, поддерживающий взаимодействие. Узнайте больше об использовании MLflow для отслеживания экспериментов и управления моделями в Microsoft Fabric.
SynapseML
Корпорация Майкрософт владеет и управляет библиотекой с открытым кодом SynapseML (известной ранее как MMLSpark). Это упрощает создание конвейера машинного обучения с большим объемом масштабирования. Как экосистема инструментов расширяет платформу Apache Spark в нескольких новых направлениях. SynapseML объединяет несколько существующих платформ машинного обучения и новые алгоритмы Майкрософт в единый масштабируемый API. Библиотека SynapseML с открытым исходным кодом включает в себя богатую экосистему средств машинного обучения для разработки прогнозных моделей и использует предварительно обученные модели ИИ из служб ИИ Azure. Дополнительные сведения см. в ресурсе SynapseML .
Обогащение и внедрение
Записные книжки могут обрабатывать пакетную оценку модели машинного обучения с помощью библиотек с открытым кодом для прогнозирования. Кроме того, они могут обрабатывать масштабируемую универсальную функцию Прогнозирования Spark в Microsoft Fabric. Эта функция поддерживает упакованные модели MLflow в реестре моделей Microsoft Fabric.
Получение аналитических сведений
В Microsoft Fabric можно легко записывать прогнозируемые значения в OneLake. Оттуда отчеты Power BI могут бесшовно интегрироваться с ними с помощью режима Direct Lake Power BI. Затем специалисты по обработке и анализу данных могут легко поделиться результатами своей работы с заинтересованными лицами , и это упрощает эксплуатацию.
Вы можете использовать функции планирования записных книжек для планирования запусков записных книжек, содержащих пакетную оценку. Вы также можете запланировать пакетную оценку в рамках действий конвейера данных или заданий Spark. С помощью режима Direct Lake в Microsoft Fabric Power BI автоматически получает последние прогнозы без необходимости загружать или обновлять данные.
Исследование данных с семантической ссылкой
Специалисты по обработке и анализу данных и бизнес-аналитики проводят много времени, пытаясь понять, очистить и преобразовать данные до начала понятного анализа. Бизнес-аналитики обычно работают с семантической моделью и кодируют свои знания о домене и бизнес-логику в меры Power BI. С другой стороны, специалисты по обработке и анализу данных могут работать с теми же данными, но обычно в другой среде кода или языке. Благодаря семантической связи специалисты по обработке и анализу данных могут установить связь между семантическими моделями Power BI и Synapse Data Science в среде Microsoft Fabric через библиотеку Python SemPy. Чтобы упростить аналитику данных, SemPy записывает и использует семантику данных, так как пользователи выполняют различные преобразования в семантических моделях. Когда специалисты по обработке и анализу данных используют семантическую связь, они могут
- Избегайте повторного выполнения бизнес-логики и знаний домена в коде.
- Легко получить доступ к показателям Power BI и использовать их в коде.
- используйте семантику для работы с новыми интерфейсами, например семантические функции
- изучение и проверка функциональных зависимостей и связей между данными
Когда организации используют SemPy, они могут ожидать
- повышение производительности и ускорение совместной работы между командами, работающими в одном наборе данных.
- повышение совместной работы между бизнес-аналитикой и командами искусственного интеллекта
- снижение неоднозначности и более простая кривая обучения при подключении к новой модели или набору данных
Дополнительные сведения о семантической ссылке см. в ресурсе "Что такое семантическая ссылка?" .
Связанное содержимое
- Ознакомьтесь с руководствами по обработке и анализу данных , чтобы приступить к работе с комплексными примерами для обработки и анализа данных
- Посетите Data Wrangler, чтобы получить дополнительную информацию о подготовке и очистке данных с помощью Data Wrangler.
- Посетите эксперимент машинного обучения , чтобы узнать больше об отслеживании экспериментов
- Ознакомьтесь с моделью машинного обучения , чтобы узнать больше об управлении моделями
- Посетите модели оценки с помощью PREDICT , чтобы узнать больше о пакетной оценке с помощью Predict
- Предоставление прогнозов Lakehouse в Power BI в режиме Direct Lake