Поделиться через


Руководство по выбору Microsoft Fabric: действие копирования, задача копирования, поток данных, поток событий или Spark

Используйте это справочное руководство и примеры сценариев, которые помогут вам решить, требуется ли действие копирования, задание копирования, поток данных, поток событий или Spark для рабочих нагрузок Microsoft Fabric.

Действие копирования, задание копирования, поток данных, поток событий и свойства Spark

действие копирования конвейера Копировать задание поток данных 2-го поколения Поток событий Искра
вариант использования Миграция лейка данных и хранилища данных
прием данных,
упрощенное преобразование
Прием данных,
Добавочное копирование,
Репликация
Миграция Data Lake и хранилища данных
упрощенное преобразование
Прием данных,
преобразование данных,
обработка данных,
профилирование данных
прием данных события,
Преобразование данных события
Прием данных,
преобразование данных,
обработка данных
профилирование данных
Основная персона разработчика Инженер данных,
интегратор данных
Бизнес-аналитик,
Интегратор данных,
Инженер данных
Инженер данных,
интегратор данных,
бизнес-аналитик
Инженер данных,
специалист по обработке и анализу данных,
разработчик данных
Интегратор данных,
инженер данных
набор навыков для основного разработчика ETL,
SQL,
JSON (JavaScript Object Notation)
ETL,
SQL,
JSON (JavaScript Object Notation)
ETL,
M,
SQL
SQL, JSON, обмен сообщениями Spark (Scala, Python, Spark SQL, R)
Код, написанный Нет кода,
низкий код
Нет кода,
низкий код
Нет кода,
низкий код
Нет кода,
низкий код
Код
тома данных От низкого до высокого От низкого до высокого От низкого до высокого От среднего до высокого От низкого до высокого
интерфейс разработки Колдун
холст
Колдун
холст
Power Query Холст Записная книжка
Определение задания Spark
Источники 50+ соединителей 50+ соединителей 150+ соединителей База данных, поддерживающая CDC (запись измененных данных), Kafka, Системы обмена сообщениями, поддерживающие шаблон публикации и подписки, потоки событий Сотни библиотек Spark
Назначения 40+ соединителей 40+ соединителей Lakehouse,
База данных SQL Azure,
Обозреватель данных Azure,
Аналитика Azure Synapse
Eventhouse, Lakehouse, Оповещение активатора, производный поток, пользовательская конечная точка Сотни библиотек Spark
сложность преобразования Низкий:
упрощенный — преобразование типов, сопоставление столбцов, слияние и разделение файлов, плоская иерархия
Низкий:
упрощенный — преобразование типов, сопоставление столбцов, слияние и разделение файлов, плоская иерархия
От низкого к высокому
300+ функции преобразования
Низкий:
легкий
От низкого к высокому
поддержка собственных библиотек Spark и опенсорсных библиотек

Сценарии

Ознакомьтесь со следующими сценариями, чтобы помочь в выборе способа работы с данными в Fabric.

Сценарий 1

Лео, инженер данных, должен принять большой объем данных из внешних систем, как локальных, так и облачных. К этим внешним системам относятся базы данных, файловые системы и API. Лео не хочет писать и поддерживать код для каждой операции соединителя или перемещения данных. Он хочет следовать лучшим практикам двухуровневой модели, используя бронзовый, серебряный и золотой уровни. Лео не имеет опыта работы с Spark, поэтому он предпочитает интерфейс с функцией перетаскивания насколько это возможно, с минимальным количеством кодирования. И он также хочет обработать данные по расписанию.

Первым шагом является загрузка необработанных данных в бронзовый слой хранилища данных из ресурсов Azure и различных сторонних источников (таких как Snowflake Web, REST, AWS S3, GCS и т. д.). Он хочет консолидированного озера, чтобы все данные из различных бизнес-объектов, локальных и облачных источников располагались в одном месте. Лео проверяет параметры и выбирает действие копирования конвейера в качестве подходящего варианта для его необработанной двоичной копии. Этот шаблон применяется как к обновлению исторических, так и добавочных данных. С помощью действия копирования Лео может загружать данные Gold в хранилище данных без написания кода, если это необходимо, а конвейеры же обеспечивают прием данных с высоким уровнем масштабирования, способные перемещать данные петабайтового масштаба. Действие копирования — это лучший вариант с низким кодом и без кода для перемещения петабайтов данных в озерах и хранилищах из различных источников, либо с помощью специального или через расписание.

Сценарий 2

Мэри — инженер данных с глубокими знаниями различных требований к аналитическим отчетам нескольких направлений бизнеса. В команде upstream успешно реализовали решение для переноса исторических и инкрементальных данных нескольких линий бизнеса в общий лейкхаус. Мэри было поручено очистить данные, применить бизнес-логику и загрузить их в несколько мест назначения (например, в базу данных SQL Azure, ADX и озеро данных) для подготовки соответствующих отчетных команд.

Мэри является опытным пользователем Power Query, и объем данных находится в низком до среднего диапазона для достижения требуемой производительности. Потоки данных предоставляют интерфейсы, не требующие программирования, или с минимальным программированием для получения данных из сотен источников данных. С помощью потоков данных можно преобразовать данные, используя более 300 вариантов преобразования, и записать результаты в несколько мест назначения с простым в использовании и наглядным пользовательским интерфейсом. Мэри рассматривает варианты и решает, что имеет смысл использовать Dataflow Gen 2 в качестве предпочтительного варианта преобразования.

Сценарий 3

Prashant, интегратор данных с глубоким опытом в бизнес-процессах и системах. Вышестоящее подразделение успешно предоставило данные о событиях из бизнес-приложений в виде сообщений, которые можно использовать через подчиненные системы. Prashant был назначен для интеграции данных событий из бизнес-приложений в Microsoft Fabric для поддержки принятия решений в режиме реального времени.

Учитывая средний и высокий объем данных и предпочтения организации для решений без кода, Prashant стремится легко пересылать события по мере их возникновения без управления расписаниями извлечения. Для удовлетворения этой потребности он выбирает потоки событий в Microsoft Fabric. Потоки событий в интерфейсе аналитики Real-Time позволяют получать данные в режиме реального времени, преобразовывать и маршрутизацию в различные назначения без написания кода.

Сценарий 4

Адам является инженером данных, работающим в крупной розничной компании, которая использует "lakehouse" для хранения и анализа данных клиентов. В рамках своей работы Адам отвечает за разработку и поддержку потоков данных, которые извлекают, преобразуют и загружают данные в lakehouse. Одним из бизнес-требований компании является выполнение аналитики проверки клиентов, чтобы получить аналитические сведения о опыте своих клиентов и улучшить свои услуги.

Адам решает, что лучше всего использовать Spark для построения логики извлечения и преобразования. Spark предоставляет распределенную вычислительную платформу, которая может параллельно обрабатывать большие объемы данных. Он пишет приложение Spark с помощью Python или Scala, которое считывает структурированные, полуструктурированные и неструктурированные данные из OneLake для клиентских отзывов и обратной связи. Приложение очищает, преобразует и записывает данные в таблицы Delta в lakehouse. Затем данные будут готовы к использованию для нисходящей аналитики.

Сценарий 5

Раджеш, инженер данных, выполняет задачу приема добавочных данных из локального SQL Server в базу данных SQL Azure. Локальный экземпляр SQL Server Rajesh уже включает ведение журнала изменений данных (CDC) в ключевых таблицах.

Раджеш ищет простое, низкокодное решение, управляемое мастером, которое позволяет ему:

  • Выбор нескольких собственных исходных таблиц с поддержкой CDC
  • Выполнение начальной полной загрузки
  • Автоматическое переключение на инкрементные загрузки данных на основе CDC
  • Планирование обновлений данных для повторяющихся обновлений

Он хочет избежать написания пользовательского кода или управления сложными оркестрациями. В идеале он хочет "мастер 5x5", где он может выполнить настройку всего за несколько щелчков.

Раджеш выбирает функцию задания копирования в Microsoft Fabric. При поддержке локального шлюза он безопасно подключается к серверу SQL Server, выбирает нужные таблицы и настраивает поток для входа в целевую базу данных SQL Azure.

Задание копирования обеспечивает низкоуровневый и масштабируемый интерфейс перемещения данных, выполняя требования Раджеша без необходимости поддерживать сложные конвейеры.