Руководство по принятию решений Microsoft Fabric. Выбор стратегии перемещения данных

Microsoft Fabric предлагает несколько способов переноса данных на платформу. В этом руководстве приведены четкие рекомендации для наиболее распространенных сценариев, а затем подробные сравнения функций, чтобы изучить их более подробно.

Быстрая рекомендация. Какой параметр перемещения данных следует использовать?

Используйте архитектуру медальона в качестве руководства:

  • Золотые данные (отчеты и аналитика по обработанным данным) — используйте зеркальное отображение. Если у вас уже есть обработка ETL в другом месте и в основном требуется перенести подготовленные данные в Fabric для создания отчетов, Mirroring является самым простым и наиболее экономичным выбором. Это бесплатно, требует минимальной настройки и непрерывно реплицирует данные в OneLake.

  • Бронзовые данные (необработанные данные) — начните с задачи копирования. При приеме необработанных данных вам быстро понадобятся преобразования, сопоставление схем, управление планированием и пошаговая загрузка. Задание копирования предоставляет эти возможности встроенно, без сложности построения конвейеров.

  • Потоковая передача данных в режиме реального времени — использование потоков событий. Для приема и обработки данных с низкой задержкой на основе событий, Eventstreams предоставляет конвейеры реального времени с преобразованиями без кодирования и маршрутизацией в несколько назначений.

  • Сложная оркестрация — конвейеры обеспечивают необходимую гибкость оркестрации, а действия копирования в конвейерах предлагают параметризацию объектов данных и прием данных на основе метаданных. Активность задания копирования и активность копирования равноценны в конвейере.

Полный параллельный анализ возможностей и поддерживаемых функций см. в подробном сравнении функций.

Снимок экрана: дерево принятия решений о перемещении данных, сравнение зеркального отображения, потока событий, задания копирования и действия копирования.

Основные понятия

  • Зеркальное отображение дает простой и бесплатный способ зеркального отображения операционных данных в Fabric для аналитики. Он оптимизирован для простоты использования с минимальными параметрами установки и записывает данные в одну единственную папку назначения в OneLake с доступом только для чтения.

  • Действия копирования в Pipelines создаются для пользователей, которым требуются оркестрированные рабочие процессы приема данных на основе конвейера. Вы можете значительно настроить его и добавить логику преобразования, но вам нужно самостоятельно определить компоненты конвейера и управлять ими, включая отслеживание состояния последнего запуска для добавочной копии.

  • Задание копирования упрощает прием данных с помощью собственной поддержки нескольких стилей доставки, включая массовую копию, добавочную копию и репликацию отслеживания измененных данных (CDC), и вам не нужно создавать конвейеры, предоставляя доступ ко многим расширенным параметрам. Он поддерживает множество источников и точек назначения и хорошо работает, если требуется больше контроля, чем при зеркальном отображении, но меньше сложности, чем при управлении конвейерами с помощью операции копирования.

  • Потоки событий: предназначено для приема, преобразования и обработки потоковых данных в режиме реального времени. Поддерживает конвейеры с низкой задержкой, управление схемами и маршрутизацию в места назначения, такие как Eventhouse, Lakehouse, Activator и настраиваемые конечные точки с поддержкой (AMQP, Kafka и конечные точки HTTP).

Подробное сравнение функций

В следующих таблицах сравниваются все возможности каждого параметра перемещения данных. Используйте этот раздел, когда необходимо оценить определенные функции для вашего сценария.

Зеркальное отражение Копировать задание Действие копирования (конвейер) Потоки событий
Источников Интеграция баз данных и сторонних сервисов в систему Open Mirroring Все поддерживаемые источники данных и форматы Все поддерживаемые источники данных и форматы 25+ источники и все форматы
Направления Табличный формат в Fabric OneLake (только для чтения) Все поддерживаемые назначения и форматы Все поддерживаемые назначения и форматы 4+ пункты назначения
Гибкость Простая настройка с фиксированным поведением Простое использование + дополнительные параметры Расширенные и полностью настраиваемые параметры Простые и настраиваемые параметры
Способность Зеркальное отражение Копировать задание Действие копирования (конвейер) Потоки событий
Настраиваемое планирование Да Да Непрерывный
Управление таблицами и столбцами Да Да Да (схема, управление событиями и полями)
Поведение копирования: Добавление, Upsert, Переопределение Да Да Append
Расширенная наблюдаемость и аудит Да Да
Режимы копирования
Непрерывная репликация на основе CDC Да Да Да
Пакетная или массовая копия Да Да Да (начальная репликация моментальных снимков CDC)
Встроенная поддержка добавочного копирования (на основе водяного знака) Да
Копирование с помощью определяемого пользователем запроса Да Да
Варианты использования
Непрерывная репликация для аналитики и отчетов Да Да Да
Управляемые метаданными ELT/ETL для хранения данных Да Да
Консолидация данных Да Да Да
Миграция данных/ резервное копирование данных и общий доступ к данным Да Да Да
Бесплатно Да
Прогнозируемая производительность Да Да Да

Сценарии

Просмотрите эти сценарии, чтобы помочь вам выбрать стратегию перемещения данных, которая лучше подходит для ваших потребностей.

Сценарий 1

Джеймс является финансовым менеджером в страховой компании. Его команда использует базу данных SQL Azure для отслеживания данных политики, утверждений и сведений о клиентах в нескольких бизнес-подразделениях. Исполнительный отдел хочет создать панели мониторинга в режиме реального времени для мониторинга производительности бизнеса, но Джеймс не может разрешить аналитическим запросам замедлить работу операционных систем, обрабатывающих тысячи ежедневных транзакций.

Джеймс уже имеет обработку ETL, и его команда нуждается в обработанных данных золотого уровня, доступных в Fabric для отчетности высшего уровня. Он не хочет управлять планированием, настраивать добавочные нагрузки или беспокоиться о выборе таблицы - ему нужно, чтобы все автоматически дублировалось. Так как это относится только к отчетам, наличие данных в формате только для чтения в OneLake работает идеально. Решение также должно быть экономически выгодным, так как оно оплачивается из бюджета его отдела.

Джеймс выбирает зеркальное отображение. Зеркальное отображение обеспечивает непрерывную репликацию на основе CDC, которую он требует, автоматически обрабатывая все таблицы без какой-либо конфигурации. Простая настройка означает, что он не нуждается в техническом опыте, и бесплатные затраты соответствуют его бюджету. Табличный формат только для чтения в OneLake предоставляет своей команде доступ к аналитике, который им нужен, не влияя на производительность работы.

Сценарий 2

Лиза является бизнес-аналитиком логистической компании. Она должна принять необработанные данные о доставке из нескольких баз данных Snowflake в таблицы Fabric Lakehouse для анализа цепочки поставок. Данные включают как исторические записи для начальной загрузки, так и новых поставок, поступающих в течение дня. Лиза хочет запустить этот процесс по пользовательскому расписанию — каждые 4 часа в рабочее время.

Поскольку Лиза приносит необработанные данные бронзового уровня, она знает, что ей быстро потребуются преобразования, сопоставление схем и контроль графика. Она должна выбрать определенные таблицы из каждого экземпляра Snowflake, сопоставить столбцы со стандартными именами и использовать механизм upsert для обработки обновлений существующих записей об отгрузке. Она также хочет, чтобы расширенный мониторинг отслеживал качество и производительность обработки данных.

Лиза выбирает задание копирования. Задание копирования предоставляет возможности настраиваемого планирования, в котором она нуждается, поддерживает все источники данных, включая Snowflake, и предлагает функции управления таблицами и столбцами для настройки в нескольких регионах. Встроенная поддержка инкрементной копии с обнаружением на основе водяных знаков и режимом upsert позволяет ей обрабатывать эти требования без создания потоков обработки данных.

Сценарий 3

Дэвид является старшим инженером по обработке данных в телекоммуникационной компании. Он создает сложный рабочий процесс приема данных, который должен извлекать данные об использовании клиентов из Oracle с помощью пользовательских sql-запросов, применять бизнес-преобразования и загружать их в несколько назначений, включая хранилище Fabric и внешние системы. Рабочий процесс также должен координировать другие действия конвейера, такие как проверка данных и этапы уведомления.

Дэвиду требуется полный контроль над процессом копирования, включая возможность использовать пользовательские запросы для объединения таблиц и фильтрации данных в источнике. Ему требуются расширенные и полностью настраиваемые параметры конфигурации, прогнозируемая производительность для больших объемов данных и возможность интеграции процесса копирования в более широкие рабочие процессы оркестрации конвейеров с зависимостями и обработкой ошибок.

Дэвид проверяет доступные параметры и выбирает Копирование данных в Pipelines. Этот подход дает ему расширенную и полностью настраиваемую конфигурацию, в которой он нуждается, поддерживает пользовательские запросы для сложного извлечения данных и обеспечивает конвейерную оркестрацию, необходимую для его рабочего процесса. Расширенные возможности мониторинга и аудита помогают ему отслеживать сложный процесс, а платформа конвейера позволяет ему координировать действия копирования с другими этапами обработки данных.

Сценарий 4

Эш является менеджером по продуктам в телекоммуникационной компании. Ее команда должна отслеживать метрики поддержки клиентов, такие как тома звонков, время ожидания и производительность агента в режиме реального времени, чтобы обеспечить соответствие соглашения об уровне обслуживания и повысить удовлетворенность клиентов. Данные поступают из нескольких операционных систем, включая платформы CRM, журналы центра вызовов и базы данных назначения агента, и поступает на высокую частоту в течение дня.

Ash использует потоки событий Fabric для приема и преобразования этих данных в движении. Она настраивает соединители потоковой передачи для извлечения данных из различных источников, применяет преобразования с помощью интерфейса без кода и направляет обработанные события в Eventhouse для аналитики в режиме реального времени. Она интегрирует активатор данных для активации оповещений и автоматизированных рабочих процессов при нарушении пороговых значений соглашения об уровне обслуживания, чтобы она смогла отправлять уведомления руководителям или настраивать уровни кадров динамически.

Результатом является панель мониторинга в режиме реального времени, которая обновляется в течение секунд, предоставляя команде Ash представление о динамических показателях производительности и обеспечивая быстрые решения на основе данных. Эта архитектура потоковой передачи устраняет задержку пакетных конвейеров и позволяет бизнесу мгновенно реагировать на потребности клиентов.

Начало работы

Теперь, когда у вас есть представление о используемой стратегии перемещения данных, вы можете приступить к работе с этими ресурсами: