Что такое фабрика данных в Microsoft Fabric?

Фабрика данных в Microsoft Fabric помогает решить одну из самых сложных задач бизнеса: превратить разбросанные данные в полезные аналитические сведения.

Данные вашей организации находятся в различных местах: базы данных, файлы, облачные службы и устаревшие системы. Это затрудняет получение полной картины вашего бизнеса. Фабрика данных подключается к более чем 170 источникам данных, включая многооблачные среды и гибридные настройки с локальными шлюзами. Это помогает перемещать и преобразовывать данные в масштабируемом масштабе, превращая их в форматы, которые хорошо работают для аналитики и принятия решений.

Схема стека интеграции данных в Microsoft Fabric.

Схема фабрики данных в Microsoft Fabric, которая показывает выбор соединителей, связанных с средствами аналитики и разработки данных в Fabric с помощью перемещения данных, оркестрации и преобразования. Все это основано на Fabric OneLake, и весь стек пронизан технологиями на базе искусственного интеллекта.

Будь то бизнес-пользователь, создающий первую стратегию аналитики данных, или разработчик, создающий сложные рабочие потоки, вы найдете правильные инструменты для:

  • Объединение данных
  • Очистите это
  • Подготовьте данные для анализа в вашем Lakehouse или хранилище данных.
  • Автоматизация рабочих процессов данных

Что такое интеграция данных?

Интеграция данных — это процесс объединения стратегических данных, чтобы получить доступ к ним и проанализировать их. Это ключевая часть любого бизнеса, который хочет принимать решения на основе данных.

Существует множество способов интеграции данных, но одна из наиболее распространенных стратегий — ETL. ETL обозначает извлечение, преобразование, загрузку. Он принимает информацию из многих различных источников, преобразует его в формат, который можно проанализировать, и загружает его в общую систему назначения для анализа или создания отчетов. При реализации процесса ETL на платформе данных вашего бизнеса он улучшает согласованность данных, качество и доступность.

Вот что делает каждый этап:

  • Извлечение: считывает данные из источников и перемещает их в центральное место хранения. Источники могут быть базами данных, файлами, API, веб-сайтами и многое другое.
  • Преобразование: очистка, обогащение и преобразование данных в формат, который легко анализировать. Например, может потребоваться сравнить данные о продажах из базы данных SQL с сканированными историческими документами о продажах. После извлечения данных необходимо преобразовать данные из каждого источника, чтобы он был в одном формате, проверять повреждения или дубликаты и объединять данные в один набор данных.
  • Загрузка: записывает преобразованные данные в целевую систему, например хранилище данных или озеро данных. Целевая система — это место, где можно выполнять запросы и отчеты о данных.

ETL или ELT?

Когда вы работаете с данными, как перемещать и преобразовывать его важно, и каждая организация будет иметь разные потребности. Например: ETL (извлечение, преобразование, загрузка) и ELT (извлечение, загрузка, преобразование). Каждая из них имеет сильные стороны, в зависимости от потребностей в производительности, масштабируемости и стоимости.

ETL: перед загрузкой данных в место назначения преобразуйте данные. Это хорошо работает, когда необходимо очистить, стандартизировать или обогатить данные при перемещении. Например, используйте Data Factory's Dataflow Gen 2 для применения преобразований в масштабе перед загрузкой данных в хранилище или Lakehouse.

ELT: сначала загружайте необработанные данные, а затем преобразуйте их там, где они хранятся. Этот подход использует возможности аналитических движков, таких как OneLake от Fabric, ноутбуки Spark или средства на основе SQL. ELT хорошо подходит для обработки больших наборов данных с помощью современных облачных вычислений.

Фабрика данных Fabric поддерживает оба. Вы можете:

  • Создание классических конвейеров ETL для немедленного обеспечения качества и готовности данных
  • Использование рабочих процессов ELT для использования интегрированных вычислений и хранилища для крупномасштабных преобразований
  • Объединение обоих подходов в одном решении для гибкости

Фабрика данных — это мощное решение для интеграции данных

Фабрика данных подключается к данным, перемещает его, преобразует его и управляет задачами перемещения и преобразования данных из одного места. Вы решаете, какую стратегию лучше всего подходит для вашего бизнеса, и фабрика данных предоставляет средства для его выполнения.

Подключитесь к данным: локально, в облаке или в мультиоблачных средах Data Factory подключается к вашим источникам данных и пунктам назначения. Он поддерживает широкий спектр источников данных, включая базы данных, озера данных, файловые системы, API и многое другое. Полный список поддерживаемых источников данных и назначений см. в доступных соединителях .

Перемещение данных. Фабрика данных предоставляет несколько методов перемещения данных из источника в место назначения или простого доступа к существующим данным в зависимости от ваших потребностей.

  • Задание копирования — предпочтительное решение для упрощенного перемещения данных с собственной поддержкой нескольких стилей доставки, включая массовую копию, добавочную копию и репликацию записи измененных данных (CDC). Кроме того, она обеспечивает гибкость для обработки широкого спектра сценариев от многих источников до многих направлений — все благодаря интуитивно понятному и простому интерфейсу использования.
  • Копирование - Перемещает данные из одного места в другое в любом масштабе, с возможностью обширной настройки и поддержкой широкого спектра источников и приемников, а также возможностью ручного управления параллельным копированием для повышения производительности.
  • Зеркальное отображение - Создание почти в реальном времени реплики вашей операционной базы данных в OneLake в Microsoft Fabric для упрощения аналитики и создания отчетов.

Ознакомьтесь с нашим руководством по решению о перемещении данных , чтобы помочь вам выбрать правильный метод перемещения данных для вашего сценария.

Преобразование. Фабрика данных предоставляет действия для подключения к пользовательским сценариям преобразования или мощному конструктору потоков данных.

  • Действия конвейера — записная книжка Fabric, действие HDInsight, определение задания Spark, хранимая процедура, скрипты SQL и многое другое. Эти действия позволяют запускать пользовательский код или скрипты для преобразования данных.
  • Поток данных 2-го поколения - преобразуйте ваши данные с помощью low-code интерфейса с более чем 300 преобразованиями. Вы можете выполнять соединения, агрегацию, очистку данных, кастомные преобразования и многое другое.
  • задание dbt — задание dbt в Microsoft Fabric включает преобразования данных на основе SQL непосредственно в Fabric. Они предоставляют простую настройку без кода для создания, тестирования и развертывания моделей dbt на вершине хранилища данных Fabric.

Оркестрация. Фабрика данных позволяет создавать конвейеры, которые могут выполнять несколько движений данных, преобразований и других действий в одном рабочем процессе.

Интеграция данных с использованием искусственного интеллекта

ИИ появляется во всей Data Factory, чтобы помочь вам выполнять больше работы с меньшими усилиями. Copilot для фабрики данных позволяет создавать, изменять и управлять конвейерами и потоками данных с помощью естественного языка. Вы можете ввести запросы на обычный английский язык, и Copilot превращает их в рабочие шаги ETL.

Copilot также суммирует существующие запросы потока данных и конвейеры, чтобы быстро понять, что они делают. Если вы столкнуться с ошибками, Copilot объясняет, что пошло не так, и предлагает способы ее устранения.

Для получения подробной информации см. Copilot в Fabric в рабочей среде службы данных.

Что нужно, чтобы начать работу?

Что делать, если мы уже используем фабрику данных Azure?

Фабрика данных в Microsoft Fabric — это следующее поколение Фабрики данных Azure, созданное для решения самых сложных проблем интеграции данных с помощью более простого подхода.

Ознакомьтесь с нашим руководством по сравнению услуг, в котором указаны ключевые различия между этими двумя услугами, чтобы вы могли выбрать подходящий вариант для вашего предприятия.

Когда вы будете готовы к миграции, следуйте нашему руководству по миграции для конвейеров Фабрики данных Azure и Azure Synapse.

Дополнительные сведения и инструкции по началу работы с Microsoft Fabric см. в следующих руководствах.