Что такое потоки данных?

Подсказка

Power BI Dataflow 1-го поколения теперь находится в устаревшем состоянии и не получит новых инвестиций в функции. Для премиум-клиентов с доступом к Fabric, Dataflow Gen2 является рекомендуемым решением, предлагая улучшения в производительности, масштабируемости, надежности, функциональности и встроенном ИИ. Клиенты Pro/PPU могут продолжать использовать Gen1, так как руководства по Gen2 для этих сценариев всё ещё разрабатываются. См. статью Обновление с Dataflow Gen1 до Dataflow Gen2 для получения инструкций по обновлению.

Потоки данных — это самостоятельная облачная технология подготовки данных. Потоки данных позволяют клиентам получать, преобразовывать и загружать данные в среду Microsoft Dataverse, рабочую область Power BI или учетную запись Azure Data Lake Storage вашей организации. Потоки данных создаются с помощью Power Query, который предлагает единый опыт подключения и подготовки данных, уже реализованный во многих продуктах Microsoft, включая Excel и Power BI. Клиенты могут запускать потоки данных по запросу или автоматически в расписании; данные всегда хранятся в актуальном состоянии.

Потоки данных можно создавать в нескольких продуктах Microsoft

Потоки данных представлены в нескольких продуктах Microsoft и не требуют создания или запуска лицензии для потока данных. Потоки данных доступны в Power Apps, Power BI и Dynamics 365 Customer Insights. Возможность создавать и запускать потоки данных объединяется с лицензиями этих продуктов. Функции потока данных в основном распространены во всех продуктах, в которых они представлены, но некоторые функции, относящиеся к продукту, могут существовать в потоках данных, созданных в одном продукте и другом.

Как функционирует поток данных?

Схема работы потоков данных из исходных данных в процесс преобразования, а затем в хранилище.

На предыдущем рисунке показано общее представление о том, как определяется поток данных. Поток данных получает данные из разных источников данных (уже поддерживаются более 80 источников данных). Затем на основе преобразований, настроенных с помощью интерфейса разработки Power Query, поток данных преобразует данные с помощью подсистемы потока данных. Наконец, данные загружаются в целевое место вывода, которое может быть средой Microsoft Power Platform, рабочей областью Power BI или учетной записью Azure Data Lake Storage организации.

Потоки данных выполняются в облаке

Потоки данных основаны на облаке. При создании и сохранении потока данных его определение хранится в облаке. Поток данных (dataflow) также выполняется в облаке. Однако если источник данных находится в локальной среде, локальный шлюз данных можно использовать для извлечения данных в облако. При запуске потока данных преобразование и вычисление данных происходит в облаке, а назначение всегда находится в облаке.

Схема запуска потоков данных в облаке из источника данных в поток данных, выполняемый в облаке, а затем в хранилище.

Потоки данных используют мощный механизм преобразования

Power Query — это модуль преобразования данных, используемый в потоке данных. Этот механизм может поддерживать множество расширенных преобразований. Он также использует простой, но мощный графический пользовательский интерфейс, называемый редактором Power Query. С помощью этого редактора можно использовать потоки данных, чтобы быстрее и проще разрабатывать решения для интеграции данных.

Снимок экрана, демонстрирующий пример преобразования Power Query.

Интеграция потока данных с Microsoft Power Platform и Dynamics 365

Так как поток данных хранит полученные таблицы в облачном хранилище, другие службы могут взаимодействовать с данными, созданными потоками данных.

Диаграмма интеграции потока данных с Microsoft Power Platform и Dynamics 365.

Например, Power BI, Power Apps, Power Automate, Power Virtual Agent и Dynamics 365 приложения могут получать данные, созданные потоком данных, путем подключения к Dataverse, соединителю потока данных Power Platform или непосредственно через озеро в зависимости от назначения, настроенного во время создания потока данных.

Преимущества потоков данных

В следующем списке описаны некоторые преимущества использования потоков данных.

  • Поток данных отделяет уровень преобразования данных от уровня моделирования и визуализации в решении Power BI.

  • Код преобразования данных может находиться в центральном расположении или в потоке данных, а не распределяться между несколькими объектами.

  • Создатель потока данных нуждается только в Power Query навыках. В среде с несколькими создателями создатель потока данных может быть частью команды, которая вместе создает все решение бизнес-аналитики или рабочее приложение.

  • Поток данных не зависит от продукта. Это не только компонент Power BI; вы можете получить его данные в других инструментах и сервисах.

  • Потоки данных используют Power Query, представляющий собой мощный, визуальный и удобный для самостоятельного использования инструмент преобразования данных.

  • Потоки данных выполняются полностью в облаке. Дополнительная инфраструктура не требуется.

  • Вы можете начать работу с потоками данных, используя лицензии для Power Apps, Power BI и Customer Insights.

  • Хотя потоки данных способны к сложным преобразованиям, они предназначены для сценариев самообслуживания и не требуют знаний в области IT или разработки.

Сценарии использования для потоков данных

Потоки данных можно использовать для многих целей. В следующих сценариях приведены несколько примеров распространенных вариантов использования потоков данных.

Миграция данных из устаревших систем

В этом сценарии организация решает использовать Power Apps для нового интерфейса пользователя, а не устаревшей локальной системы. Power Apps, Power Automate и AI Builder все используют Dataverse в качестве основной системы хранения данных. Текущие данные в существующей локальной системе можно перенести в Dataverse с помощью потока данных, а затем эти продукты могут использовать эти данные.

Использование потоков данных для создания хранилища данных

Потоки данных можно использовать в качестве замены для других средств извлечения, преобразования, загрузки (ETL) для создания хранилища данных. В этом сценарии инженеры данных компании решили использовать потоки данных для создания хранилища данных, разработанного по звездной схеме, включая таблицы фактов и измерений в Data Lake Storage. Затем Power BI используется для создания отчетов и панелей мониторинга путем получения данных из потоков данных.

Схема создания хранилища данных с помощью потоков данных.

Использование потоков данных для создания трехмерной модели

Потоки данных можно использовать в качестве замены для других средств ETL для создания трехмерной модели. Например, инженеры данных компании решили использовать dataflow для создания звездчатой измерительной модели, включая таблицы фактов и измерений в Azure Data Lake Storage Gen2. Затем Power BI используется для создания отчетов и панелей мониторинга путем получения данных из потоков данных.

Схема создания трехмерной модели с помощью потоков данных.

Централизация подготовки и повторного использования семантических моделей в нескольких решениях Power BI

Если несколько решений Power BI используют одну и ту же преобразованную версию таблицы, процесс создания таблицы повторяется несколько раз. Это увеличивает нагрузку на исходную систему, потребляет больше ресурсов и создает повторяющиеся данные с несколькими точками сбоя. Вместо этого можно создать один поток данных для вычисления данных для всех решений. Power BI затем может повторно использовать результат преобразования во всех решениях. Поток данных, если он используется таким образом, может быть частью надежной архитектуры реализации Power BI, которая позволяет избежать дубликата кода Power Query и снижает затраты на обслуживание уровня интеграции данных.

Схема повторного использования таблиц в нескольких решениях.