сценарии использования Power BI: самостоятельная подготовка данных (устаревшая версия)

Примечание.

Эта статья является частью серии статей по планированию реализации Power BI . Серия посвящена планированию реализации интерфейса Power BI в Microsoft Fabric. Посмотрите введение к серии.

Примечание.

В этой статье описываются сценарии использования для Power BI dataflow 1-го поколения, который теперь находится в устаревшем состоянии. Для новых проектов подготовки данных рассмотрим Dataflow 2-го поколения в фабрике данных для Microsoft Fabric, которая обеспечивает улучшенную производительность, больше назначений и встроенный ИИ. Инструкции по миграции см. в статье об обновлении потока данных 1-го поколения до потока данных 2-го поколения.

Подготовка данных (иногда называется ETL, которая является акронимом для извлечения, преобразования и загрузки) часто включает значительное количество работ в зависимости от качества и структуры исходных данных. Сценарий самостоятельной подготовки данных фокусируется на повторном использовании действий по подготовке данных бизнес-аналитиками. Она достигает этой цели повторного использования путем перемещения работы по подготовке данных из Power Query (в отдельных файлах Power BI Desktop) в Power Query Online (с помощью потока данных Power BI). Централизация логики помогает достичь одного источника истины и снижает уровень усилий, необходимых другим создателям контента.

Потоки данных создаются с помощью Power Query Online в одном из нескольких средств: служба Power BI, Power Apps или Dynamics 365 Customer Insights. Поток данных, созданный в Power BI, называется аналитическим потоком данных. Потоки данных, созданные в Power Apps, могут быть одним из двух типов: стандартными или аналитическими. Этот сценарий охватывает только поток данных Power BI, созданный и управляемый в службе Power BI.

Примечание.

Сценарий самостоятельной подготовки данных является одним из сценариев самостоятельной бизнес-аналитики. Полный список сценариев самообслуживания см. в статье о сценариях использования Power BI.

Для краткости некоторые аспекты, описанные в сценариях совместной работы и доставки содержимого, не рассматриваются в этой статье. Для полного охвата сначала ознакомьтесь с этими статьями.

Схема сценария

На следующей схеме представлен общий обзор наиболее распространенных действий пользователей и компонентов Power BI, поддерживающих самостоятельную подготовку данных. Основное внимание уделяется созданию потока данных в Power Query Online, который становится источником данных для нескольких семантических моделей. Цель состоит в том, чтобы многие семантические модели использовали подготовку данных, которая выполняется один раз потоком данных.

На схеме показана самостоятельная подготовка данных, которая относится к потокам данных для централизованной очистки и преобразования данных. Элементы на схеме описаны в таблице ниже.

Совет

Мы рекомендуем скачать схему сценария, если вы хотите внедрить ее в презентацию, документацию или запись блога, или распечатать ее в виде стенного плаката. Так как это масштабируемое изображение векторной графики (SVG), его можно масштабировать вверх или вниз без потери качества.

На схеме сценария показаны следующие действия пользователя, инструменты и функции:

Пункт Описание
Элемент 1. Создатель потока данных разрабатывает коллекцию таблиц в потоке данных Power BI. Для потока данных, предназначенного для повторного использования, обычно, хотя это не обязательно, создатель принадлежит к централизованной команде, которая поддерживает пользователей через границы организации (например, ИТ, корпоративную бизнес-аналитику или Центр превосходства).
Элемент 2. Поток данных подключается к данным из одного или нескольких источников данных.
Элемент 3. Некоторым источникам данных может потребоваться локальный шлюз данных или шлюз виртуальной сети для обновления данных, например те, которые находятся в частной сети организации. Эти шлюзы используются как для разработки потока данных в Power Query Online, которая является веб-версией Power Query, так и для обновления потока данных.
Элемент 4. Потоки данных разрабатываются с помощью Power Query Online. Знакомый интерфейс Power Query в Power Query Online упрощает переход с Power BI Desktop.
Элемент 5. Поток данных сохраняется в виде элемента в рабочей области, выделенной для хранения и защиты потоков данных. Расписание обновления потока данных требуется для поддержания текущего значения данных (не показанного на схеме сценария).
Элемент 6. Поток данных может быть повторно использован в качестве источника данных как создателями контента, так и другими семантическими моделями, которые могут находиться в разных рабочих областях.
Элемент 7. Создатель семантической модели разрабатывает новую модель данных с помощью Power BI Desktop. Создатель семантической модели может использовать все возможности Power Query в Power BI Desktop. При необходимости можно применить другие шаги запроса для дальнейшего преобразования данных потока данных или объединения выходных данных потока данных.
Элемент 8. Когда всё готово, создатель семантической модели публикует файл Power BI Desktop (.pbix), содержащий модель данных, в службу Power BI. Обновление для семантической модели управляется отдельно от потока данных (не показанного на схеме сценария).
Элемент 9. Другие создатели семантической модели самообслуживания могут создавать новые модели данных в Power BI Desktop с помощью потока данных в качестве источника данных.
Элемент 10. На портале администрирования администраторы Power BI могут настроить подключения Azure для хранения данных потоков в учетной записи Azure Data Lake Storage 2-го поколения (ADLS Gen2). К параметрам относятся назначение учетной записи хранения на уровне клиента и включение разрешений хранилища на уровне рабочей области.
Элемент 11. Администраторы Power BI управляют параметрами на портале администрирования.
Элемент 12. По умолчанию потоки данных хранят данные с помощью внутреннего хранилища, управляемого служба Power BI. При необходимости выходные данные потока данных можно хранить в учетной записи ADLS Gen2 организации. Этот тип хранилища иногда называется «озеро данных, которое вы приносите сами». Преимущество хранения данных потока данных в озере данных заключается в том, что к нему можно получить доступ и использовать другие средства бизнес-аналитики.
Элемент 13. Данные потока данных в ADLS 2-го поколения хранятся в контейнере power BI, известном как файловая система. В этом контейнере папка существует для каждой рабочей области. Создается подпапка для каждого потока данных, а также для каждой таблицы. Power BI создает снимок состояния при каждом обновлении данных dataflow. Эти моментальные снимки являются самоописывающимися, включают в себя метаданные и файлы данных.
Элемент 14. Администраторы Azure управляют разрешениями для учетной записи ADLS 2-го поколения организации.
Элемент 15. Администраторы Power BI контролируют и отслеживают действия в службе Power BI.

Совет

Мы рекомендуем также ознакомиться с расширенным сценарием подготовки данных. Он основывается на концепциях, представленных в этом сценарии.

Ключевые моменты

Ниже приведены некоторые ключевые моменты, которые необходимо подчеркнуть в сценарии самостоятельной подготовки данных.

Потоки данных

Поток данных состоит из коллекции таблиц (также известных как сущности). Все работы по созданию потока данных выполняются в Power Query Online. Потоки данных можно создавать в нескольких продуктах, включая Power Apps, Dynamics 365 Customer Insights и Power BI.

Примечание.

Нельзя создавать потоки данных в личной рабочей области в службе Power BI.

Поддержка создателей семантической модели

Схема сценария описывает использование потока данных Power BI для предоставления подготовленных данных другим создателям семантической модели самообслуживания.

Примечание.

Семантическая модель использует поток данных в качестве источника данных. Отчет не может подключаться непосредственно к потоку данных.

Ниже приведены некоторые преимущества использования потоков данных Power BI.

  • Создатели семантической модели используют тот же знакомый интерфейс Power Query, который найден в Power BI Desktop.
  • Логика подготовки данных и их преобразования, определяемая потоком данных, может многократно использоваться, так как она централизованна.
  • При внесении изменений логики подготовки данных в поток данных может не потребоваться обновление зависимых моделей данных. Удаление или переименование столбцов или изменение типов данных столбцов потребует обновления зависимых моделей данных.
  • Предварительно подготовленные данные можно легко сделать доступными для создателей семантической модели Power BI. Повторное использование особенно полезно для часто используемых таблиц, особенно таблиц измерений, таких как дата, клиент и продукт.
  • Уровень усилий, необходимых создателям семантической модели, уменьшается, так как работа по подготовке данных была отложена от работы моделирования данных.
  • Меньше создателей семантической модели требует прямого доступа к исходным системам. Исходные системы могут быть сложными для запроса и могут требовать специализированных разрешений доступа.
  • Количество обновлений, выполняемых в исходных системах, уменьшается, поскольку обновления семантической модели подключаются к потокам данных, а не к исходным системам, из которых потоки данных извлекают информацию.
  • Данные потока данных представляют моментальный снимок во времени и способствуют согласованности при использовании многих семантических моделей.
  • Разъединение логики подготовки данных в потоки данных может помочь улучшить успешное обновление семантической модели. Если обновление потока данных завершается ошибкой, семантические модели будут обновляться с помощью последнего успешного обновления потока данных.

Совет

Создавайте таблицы потоков данных, применяя принципы проектирования звёздной схемы. Схема звезды хорошо подходит для создания семантических моделей Power BI. Кроме того, усовершенствуйте выходные данные потока данных, чтобы применить дружественные имена и использовать определенные типы данных. Эти методы способствуют согласованности в зависимых семантических моделях и помогают сократить объем работы, которую необходимо выполнить создателям семантической модели.

Гибкость создания семантической модели

Когда создатель семантической модели подключается к потоку данных в Power BI Desktop, создатель не ограничивается использованием точных выходных данных потока данных. Они по-прежнему имеют полную функциональность Power Query, доступную для них. Эта функция полезна, если требуется дополнительная работа по подготовке данных, или данные требуют дальнейшего преобразования.

Расширенные функции потока данных

Существует множество методов проектирования, шаблонов и рекомендаций для потоков данных, которые могут переводить их из самообслуживания в готовность для предприятия. Потоки данных в рабочей области, у которой тип установлен как Premium для каждого пользователя, Premium возможности или Fabric возможности, могут воспользоваться расширенными функциями.

Внимание

Эта статья относится к Power BI Premium или подпискам на емкость Power BI Premium (P SKU). В настоящее время корпорация Майкрософт объединяет варианты приобретения и упраздняет SKU Power BI Premium по мощности. Новые и существующие клиенты должны рассмотреть возможность приобретения подписок на емкость Fabric (арт. F) вместо подписок другого типа.

Дополнительные сведения см. в разделе "Важные обновления", поступающие в лицензирование Power BI Premium и вопросы и ответы по Power BI Premium.

Примечание.

Одним из дополнительных функций является добавочное обновление потоков данных. Хотя добавочное обновление для семантических моделей является функцией Power BI Pro, добавочное обновление для потоков данных является функцией Premium.

Дополнительные сведения о расширенных функциях потока данных см. в сценарии расширенной подготовки данных.

Обновление потоков данных и семантической модели

Как упоминалось ранее, поток данных является источником данных для семантических моделей. В большинстве случаев используются несколько расписаний обновления данных: один для потока данных и один для каждой семантической модели. Кроме того, можно использовать DirectQuery из семантической модели к потоку данных, которая является функцией Premium (не показана на схеме сценария).

Azure Data Lake Storage 2-го поколения

В Microsoft Azure учетная запись ADLS Gen2 — это конкретный тип учетной записи службы хранилища Azure с включенным иерархическим пространством имен. ADLS 2-го поколения имеет преимущества производительности, управления и безопасности для операционных аналитических рабочих нагрузок. По умолчанию потоки данных Power BI используют внутреннее хранилище, которое является встроенной учетной записью в хранилище данных, управляемой сервисом Power BI. При необходимости организации могут использовать собственное озеро данных, подключившись к учетной записи ADLS Gen2 своей организации.

Ниже приведены некоторые преимущества использования учетной записи хранилища данных организации:

  • Доступ к данным, хранящимся потоком данных Power BI (необязательно), можно получить из озера данных другими пользователями или процессами. Это полезно при повторном использовании потока данных за пределами Power BI. Например, доступ к данным можно получить с помощью Фабрика данных Azure.
  • Данные в озере данных (при необходимости) могут управляться другими инструментами или системами. В этом случае Power BI может использовать данные, а не управлять ими (не изображены на схеме сценария).

Хранилище на уровне клиента

Раздел подключений Azure на портале администрирования содержит параметр для настройки подключения к учетной записи ADLS 2-го поколения. Настройка этого параметра позволяет использовать собственное озеро данных. После настройки можно настроить рабочие области для использования учетной записи озера данных.

Внимание

Установка подключения Azure не означает, что все потоки данных в экземпляре Power BI хранятся в этой учетной записи по умолчанию. Чтобы использовать явную учетную запись хранения (вместо внутреннего хранилища), каждая рабочая область должна быть специально подключена.

Перед созданием потоков данных в рабочей области важно задать подключения к рабочей области Azure. Та же учетная запись хранения Azure используется для резервных копий семантической модели Power BI.

Хранилище на уровне рабочей области

Администратор Power BI может настроить параметр для разрешения разрешений хранилища на уровне рабочей области (в разделе подключений Azure на портале администрирования). Если этот параметр включен, этот параметр позволяет администраторам рабочей области использовать другую учетную запись хранения, отличную от учетной записи хранения, определенной на уровне клиента. Включение этого параметра особенно полезно для децентрализованных бизнес-подразделений, которые управляют собственным озером данных в Azure.

Примечание.

Разрешение на хранение на уровне рабочей области на портале администрирования применяется ко всем рабочим областям в клиенте Power BI.

Формат «Common Data Model»

Данные в учетной записи ADLS Gen2 хранятся в структуре Common Data Model (CDM). Структура CDM — это формат метаданных, который определяет способ хранения самоописающей схемы, а также данных. Структура CDM обеспечивает семантику согласованности в формате, стандартизованном для совместного использования данных в различных приложениях (не показанном на схеме сценария).

Публикация в отдельных рабочих областях

Существует несколько преимуществ публикации потока данных в рабочей области , отдельной от места хранения зависимых семантических моделей. Одним из преимуществ является ясность того, кто отвечает за управление типами контента (если у вас разные люди, обрабатывающие различные обязанности). Другим преимуществом является то, что для каждого типа контента можно назначать определенные разрешения рабочей области.

Примечание.

Нельзя создавать потоки данных в личной рабочей области в службе Power BI.

В сценарии использования расширенной подготовки данных описывается, как настроить несколько рабочих областей для предоставления лучшей гибкости при поддержке корпоративного уровня пользователей самообслуживания.

Установка шлюза

Как правило, локальный шлюз данных требуется для подключения к источникам данных, которые находятся в частной корпоративной сети или виртуальной сети.

Шлюз данных требуется, если:

  • Создание потока данных в Power Query Online, которое подключается к частным данным организации.
  • Обновление потока данных, который подключается к частным данным организации.

Совет

Потоки данных требуют централизованного шлюза данных в стандартном режиме. Шлюз в личном режиме не поддерживается при работе с потоками данных.

Системный надзор

Журнал действий записывает действия пользователя, происходящие в служба Power BI. Администраторы Power BI могут использовать данные журнала действий, собранные для аудита, чтобы помочь им понять шаблоны использования и внедрение. Журнал действий также ценен для поддержки усилий по управлению, аудита безопасности и требований соответствия требованиям. В сценарии самостоятельной подготовки данных особенно полезно отслеживать использование потоков данных.

В следующей статье серии вы узнаете о сценарии использования расширенной подготовки данных.