Моделирование измерений в хранилище Microsoft Fabric
Область применения:✅ конечная точка аналитики SQL и хранилище в Microsoft Fabric
Эта статья является первой в серии о моделировании измерений внутри склада. Он предоставляет практические рекомендации по хранилищу в Microsoft Fabric, который поддерживает множество возможностей T-SQL, таких как создание таблиц и управление данными в таблицах. Таким образом, вы полностью управляете созданием таблиц трехмерной модели и их загрузкой с данными.
Примечание.
В этой статье термин хранилища данных относится к корпоративному хранилищу данных, который обеспечивает комплексную интеграцию критически важных данных в организации. В отличие от этого, автономное хранилище терминов относится к хранилищу Fabric, который является программным обеспечением как реляционная база данных SaaS, которую можно использовать для реализации хранилища данных. Для ясности в этой статье последний упоминается как склад Fabric.
Совет
Если вы неопытны в моделировании измерений, рассмотрите, что эта серия статей является вашим первым шагом. Это не предназначено для полного обсуждения проектирования трехмерного моделирования. Дополнительные сведения см. непосредственно в широко опубликованных материалах, таких как Набор средств хранилища данных: Окончательное руководство по моделированию измерений (3-го выпуска, 2013) Ральфу Кимболу и другим пользователям.
Структура схемы типа "звезда"
Схема "Звезда" — это метод проектирования трехмерного моделирования, принятый реляционными хранилищами данных. При создании хранилища Fabric рекомендуется использовать подход к проектированию. Схема звезды состоит из таблиц фактов и таблиц измерений.
- Таблицы измерений описывают сущности, соответствующие требованиям организации и аналитики. В целом, они представляют вещи, которые вы моделировали. Вещи могут быть продуктами, людьми, местами или любой другой концепцией, включая дату и время. Дополнительные сведения и рекомендации по проектированию см . в таблицах измерений в этой серии.
- Таблицы фактов хранят измерения, связанные с наблюдениями или событиями. Они могут хранить заказы на продажу, фондовые балансы, обменные курсы, температурные показания и многое другое. Таблицы фактов содержат ключи измерения вместе с детализированными значениями, которые можно агрегировать. Дополнительные сведения и рекомендации по проектированию см . в таблицах фактов в этой серии.
Схема звезды оптимизирована для рабочих нагрузок аналитических запросов. По этой причине считается необходимым условием для корпоративных семантических моделей Power BI. Аналитические запросы связаны с фильтрацией, группировкой, сортировкой и суммированием данных. Данные фактов суммируются в контексте фильтров и группирования связанных таблиц измерений.
Причина, по которой она называется схемой звезд, заключается в том, что таблица фактов формирует центр звезды, а связанные таблицы измерений образуют точки звезды.
Схема звезд часто содержит несколько таблиц фактов и, следовательно, несколько звезд.
Хорошо разработанная схема звезды обеспечивает высокопроизводительные (реляционные) запросы из-за меньшего количества соединений таблиц и более высокую вероятность полезных индексов. Кроме того, схема звезды часто требует низкого обслуживания по мере развития структуры хранилища данных. Например, добавление нового столбца в таблицу измерений для поддержки анализа новым атрибутом является относительно простой задачей для выполнения. Как и добавление новых фактов и измерений по мере развития области хранилища данных.
Периодически, возможно, ежедневно таблицы в трехмерной модели обновляются и загружаются процессом извлечения, преобразования и загрузки (ETL). Этот процесс синхронизирует свои данные с исходными системами, которые хранят операционные данные. Дополнительные сведения см. в разделе "Загрузка таблиц " в этой серии.
Моделирование измерений для Power BI
Для корпоративных решений модель измерения в хранилище Fabric является рекомендуемым условием для создания семантической модели Power BI. Не только модель измерения поддерживает семантику модели, но и источник данных для других возможностей, таких как модели машинного обучения.
Однако в конкретных обстоятельствах это может оказаться не лучшим подходом. Например, аналитики самообслуживания, которые нуждаются в свободе и гибкости, чтобы быстро действовать, и без зависимости от ИТ-специалистов, могут создавать семантические модели, которые подключаются непосредственно к исходным данным. В таких случаях теория моделирования измерений по-прежнему актуальна. Эта теория помогает аналитикам создавать интуитивно понятные и эффективные модели, избегая необходимости создавать и загружать трехмерную модель в хранилище данных. Вместо этого можно создать квазимерную модель с помощью Power Query, которая определяет логику для подключения, а также преобразования исходных данных для создания и загрузки таблиц семантической модели. Дополнительные сведения см. в статье "Общие сведения о схеме звезды" и важности для Power BI.
Внимание
При использовании Power Query для определения размерной модели в семантической модели невозможно управлять историческими изменениями, которые могут потребоваться для точного анализа прошлого. Если это требование, необходимо создать хранилище данных и разрешить периодические процессы ETL для отслеживания и надлежащего хранения изменений измерений.
Планирование хранилища данных
Вы должны подходить к созданию хранилища данных и проектированию модели измерения как серьезной и важной задаче. Это связано с тем, что хранилище данных является основным компонентом платформы данных. Он должен сформировать твердый фундамент, который поддерживает аналитику и отчеты , а следовательно, принятие решений для всей организации.
Для этого хранилище данных должно стремиться хранить качество, соответствие и исторически точные данные как единую версию истины. Он должен предоставлять понятные и навигации данные с быстрой производительностью и применять разрешения, чтобы правильные данные могли получать доступ только к правильным людям. Старайтесь разрабатывать хранилище данных для обеспечения устойчивости, позволяя ему адаптироваться к изменению по мере развития требований.
Успешная реализация хранилища данных зависит от хорошего планирования. Сведения о стратегических и тактических рекомендациях и элементах действий, которые приводят к успешному внедрению Fabric и хранилища данных, см. в схеме внедрения Microsoft Fabric.
Совет
Рекомендуется создать корпоративный хранилище данных итеративно. Сначала начните с наиболее важных областей темы, а затем с течением времени, в соответствии с приоритетом и ресурсами, расширяйте хранилище данных с другими областями темы.
Связанный контент
В следующей статье этой серии вы узнаете о рекомендациях и рекомендациях по проектированию таблиц измерений.