Выбор аналитического хранилища данных в Microsoft Fabric

Аналитические хранилища данных важны для хранения, обработки и обслуживания данных для поддержки различных аналитических рабочих нагрузок. Microsoft Fabric — это единая платформа данных, которая предоставляет несколько аналитических хранилищ в виде программного обеспечения как услуги (SaaS). Каждое хранилище данных предоставляет различные возможности для решения различных аналитических требований. Выбор правильного аналитического хранилища данных зависит от таких факторов, как объем данных, тип данных, вычислительный модуль, шаблоны приема и преобразования, потребности запросов, элементы управления доступом и интеграция с OneLake и другими компонентами Microsoft Fabric. В этой статье сравниваются аналитические хранилища данных и приведено руководство по принятию решений, помогающие выбрать оптимальный вариант для распространенных рабочих нагрузок.

Обзор основных аналитических хранилищ данных в Microsoft Fabric

В этой статье рассматриваются базы данных SQL, хранилища данных, озера и центры событий в качестве основных аналитических хранилищ данных в Microsoft Fabric. Microsoft Fabric также содержит другие элементы, которые могут хранить данные, но не рассматриваются как основные аналитические хранилища данных. Например, семантические модели Power BI могут хранить данные, но обычно они используются в качестве семантического слоя. Другие элементы Power BI, такие как потоки данных Power BI 1-го поколения, хранят данные только для решений Power BI. Аналогичным образом Структура Cosmos DB физически хранит данные, но обычно оптимизирована для операционных рабочих нагрузок, а не аналитических рабочих нагрузок.

Базы данных SQL

Базы данных SQL в Microsoft Fabric поддерживают структурированные данные и размещают как транзакционные, так и аналитические рабочие нагрузки. Они идеально подходят для умеренных объемов данных, обычно между несколькими гигабайтами (ГБ) и несколькими терабайтами (ТБ). Базы данных SQL обрабатывают широкий спектр типов данных, от целых чисел, строк и дат до геометрии, географии, JSON и XML.

Реляционный модуль на основе T-SQL поддерживает базы данных SQL. Он обрабатывает высокочастотные обновления и операции, требующие согласованности транзакций и целостности ссылок. Базы данных SQL поддерживают прием пакетных и транзакционных данных. Они также выполняют преобразование данных с помощью хранимых процедур, представлений, определяемых пользователем функций и запросов SQL.

Базы данных SQL предоставляют запросы с низкой задержкой, высокоизбирательный поиск и одновременный извлечение данных. Они применяют детализированные элементы управления доступом на уровне объектов, столбцов и строк. Автоматическое зеркальное отображение OneLake гарантирует интеграцию баз данных SQL с более широкой экосистемой Fabric. Вы можете обрабатывать данные с помощью любого вычислительного модуля Fabric, выполнять запросы между хранилищами и подключаться к семантической модели в Режиме Direct Lake в Power BI.

Хранилища данных

Хранилища данных в Microsoft Fabric поддерживают крупномасштабные аналитические рабочие нагрузки и обрабатывают тома данных, которые варьируются от ГБ до петабайтов (PB). Они используют реляционный механизм, который обеспечивает прием и гибкие преобразования пакетных данных с высокой пропускной способностью, используя хранимые процедуры, представления и другие запросы T-SQL. Хранилища данных превосходят в обработке разнообразных запросов и сложной аналитике на больших наборах данных. Эффективное управление рабочей нагрузкой и всплесковая емкость обеспечивают высокий параллелизм и обширный контроль доступа на уровне объектов, столбцов и строк. Хранилища данных Fabric хранят данные в OneLake и предоставляют их в формате Delta любой вычислительной системе Fabric.

Озерные домики

Lakehouses объединяет функции озер данных и хранилищ данных и предоставляет единую платформу для структурированных и неструктурированных данных. Они могут управлять ПБ данных и поддерживать структурированные, полуструктурированные и неструктурированные типы.

Lakehouses использует гибкий масштабируемый вычислительный модуль Spark, поддерживающий PySpark, Spark SQL, Scala и R для сложных сценариев проектирования и обработки и анализа данных. Они поддерживают как пакетную, так и интеграцию в режиме реального времени для удовлетворения разнообразных аналитических рабочих нагрузок.

Lakehouses расположены в OneLake и хранят данные в формате Delta, чтобы повысить совместное использование и взаимодействие в рамках предприятия. Lakehouses выделяются в получении аналитических данных и могут запрашивать большие объемы данных. Встроенная конечная точка аналитики SQL позволяет запрашивать данные OneLake с помощью T-SQL, как если бы это реляционное хранилище данных при применении детализированных элементов управления доступом на уровне объектов, столбцов и строк. Аналогичным образом встроенная конечная точка хранилища событий разблокирует производительность и широкие возможности языка KQL.

Ивентхаусы

Центры событий в Microsoft Fabric обеспечивают обработку и аналитику событий в режиме реального времени с миллионной скоростью событий в секунду. Они получают структурированные, полуструктурированные и неструктурированные данные для потоковых событий и анализа временных рядов. Язык запросов Kusto (KQL) и подмножество T-SQL поддерживают аналитику и обработку событий в реальном времени в хранилищах событий. Шаблоны приема в режиме реального времени оптимизированы для потоков с высокой скоростью, а пакетный прием также поддерживается. Политики обновления KQL трансформируют данные и обеспечивают аналитические возможности в режиме реального времени.

Центры событий масштабируются эффективно, чтобы поддерживать параллельные шаблоны запросов и обеспечивать гранулярное управление доступом на уровне объектов, столбцов и строк. Базы данных KQL в хранилищах событий поддерживают детализированные элементы управления доступом, чтобы обеспечить доступ только авторизованным пользователям к данным. Вы можете настроить центры событий для автоматической публикации данных в OneLake для использования другими интерфейсами Fabric. Эта конфигурация добавляет задержку, но обеспечивает более широкую интеграцию в экосистеме Fabric.

Сравнение аналитических хранилищ данных

В следующей таблице приведено сравнение ключевых функций аналитических хранилищ данных в Microsoft Fabric. В этой таблице символ ✅ указывает, что возможность поддерживается легко и рекомендуется. Символ ⚠️ указывает, что функция поддерживается с некоторыми условиями или ограничениями. Символ ❌ указывает, что возможность обычно не поддерживается или не рекомендуется.

Нет общепринятого определения терминов небольшие данные и большие данные, и определения этих терминов продолжают меняться с течением времени вместе с развивающимися возможностями платформ данных. В этом руководстве по принятию решений малые объемы данных относятся к общим объемам данных, варьирующимся от мегабайт (МБ) до сотен гигабайт (ГБ), при этом отдельные таблицы могут достигать размера до сотни гигабайт и до десятки гигабайт данных загружается в день. Термин больших данных относится к общему объему данных, измеренным в десятках ТБ до ТСБ, отдельным таблицам, которые имеют размер нескольких ТБ, и скорости приема данных, превышающие сотни ГБ в день. Объемы данных, которые падают между небольшими значениями данных и пороговых значений больших данных , можно описать как умеренные или средние .

Capability Сведения о возможностях SQL database хранилище данных. Lakehouse Eventhouse
Объемы данных
Небольшой 1 1 1
Умеренный
Большой
Поддерживаемые типы данных
Структурированный
частично структурированные ⚠️ ⚠️
Неструктурированный ❌ 
Основной вычислительный модуль
Операции записи T-SQL T-SQL Spark (PySpark, Spark SQL, Scala, R), Python KQL
Операции чтения T-SQL T-SQL T-SQL2, Spark (PySpark, Spark SQL, Scala, R), Python, KQL3 KQL, T-SQL2
Шаблоны приема данных 
Типичная частота приема Выше среднего Умеренный Выше среднего High
Рекомендуемый размер пакета Малый средний Среднебольшой Малый большой Малый большой
Эффективность дополнений High High High High
Эффективность обновлений и удалений High Умеренный Умеренный Low
Средства приема данных в Microsoft Fabric 
Трубопроводы
Потоки данных 2-го поколения
Сочетания клавиш ⚠️
Потоки событий ❌  ❌ 
Соединители Spark ⚠️ ⚠️ ⚠️
Команды T-SQL
Команды KQL
Возможности преобразования данных 
Различные типы поддерживаемых структурированных данных High Умеренный Умеренный Умеренный
Анализ полуструктурированных данных ⚠️ ⚠️
Анализ неструктурированных данных ❌  ⚠️
Поддержка SQL (любой диалект) ⚠️
Область поверхности SQL (любой диалект) Обширный Умеренный Обширный Ограниченная версия 2
Область поверхности T-SQL Обширный Умеренный Ограниченная версия 2 Ограниченная версия 2
Поддержка Python ⚠️
Поддержка Spark (PySpark, Spark SQL, Scala, R)
Поддержка KQL ⚠️3 
Расширяемость преобразования4 Умеренный Умеренный Крайне высоко High
Поддержка однотабличных транзакций
Поддержка транзакций с несколькими таблицами ⚠️
Шаблоны извлечения данных
Оптимизировано для выборочных запросов ❌ 
Оптимизировано для больших сканирований и агрегаций ⚠️
Идеальная среда выполнения запросов5 Миллисекунда+ Десятки миллисекунда+ Десятки миллисекунда+ Миллисекунда+
Реалистичная среда выполнения запросов6 Subsecond+ Секунды+ Секунды+ Subsecond+
Пиковая конкуренция запросов7 High High High High
Пиковая пропускная способность запросов8 Крайне высоко High High Крайне высоко
Гранулированные элементы управления доступом
Безопасность на уровне объекта Да Да Да Да9
Безопасность на уровне столбцов Да Да Да10 нет
Безопасность на уровне строк Да Да Да10 Да
Интеграция OneLake
Данные, доступные в OneLake Да11 Да Да Да12
Данные, хранящиеся в открытом формате (Delta) Да11 Да Да Да12
Может быть источником ярлыков Да11 Да Да Да12
Доступ к данным с помощью сочетаний клавиш нет Да13 Да Да
Запросы между хранилищем и lakehouse Да14 Да Да Да12
Управление вычислительными ресурсами
Возможность настраивать размер и конфигурацию вычислительных ресурсов Low Low High Low
Набор навыков администрирования, необходимый для управления вычислительными ресурсами или настройки Low Low Выше среднего Low

Примечания:

1 Хранилища данных, озера данных и хранилища событий не имеют минимальных требований к объему данных и обеспечивают эквивалентную функциональность для всех количеств данных. Однако некоторые преимущества, предоставляемые этими высокомасштабируемыми системами, могут быть не полностью реализованы с небольшими объемами данных.

2 Lakehouses и eventhouses поддерживают подмножество поверхности T-SQL и ограничены только чтением операций.

3 Lakehouses предоставляют конечную точку eventhouse, которая поддерживает операции KQL только для чтения.

4 — это возможность расширения преобразований данных с помощью определяемых пользователем функций, методов, ссылок на внешние модули или библиотеки и другие подходы.

5 Представляет нижние границы сред выполнения для легких запросов, использующих небольшие объемы данных из теплого кэша, исключая задержку сети или время, необходимое для отображения результатов в клиентском приложении. На время выполнения запросов влияют многочисленные факторы. Результаты могут отличаться в зависимости от конкретной рабочей нагрузки.

6 Представляет нижние границы времени отклика на смешанные запросы, использующие умеренные объемы данных, исключая задержку сети или время, необходимое для отрисовки результатов в клиентском приложении. На время выполнения запросов влияют многочисленные факторы. Результаты могут отличаться в зависимости от конкретной рабочей нагрузки.

7 Максимальное количество запросов, которые могут выполняться одновременно, по сравнению с другими аналитическими хранилищами данных.

8 Максимальное количество запросов, которые может быть выполнено в течение заданного периода времени по сравнению с другими аналитическими хранилищами данных. Параллелизм, длительность запроса и другие факторы влияют на количество запросов.

9 Частичное обеспечение безопасности на уровне объектов реализуется с помощью политик доступа к ограниченному представлению.

Для конечной точки аналитики SQL доступны 10 детальных элементов управления доступом.

Интеграция OneLake 11 реализуется с помощью автоматического зеркального отображения базы данных.

12 С помощью автоматической синхронизации из базы данных KQL в OneLake.

13 Косвенно, через межбазовые запросы к озерам.

14 Доступны для реплицированных данных, доступ к которым осуществляется через конечную точку SQL-аналитики.

Дерево принятия решений для выбора аналитического хранилища в Microsoft Fabric

В следующем руководстве по принятию решений вы можете выбрать подходящее хранилище данных для каждого варианта использования или продукта данных. Для поддержки различных рабочих нагрузок в хранилище данных может потребоваться несколько аналитических хранилищ данных.

Схема, на котором показано дерево принятия решений, описывающее выбор подходящего хранилища данных в Microsoft Fabric для различных сценариев.

Схема дерева принятия решений для выбора аналитического хранилища данных в Microsoft Fabric. На схеме начинается с вопроса об объеме данных, например, небольшие данные, умеренные данные или большие данные. Затем вы узнаете о типе данных, включая структурированные, полуструктурированные или неструктурированные данные. Далее он рассматривает шаблон приема, который может быть пакетным или поточном режиме, а также требования к запросу, такие как выборочные запросы, масштабные сканирования, агрегации или аналитика в режиме реального времени. На основе ответов дерево направляет вас в рекомендуемое хранилище данных: база данных SQL для небольших и умеренных объемов данных и согласованности транзакций, хранилище данных для крупномасштабных аналитических рабочих нагрузок, lakehouse для различных типов данных и инженерных рабочих нагрузок или eventhouse для обработки событий в режиме реального времени. На схеме показано, как различные характеристики рабочей нагрузки сопоставляют с наиболее подходящим аналитическим хранилищем данных в Microsoft Fabric.

Conclusion

Базы данных SQL, хранилища данных, озера и центры событий позволяют Microsoft Fabric обрабатывать различные аналитические рабочие нагрузки. Каждое из этих аналитических хранилищ данных обеспечивает уникальное сочетание возможностей и ограничений, которые должны соответствовать рабочей нагрузке для достижения оптимальных результатов. Некоторые варианты использования можно устранить с помощью одного аналитического хранилища данных. Однако конкретные сложные варианты использования, связанные с смешанными рабочими нагрузками, лучше всего обслуживаются с помощью нескольких дополнительных аналитических хранилищ данных, которые легко доступны в Microsoft Fabric в качестве единой платформы данных.

Соавторы

Корпорация Майкрософт поддерживает эту статью. Следующие авторы написали эту статью.

Основной автор:

Другие участники:

Чтобы просмотреть неопубликованные профили LinkedIn, войдите в LinkedIn.

Дальнейшие шаги