Выбор аналитического хранилища данных в Microsoft Fabric

Аналитические хранилища данных важны для хранения, обработки и обслуживания данных для поддержки различных аналитических рабочих нагрузок. Microsoft Fabric — это единая платформа данных, которая предоставляет несколько аналитических хранилищ в виде программного обеспечения как услуги (SaaS). Каждое хранилище данных предоставляет различные возможности для решения различных аналитических требований. Выбор правильного аналитического хранилища данных зависит от таких факторов, как объем данных, тип данных, вычислительный модуль, шаблоны приема и преобразования, потребности запросов, элементы управления доступом и интеграция с OneLake и другими компонентами Microsoft Fabric. В этой статье сравниваются аналитические хранилища данных и приведено руководство по принятию решений, помогающие выбрать оптимальный вариант для распространенных рабочих нагрузок.

Обзор основных аналитических хранилищ данных в Microsoft Fabric

В этой статье рассматриваются базы данных SQL, хранилища данных, озера и центры событий в качестве основных аналитических хранилищ данных в Microsoft Fabric. Microsoft Fabric также содержит другие элементы, которые могут хранить данные, но не рассматриваются как основные аналитические хранилища данных. Например, семантические модели Power BI могут хранить данные, но обычно они используются в качестве семантического слоя. Другие элементы Power BI, такие как потоки данных Power BI 1-го поколения, хранят данные только для решений Power BI. Аналогичным образом Структура Cosmos DB физически хранит данные, но обычно оптимизирована для операционных рабочих нагрузок, а не аналитических рабочих нагрузок.

Базы данных SQL

Базы данных SQL в Microsoft Fabric поддерживают структурированные данные и размещают как транзакционные, так и аналитические рабочие нагрузки. Они идеально подходят для умеренных объемов данных, обычно между несколькими гигабайтами (ГБ) и несколькими терабайтами (ТБ). Базы данных SQL обрабатывают широкий спектр типов данных, от целых чисел, строк и дат до геометрии, географии, JSON и XML.

Реляционный модуль на основе T-SQL поддерживает базы данных SQL. Он обрабатывает высокочастотные обновления и операции, требующие согласованности транзакций и целостности ссылок. Базы данных SQL поддерживают прием пакетных и транзакционных данных. Они также выполняют преобразование данных с помощью хранимых процедур, представлений, определяемых пользователем функций и запросов SQL.

Базы данных SQL предоставляют запросы с низкой задержкой, высокоизбирательный поиск и одновременный извлечение данных. Они применяют детализированные элементы управления доступом на уровне объектов, столбцов и строк. Автоматическое зеркальное отображение OneLake гарантирует интеграцию баз данных SQL с более широкой экосистемой Fabric. Вы можете обрабатывать данные с помощью любого вычислительного модуля Fabric, выполнять запросы между хранилищами и подключаться к семантической модели в Режиме Direct Lake в Power BI.

Хранилища данных

Хранилища данных в Microsoft Fabric поддерживают крупномасштабные аналитические рабочие нагрузки и обрабатывают тома данных, которые варьируются от ГБ до петабайтов (PB). Они используют реляционный механизм, который обеспечивает прием и гибкие преобразования пакетных данных с высокой пропускной способностью, используя хранимые процедуры, представления и другие запросы T-SQL. Хранилища данных превосходят в обработке разнообразных запросов и сложной аналитике на больших наборах данных. Эффективное управление рабочей нагрузкой и всплесковая емкость обеспечивают высокий параллелизм и обширный контроль доступа на уровне объектов, столбцов и строк. Хранилища данных Fabric хранят данные в OneLake и предоставляют их в формате Delta любой вычислительной системе Fabric.

Озерные домики

Lakehouses объединяет функции озер данных и хранилищ данных и предоставляет единую платформу для структурированных и неструктурированных данных. Они могут управлять ПБ данных и поддерживать структурированные, полуструктурированные и неструктурированные типы.

Lakehouses использует гибкий масштабируемый вычислительный модуль Spark, поддерживающий PySpark, Spark SQL, Scala и R для сложных сценариев проектирования и обработки и анализа данных. Они поддерживают как пакетную, так и интеграцию в режиме реального времени для удовлетворения разнообразных аналитических рабочих нагрузок.

Lakehouses расположены в OneLake и хранят данные в формате Delta, чтобы повысить совместное использование и взаимодействие в рамках предприятия. Lakehouses выделяются в получении аналитических данных и могут запрашивать большие объемы данных. Встроенная конечная точка аналитики SQL позволяет запрашивать данные OneLake с помощью T-SQL, как если бы это реляционное хранилище данных при применении детализированных элементов управления доступом на уровне объектов, столбцов и строк. Аналогичным образом встроенная конечная точка хранилища событий разблокирует производительность и широкие возможности языка KQL.

Ивентхаусы

Центры событий в Microsoft Fabric обеспечивают обработку и аналитику событий в режиме реального времени с миллионной скоростью событий в секунду. Они получают структурированные, полуструктурированные и неструктурированные данные для потоковых событий и анализа временных рядов. Язык запросов Kusto (KQL) и подмножество T-SQL поддерживают аналитику и обработку событий в реальном времени в хранилищах событий. Шаблоны приема в режиме реального времени оптимизированы для потоков с высокой скоростью, а пакетный прием также поддерживается. Политики обновления KQL трансформируют данные и обеспечивают аналитические возможности в режиме реального времени.

Центры событий масштабируются эффективно, чтобы поддерживать параллельные шаблоны запросов и обеспечивать гранулярное управление доступом на уровне объектов, столбцов и строк. Базы данных KQL в хранилищах событий поддерживают детализированные элементы управления доступом, чтобы обеспечить доступ только авторизованным пользователям к данным. Вы можете настроить центры событий для автоматической публикации данных в OneLake для использования другими интерфейсами Fabric. Эта конфигурация добавляет задержку, но обеспечивает более широкую интеграцию в экосистеме Fabric.

Сравнение аналитических хранилищ данных

В следующей таблице приведено сравнение ключевых функций аналитических хранилищ данных в Microsoft Fabric. В этой таблице символ ✅ указывает, что возможность поддерживается легко и рекомендуется. Символ ⚠️ указывает, что функция поддерживается с некоторыми условиями или ограничениями. Символ ❌ указывает, что возможность обычно не поддерживается или не рекомендуется.

Нет общепринятого определения терминов небольшие данные и большие данные, и определения этих терминов продолжают меняться с течением времени вместе с развивающимися возможностями платформ данных. В этом руководстве по принятию решений малые объемы данных относятся к общим объемам данных, варьирующимся от мегабайт (МБ) до сотен гигабайт (ГБ), при этом отдельные таблицы могут достигать размера до сотни гигабайт и до десятки гигабайт данных загружается в день. Термин больших данных относится к общему объему данных, измеренным в десятках ТБ до ТСБ, отдельным таблицам, которые имеют размер нескольких ТБ, и скорости приема данных, превышающие сотни ГБ в день. Объемы данных, которые падают между небольшими значениями данных и пороговых значений больших данных , можно описать как умеренные или средние .

Capability	Сведения о возможностях	SQL database	хранилище данных.	Lakehouse	Eventhouse
Объемы данных
	Небольшой	✅	✅ ¹	✅ ¹	✅ ¹
	Умеренный	✅	✅	✅	✅
	Большой	❌	✅	✅	✅
Поддерживаемые типы данных
	Структурированный	✅	✅	✅	✅
	частично структурированные	⚠️	⚠️	✅	✅
	Неструктурированный	❌	❌	✅	✅
Основной вычислительный модуль
	Операции записи	T-SQL	T-SQL	Spark (PySpark, Spark SQL, Scala, R), Python	KQL
	Операции чтения	T-SQL	T-SQL	T-SQL², Spark (PySpark, Spark SQL, Scala, R), Python, KQL³	KQL, T-SQL²
Шаблоны приема данных
	Типичная частота приема	Выше среднего	Умеренный	Выше среднего	High
	Рекомендуемый размер пакета	Малый средний	Среднебольшой	Малый большой	Малый большой
	Эффективность дополнений	High	High	High	High
	Эффективность обновлений и удалений	High	Умеренный	Умеренный	Low
Средства приема данных в Microsoft Fabric
	Трубопроводы	✅	✅	✅	✅
	Потоки данных 2-го поколения	✅	✅	✅	✅
	Сочетания клавиш	❌	⚠️	✅	✅
	Потоки событий	❌	❌	✅	✅
	Соединители Spark	⚠️	⚠️	✅	⚠️
	Команды T-SQL	✅	✅	❌	❌
	Команды KQL	❌	❌	❌	✅
Возможности преобразования данных
	Различные типы поддерживаемых структурированных данных	High	Умеренный	Умеренный	Умеренный
	Анализ полуструктурированных данных	⚠️	⚠️	✅	✅
	Анализ неструктурированных данных	❌	❌	✅	⚠️
	Поддержка SQL (любой диалект)	✅	✅	✅	⚠️
	Область поверхности SQL (любой диалект)	Обширный	Умеренный	Обширный	^{Ограниченная версия 2}
	Область поверхности T-SQL	Обширный	Умеренный	^{Ограниченная версия 2}	^{Ограниченная версия 2}
	Поддержка Python	❌	❌	✅	⚠️
	Поддержка Spark (PySpark, Spark SQL, Scala, R)	❌	❌	✅	❌
	Поддержка KQL	❌	❌	⚠️³	✅
	Расширяемость преобразования⁴	Умеренный	Умеренный	Крайне высоко	High
	Поддержка однотабличных транзакций	✅	✅	✅	✅
	Поддержка транзакций с несколькими таблицами	✅	✅	❌	⚠️
Шаблоны извлечения данных
	Оптимизировано для выборочных запросов	✅	❌	❌	✅
	Оптимизировано для больших сканирований и агрегаций	⚠️	✅	✅	✅
	Идеальная среда выполнения запросов⁵	Миллисекунда+	Десятки миллисекунда+	Десятки миллисекунда+	Миллисекунда+
	Реалистичная среда выполнения запросов⁶	Subsecond+	Секунды+	Секунды+	Subsecond+
	Пиковая конкуренция запросов⁷	High	High	High	High
	Пиковая пропускная способность запросов⁸	Крайне высоко	High	High	Крайне высоко
Гранулированные элементы управления доступом
	Безопасность на уровне объекта	Да	Да	Да	Да⁹
	Безопасность на уровне столбцов	Да	Да	Да¹⁰	нет
	Безопасность на уровне строк	Да	Да	Да¹⁰	Да
Интеграция OneLake
	Данные, доступные в OneLake	Да¹¹	Да	Да	Да¹²
	Данные, хранящиеся в открытом формате (Delta)	Да¹¹	Да	Да	Да¹²
	Может быть источником ярлыков	Да¹¹	Да	Да	Да¹²
	Доступ к данным с помощью сочетаний клавиш	нет	Да¹³	Да	Да
	Запросы между хранилищем и lakehouse	Да¹⁴	Да	Да	Да¹²
Управление вычислительными ресурсами
	Возможность настраивать размер и конфигурацию вычислительных ресурсов	Low	Low	High	Low
	Набор навыков администрирования, необходимый для управления вычислительными ресурсами или настройки	Low	Low	Выше среднего	Low

Примечания:

¹ Хранилища данных, озера данных и хранилища событий не имеют минимальных требований к объему данных и обеспечивают эквивалентную функциональность для всех количеств данных. Однако некоторые преимущества, предоставляемые этими высокомасштабируемыми системами, могут быть не полностью реализованы с небольшими объемами данных.

² Lakehouses и eventhouses поддерживают подмножество поверхности T-SQL и ограничены только чтением операций.

³ Lakehouses предоставляют конечную точку eventhouse, которая поддерживает операции KQL только для чтения.

⁴ — это возможность расширения преобразований данных с помощью определяемых пользователем функций, методов, ссылок на внешние модули или библиотеки и другие подходы.

⁵ Представляет нижние границы сред выполнения для легких запросов, использующих небольшие объемы данных из теплого кэша, исключая задержку сети или время, необходимое для отображения результатов в клиентском приложении. На время выполнения запросов влияют многочисленные факторы. Результаты могут отличаться в зависимости от конкретной рабочей нагрузки.

⁶ Представляет нижние границы времени отклика на смешанные запросы, использующие умеренные объемы данных, исключая задержку сети или время, необходимое для отрисовки результатов в клиентском приложении. На время выполнения запросов влияют многочисленные факторы. Результаты могут отличаться в зависимости от конкретной рабочей нагрузки.

⁷ Максимальное количество запросов, которые могут выполняться одновременно, по сравнению с другими аналитическими хранилищами данных.

⁸ Максимальное количество запросов, которые может быть выполнено в течение заданного периода времени по сравнению с другими аналитическими хранилищами данных. Параллелизм, длительность запроса и другие факторы влияют на количество запросов.

⁹ Частичное обеспечение безопасности на уровне объектов реализуется с помощью политик доступа к ограниченному представлению.

Для конечной точки аналитики SQL доступны ¹⁰ детальных элементов управления доступом.

Интеграция OneLake ¹¹ реализуется с помощью автоматического зеркального отображения базы данных.

¹² С помощью автоматической синхронизации из базы данных KQL в OneLake.

¹³ Косвенно, через межбазовые запросы к озерам.

¹⁴ Доступны для реплицированных данных, доступ к которым осуществляется через конечную точку SQL-аналитики.

Дерево принятия решений для выбора аналитического хранилища в Microsoft Fabric

В следующем руководстве по принятию решений вы можете выбрать подходящее хранилище данных для каждого варианта использования или продукта данных. Для поддержки различных рабочих нагрузок в хранилище данных может потребоваться несколько аналитических хранилищ данных.

Conclusion

Базы данных SQL, хранилища данных, озера и центры событий позволяют Microsoft Fabric обрабатывать различные аналитические рабочие нагрузки. Каждое из этих аналитических хранилищ данных обеспечивает уникальное сочетание возможностей и ограничений, которые должны соответствовать рабочей нагрузке для достижения оптимальных результатов. Некоторые варианты использования можно устранить с помощью одного аналитического хранилища данных. Однако конкретные сложные варианты использования, связанные с смешанными рабочими нагрузками, лучше всего обслуживаются с помощью нескольких дополнительных аналитических хранилищ данных, которые легко доступны в Microsoft Fabric в качестве единой платформы данных.

Соавторы

Корпорация Майкрософт поддерживает эту статью. Следующие авторы написали эту статью.

Основной автор:

Слава Трофимов | Главный инженер решений

Другие участники:

Панос Антонопулос | Выдающийся инженер
Майл Коул | Главный диспетчер программ
Анна Хоффман | Диспетчер продуктов основной группы
Джоанна Podgoetsky | Главный менеджер PM
Шейн Риск | Главный диспетчер PM
Брэд Шахт | Главный диспетчер программ
Марсело Силва | Старший инженер по обработке и анализу данных

Чтобы просмотреть неопубликованные профили LinkedIn, войдите в LinkedIn.

Дальнейшие шаги

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-10-15