Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Аналитические хранилища данных важны для хранения, обработки и обслуживания данных для поддержки различных аналитических рабочих нагрузок. Microsoft Fabric — это единая платформа данных, которая предоставляет несколько аналитических хранилищ в виде программного обеспечения как услуги (SaaS). Каждое хранилище данных предоставляет различные возможности для решения различных аналитических требований. Выбор правильного аналитического хранилища данных зависит от таких факторов, как объем данных, тип данных, вычислительный модуль, шаблоны приема и преобразования, потребности запросов, элементы управления доступом и интеграция с OneLake и другими компонентами Microsoft Fabric. В этой статье сравниваются аналитические хранилища данных и приведено руководство по принятию решений, помогающие выбрать оптимальный вариант для распространенных рабочих нагрузок.
Обзор основных аналитических хранилищ данных в Microsoft Fabric
В этой статье рассматриваются базы данных SQL, хранилища данных, озера и центры событий в качестве основных аналитических хранилищ данных в Microsoft Fabric. Microsoft Fabric также содержит другие элементы, которые могут хранить данные, но не рассматриваются как основные аналитические хранилища данных. Например, семантические модели Power BI могут хранить данные, но обычно они используются в качестве семантического слоя. Другие элементы Power BI, такие как потоки данных Power BI 1-го поколения, хранят данные только для решений Power BI. Аналогичным образом Структура Cosmos DB физически хранит данные, но обычно оптимизирована для операционных рабочих нагрузок, а не аналитических рабочих нагрузок.
Базы данных SQL
Базы данных SQL в Microsoft Fabric поддерживают структурированные данные и размещают как транзакционные, так и аналитические рабочие нагрузки. Они идеально подходят для умеренных объемов данных, обычно между несколькими гигабайтами (ГБ) и несколькими терабайтами (ТБ). Базы данных SQL обрабатывают широкий спектр типов данных, от целых чисел, строк и дат до геометрии, географии, JSON и XML.
Реляционный модуль на основе T-SQL поддерживает базы данных SQL. Он обрабатывает высокочастотные обновления и операции, требующие согласованности транзакций и целостности ссылок. Базы данных SQL поддерживают прием пакетных и транзакционных данных. Они также выполняют преобразование данных с помощью хранимых процедур, представлений, определяемых пользователем функций и запросов SQL.
Базы данных SQL предоставляют запросы с низкой задержкой, высокоизбирательный поиск и одновременный извлечение данных. Они применяют детализированные элементы управления доступом на уровне объектов, столбцов и строк. Автоматическое зеркальное отображение OneLake гарантирует интеграцию баз данных SQL с более широкой экосистемой Fabric. Вы можете обрабатывать данные с помощью любого вычислительного модуля Fabric, выполнять запросы между хранилищами и подключаться к семантической модели в Режиме Direct Lake в Power BI.
Хранилища данных
Хранилища данных в Microsoft Fabric поддерживают крупномасштабные аналитические рабочие нагрузки и обрабатывают тома данных, которые варьируются от ГБ до петабайтов (PB). Они используют реляционный механизм, который обеспечивает прием и гибкие преобразования пакетных данных с высокой пропускной способностью, используя хранимые процедуры, представления и другие запросы T-SQL. Хранилища данных превосходят в обработке разнообразных запросов и сложной аналитике на больших наборах данных. Эффективное управление рабочей нагрузкой и всплесковая емкость обеспечивают высокий параллелизм и обширный контроль доступа на уровне объектов, столбцов и строк. Хранилища данных Fabric хранят данные в OneLake и предоставляют их в формате Delta любой вычислительной системе Fabric.
Озерные домики
Lakehouses объединяет функции озер данных и хранилищ данных и предоставляет единую платформу для структурированных и неструктурированных данных. Они могут управлять ПБ данных и поддерживать структурированные, полуструктурированные и неструктурированные типы.
Lakehouses использует гибкий масштабируемый вычислительный модуль Spark, поддерживающий PySpark, Spark SQL, Scala и R для сложных сценариев проектирования и обработки и анализа данных. Они поддерживают как пакетную, так и интеграцию в режиме реального времени для удовлетворения разнообразных аналитических рабочих нагрузок.
Lakehouses расположены в OneLake и хранят данные в формате Delta, чтобы повысить совместное использование и взаимодействие в рамках предприятия. Lakehouses выделяются в получении аналитических данных и могут запрашивать большие объемы данных. Встроенная конечная точка аналитики SQL позволяет запрашивать данные OneLake с помощью T-SQL, как если бы это реляционное хранилище данных при применении детализированных элементов управления доступом на уровне объектов, столбцов и строк. Аналогичным образом встроенная конечная точка хранилища событий разблокирует производительность и широкие возможности языка KQL.
Ивентхаусы
Центры событий в Microsoft Fabric обеспечивают обработку и аналитику событий в режиме реального времени с миллионной скоростью событий в секунду. Они получают структурированные, полуструктурированные и неструктурированные данные для потоковых событий и анализа временных рядов. Язык запросов Kusto (KQL) и подмножество T-SQL поддерживают аналитику и обработку событий в реальном времени в хранилищах событий. Шаблоны приема в режиме реального времени оптимизированы для потоков с высокой скоростью, а пакетный прием также поддерживается. Политики обновления KQL трансформируют данные и обеспечивают аналитические возможности в режиме реального времени.
Центры событий масштабируются эффективно, чтобы поддерживать параллельные шаблоны запросов и обеспечивать гранулярное управление доступом на уровне объектов, столбцов и строк. Базы данных KQL в хранилищах событий поддерживают детализированные элементы управления доступом, чтобы обеспечить доступ только авторизованным пользователям к данным. Вы можете настроить центры событий для автоматической публикации данных в OneLake для использования другими интерфейсами Fabric. Эта конфигурация добавляет задержку, но обеспечивает более широкую интеграцию в экосистеме Fabric.
Сравнение аналитических хранилищ данных
В следующей таблице приведено сравнение ключевых функций аналитических хранилищ данных в Microsoft Fabric. В этой таблице символ ✅ указывает, что возможность поддерживается легко и рекомендуется. Символ ⚠️ указывает, что функция поддерживается с некоторыми условиями или ограничениями. Символ ❌ указывает, что возможность обычно не поддерживается или не рекомендуется.
Нет общепринятого определения терминов небольшие данные и большие данные, и определения этих терминов продолжают меняться с течением времени вместе с развивающимися возможностями платформ данных. В этом руководстве по принятию решений малые объемы данных относятся к общим объемам данных, варьирующимся от мегабайт (МБ) до сотен гигабайт (ГБ), при этом отдельные таблицы могут достигать размера до сотни гигабайт и до десятки гигабайт данных загружается в день. Термин больших данных относится к общему объему данных, измеренным в десятках ТБ до ТСБ, отдельным таблицам, которые имеют размер нескольких ТБ, и скорости приема данных, превышающие сотни ГБ в день. Объемы данных, которые падают между небольшими значениями данных и пороговых значений больших данных , можно описать как умеренные или средние .
| Capability | Сведения о возможностях | SQL database | хранилище данных. | Lakehouse | Eventhouse |
|---|---|---|---|---|---|
| Объемы данных | |||||
| Небольшой | ✅ | ✅ 1 | ✅ 1 | ✅ 1 | |
| Умеренный | ✅ | ✅ | ✅ | ✅ | |
| Большой | ❌ | ✅ | ✅ | ✅ | |
| Поддерживаемые типы данных | |||||
| Структурированный | ✅ | ✅ | ✅ | ✅ | |
| частично структурированные | ⚠️ | ⚠️ | ✅ | ✅ | |
| Неструктурированный | ❌ | ❌ | ✅ | ✅ | |
| Основной вычислительный модуль | |||||
| Операции записи | T-SQL | T-SQL | Spark (PySpark, Spark SQL, Scala, R), Python | KQL | |
| Операции чтения | T-SQL | T-SQL | T-SQL2, Spark (PySpark, Spark SQL, Scala, R), Python, KQL3 | KQL, T-SQL2 | |
| Шаблоны приема данных | |||||
| Типичная частота приема | Выше среднего | Умеренный | Выше среднего | High | |
| Рекомендуемый размер пакета | Малый средний | Среднебольшой | Малый большой | Малый большой | |
| Эффективность дополнений | High | High | High | High | |
| Эффективность обновлений и удалений | High | Умеренный | Умеренный | Low | |
| Средства приема данных в Microsoft Fabric | |||||
| Трубопроводы | ✅ | ✅ | ✅ | ✅ | |
| Потоки данных 2-го поколения | ✅ | ✅ | ✅ | ✅ | |
| Сочетания клавиш | ❌ | ⚠️ | ✅ | ✅ | |
| Потоки событий | ❌ | ❌ | ✅ | ✅ | |
| Соединители Spark | ⚠️ | ⚠️ | ✅ | ⚠️ | |
| Команды T-SQL | ✅ | ✅ | ❌ | ❌ | |
| Команды KQL | ❌ | ❌ | ❌ | ✅ | |
| Возможности преобразования данных | |||||
| Различные типы поддерживаемых структурированных данных | High | Умеренный | Умеренный | Умеренный | |
| Анализ полуструктурированных данных | ⚠️ | ⚠️ | ✅ | ✅ | |
| Анализ неструктурированных данных | ❌ | ❌ | ✅ | ⚠️ | |
| Поддержка SQL (любой диалект) | ✅ | ✅ | ✅ | ⚠️ | |
| Область поверхности SQL (любой диалект) | Обширный | Умеренный | Обширный | Ограниченная версия 2 | |
| Область поверхности T-SQL | Обширный | Умеренный | Ограниченная версия 2 | Ограниченная версия 2 | |
| Поддержка Python | ❌ | ❌ | ✅ | ⚠️ | |
| Поддержка Spark (PySpark, Spark SQL, Scala, R) | ❌ | ❌ | ✅ | ❌ | |
| Поддержка KQL | ❌ | ❌ | ⚠️3 | ✅ | |
| Расширяемость преобразования4 | Умеренный | Умеренный | Крайне высоко | High | |
| Поддержка однотабличных транзакций | ✅ | ✅ | ✅ | ✅ | |
| Поддержка транзакций с несколькими таблицами | ✅ | ✅ | ❌ | ⚠️ | |
| Шаблоны извлечения данных | |||||
| Оптимизировано для выборочных запросов | ✅ | ❌ | ❌ | ✅ | |
| Оптимизировано для больших сканирований и агрегаций | ⚠️ | ✅ | ✅ | ✅ | |
| Идеальная среда выполнения запросов5 | Миллисекунда+ | Десятки миллисекунда+ | Десятки миллисекунда+ | Миллисекунда+ | |
| Реалистичная среда выполнения запросов6 | Subsecond+ | Секунды+ | Секунды+ | Subsecond+ | |
| Пиковая конкуренция запросов7 | High | High | High | High | |
| Пиковая пропускная способность запросов8 | Крайне высоко | High | High | Крайне высоко | |
| Гранулированные элементы управления доступом | |||||
| Безопасность на уровне объекта | Да | Да | Да | Да9 | |
| Безопасность на уровне столбцов | Да | Да | Да10 | нет | |
| Безопасность на уровне строк | Да | Да | Да10 | Да | |
| Интеграция OneLake | |||||
| Данные, доступные в OneLake | Да11 | Да | Да | Да12 | |
| Данные, хранящиеся в открытом формате (Delta) | Да11 | Да | Да | Да12 | |
| Может быть источником ярлыков | Да11 | Да | Да | Да12 | |
| Доступ к данным с помощью сочетаний клавиш | нет | Да13 | Да | Да | |
| Запросы между хранилищем и lakehouse | Да14 | Да | Да | Да12 | |
| Управление вычислительными ресурсами | |||||
| Возможность настраивать размер и конфигурацию вычислительных ресурсов | Low | Low | High | Low | |
| Набор навыков администрирования, необходимый для управления вычислительными ресурсами или настройки | Low | Low | Выше среднего | Low |
Примечания:
1 Хранилища данных, озера данных и хранилища событий не имеют минимальных требований к объему данных и обеспечивают эквивалентную функциональность для всех количеств данных. Однако некоторые преимущества, предоставляемые этими высокомасштабируемыми системами, могут быть не полностью реализованы с небольшими объемами данных.
2 Lakehouses и eventhouses поддерживают подмножество поверхности T-SQL и ограничены только чтением операций.
3 Lakehouses предоставляют конечную точку eventhouse, которая поддерживает операции KQL только для чтения.
4 — это возможность расширения преобразований данных с помощью определяемых пользователем функций, методов, ссылок на внешние модули или библиотеки и другие подходы.
5 Представляет нижние границы сред выполнения для легких запросов, использующих небольшие объемы данных из теплого кэша, исключая задержку сети или время, необходимое для отображения результатов в клиентском приложении. На время выполнения запросов влияют многочисленные факторы. Результаты могут отличаться в зависимости от конкретной рабочей нагрузки.
6 Представляет нижние границы времени отклика на смешанные запросы, использующие умеренные объемы данных, исключая задержку сети или время, необходимое для отрисовки результатов в клиентском приложении. На время выполнения запросов влияют многочисленные факторы. Результаты могут отличаться в зависимости от конкретной рабочей нагрузки.
7 Максимальное количество запросов, которые могут выполняться одновременно, по сравнению с другими аналитическими хранилищами данных.
8 Максимальное количество запросов, которые может быть выполнено в течение заданного периода времени по сравнению с другими аналитическими хранилищами данных. Параллелизм, длительность запроса и другие факторы влияют на количество запросов.
9 Частичное обеспечение безопасности на уровне объектов реализуется с помощью политик доступа к ограниченному представлению.
Для конечной точки аналитики SQL доступны 10 детальных элементов управления доступом.
Интеграция OneLake 11 реализуется с помощью автоматического зеркального отображения базы данных.
12 С помощью автоматической синхронизации из базы данных KQL в OneLake.
13 Косвенно, через межбазовые запросы к озерам.
14 Доступны для реплицированных данных, доступ к которым осуществляется через конечную точку SQL-аналитики.
Дерево принятия решений для выбора аналитического хранилища в Microsoft Fabric
В следующем руководстве по принятию решений вы можете выбрать подходящее хранилище данных для каждого варианта использования или продукта данных. Для поддержки различных рабочих нагрузок в хранилище данных может потребоваться несколько аналитических хранилищ данных.
Conclusion
Базы данных SQL, хранилища данных, озера и центры событий позволяют Microsoft Fabric обрабатывать различные аналитические рабочие нагрузки. Каждое из этих аналитических хранилищ данных обеспечивает уникальное сочетание возможностей и ограничений, которые должны соответствовать рабочей нагрузке для достижения оптимальных результатов. Некоторые варианты использования можно устранить с помощью одного аналитического хранилища данных. Однако конкретные сложные варианты использования, связанные с смешанными рабочими нагрузками, лучше всего обслуживаются с помощью нескольких дополнительных аналитических хранилищ данных, которые легко доступны в Microsoft Fabric в качестве единой платформы данных.
Соавторы
Корпорация Майкрософт поддерживает эту статью. Следующие авторы написали эту статью.
Основной автор:
- Слава Трофимов | Главный инженер решений
Другие участники:
- Панос Антонопулос | Выдающийся инженер
- Майл Коул | Главный диспетчер программ
- Анна Хоффман | Диспетчер продуктов основной группы
- Джоанна Podgoetsky | Главный менеджер PM
- Шейн Риск | Главный диспетчер PM
- Брэд Шахт | Главный диспетчер программ
- Марсело Силва | Старший инженер по обработке и анализу данных
Чтобы просмотреть неопубликованные профили LinkedIn, войдите в LinkedIn.