Выбор технологии хранения больших данных в Azure

В этой статье сравниваются варианты хранения данных для решений больших данных, в частности, хранилища данных для массового поглощения и пакетной обработки данных, а не для аналитических хранилищ или потокового приема данных в реальном времени.

Варианты при выборе хранилища данных в Azure

Существует несколько вариантов для приема данных в Azure, которые вы можете выбрать в зависимости от своих потребностей.

Единое логическое озеро данных:

OneLake в Microsoft Fabric

Хранилище файлов:

Базы данных NoSQL

Аналитические базы данных:

Обозреватель данных Azure

OneLake в Fabric

OneLake в Fabric — это единое и логическое озеро данных, адаптированное для всей организации. Он служит основным узлом для всех аналитических данных и входит в состав каждого клиента Microsoft Fabric. OneLake в Fabric построен на основе Data Lake Storage 2-го поколения.

OneLake в Fabric:

Поддерживает структурированные и неструктурированные типы файлов.
Хранит все табличные данные в формате Delta Parquet.
Предоставляет единое хранилище данных в пределах арендатора, управляемое по умолчанию.
Поддерживает создание рабочих областей в тенанте, чтобы организация могла определять политики владения и доступа.
Поддерживается создание различных элементов данных, таких как озерохранилища и хранилища данных, предоставляющие доступ к данным.

OneLake в Fabric служит общим местом хранения для загрузки, преобразования, аналитики в режиме реального времени и визуализаций бизнес-аналитики. Она централизует различные службы Fabric и сохраняет элементы данных, которые используются всеми нагрузками в Fabric. Чтобы выбрать подходящее хранилище данных для рабочих нагрузок Fabric, см. руководство по принятию решений Fabric: выберите хранилище данных.

Объекты Blob хранилища Azure

Служба хранилища Azure — управляемая облачная служба с высоким уровнем доступности, безопасности, надежности, масштабируемости и избыточности. Корпорация Майкрософт отвечает за обслуживание и решает критические проблемы, не требуя вашего участия. Служба хранилища Azure является самым универсальным решением для хранения данных в Azure, так как с ней можно сочетать множество служб и средств.

Существует несколько служб хранилища Azure, которые можно использовать для хранения данных. Наиболее гибким вариантом хранения BLOB-объектов из многих источников данных является хранилище BLOB-объектов. Блоб по сути является файлом. Они хранят изображения, документы, HTML-файлы, виртуальные жесткие диски (виртуальные жесткие диски), большие данные, такие как журналы, резервные копии баз данных— почти все. BLOB-объекты хранятся в контейнерах, которые похожи на папки. Контейнер группирует набор блобов. Учетная запись хранения может содержать неограниченное количество контейнеров, и каждый контейнер может хранить неограниченное количество блобов.

Хранилище Azure хорошо подходит для больших данных и аналитики благодаря гибкости, высокому уровню доступности и низкой цене. Оно предоставляет уровни хранения для разных вариантов использования: "горячее", "холодное" и "архивное". Дополнительные сведения см. в разделе Хранилище BLOB-объектов Azure: горячий, холодный и архивный уровни.

Хранилище BLOB-объектов Azure доступно из Hadoop (через HDInsight). HDInsight может использовать BLOB-контейнер в Azure Storage в качестве файловой системы по умолчанию для кластера. Через интерфейс распределенной файловой системы Hadoop (HDFS), предоставляемый драйвером WASB, полный набор компонентов в HDInsight может работать непосредственно с структурированными или неструктурированными данными, хранящимися в виде BLOB-объектов. Доступ к хранилищу BLOB-объектов Azure также можно получить с помощью ярлыка хранилища BLOB-объектов Microsoft Fabric.

Вот еще несколько полезных возможностей службы хранилища Azure:

несколько стратегий параллелизма;
Аварийное восстановление и высокий уровень доступности.
шифрование при хранении;
Контроль доступа на основе ролей Azure (RBAC) для управления доступом с использованием пользователей и групп Microsoft Entra.

Data Lake Storage 2-го поколения

Data Lake Storage 2-го поколения — это единый централизованный репозиторий, в котором можно хранить все данные, структурированные и неструктурированные. Озеро данных позволяет вашей организации быстро и легко хранить, получать доступ и анализировать широкий спектр данных в одном расположении. При использовании озера данных вам не нужно выполнять согласование данных в соответствии с существующей структурой. Вместо этого можно хранить данные в необработанном или собственном формате, обычно в виде файлов или больших двоичных объектов (BLOB-объектов).

Data Lake Storage 2-го поколения объединяет возможности Azure Data Lake Storage 1-го поколения и Хранилища BLOB-объектов Azure. Например, Data Lake Storage 2-го поколения поддерживает семантику файловой системы, защиту на уровне файлов и масштабирование. Так как эти возможности основаны на хранилище BLOB-объектов, вы также получаете низкозатратное многоуровневое хранение с высоким уровнем доступности и аварийного восстановления.

Data Lake Storage 2-го поколения использует службу хранилища Azure в качестве основы для создания корпоративных хранилищ данных в Azure. Разработанное с целью обработки нескольких петабайт информации и с поддержкой сотен гигабит пропускной способности хранилище Data Lake Storage 2-го поколения позволяет с легкостью управлять огромным количеством данных.

Azure Cosmos DB (облачная база данных)

Azure Cosmos DB — это глобально распределенная многомодельная база данных Майкрософт. Azure Cosmos DB гарантирует задержку измеряемую в единичных миллисекундах на 99-м процентиле в любой точке мира, предоставляет несколько четко определенных моделей согласованности для точной настройки производительности и гарантирует высокий уровень доступности с возможностями многодомового подключения.

Azure Cosmos DB является полностью бессхемной службой. Она автоматически индексирует все данные, избавляя вас от необходимости управлять схемой и индексами. В ней есть родная поддержка множества моделей данных, включая документные, ключ-значение, графовые и столбцово-семейные модели данных.

Функциональные возможности Azure Cosmos DB:

HBase в HDInsight

Apache HBase — это база данных NoSQL с открытым кодом, созданная на основе Hadoop по типу Google BigTable. HBase обеспечивает прямой доступ и строгую согласованность для больших объемов неструктурированных и слабоструктурированных данных в бессхемной базе данных, упорядоченных в семейства столбцов.

Данные хранятся в строках таблицы, данные в строке группируются по семейству столбцов. HBase не является схемой в том смысле, что вам не нужно определять столбцы и тип данных, хранящихся в них перед их использованием. Открытый код линейно масштабируется, чтобы обрабатывать петабайты данных на тысячах узлов. Он может полагаться на избыточность данных, пакетную обработку и другие особенности, которые предусмотрены распределенными приложениями в экосистеме Hadoop.

Реализация HDInsight использует масштабируемую по горизонтали архитектуру HBase для автоматического сегментирования таблиц, строгой согласованности для операций чтения и записи и автоматического переключения на резервный сервер. Производительность повышается за счет кэширования операций чтения в памяти и высокой пропускной способности потоковой записи. В большинстве случаев необходимо создать кластер HBase в виртуальной сети, чтобы другие кластеры и приложения HDInsight могли напрямую обращаться к таблицам.

Анализатор данных Azure

Azure Data Explorer — это быстрая и высокомасштабируемая служба для изучения данных журналов и телеметрии. Она позволяет обрабатывать множество потоков данных, создаваемых современным программным обеспечением, позволяя собирать, хранить и анализировать данные. Обозреватель данных Azure идеально подходит для анализа больших объемов разнообразных данных, поступающих из любых источников данных, таких как веб-сайты, приложения, устройства Интернета вещей и др. Эти данные используются для диагностики, мониторинга, формирования отчетов, машинного обучения и дополнительного анализа. Azure Data Explorer упрощает прием этих данных и позволяет выполнять сложные незапланированные запросы к данным в секундах.

Масштаб Azure Data Explorer можно линейно горизонтально увеличить, чтобы увеличить пропускную способность приема и обработки запросов. Кластер Azure Data Explorer можно развернуть в виртуальной сети для включения частных сетей.

Основные критерии выбора

Чтобы ограничить количество вариантов, сначала ответьте на следующие вопросы:

Требуется ли унифицированное озеро данных с поддержкой нескольких облаков, надежной системой управления и интеграцией с аналитическими инструментами? Если да, выберите OneLake в Fabric для упрощенного управления данными и расширенной совместной работы.
Нужны ли вам управляемые, высокоскоростные или облачные хранилища для текстовых или двоичных данных любого типа? Если да, выберите один из вариантов хранилища файлов или аналитики.
Нужно ли вам хранилище файлов, оптимизированное для параллельного выполнения аналитических рабочих нагрузок с высокой пропускной способностью и большим числом операций ввода-вывода в секунду? Если да, то выберите вариант, который нацелен на производительность аналитических рабочих нагрузок.
Нужно ли вам хранить неструктурированные или частично структурированные данные в бессхемной базе данных? Если да, выберите один из нереляционных или аналитических параметров. Сравните варианты индексирования и моделей баз данных. В зависимости от типа данных, которые необходимо хранить, модели базы данных-источника могут быть самым большим фактором.
Можно ли использовать эту службу в вашем регионе? Проверьте региональную доступность для каждой службы Azure. Дополнительные сведения см. в статье Доступность продуктов по регионам.

Матрица возможностей

В следующих таблицах перечислены основные различия в возможностях.

OneLake в возможностях Fabric

Возможность	OneLake в Fabric
Унифицированное озеро данных	Предоставляет единое унифицированное озеро данных для всей организации, устраняя изолированные хранилища данных.
Поддержка multicloud	Поддерживает интеграцию и совместимость с различными облачными платформами.
Управление данными	Включает такие функции, как происхождение данных, защита данных, сертификация и интеграция каталога.
Централизованный концентратор данных	Выступает в качестве централизованного центра для обнаружения и управления данными.
Поддержка аналитического модуля	Совместим с несколькими аналитическими подсистемами. Эта совместимость позволяет различным средствам и технологиям работать с теми же данными.
Безопасность и соответствие требованиям	Гарантирует, что конфиденциальные данные остаются безопасными и доступ ограничен только авторизованными пользователями.
Простота использования	Предоставляет пользовательский дизайн, который автоматически доступен для каждого клиента Fabric и не требует настройки.
Масштабируемость	Способен обрабатывать большие объемы данных из различных источников.

Возможности для хранения файлов

Возможность	Data Lake Storage 2-го поколения	Контейнеры хранилища BLOB-объектов
Цель	Оптимизированное хранилище для рабочих нагрузок, относящихся к аналитике больших данных	Хранилище объектов общего назначения для широкого спектра сценариев хранения
Случаи использования	Данные пакетной и потоковой аналитики или машинного обучения, например файлы журналов, данные Интернета вещей, истории посещений сайтов и большие наборы данных.	Любой тип текстовых или двоичных данных, таких как данные серверной части приложений, архивируемые данные, мультимедийные хранилища для потоковой передачи и данные общего назначения.
Структура	Иерархическая файловая система	Хранилище объектов с одноуровневым пространством имен
Проверка подлинности	На основе удостоверений Microsoft Entra	На основе ключей доступа к учетной записи и ключей общей подписанной сигнатуры доступа, и Azure RBAC
Протокол аутентификации	Открытая авторизация (OAuth) 2.0. Вызовы должны содержать допустимый JWT (веб-токен JSON), выданный Microsoft Entra ID.	Код аутентификации сообщения на основе хэша (HMAC). Вызовы должны содержать хэш SHA-256 с кодировкой Base64 для части HTTP-запроса.
Авторизация	Списки управления доступом (ACL) переносимого интерфейса операционной системы (POSIX). Списки управления доступом, основанные на удостоверениях Microsoft Entra, можно установить на уровне файлов и папок.	Для авторизации на уровне учетной записи используйте ключи доступа к учетным записям, Для авторизации в учетной записи, контейнере или блоке используйте ключи общей подписи доступа.
Аудит	Доступно.	Доступно
Шифрование при хранении	Прозрачное шифрование данных на стороне сервера.	Прозрачное шифрование на стороне сервера; шифрование на стороне клиента.
Пакеты SDK для разработчиков	.NET, Java, Python, Node.js	.NET, Java, Python, Node.js, C++, Ruby
Производительность рабочих нагрузок аналитики	Оптимизированная производительность для параллельных рабочих нагрузок аналитики, а также высокая пропускная способность и производительность операций ввода-вывода (IOPS).	Не оптимизирована для рабочих нагрузок аналитики
Ограничения размера	Нет ограничений на размер учетных записей, размер и количество файлов	Определенные ограничения описаны здесь
Геоизбыточность	Локально избыточное (локально избыточное хранилище (LRS)), глобально избыточное (глобально избыточное хранилище (GRS)), чтение-доступ глобально избыточное (чтение-доступ глобально избыточное хранилище (RA-GRS)), зонально избыточное (зонально избыточное хранилище (ZRS)).	Локально избыточная система (LRS), глобально избыточная система (GRS), глобально избыточная система с доступом на чтение (RA-GRS), зонально избыточная система (ZRS). Более подробную информацию см. в разделе избыточность хранилища Azure

Возможности баз данных NoSQL

Возможность	Azure Cosmos DB (облачная база данных)	HBase в HDInsight
Модель базы данных-источника	Хранилище документов, граф, хранилище пар "ключ-значение", хранилище широких столбцов	Хранилище широких столбцов
Вторичные индексы	Да	Нет
Поддержка языка SQL	Да	Да (с помощью драйвера Phoenix JDBC)
Согласованность	Строгая согласованность, ограниченная устарелость, согласованность уровня сеанса, согласованность префикса, согласованность в конечном счёте.	Сильные
Нативная интеграция с Функциями Azure	Да	Нет
Автоматическое глобальное распределение	Да	Настройку репликациикластера HBase можно выполнить в разных регионах с конечной согласованностью.
Модель ценообразования	Гибко масштабируемые единицы запроса (ЕЗ) с посекундной оплатой по мере использования, гибко масштабируемое хранилище	Поминутная оплата за кластер HDInsight с горизонтальным масштабированием узлов и хранилища

Возможности аналитических баз данных

Возможность	Анализатор данных Azure
Модель базы данных-источника	Реляционное хранилище данных (хранилище столбцов), телеметрия и хранилище временных рядов
Поддержка языка SQL	Да
Модель ценообразования	Эластично масштабируемые экземпляры кластера
Проверка подлинности	На основе идентификаций Microsoft Entra
Шифрование при хранении	Поддерживаемые ключи, управляемые клиентом
Производительность рабочих нагрузок аналитики	Оптимизированная производительность для параллельных рабочих нагрузок аналитики
Ограничения размера	Линейная масштабируемость

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Главный автор

Зойнер Теджада | Генеральный директор и архитектор

Следующие шаги

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2024-10-05