Поделиться через


Знакомство с Azure Data Lake Storage

Azure Data Lake Storage — это набор возможностей, предназначенных для аналитики больших данных, основанных на Хранилище BLOB-объектов Azure.

Azure Data Lake Storage объединяет возможности Azure Data Lake Storage 1-го поколения с Хранилище BLOB-объектов Azure. Например, Data Lake Storage обеспечивает семантику файловой системы, безопасность на уровне файлов и масштабирование. Так как эти возможности основаны на хранилище BLOB-объектов, вы также получаете низкое затратное, многоуровневые хранилища с высоким уровнем доступности и аварийного восстановления.

Data Lake Storage делает служба хранилища Azure основой для создания корпоративных озер данных в Azure. Разработан с самого начала для обслуживания нескольких петабайтов информации при поддержании сотен гигабит пропускной способности, Data Lake Storage позволяет легко управлять большим объемом данных.

Что такое Data Lake?

Озеро данных — это единый централизованный репозиторий, в котором можно хранить все ваши данные, как структурированные, так и неструктурированные. Озеро данных позволяет организации быстро и легко сохранять, использовать и анализировать разнообразные данные в одном месте. При использовании озера данных вам не нужно выполнять согласование данных в соответствии с существующей структурой. Вместо этого можно хранить данные в необработанном или собственном формате, обычно в виде файлов или больших двоичных объектов (BLOB-объектов).

Azure Data Lake Storage — это облачное корпоративное решение озера данных. Оно предназначено для хранения больших объемов данных в любом формате и упрощения выполнения аналитических рабочих нагрузок с большими данными. Оно позволяет сохранить данные любого типа и с любой скоростью приема в одном месте для простого доступа и анализа с помощью различных платформ.

Data Lake Storage

Azure Data Lake Storage не является выделенной службой или типом учетной записи. Вместо этого она реализована как набор возможностей, которые вы используете со службой хранилища BLOB-объектов вашей учетной записи служба хранилища Azure. Эти возможности можно разблокировать, включив параметр иерархического пространства имен.

Data Lake Storage включает следующие возможности.

✓ Доступ, совместимый с Hadoop

✓ Иерархическая структура каталогов

✓ Оптимизированная стоимость и производительность

✓ Более детальная модель безопасности зерна

✓ Массовая масштабируемость

Доступ, совместимый с Hadoop

Azure Data Lake Storage в основном предназначен для работы с Hadoop и всеми платформами, которые используют распределенную файловую систему Apache Hadoop (HDFS) в качестве уровня доступа к данным. Дистрибутивы Hadoop включают драйвер Файловой системы BLOB-объектов Azure (ABFS), который позволяет многим приложениям и платформам напрямую получать доступ к данным Хранилище BLOB-объектов Azure. Драйвер ABFS оптимизирован специально для аналитики больших данных. Соответствующие интерфейсы REST API подключены через конечную точку dfs.core.windows.net.

Платформы анализа данных, использующие HDFS в качестве уровня доступа к данным, могут обратиться к данным Azure Data Lake Storage напрямую через ABFS. Примерами таких платформ являются подсистема аналитики Apache Spark и обработчик SQL-запросов Presto.

Дополнительные сведения о поддерживаемых службах и платформах см . в службах Azure, поддерживающих Azure Data Lake Storage и платформах с открытым кодом, поддерживающих Azure Data Lake Storage.

Иерархическая структура каталога

Иерархическое пространство имен — это ключевая функция, которая позволяет Azure Data Lake Storage предоставлять высокопроизводительный доступ к данным в масштабе хранилища объектов и цене. Эту функцию можно использовать для упорядочивания всех объектов и файлов в учетной записи хранения в иерархии каталогов и вложенных подкаталогов. Иными словами, организация данных Azure Data Lake Storage во многом походит на организацию файлов на компьютере.

Задачи, такие как переименование или удаление каталога, стали атомарными операциями с метаданными в каталоге. Больше не нужно перечислять или обрабатывать все объекты с общим префиксом имени каталога.

Оптимизированная стоимость и производительность

Цены на решение Azure Data Lake Storage зависят от уровня Хранилища BLOB-объектов Azure. Он основывается на Хранилище BLOB-объектов Azure возможностях, таких как автоматическое управление политиками жизненного цикла и выравнивание уровней объектов для управления затратами на хранилище больших данных.

Производительность оптимизирована, так как для анализа не требуется копировать или преобразовывать данные. Функция иерархического пространства имен Azure Data Lake Storage обеспечивает эффективный доступ и навигацию. Эта архитектура означает, что обработка данных требует меньше вычислительных ресурсов, что снижает скорость и стоимость доступа к данным.

Более точной модели безопасности зерна

Модель управления доступом Azure Data Lake Storage поддерживает управление доступом на основе ролей Azure (Azure RBAC) и списки управления доступом переносимого операционного интерфейса для UNIX (POSIX). Также существует несколько дополнительных параметров безопасности, относящихся к Azure Data Lake Storage. Разрешения можно задать либо на уровне каталогов, либо на уровне файлов. Все хранимые данные, находящиеся в неактивном состоянии, шифруются с помощью ключей шифрования, управляемых Майкрософт или клиентом.

Впечатляющая масштабируемость

Azure Data Lake Storage предлагает объемное хранилище и принимает многочисленные типы данных для аналитики. В нем нет никаких ограничений на размер учетной записи, размер файлов или объем данных, которые могут храниться в озере данных. Отдельные файлы могут иметь размеры, которые варьируются от нескольких килобайт (КБИТ) до нескольких петабайт (PBS). Обработка выполняется с практически постоянными задержками запроса, которые измеряются на уровне службы, учетной записи и файла.

Эта конструкция означает, что Azure Data Lake Storage может легко и быстро масштабироваться до удовлетворения самых требовательных рабочих нагрузок. Кроме того, можно легко вертикально уменьшить масштаб при уменьшении спроса.

Создано на основе Хранилище BLOB-объектов Azure

Данные, которые вы сохраняете в качестве больших двоичных объектов в учетной записи хранения. Служба, управляющая большими двоичными объектами, является службой Хранилище BLOB-объектов Azure. Data Lake Storage описывает возможности или "улучшения" этой службы, которая обслуживает требования рабочих нагрузок аналитики больших данных.

Так как эти возможности основаны на хранилище BLOB-объектов, такие функции, как ведение журнала диагностики, уровни доступа и политики управления жизненным циклом, доступны для вашей учетной записи. Большинство функций хранилища BLOB-объектов полностью поддерживаются, но некоторые функции могут поддерживаться только на уровне предварительной версии, и некоторые из них еще не поддерживаются. Полный список инструкций о поддержке см. в разделе "Поддержка функций хранилища BLOB-объектов" в учетных записях служба хранилища Azure. Состояние каждой указанной функции изменится со временем, так как поддержка продолжает расширяться.

Документация и терминология

В Хранилище BLOB-объектов Azure оглавление содержит два раздела содержимого. В разделе содержимого Data Lake Storage приведены рекомендации и рекомендации по использованию возможностей Data Lake Storage. В разделе хранилища BLOB-объектов содержатся рекомендации по функциям учетной записи, которые не относятся к Data Lake Storage.

При перемещении между разделами можно заметить некоторые незначительные различия в терминологии. Например, содержимое, представленное в документации по хранилищу BLOB-объектов, будет использовать термин BLOB-объект вместо файла. Технически файлы, которые вы принимаете в учетную запись хранения, становятся BLOB-объектами в вашей учетной записи. Так что это корректный термин. Тем не менее, большой двоичный объект может вызвать путаницу, если вы используете для файла терминов. Вы также увидите термин контейнер, обозначающий файловую систему. Эти термины можно считать синонимами.

См. также