Поделиться через


Что такое озеро данных

Data Lake — это репозиторий для хранения, который может вмещать большой объем данных в собственном необработанном формате. Озера данных предназначены для экономичного масштабирования от терабайтов до петабайтов, что делает их подходящими для обработки больших и разнообразных наборов данных. Данные обычно приходят из нескольких различных источников и могут включать структурированные данные (например, реляционные таблицы), полуструктурированные данные (например, JSON, XML или журналы), а также неструктурированные данные (например, изображения, аудио или видео).

Озеро данных помогает хранить все в исходном, нетрансформованном состоянии, откладывая преобразование до тех пор, пока данные не потребуются. Это концепция, известная как схема в режиме чтения. Это контрастирует с хранилищем данных, которое применяет структуру и преобразования по мере поступления данных, известная как схема при записи.

Варианты использования Data Lake

Распространенные варианты использования озера данных включают:

  • Прием и перемещение данных: сбор и консолидация данных из облачных служб, устройств Интернета вещей, локальных систем и потоковых источников в один репозиторий.
  • Обработка больших данных: обработка больших объемов и высокоскоростных данных в масштабе с помощью распределенных платформ обработки.
  • Аналитика и машинное обучение: поддержка исследовательского анализа, расширенной аналитики и обучения моделей ИИ и точной настройки больших, разнообразных наборов данных.
  • Бизнес-аналитика и отчеты. Включение панелей мониторинга и отчетов путем интеграции курированных подмножеств данных озера в хранилища или средства бизнес-аналитики.
  • Архивация и соответствие данным: хранение исторических или необработанных наборов данных для долгосрочного хранения, аудита и нормативных потребностей.

Преимущества озера данных

  • Сохраняет необработанные данные для дальнейшего использования: озеро данных предназначено для хранения данных в его необработанном формате, обеспечивая долгосрочную доступность для будущего использования. Эта возможность особенно ценна в среде больших данных, где потенциальные аналитические сведения из данных могут быть не известны заранее. Данные также можно архивировать по мере необходимости, не теряя его необработанное состояние.
  • Самостоятельное исследование: аналитики и специалисты по обработке и анализу данных могут напрямую запрашивать данные, поощряя экспериментирование и обнаружение.
  • Поддержка гибких данных: в отличие от хранилищ, требующих структурированных форматов, озера могут обрабатывать структурированные, полуструктурированные и неструктурированные данные.
  • Масштабируемость и производительность: В распределенных архитектурах озера данных обеспечивают параллельный прием и распределенное выполнение в масштабе, часто превосходя традиционные конвейеры ETL в рабочих нагрузках с большим объемом. Преимущества производительности обусловлены следующими преимуществами:
    • Параллелизм: распределенные вычислительные подсистемы (например, Spark) секционируют данные и выполняют преобразования между несколькими узлами одновременно, а традиционные платформы ETL часто используют последовательные или ограниченные многопоточное выполнение.
    • Масштабируемость: распределенные системы масштабируемые горизонтально путем эластичного добавления узлов вычислений и хранения, в то время как традиционные конвейеры ETL обычно зависят от вертикального масштабирования одного узла, что быстро достигает ограничений ресурсов.
  • Основы гибридной архитектуры: озера данных часто сосуществуют с хранилищами в подходе Lakehouse, сочетая необработанное хранилище с возможностями выполнения структурированных запросов.

Современное решение озера данных состоит из двух основных элементов:

  • Хранилище: построено для обеспечения устойчивости, отказоустойчивости, бесконечной масштабируемости и приема различных типов данных с высокой пропускной способностью.
  • Обработка: на основе подсистем, таких как Apache Spark в Azure Databricks, Microsoft Fabric, что позволяет выполнять крупномасштабные преобразования, аналитику и машинное обучение.

Кроме того, зрелые решения включают управление метаданными, безопасность и управление для обеспечения качества данных, обнаружения и соответствия требованиям.

Когда следует использовать хранилище данных

Мы рекомендуем использовать озеро данных для исследовательской аналитики, расширенной обработки и анализа данных и рабочих нагрузок машинного обучения. Так как озера сохраняют данные в своем необработанном состоянии и поддерживают чтение схемы, они позволяют командам экспериментировать с различными типами данных и обнаруживать аналитические сведения о том, что традиционные хранилища не могут захватывать.

Озеро данных в качестве источника для хранилищ данных

Озеро данных может выступать в качестве источника для хранилища данных, куда сырые данные поступают из исходных систем в озеро (извлечение и загрузка), а современные хранилища, такие как хранилище Fabric, используют встроенные MPP SQL-движки для обработки преобразований, преобразуя сырые данные в структурированный формат с использованием извлечения, загрузки, преобразования (ELT). Это отличается от традиционных конвейеров ETL, где данные извлекаются и преобразуются в подсистеме ETL перед загрузкой в хранилище. Оба подхода обеспечивают гибкость в зависимости от варианта использования, балансировка таких факторов, как качество данных, производительность и использование ресурсов, обеспечивая оптимизацию хранилища для аналитики.

Сценарии потоковой передачи событий и Интернета вещей

Озера данных эффективны для потоковой передачи событий и применения в сфере Интернета вещей, где высокоскоростные данные должны сохраняться в большом масштабе без предварительных ограничений на схему. Они могут получать и хранить реляционные и нереляционные потоки событий, обрабатывать большие объемы небольших операций записи с низкой задержкой и поддерживать массовую параллельную пропускную способность. Это делает их хорошо подходящими для таких приложений, как мониторинг в режиме реального времени, прогнозное обслуживание и обнаружение аномалий.

В следующей таблице сравниваются озера данных и хранилища данных.

Функция Data Lake Хранилище данных
Тип данных Необработанные, неструктурированные, полуструктурированные и структурированные Структурированные и высокоорганизованные
Производительность запросов Медленнее, особенно для сложных запросов; зависит от формата данных и инструментов Быстрое и оптимизированное для аналитических запросов
Задержка Более высокая задержка из-за обработки во всплывающем режиме Низкая задержка с предварительно обработанными структурированными данными
Этап преобразования данных Преобразование происходит во время запроса, влияя на общее время обработки Преобразование происходит во время процесса ETL или ELT
Масштабируемость Высокомасштабируемый и экономичный для больших объемов разнообразных данных Масштабируемые, но более дорогие, особенно в большом масштабе
Стоимость Снижение затрат на хранение; Затраты на вычисления зависят от использования Повышение затрат на хранение и вычисление из-за оптимизации производительности
Вариант использования подходит Лучше всего подходит для больших данных, машинного обучения и исследовательской аналитики. В архитектуре медальона уровень Gold используется для создания отчетов Идеально подходит для бизнес-аналитики, отчетности и структурированного анализа данных

Проблемы озер данных

  • Масштабируемость и сложность. Управление необработанными, неструктурированными и полуструктурированными данными требует надежной инфраструктуры, распределенной обработки и тщательного управления затратами.

  • Обработка узких мест: по мере увеличения объема данных и разнообразия, преобразование и рабочие нагрузки запросов могут привести к задержке, требуя тщательного проектирования конвейера и оркестрации рабочей нагрузки.

  • Риски целостности данных: без строгой проверки и мониторинга, ошибки или неполные загрузки могут нарушить надежность содержимого озера.

  • Качество данных и управление: разнообразие источников и форматов затрудняет соблюдение согласованных стандартов. Реализация управления метаданными, каталогизации и платформ управления имеет решающее значение.

  • Производительность в масштабе: производительность запросов и эффективность хранилища могут снизиться по мере роста озера, требуя стратегий оптимизации, таких как секционирование, индексирование и кэширование.

  • Безопасность и контроль доступа. Обеспечение соответствующих разрешений и аудит в различных наборах данных для предотвращения неправильного использования конфиденциальных данных требует планирования.

  • Возможность обнаружения: без правильной каталогизации озера могут превратиться в "болота данных", где ценная информация присутствует, но недоступна или неправильно понята.

Выбор технологий

При создании комплексного решения озера данных в Azure рассмотрите следующие технологии:

  • Azure Data Lake Storage объединяет Azure Blob Storage с возможностями Data Lake, которые обеспечивают доступ, совместимый с Apache Hadoop, иерархические возможности namespace и улучшенную безопасность для эффективной аналитики больших данных. Он предназначен для обработки больших объемов структурированных, полуструктурированных и неструктурированных данных.

  • Azure Databricks — это облачная платформа аналитики данных и машинного обучения, которая объединяет лучшее из Apache Spark с глубокой интеграцией с экосистемой Microsoft Azure. Она обеспечивает совместную среду, в которой инженеры данных, ученые, работающие с данными, и аналитики могут совместно выполнять прием, обработку, анализ и моделирование больших объемов данных.

  • Фабрика данных Azure — это облачная служба интеграции данных Microsoft Azure и ETL (извлечение, преобразование, загрузка). Вы используете его для перемещения, преобразования и оркестрации рабочих процессов данных в разных источниках, будь то в облаке или локальной среде.

  • Microsoft Fabric — это сквозная платформа аналитики данных Майкрософт, которая объединяет перемещение данных, обработку и анализ данных в режиме реального времени и бизнес-аналитику в единое программное обеспечение как услуга (SaaS).

    Каждому арендатору Microsoft Fabric автоматически предоставляется одно логическое озеро данных, известное как OneLake. На основе Azure Data Lake Storage (ADLS) 2-го поколения OneLake предоставляет единый уровень хранения, способный обрабатывать как структурированные, так и неструктурированные форматы данных.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Главный автор

  • Avijit Prasad | Консультант по облачным технологиям

Участники:

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Следующие шаги