Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Data Lake — это репозиторий для хранения, который может вмещать большой объем данных в собственном необработанном формате. Озера данных предназначены для экономичного масштабирования от терабайтов до петабайтов, что делает их подходящими для обработки больших и разнообразных наборов данных. Данные обычно приходят из нескольких различных источников и могут включать структурированные данные (например, реляционные таблицы), полуструктурированные данные (например, JSON, XML или журналы), а также неструктурированные данные (например, изображения, аудио или видео).
Озеро данных помогает хранить все в исходном, нетрансформованном состоянии, откладывая преобразование до тех пор, пока данные не потребуются. Это концепция, известная как схема в режиме чтения. Это контрастирует с хранилищем данных, которое применяет структуру и преобразования по мере поступления данных, известная как схема при записи.
Распространенные варианты использования озера данных включают:
- Прием и перемещение данных: сбор и консолидация данных из облачных служб, устройств Интернета вещей, локальных систем и потоковых источников в один репозиторий.
- Обработка больших данных: обработка больших объемов и высокоскоростных данных в масштабе с помощью распределенных платформ обработки.
- Аналитика и машинное обучение: поддержка исследовательского анализа, расширенной аналитики и обучения моделей ИИ и точной настройки больших, разнообразных наборов данных.
- Бизнес-аналитика и отчеты. Включение панелей мониторинга и отчетов путем интеграции курированных подмножеств данных озера в хранилища или средства бизнес-аналитики.
- Архивация и соответствие данным: хранение исторических или необработанных наборов данных для долгосрочного хранения, аудита и нормативных потребностей.
Преимущества озера данных
- Сохраняет необработанные данные для дальнейшего использования: озеро данных предназначено для хранения данных в его необработанном формате, обеспечивая долгосрочную доступность для будущего использования. Эта возможность особенно ценна в среде больших данных, где потенциальные аналитические сведения из данных могут быть не известны заранее. Данные также можно архивировать по мере необходимости, не теряя его необработанное состояние.
- Самостоятельное исследование: аналитики и специалисты по обработке и анализу данных могут напрямую запрашивать данные, поощряя экспериментирование и обнаружение.
- Поддержка гибких данных: в отличие от хранилищ, требующих структурированных форматов, озера могут обрабатывать структурированные, полуструктурированные и неструктурированные данные.
-
Масштабируемость и производительность: В распределенных архитектурах озера данных обеспечивают параллельный прием и распределенное выполнение в масштабе, часто превосходя традиционные конвейеры ETL в рабочих нагрузках с большим объемом. Преимущества производительности обусловлены следующими преимуществами:
- Параллелизм: распределенные вычислительные подсистемы (например, Spark) секционируют данные и выполняют преобразования между несколькими узлами одновременно, а традиционные платформы ETL часто используют последовательные или ограниченные многопоточное выполнение.
- Масштабируемость: распределенные системы масштабируемые горизонтально путем эластичного добавления узлов вычислений и хранения, в то время как традиционные конвейеры ETL обычно зависят от вертикального масштабирования одного узла, что быстро достигает ограничений ресурсов.
- Основы гибридной архитектуры: озера данных часто сосуществуют с хранилищами в подходе Lakehouse, сочетая необработанное хранилище с возможностями выполнения структурированных запросов.
Современное решение озера данных состоит из двух основных элементов:
- Хранилище: построено для обеспечения устойчивости, отказоустойчивости, бесконечной масштабируемости и приема различных типов данных с высокой пропускной способностью.
- Обработка: на основе подсистем, таких как Apache Spark в Azure Databricks, Microsoft Fabric, что позволяет выполнять крупномасштабные преобразования, аналитику и машинное обучение.
Кроме того, зрелые решения включают управление метаданными, безопасность и управление для обеспечения качества данных, обнаружения и соответствия требованиям.
Когда следует использовать хранилище данных
Мы рекомендуем использовать озеро данных для исследовательской аналитики, расширенной обработки и анализа данных и рабочих нагрузок машинного обучения. Так как озера сохраняют данные в своем необработанном состоянии и поддерживают чтение схемы, они позволяют командам экспериментировать с различными типами данных и обнаруживать аналитические сведения о том, что традиционные хранилища не могут захватывать.
Озеро данных в качестве источника для хранилищ данных
Озеро данных может выступать в качестве источника для хранилища данных, куда сырые данные поступают из исходных систем в озеро (извлечение и загрузка), а современные хранилища, такие как хранилище Fabric, используют встроенные MPP SQL-движки для обработки преобразований, преобразуя сырые данные в структурированный формат с использованием извлечения, загрузки, преобразования (ELT). Это отличается от традиционных конвейеров ETL, где данные извлекаются и преобразуются в подсистеме ETL перед загрузкой в хранилище. Оба подхода обеспечивают гибкость в зависимости от варианта использования, балансировка таких факторов, как качество данных, производительность и использование ресурсов, обеспечивая оптимизацию хранилища для аналитики.
Сценарии потоковой передачи событий и Интернета вещей
Озера данных эффективны для потоковой передачи событий и применения в сфере Интернета вещей, где высокоскоростные данные должны сохраняться в большом масштабе без предварительных ограничений на схему. Они могут получать и хранить реляционные и нереляционные потоки событий, обрабатывать большие объемы небольших операций записи с низкой задержкой и поддерживать массовую параллельную пропускную способность. Это делает их хорошо подходящими для таких приложений, как мониторинг в режиме реального времени, прогнозное обслуживание и обнаружение аномалий.
В следующей таблице сравниваются озера данных и хранилища данных.
| Функция | Data Lake | Хранилище данных |
|---|---|---|
| Тип данных | Необработанные, неструктурированные, полуструктурированные и структурированные | Структурированные и высокоорганизованные |
| Производительность запросов | Медленнее, особенно для сложных запросов; зависит от формата данных и инструментов | Быстрое и оптимизированное для аналитических запросов |
| Задержка | Более высокая задержка из-за обработки во всплывающем режиме | Низкая задержка с предварительно обработанными структурированными данными |
| Этап преобразования данных | Преобразование происходит во время запроса, влияя на общее время обработки | Преобразование происходит во время процесса ETL или ELT |
| Масштабируемость | Высокомасштабируемый и экономичный для больших объемов разнообразных данных | Масштабируемые, но более дорогие, особенно в большом масштабе |
| Стоимость | Снижение затрат на хранение; Затраты на вычисления зависят от использования | Повышение затрат на хранение и вычисление из-за оптимизации производительности |
| Вариант использования подходит | Лучше всего подходит для больших данных, машинного обучения и исследовательской аналитики. В архитектуре медальона уровень Gold используется для создания отчетов | Идеально подходит для бизнес-аналитики, отчетности и структурированного анализа данных |
Проблемы озер данных
Масштабируемость и сложность. Управление необработанными, неструктурированными и полуструктурированными данными требует надежной инфраструктуры, распределенной обработки и тщательного управления затратами.
Обработка узких мест: по мере увеличения объема данных и разнообразия, преобразование и рабочие нагрузки запросов могут привести к задержке, требуя тщательного проектирования конвейера и оркестрации рабочей нагрузки.
Риски целостности данных: без строгой проверки и мониторинга, ошибки или неполные загрузки могут нарушить надежность содержимого озера.
Качество данных и управление: разнообразие источников и форматов затрудняет соблюдение согласованных стандартов. Реализация управления метаданными, каталогизации и платформ управления имеет решающее значение.
Производительность в масштабе: производительность запросов и эффективность хранилища могут снизиться по мере роста озера, требуя стратегий оптимизации, таких как секционирование, индексирование и кэширование.
Безопасность и контроль доступа. Обеспечение соответствующих разрешений и аудит в различных наборах данных для предотвращения неправильного использования конфиденциальных данных требует планирования.
Возможность обнаружения: без правильной каталогизации озера могут превратиться в "болота данных", где ценная информация присутствует, но недоступна или неправильно понята.
Выбор технологий
При создании комплексного решения озера данных в Azure рассмотрите следующие технологии:
Azure Data Lake Storage объединяет Azure Blob Storage с возможностями Data Lake, которые обеспечивают доступ, совместимый с Apache Hadoop, иерархические возможности namespace и улучшенную безопасность для эффективной аналитики больших данных. Он предназначен для обработки больших объемов структурированных, полуструктурированных и неструктурированных данных.
Azure Databricks — это облачная платформа аналитики данных и машинного обучения, которая объединяет лучшее из Apache Spark с глубокой интеграцией с экосистемой Microsoft Azure. Она обеспечивает совместную среду, в которой инженеры данных, ученые, работающие с данными, и аналитики могут совместно выполнять прием, обработку, анализ и моделирование больших объемов данных.
Фабрика данных Azure — это облачная служба интеграции данных Microsoft Azure и ETL (извлечение, преобразование, загрузка). Вы используете его для перемещения, преобразования и оркестрации рабочих процессов данных в разных источниках, будь то в облаке или локальной среде.
Microsoft Fabric — это сквозная платформа аналитики данных Майкрософт, которая объединяет перемещение данных, обработку и анализ данных в режиме реального времени и бизнес-аналитику в единое программное обеспечение как услуга (SaaS).
Каждому арендатору Microsoft Fabric автоматически предоставляется одно логическое озеро данных, известное как OneLake. На основе Azure Data Lake Storage (ADLS) 2-го поколения OneLake предоставляет единый уровень хранения, способный обрабатывать как структурированные, так и неструктурированные форматы данных.
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.
Главный автор
- Avijit Prasad | Консультант по облачным технологиям
Участники:
- Рафаэль Сайе | Архитектор облачных решений
Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.
Следующие шаги
- Что такое OneLake?
- Общие сведения о Data Lake Storage
- Документация по Azure Data Lake Analytics
- Учебный курс. Введение в Data Lake Storage
- Интеграция Hadoop и Azure Data Lake Storage
- Подключение к хранилищу Data Lake и хранилищу объектов BLOB
- Загрузка данных в Data Lake Storage с помощью Фабрика данных Azure