Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Microsoft Fabric Lakehouse использует Delta Lake в качестве стандартного формата таблиц для надежного и высокопроизводительного хранения и обработки данных. В то время как поддерживаются другие форматы, Delta Lake обеспечивает лучшую интеграцию между службами Fabric.
Что такое таблицы Delta Lake?
При хранении данных в Microsoft Fabric Lakehouse данные хранятся как Delta Lake по умолчанию. Delta Lake добавляет возможности, которые повышают производительность и надежность:
- Улучшенная производительность: более быстрые запросы и обработка данных.
- Надежность данных: проверки согласованности транзакций и целостности.
- Гибкость. Работает с структурированными данными (например, таблицами) и полуструктурированных данных (например, JSON).
Почему это важно?
Delta Lake — это стандартный формат таблицы для всех данных в Fabric Lakehouse. Это означает:
- Согласованность. Все данные используют один и тот же формат таблицы.
- Compatibility: данные работают с инструментами Fabric, такими как Power BI, записные книжки и конвейеры.
- Без дополнительной настройки: при загрузке данных в таблицы или использовании других методов загрузки данных формат Delta применяется автоматически.
Fabric обрабатывает делта-форматирование в фоновом режиме, поэтому вы можете сосредоточиться на моделировании и анализе.
Обработчик Apache Spark и форматы данных
Fabric Lakehouse работает на базе Apache Spark Runtime, который имеет общие основания со средой выполнения Azure Synapse Analytics для Apache Spark. Среда Fabric также применяет различные значения по умолчанию и оптимизации для улучшения производительности сразу после установки для всех своих рабочих нагрузок.
Поддерживаемые форматы данных:
- Delta Lake: предпочтительный формат с автоматической оптимизацией.
- CSV: текстовые данные с разделителями.
- JSON: полуструктурированное приложение и веб-данные.
- Parquet: сжатые столбчатые файлы.
- Другие форматы: AVRO и устаревшие форматы таблиц Hive.
Ключевые преимущества по умолчанию Fabric Spark:
- Оптимизировано по умолчанию: функции производительности автоматически включены для повышения скорости
- Поддерживается несколько форматов: можно считывать из существующих файлов в различных форматах
- Автоматическое преобразование: при загрузке данных в таблицы он автоматически оптимизирован с помощью формата Delta Lake
Замечание
Хотя вы можете работать с различными форматами файлов, таблицы, отображаемые в обозревателе Lakehouse, оптимизированы для оптимальной производительности и надежности.
Различия с Azure Synapse Analytics
Если вы выполняете миграцию из Azure Synapse Analytics, ниже приведены основные различия конфигурации в среде выполнения Apache Spark в Fabric:
Более широкое сравнение между пулами Spark, конфигурациями, библиотеками, записными книжками и определениями заданий Spark см. в статье Compare Fabric Data Engineering и Azure Synapse Spark.
| Конфигурация Apache Spark | значение Microsoft Fabric | ценность Azure Synapse Analytics | Примечания. |
|---|---|---|---|
| spark.sql.sources.default | дельта | паркет | Формат таблицы по умолчанию |
| spark.sql.parquet.vorder.default | правда | Н/П | Записывающее устройство V-Order |
| spark.sql.parquet.vorder.dictionaryPageSize | 2 ГБ | Н/П | Ограничение размера страницы словаря для V-Order |
| spark.databricks.delta.optimizeWrite.enabled | правда | не установлен (false) | Оптимизация записи |
Эти оптимизации предназначены для обеспечения улучшенной производительности в Fabric прямо из коробки. Расширенные пользователи могут изменять эти конфигурации при необходимости для определенных сценариев.
Как Fabric автоматически находит ваши таблицы
При открытии Lakehouse Fabric автоматически сканирует данные и отображает все таблицы, которые он находит в разделе "Таблицы " обозревателя. Это означает:
- Настройка вручную не требуется . Структура автоматически обнаруживает существующие таблицы
- Упорядоченное представление — таблицы отображаются в структуре дерева для простой навигации
- Работает с ярлыками . Таблицы, связанные с другими расположениями, также автоматически обнаруживаются
Это автоматическое обнаружение упрощает просмотр всех доступных данных.
Использование сочетаний клавиш с таблицами и файлами
Ссылки OneLake могут указывать на таблицы Delta или пути к файлам и папкам, так что вы можете ссылаться на внешние данные без их перемещения. В следующей таблице приведены рекомендуемые шаблоны на основе целевого типа данных.
| Тип данных в целевом объекте ссылки | Где можно создать ярлык | Лучшие практики |
|---|---|---|
| Таблица Delta Lake | Раздел Tables |
Если в назначении присутствует несколько таблиц, создайте один ярлык для каждой таблицы. |
| Папки с файлами | Раздел Files |
Используйте Apache Spark с относительными путями для чтения непосредственно из целевого объекта ярлыка. Загрузите таблицы Delta на основе Lakehouse для максимальной производительности. |
| Устаревшие таблицы Apache Hive | Раздел Files |
Используйте Apache Spark с относительными путями или создайте ссылку на каталог метаданных с помощью CREATE EXTERNAL TABLE. Загрузите таблицы Delta на основе Lakehouse для максимальной производительности. |
Загрузка в таблицы
Microsoft Fabric Lakehouse предоставляет визуальный интерфейс для загрузки общих форматов файлов в таблицы Delta. Дополнительные сведения см. в статье "Загрузка таблиц Delta Lake".
Поддержание быстрой и эффективной обработки таблиц
Структура автоматически оптимизирует таблицы Delta Lake для повышения производительности, но иногда может потребоваться дополнительное управление:
Что выполняется автоматически в Fabric:
- Объединяет небольшие файлы в более крупные, более эффективные файлы
- Оптимизирует макет данных для ускорения запросов
- Управляет хранилищем для снижения затрат
Если вам может потребоваться оптимизация вручную:
- Очень большие наборы данных с определенными требованиями к производительности
- Потребности в настраиваемой организации данных
- Сценарии расширенной аналитики
Подробные инструкции по оптимизации таблиц см. в разделе "Оптимизация таблиц Delta Lake" и "V-Order".
Связанный контент
- Что такое Delta Lake?
- обзор Delta Lake
- Ярлыки
- Загрузка в таблицы Delta Lake
- параметры администрирования рабочей области Data Engineering в Microsoft Fabric
- Среда выполнения Apache Spark в Fabric