Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Microsoft Fabric Lakehouse использует Delta Lake в качестве стандартного и предпочтительного формата таблицы для обеспечения надежного, высокопроизводительного хранилища и обработки данных. В то время как поддерживаются другие форматы, Delta Lake обеспечивает лучшую интеграцию и производительность во всех службах Fabric. В этой статье объясняется, какие таблицы Delta Lake представляют собой, как они работают в Fabric и как получить лучшую производительность из данных.
Что такое таблицы Delta Lake?
При хранении данных в Microsoft Fabric Lakehouse данные автоматически сохраняются с помощью специального формата Delta Lake. Подумайте о Delta Lake как расширенной версии обычных файлов данных, которые предоставляют:
- Повышение производительности — более быстрые запросы и обработка данных
- Надежность данных — автоматическая проверка ошибок и целостность данных
- Гибкость . Работает с структурированными данными (например, таблицами баз данных) и полуструктурированных данных (например, JSON-файлами)
Почему это важно?
Delta Lake — это стандартный формат таблицы для всех данных в Fabric Lakehouse. Это означает:
- Согласованность. Все данные используют один и тот же формат, что упрощает работу с
- Совместимость: Ваши данные безупречно работают во всех средствах Fabric (Power BI, записных книжках, конвейерах данных и т. д.)
- Нет дополнительной работы: при загрузке данных в таблицы или использовании других методов загрузки данных разностный формат применяется автоматически.
Вам не нужно беспокоиться о технических деталях — Fabric обрабатывает форматирование Delta Lake за кулисами. В этой статье объясняется, как она работает и как получить лучшую производительность из данных.
Обработчик Apache Spark и форматы данных
Fabric Lakehouse основан на среде выполнения Apache Spark, основанной на том же фундаменте, что и среда выполнения Azure Synapse Analytics для Apache Spark. Однако Fabric включает оптимизации и различные параметры по умолчанию для обеспечения более высокой производительности во всех службах Fabric.
Поддерживаемые форматы данных:
- Delta Lake — предпочтительный формат (автоматическая оптимизация)
- CSV-файлы — файлы данных, такие как электронная таблица
- JSON-файлы — данные веб и приложений
- Файлы Parquet — сжатые файлы данных
- Другие форматы — AVRO и устаревшие форматы таблиц Hive
Основные преимущества Apache Spark в Fabric:
- Оптимизировано по умолчанию: функции производительности автоматически включены для повышения скорости
- Поддерживается несколько форматов: можно считывать из существующих файлов в различных форматах
- Автоматическое преобразование: при загрузке данных в таблицы он автоматически оптимизирован с помощью формата Delta Lake
Замечание
Хотя вы можете работать с различными форматами файлов, таблицы, отображаемые в обозревателе Lakehouse, оптимизированы для оптимальной производительности и надежности.
Различия от Azure Synapse Analytics
Если вы выполняете миграцию из Azure Synapse Analytics, ниже приведены основные различия конфигурации в среде выполнения Apache Spark в Fabric:
| Конфигурация Apache Spark | Значение Microsoft Fabric | Значение Azure Synapse Analytics | Примечания. |
|---|---|---|---|
| spark.sql.sources.default | дельта | паркет | Формат таблицы по умолчанию |
| spark.sql.parquet.vorder.default | правда | Н/П | Записывающее устройство V-Order |
| spark.sql.parquet.vorder.dictionaryPageSize | 2 ГБ | Н/П | Ограничение размера страницы словаря для V-Order |
| spark.databricks.delta.optimizeWrite.enabled | правда | не установлен (false) | Оптимизация записи |
Эти оптимизации предназначены для обеспечения улучшенной производительности в Fabric прямо из коробки. Расширенные пользователи могут изменять эти конфигурации при необходимости для определенных сценариев.
Как Fabric автоматически находит ваши таблицы
При открытии Lakehouse Fabric автоматически сканирует данные и отображает все таблицы, которые он находит в разделе "Таблицы " обозревателя. Это означает:
- Настройка вручную не требуется . Структура автоматически обнаруживает существующие таблицы
- Упорядоченное представление — таблицы отображаются в структуре дерева для простой навигации
- Работает с ярлыками . Таблицы, связанные с другими расположениями, также автоматически обнаруживаются
Это автоматическое обнаружение упрощает просмотр всех доступных данных.
Таблицы для сочетаний клавиш
Microsoft Fabric Lakehouse поддерживает таблицы, определенные по сочетаниям клавиш OneLake, чтобы обеспечить максимальную совместимость и отсутствие перемещения данных. В следующей таблице приведены рекомендации по сценарию для каждого типа элемента при использовании сочетаний клавиш.
| Назначение ссылки | Где можно создать ярлык | Лучшие практики |
|---|---|---|
| Таблица Delta Lake | Раздел Tables |
Если в назначении присутствует несколько таблиц, создайте один ярлык для каждой таблицы. |
| Папки с файлами | Раздел Files |
Используйте Apache Spark для работы с местом назначения напрямую, используя относительные пути. Загрузите данные в таблицы Delta, являющиеся нативными для Lakehouse, для максимальной производительности. |
| Устаревшие таблицы Apache Hive | Раздел Files |
Используйте Apache Spark для доступа к месту назначения непосредственно через относительные пути или создайте ссылку на каталог метаданных с помощью синтаксиса CREATE EXTERNAL TABLE. Загрузите данные в таблицы Delta, являющиеся нативными для Lakehouse, для максимальной производительности. |
Загрузка в таблицу
Microsoft Fabric Lakehouse предоставляет удобный и продуктивный пользовательский интерфейс для упрощения загрузки данных в таблицы Delta. Функция "Загрузка в таблицу" позволяет визуализировать загрузку общих форматов файлов в Delta для повышения аналитической производительности для всех пользователей. Дополнительные сведения о функции "Загрузка в таблицу" см. в справочной документации по таблицам Load to Delta Lake .
Поддержание быстрой и эффективной обработки таблиц
Структура автоматически оптимизирует таблицы Delta Lake для повышения производительности, но иногда может потребоваться дополнительное управление:
Что выполняется автоматически в Fabric:
- Объединяет небольшие файлы в более крупные, более эффективные файлы
- Оптимизирует макет данных для ускорения запросов
- Управление хранилищем для снижения затрат
Если вам может потребоваться оптимизация вручную:
- Очень большие наборы данных с определенными требованиями к производительности
- Потребности в настраиваемой организации данных
- Сценарии расширенной аналитики
Подробные инструкции по оптимизации таблиц см. в разделе "Оптимизация таблиц Delta Lake" и "V-Order".