Выполните обслуживание таблицы Delta в Lakehouse

Запустите обслуживание таблиц в таблицах Delta, чтобы сохранять их в хорошем состоянии с течением времени путем сжатия небольших файлов, применения оптимизации чтения и удаления устаревших файлов, на которые больше не ссылаются.

Обслуживание можно выполнять как нерегламентированную операцию на портале Fabric (таблица Lakehouse Maintenance) или как запланированный и оркестрированный процесс с помощью записных книжек, pipelines или REST API. Конвейеры фабрики данных Fabric включают выделенное действие "Lakehouse Maintenance" (в предварительной версии), которое может запускать OPTIMIZE (с необязательным порядком V-Order) и VACUUM на таблицах Lakehouse Delta в рамках запланированных рабочих процессов. В этой статье рассматривается рабочий процесс нерегламентированного портала.

Рекомендации по обслуживанию между рабочими нагрузками, включая советы по конечной точке SQL аналитики, Power BI Direct Lake и Data Warehouse пользователей, обратитесь к разделу Обслуживание и оптимизация таблиц между рабочими нагрузками. Шаблоны обслуживания на основе кода см. в статьях Оптимизация таблиц Delta Lake и V-Order и Управление Lakehouse с помощью Microsoft Fabric REST API.

Запустите обслуживание таблиц из Lakehouse

Обслуживание таблиц в Lakehouse применяется только к таблицам "Delta". Устаревшие таблицы Hive, использующие такие форматы, как Parquet, ORC, AVRO или CSV, не поддерживаются.

В диалоговом окне "Выполнение команд обслуживания " выберите параметры в зависимости от цели.

Как правило, проводите обслуживание после основного приема или обновления, или если наблюдается большое количество небольших файлов и снижение производительности чтения.

Примечание.

Оркестрация с конвейерами. Для повторяющихся заданий обслуживания используйте действие обслуживания Lakehouse (предварительная версия) в конвейерах Фабрики данных Fabric. Он предоставляет те же параметры (ОПТИМИЗАЦИЯ с дополнительными параметрами V-Order, VACUUM) и интегрируется с другими этапами конвейера с помощью зависимостей, триггеров и параметров, чтобы вы могли связать выполнение задач обслуживания с загрузками данных и последующим обновлением активности конечной точки SQL в том же конвейере.

  1. В учетной записи Microsoft Fabric перейдите к нужному Lakehouse.

  2. В обозревателе Lakehouse в разделе "Таблицы" щелкните правой кнопкой мыши целевую таблицу (или используйте многоточие).

  3. Выберите пункт меню Обслуживание.

    Снимок экрана: диалоговое окно

  4. В диалоговом окне "Запустить команды обслуживания", выберите параметры обслуживания:

    • Выберите параметр "Вкл." , чтобы сжать небольшие файлы Parquet в более крупные файлы для более эффективного чтения.

    • Если выбран параметр "Включено ", можно также установить флажок "Применить V-Order ". При выборе этого параметра Fabric применяет V-Order (оптимизированную сортировку, кодировку и сжатие) в рамках оптимизации.

      Примечание.

      V-Order имеет около 15% влияние на среднее время записи. Кроме того, он может обеспечить до 50% больше сжатия.

    • Выберите параметр "Вкл.", чтобы запустить команду Delta Lake VACUUM и удалить неупомянутые файлы старше вашего порогового значения хранения. Сведения о поведении хранения и безопасности см. в разделе "Параметры хранения вакуума".

    • Выберите параметр "Вкл.", чтобы объединить транзакции в паркет-файлы и удалить дополнительные файлы векторов удаления, очистив пространство и оптимизировав чтение таблиц.

  5. Выберите "Выполнить сейчас ", чтобы выполнить задание обслуживания таблицы.

  6. Отслеживайте выполнение задания в любом из следующих мест:

    • Панель уведомлений (значок колокольчика в заголовке портала Fabric) для получения информации о текущем статусе выполнения.
    • Центр мониторинга (выберите "Монитор " в области навигации слева) для получения полных сведений о задании. Ищите действия, в названии которых содержится TableMaintenance, для запусков, инициированных порталом. Для выполнения обслуживания через конвейеры Фабрики данных Fabric найдите запуск конвейера в представлении конвейеров центра мониторинга > и отфильтруйте его по имени действия обслуживания Lakehouse.

После выполнения обслуживания успех отображается как завершенное действие по обслуживанию таблицы в уведомлениях и как успешная запись TableMaintenance в центре мониторинга.

Дополнительные сведения о навигации и фильтрах концентратора мониторинга см. в разделе "Использование концентратора мониторинга".

Параметры хранения вакуума

Команда VACUUM удаляет файлы, на которые журнал Delta больше не ссылается и которые старше порога удержания. Порог хранения по умолчанию — семь дней.

Использование более короткого интервала хранения может уменьшить историю временных изменений Delta и может повлиять на одновременных читателей или писателей. Запросы на обслуживание портала Fabric и API по умолчанию завершаются сбоем, если интервал хранения составляет менее семи дней.

Если необходимо использовать интервал хранения менее семи дней, установите spark.databricks.delta.retentionDurationCheck.enabled в false в свойствах среды Fabric, используемой рабочей областью Spark. Сведения о том, где настраивать и подключать среды, см. в разделе «Создание, настройка и использование среды в Fabric» и «Параметры конфигурации вычислений Spark в средах Fabric».