Деятельность по обслуживанию Lakehouse

Действие по обслуживанию Lakehouse позволяет выполнять операции по обслуживанию таблиц, хранящихся в Fabric Lakehouse, для их подготовки, очистки или оптимизации данных после шагов приема или преобразования. Вы можете:

  • Сжатие небольших файлов для повышения производительности запросов
  • Удаление устаревших файлов, которые больше не нужны
  • Планирование регулярного обслуживания в рамках конвейера

Это помогает обеспечить эффективность и экономичность таблиц Delta путем автоматизации операций обслуживания, таких как Оптимизация и Ваккум в рамках процессов оркестрации. Используйте это действие вместе с другими действиями конвейера, такими как копирование, записная книжка или поток данных.

Необходимые условия

Чтобы использовать функцию обслуживания Lakehouse, необходимо:

Добавьте задачу обслуживания Lakehouse в конвейер с помощью пользовательского интерфейса

Чтобы использовать операцию обслуживания Lakehouse в конвейере, выполните следующие действия.

  1. Создать задачу для обслуживания Lakehouse
  2. Настройка параметров действия
  3. Сохранение и запуск или планирование конвейера

Создайте мероприятие

  1. Создайте конвейер в рабочей области.  

  2. Найдите "Обслуживание Lakehouse " в области действий конвейера и выберите его, чтобы добавить его на холст конвейера.

    Снимок экрана: действие обслуживания Lakehouse в области действий конвейера.

  3. Если новое действие Lakehouse Maintenance еще не выбрано, выберите его на холсте.

    Снимок экрана: действие обслуживания Lakehouse, выбранное на холсте конвейера.

  4. Ознакомьтесь с руководством по общим параметрам , чтобы настроить вкладку "Общие параметры".

Настройки деятельности по техническому обслуживанию Lakehouse

  1. Перейдите на вкладку "Параметры" , чтобы настроить действие.

  2. Настройте подключение, выбрав существующее подключение в раскрывающемся списке "Подключение " или создав новое подключение и указав его сведения о конфигурации.

  3. Укажите Lakehouse , содержащий таблицы, которые требуется поддерживать.

  4. Определите, какие таблицы следует включить в операцию обслуживания.

    При необходимости вы можете добавить имя схемы, если оно существует в Lakehouse. Схема, содержащая целевые таблицы.

    Имя таблицы — это таблица, которую вы хотите сохранить.

    Снимок экрана: вкладка

  5. Выберите операцию обслуживания, выполняемую для выбранных таблиц.

    Оптимизировать: Сжимает небольшие файлы в таблице, чтобы повысить производительность запросов и уменьшить фрагментацию файлов.

    Используйте оптимизацию после больших рабочих нагрузок приема или преобразования.

    Вакуум: Удаляет устаревшие файлы данных, на которые таблица больше не ссылается.

    Вакуум помогает освободить место в хранилище и сохранить лейкхаус чистым.

    Замечание

    При использовании вакуума убедитесь, что политика хранения соответствует требованиям к восстановлению данных, путешествию по времени и нижнему потоку обработки.

Сохраните и запустите конвейер или запланируйте его

Перейдите на вкладку "Главная " в верхней части редактора конвейера и нажмите кнопку "Сохранить", чтобы сохранить конвейер. Выберите "Выполнить" , чтобы запустить его напрямую или запланировать выполнение в определенный момент времени или интервалы. Дополнительные сведения о запусках конвейера см. в статье "Планирование запусков конвейера".

снимок экрана: вкладка

После выполнения можно отслеживать выполнение конвейера и просматривать журнал выполнения с вкладки "Выходные данные " под холстом.

Поведение действий по обслуживанию Lakehouse

  • Действие обслуживания Lakehouse выполняется синхронно в конвейере.
  • Процесс завершается только после завершения операции обслуживания.
  • Если не удается провести техническое обслуживание для таблицы, операция возвращает состояние сбоя.
  • Для управления последующими действиями можно использовать условия успешного или неудачного выполнения конвейера.

Распространенные сценарии

Оптимизация после загрузки: Выполните оптимизацию после операций копирования или работы с ноутбуком, чтобы повысить производительность запросов.

Плановая очистка: Запланируйте периодические операции вакуума для удаления устаревших файлов.

Управляемые рабочие процессы обслуживания: Сочетание обслуживания Lakehouse с утверждением или условными действиями для обеспечения проведения операционных проверок перед выполнением обслуживания.

Известные проблемы

  • Действие обслуживания Lakehouse пока не поддерживает обслуживание Lakehouses с включенными схемами.
  • В настоящее время активность обслуживания Lakehouse не поддерживает выполнение в рабочих областях, где включён Private Link. Мы работаем над исправлением этого.