Использование декларативных конвейеров Lakeflow с устаревшим хранилищем метаданных Hive

2025-06-11

В этой статье описаны конфигурации и предостережения, относящиеся к Декларативным конвейерам Lakeflow, настроенным для публикации данных в устаревшем хранилище метаданных Hive. Databricks рекомендует использовать каталог Unity для всех новых конвейеров. Используйте каталог Unity с декларативными конвейерами Lakeflow.

Заметка

В этой статье рассматриваются функции текущего режима публикации по умолчанию для конвейеров. Конвейеры, созданные до 5 февраля 2025 г., могут использовать устаревший режим публикации и LIVE виртуальную схему. См. схему LIVE (устаревшую версию).

Как запрашивать потоковые таблицы и материализованные представления в устаревшем хранилище метаданных Hive

После завершения обновления можно просмотреть схему и таблицы, запросить данные или использовать данные в подчиненных приложениях.

После публикации таблицы Lakeflow Declarative Pipelines можно запрашивать из любой среды, имеющей доступ к целевой схеме. К ним относятся Databricks SQL, записные книжки и другие декларативные потоки Lakeflow.

Важный

При создании конфигурации target публикуются только таблицы и связанные метаданные. Представления не публикуются в хранилище метаданных.

настройка конвейера для публикации в хранилище метаданных Hive

При создании нового конвейера вы можете указать метастор Hive в разделе параметров хранилища для публикации в устаревшем метасторе Hive. При публикации в хранилище метаданных Hive необходимо указать целевую схему по умолчанию. См. раздел "Настройка декларативных конвейеров Lakeflow".

Указание расположения хранилища

Можно указать расположение хранилища для потока данных, который публикуется в метахранилище Hive. Основная мотивация указания расположения — управлять расположением хранилища объектов для данных, записанных конвейером. Databricks рекомендует всегда указывать расположение хранилища, чтобы избежать записи в корневой каталог DBFS.

Так как все таблицы, данные, контрольные точки и метаданные для декларативных конвейеров Lakeflow полностью управляются декларативными конвейерами Lakeflow, большинство взаимодействий с наборами данных Lakeflow Декларативных конвейеров происходит через таблицы, зарегистрированные в хранилище метаданных Hive или каталог Unity.

конфигурация облачного хранилища

Чтобы получить доступ к службе хранилища Azure, необходимо установить требуемые параметры, включая токены доступа, с помощью параметров spark.conf в конфигурациях вашего кластера. Пример настройки доступа к учетной записи хранения Azure Data Lake Storage (ADLS) см. в статье "Безопасный доступ к учетным данным хранилища с секретами в конвейере".

Работа с журналом событий для конвейеров хранилища метаданных Hive

Если конвейер публикует таблицы в хранилище метаданных Hive, журнал событий хранится в /system/events по адресу storage. Например, если вы настроили параметр storage конвейера как /Users/username/data, журнал событий хранится в пути /Users/username/data/system/events в DBFS.

Если параметр storage не настроен, расположение журнала событий по умолчанию — /pipelines/<pipeline-id>/system/events, в DBFS. Например, если идентификатор вашего конвейера — 91de5e48-35ed-11ec-8d3d-0242ac130003, то место хранения — /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events.

Вы можете создать представление, чтобы упростить запросы к журналу событий. В следующем примере создается временное представление с именем event_log_raw. Это представление используется в примерах запросов журнала событий, включенных в эту статью:

CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;

Замените <event-log-path> расположением журнала событий.

Каждый экземпляр выполнения конвейера называется обновление. Часто требуется извлечь сведения для последнего обновления. Выполните следующий запрос, чтобы найти идентификатор последнего обновления и сохранить его во временном представлении latest_update_id. Это представление используется в примерах запросов журнала событий, включенных в эту статью:

CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;

Журнал событий можно запросить в записной книжке Azure Databricks или редакторе SQL. Используйте записную книжку или редактор SQL для выполнения примеров запросов журнала событий.

Пример записных книжек исходного кода конвейера для рабочих областей без каталога Unity

Следующие записные книжки можно импортировать в рабочую область Azure Databricks без включения каталога Unity и использовать их для развертывания декларативных конвейеров Lakeflow. Импортируйте записную книжку выбранного языка и укажите путь в поле исходный код при настройке конвейера с параметром хранилища метаданных Hive . См. раздел "Настройка декларативных конвейеров Lakeflow".

Начало работы с

Получение записной книжки

Начните с