Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Эта функция доступна в общедоступной предварительной версии.
На этой странице описывается обновление происхождения данных для включения внешних ресурсов и рабочих процессов, выполняемых за пределами Azure Databricks.
Каталог Unity автоматически записывает происхождение данных в среде выполнения для запросов, которые выполняются в Azure Databricks. Однако у вас могут быть рабочие нагрузки, которые выполняются за пределами Azure Databricks (например, первая миля ETL или последняя миля BI). Каталог Unity позволяет добавлять внешние метаданные о происхождении для улучшения и дополнения данных о происхождении, которые Azure Databricks записывает автоматически, предоставляя вам полное представление о происхождении данных в каталоге Unity. Это полезно, если нужно зафиксировать, откуда были получены данные (например, из Salesforce или MySQL) до того, как они были внесены в каталог Unity, или где данные потребляются за пределами каталога Unity (например, в Tableau или PowerBI).
На следующем графе родословной показана внешняя таблица PostgreSQL, которая была импортирована в Azure Databricks как управляемая таблица Unity Catalog, где три столбца были преобразованы в один столбец release_date
, а затем была запрошена с помощью PowerBI.
Общие сведения о происхождении данных в Azure Databricks см. в разделе "Просмотр происхождения данных с помощью каталога Unity".
Требования
Чтобы добавить внешние метаданные происхождения в каталог Unity, необходимо иметь следующие привилегии в зависимости от конкретной задачи:
- Чтобы создать объект, защищаемый внешними метаданными в каталоге Unity, необходимо иметь
CREATE EXTERNAL METADATA
привилегии в хранилище метаданных. - Чтобы указать связи происхождения между внешним объектом метаданных и любым другим объектом каталога Unity, необходимо иметь
MODIFY
привилегии для внешнего объекта метаданных. - Чтобы указать связь нижестоящего происхождения с объектом каталога Unity, необходимо иметь права на чтение объекта (например,
SELECT
в таблице). - Чтобы указать отношение вышестоящей линии к объекту каталога Unity, необходимо иметь права на запись объекта (например,
MODIFY
в таблице).
Добавление метаданных внешнего происхождения
Чтобы добавить внешние метаданные lineage, выполните приведенные действия.
Создайте объект, защищаемый внешними метаданными , в каталоге Unity.
Этот объект представляет сущность во внешней системе, например панель мониторинга в Tableau.
Настройте связь происхождения между внешним объектом метаданных и другим объектом каталога Unity, например, таблицей, моделью, путем или другим внешним объектом метаданных.
При создании связей происхождения внешний объект метаданных отображается в представлении графа происхождения.
Можно создать внешние объекты метаданных и настроить связи происхождения с помощью пользовательского интерфейса обозревателя каталогов или REST API.
Создание внешнего объекта метаданных
Можно создать внешний объект метаданных с помощью обозревателя каталогов или API внешних метаданных.
Чтобы использовать обозреватель каталога для создания внешнего объекта метаданных:
В рабочей области Azure Databricks щелкните
Каталог.
На странице быстрого доступа нажмите кнопку "Внешние данные > ", перейдите на вкладку "Внешние метаданные " и нажмите кнопку "Создать внешние метаданные".
Укажите сведения о метаданных.
Обязательно:
- Имя. Введите удобочитаемое пользователем имя, которое поможет пользователям Azure Databricks понять, что они видят в происхождении. Нельзя использовать пробелы.
- Тип системы: выберите из списка распространенных внешних данных и систем бизнес-аналитики. Если вы не найдете свой вариант, выберите Пользовательский.
- Тип сущности: введите тип объекта, например "table" или "dashboard".
Необязательно:
- URL-адрес: Введите URL-адрес объекта, чтобы пользователи средств просмотра графа происхождения могли переходить к внешнему ресурсу (например, к панели мониторинга Tableau).
- Описание
Продвинутый:
- Столбцы. Если требуется выполнить сопоставление на уровне столбцов из этого внешнего объекта с другим объектом каталога Unity, введите имена столбцов. Выберите пользовательский интерфейс , чтобы ввести их один раз или текстовый ввод , чтобы ввести список с разделителями-запятыми в одном текстовом поле.
- Свойства: если есть другие свойства, которые необходимо отслеживать в иерархии, введите их в формате JSON как пары "ключ: значение". Пользовательский интерфейс можно использовать для ввода каждой пары "ключ-значение" или ввода полного объекта JSON.
Нажмите кнопку Создать.
Диалоговое окно позволяет просматривать внешний объект метаданных или создавать связи происхождения для объекта.
Создание связей происхождения
Вы можете создавать связи происхождения с помощью Обозревателя каталогов, внешнего API для обнаружения происхождения или Databricks SDK для Python.
Чтобы добавить связи между внешним объектом метаданных и другими объектами каталога Unity:
Следуйте приведенному выше запросу или найдите существующий объект внешних метаданных в обозревателе каталогов:
- Щелкните
Каталог
- Нажмите кнопку "Внешние данные">
- Перейдите на вкладку "Внешние метаданные " и выберите внешний объект метаданных.
- Щелкните
Нажмите кнопку "Создать связь происхождения".
Выберите, хотите ли вы создать восходящую или нисходящую связь.
Введите тип объекта , для которого нужно создать связь:
- Таблица: выберите таблицу с помощью диалогового окна поиска.
- Модель: выберите модель с помощью диалогового окна поиска и выберите версию модели.
- Путь: для томов или внешних расположений введите путь.
- Внешние метаданные: выберите объект внешних метаданных в раскрывающемся меню.
(Необязательно) Нажмите кнопку "Дополнительно", чтобы добавить:
- Сопоставления столбцов между внешним объектом метаданных и исходным или целевым объектом.
- Другие метаданные в виде пар "ключ-значение JSON". Например, их можно использовать для ввода текста запроса, создавшего таблицу из внешнего объекта метаданных или заметок, объясняющих внешний рабочий процесс, создавший связь.
Нажмите кнопку Создать.
Теперь вы можете увидеть внешнюю родственную связь на вкладке "Родословная" в связанных объектах.
Часто задаваемые вопросы о внешнем происхождении
Предоставляет ли Databricks какие-либо соединители или обходчики для автоматического переноса метаданных внешнего происхождения?
Нет, внешнее происхождение не записывается автоматически. Для добавления внешнего происхождения необходимо использовать REST API или обозреватель каталогов.
Записывается ли внешняя линия, которую я добавляю, в системную таблицу происхождения?
Нет, внешние происхождения, добавляемые с помощью этой функции, нельзя запрашивать из системной таблицы происхождения. Необходимо вызвать REST API, чтобы программным способом получить внешнюю линию данных.
Можно ли указать связь происхождения между двумя таблицами, зарегистрированных в каталоге Unity, с помощью этой функции?
Чтобы указать связь происхождения между двумя таблицами, зарегистрированными в каталоге Unity, необходимо создать внешний объект метаданных, который находится между ними. Вы можете указать одну таблицу в качестве входящей для внешнего объекта метаданных и другую как нисходящую, чтобы они отображались как связанные в графе наследования.
Можно ли использовать эту функцию для указания нескольких уровней внешних связей происхождения (например, аннотирования данных, которые проходят через несколько систем перед вводом Databricks)?
Да, можно указать несколько уровней внешнего происхождения, создав несколько защищаемых объектов метаданных и установив внешние отношения происхождения для каждого из них.
Можно ли добавить внешнюю линию на уровне столбцов с помощью этой функции?
Да, можно добавить внешнюю родословную на уровне столбца. При создании внешнего защищаемого объекта метаданных необходимо указать имена столбцов, а при настройке внешнего родства указать сопоставления исходных и целевых столбцов.
Существуют ли ограничения для внешнего происхождения?
Да, можно создать 10 000 внешних объектов метаданных и 100 000 внешних связей происхождения на хранилище метаданных. См. Ограничения ресурсов.