Подключение к Azure Databricks и управление ими в Microsoft Purview

В этой статье описывается регистрация Azure Databricks, а также проверка подлинности и взаимодействие с Azure Databricks в Microsoft Purview. Дополнительные сведения о Microsoft Purview см. в вводной статье.

Поддерживаемые возможности

Возможности сканирования

Извлечение метаданных Полная проверка Добавочное сканирование Сканирование с заданной областью
Да Да Нет Да

Примечание.

Этот соединитель приносит метаданные из хранилища метаданных Hive области Azure Databricks. Чтобы проверить метаданные в каталоге Unity Azure Databricks, обратитесь к соединителю каталога Azure Databricks Unity.

При сканировании Azure хранилище метаданных Databricks Hive Microsoft Purview поддерживает:

  • Извлечение технических метаданных, в том числе:

    • Azure рабочая область Databricks
    • Сервер Hive
    • Databases
    • Таблицы, включая столбцы, внешние ключи, уникальные ограничения и описание хранилища
    • Представления, включая столбцы и описание хранилища
  • Связь извлечения между внешними таблицами и ресурсами Azure Data Lake Storage 2-го поколения/Azure BLOB-объектов (внешние расположения).

  • Получение статического происхождения данных между таблицами и представлениями на основе определения представления.

При настройке проверки можно выбрать проверку всего хранилища метаданных Hive или область проверку в подмножество схем.

По сравнению с проверкой через универсальный соединитель хранилища метаданных Hive, если вы использовали его для сканирования Azure Databricks ранее:

  • Вы можете напрямую настроить проверку для Azure рабочих областей Databricks без прямого доступа HMS. Он использует личный маркер доступа Databricks для проверки подлинности и подключается к кластеру для выполнения сканирования.
  • Данные рабочей области Databricks записываются.
  • Связь между таблицами и ресурсами хранилища фиксируется.

Другие возможности

Сведения о классификациях, метках конфиденциальности, политиках, происхождении данных и динамическом представлении см. в списке поддерживаемых возможностей.

Известные ограничения

При удалении объекта из источника данных последующее сканирование не удаляет автоматически соответствующий ресурс в Purview.

Предварительные условия

Регистрация

В этом разделе описывается, как зарегистрировать рабочую область Azure Databricks в Microsoft Purview с помощью портала управления Microsoft Purview.

  1. Перейдите к учетной записи Microsoft Purview.

  2. Выберите Карта данных в левой области.

  3. Нажмите Зарегистрировать.

  4. В разделе Регистрация источников выберите Azure Databricks>Continue.

  5. На экране Регистрация источников (Azure Databricks) выполните следующие действия.

    1. В поле Имя введите имя, которое Microsoft Purview перечисляет в качестве источника данных.

    2. Для Azure подписки и имени рабочей области Databricks выберите подписку и рабочую область, которые нужно проверить, в раскрывающемся списке. URL-адрес рабочей области Databricks заполняется автоматически.

    3. Выберите коллекцию из списка.

    Снимок экрана: регистрация Azure источника Databricks.

  6. Нажмите Готово.

Проверка

Совет

Чтобы устранить неполадки со сканированием, выполните указанные ниже действия.

  1. Убедитесь, что вы выполнили все предварительные требования.
  2. Ознакомьтесь с документацией по устранению неполадок сканирования.

Выполните следующие действия, чтобы проверить Azure Databricks для автоматической идентификации ресурсов. Дополнительные сведения о сканировании в целом см. в статье Сканирование и прием данных в Microsoft Purview.

  1. В Центре управления выберите среды выполнения интеграции. Убедитесь, что настроена локальная среда выполнения интеграции. Если она не настроена, выполните действия, описанные в статье Создание локальной среды выполнения интеграции и управление ею.

  2. Перейдите в раздел Источники.

  3. Выберите зарегистрированный Azure Databricks.

  4. Выберите + Создать сканирование.

  5. Укажите следующие сведения.

    1. Имя. Введите имя проверки.

    2. Метод извлечения: Указывает на извлечение метаданных из хранилища метаданных Hive или каталога Unity. Выберите Хранилище метаданных Hive.

    3. Подключение через среду выполнения интеграции. Выберите настроенную локальную среду выполнения интеграции.

    4. Учетные данные. Выберите учетные данные для подключения к источнику данных. Убедитесь, что:

      • Выберите Проверка подлинности маркера доступа при создании учетных данных.
      • Укажите имя секрета личного маркера доступа, созданного в разделе Предварительные требования , в соответствующем поле.

      Дополнительные сведения см. в разделе Учетные данные для проверки подлинности источника в Microsoft Purview.

    5. Идентификатор кластера. Укажите идентификатор кластера, к которому подключается Microsoft Purview, и выполняет проверку. Его можно найти в рабочей области Azure Databricks —> Вычисления —> ваш кластер —> Теги —> Автоматически добавленные теги .>ClusterId

      1. Точки подключения. Укажите точку подключения и Azure строку расположения источника хранилища при наличии внешнего хранилища, подключенного к Databricks вручную. Используйте формат /mnt/<path>=abfss://<container>@<adls_gen2_storage_account>.dfs.core.windows.net/;/mnt/<path>=wasbs://<container>@<blob_storage_account>.blob.core.windows.net. Он используется для отслеживания связи между таблицами и соответствующими ресурсами хранилища в Microsoft Purview. Этот параметр является необязательным. Если не указать его, связь не будет извлечена.

      Список точек подключения в рабочей области Databricks можно получить, выполнив следующую команду Python в записной книжке:

      dbutils.fs.mounts()
      

      Он выводит все точки подключения, как показано ниже:

      [MountInfo(mountPoint='/databricks-datasets', source='databricks-datasets', encryptionType=''),
      MountInfo(mountPoint='/mnt/ADLS2', source='abfss://samplelocation1@azurestorage1.dfs.core.windows.net/', encryptionType=''),
      MountInfo(mountPoint='/databricks/mlflow-tracking', source='databricks/mlflow-tracking', encryptionType=''), 
      MountInfo(mountPoint='/mnt/Blob', source='wasbs://samplelocation2@azurestorage2.blob.core.windows.net', encryptionType=''),
      MountInfo(mountPoint='/databricks-results', source='databricks-results', encryptionType=''),
      MountInfo(mountPoint='/databricks/mlflow-registry', source='databricks/mlflow-registry', encryptionType=''), MountInfo(mountPoint='/', source='DatabricksRoot', encryptionType='')]  
      

      В этом примере укажите следующие точки подключения:

      /mnt/ADLS2=abfss://samplelocation1@azurestorage1.dfs.core.windows.net/;/mnt/Blob=wasbs://samplelocation2@azurestorage2.blob.core.windows.net

    6. Схема: подмножество схем для импорта, выраженное в виде списка схем, разделенных точкой с запятой. Например, schema1;schema2. Все пользовательские схемы импортируются, если этот список пуст. Все системные схемы и объекты по умолчанию игнорируются.

      Допустимые шаблоны имен схем могут быть статическими именами или содержать подстановочные знаки . Пример: A%;%B;%C%;D

      • Начните с A или
      • Заканчивается на B или
      • Содержать C или
      • Равный D

      Использование символов NOT и специальных символов недопустимо.

      Примечание.

      Этот фильтр схемы поддерживается в локальном Integration Runtime версии 5.32.8597.1 и выше.

    7. Максимальный объем доступной памяти: максимальный объем памяти (в гигабайтах), доступный на компьютере клиента для используемых процессов сканирования. Это значение зависит от размера проверяемого Azure Databricks.

      Примечание.

      Как правило, укажите 1 ГБ памяти для каждых 1000 таблиц.

    Снимок экрана: настройка Azure проверки Databricks.

  6. Нажмите Продолжить.

  7. В поле Триггер сканирования укажите, следует ли настроить расписание или запустить проверку один раз.

  8. Просмотрите проверку и выберите Сохранить и запустить.

После успешного завершения сканирования узнайте, как просматривать и искать ресурсы Azure Databricks.

Просмотр проверок и запусков сканирования

Чтобы просмотреть существующие проверки, выполните приведенные далее действия.

  1. Перейдите на портал Microsoft Purview. В левой области выберите Карта данных.
  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
  3. Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
  4. Выберите идентификатор запуска, чтобы проверка сведения о выполнении проверки.

Управление проверками

Чтобы изменить, отменить или удалить сканирование:

  1. Перейдите на портал Microsoft Purview. В левой области выберите Карта данных.

  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .

  3. Выберите проверку, которой вы хотите управлять. Далее вы можете:

    • Измените сканирование, выбрав Изменить проверку.
    • Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
    • Удалите сканирование, выбрав Удалить сканирование.

Примечание.

  • При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.

Обзор и поиск ресурсов

После сканирования Azure Databricks можно просмотреть Единый каталог или выполнить поиск Единый каталог, чтобы просмотреть сведения об активе.

В ресурсе рабочей области Databricks можно найти связанное хранилище метаданных Hive и таблицы и представления, которые также применяются обратно.

Снимок экрана: просмотр ресурсов по типу источника.

Снимок экрана: переход к Azure сведениям об исходном ресурсе Databricks.

Снимок экрана: поиск связанного хранилища метаданных Hive с Azure источником Databricks.

Lineage

Сведения о поддерживаемых сценариях Azure Databricks см. в разделе Поддерживаемые возможности. Дополнительные сведения о происхождении данных в целом см. в руководстве пользователя по происхождению данных и происхождению данных.

Перейдите на вкладку Таблица или просмотр ресурса Hive —> происхождение, где можно увидеть связь активов, если это применимо. Для связи между таблицами и внешними ресурсами хранилища вы увидите, что ресурс таблицы Hive и ресурс хранения напрямую связаны двунаправленно, так как они взаимно влияют друг на друга. Если в инструкции create table используется точка подключения, необходимо указать сведения о точке подключения в параметрах сканирования , чтобы извлечь такую связь.

Снимок экрана: пример происхождения Azure Databricks.

Дальнейшие действия

Теперь, когда вы зарегистрировали источник, используйте следующие руководства, чтобы узнать больше о Microsoft Purview и ваших данных: