Обнаружение данных

Azure Databricks предоставляет набор средств и продуктов, упрощающих обнаружение ресурсов данных, доступных через платформу Databricks Data Intelligence. В этой статье представлен обзор того, как можно обнаруживать и просматривать данные, которые уже настроены для доступа в рабочей области.

В этом разделе рассматриваются объекты данных и файлы данных. Если вы ищете сведения о работе с ресурсами, такими как записные книжки, запросы SQL, библиотеки и модели, см. пользовательский интерфейс рабочей области.

Если вы ищете рекомендации по созданию сводной статистики для наборов данных или других задач, связанных с анализом аналитических данных (EDA), ознакомьтесь с аналитическим анализом данных в Azure Databricks: сервис и методы.

Как обнаружить ресурсы данных?

Средства обнаружения данных в Azure Databricks делятся на следующие общие категории:

  • Аналитические сведения, сводка и поиск с помощью ИИ.
  • Поиск по ключевому слову.
  • Просмотр каталога с помощью пользовательского интерфейса.
  • Программное описание и исследование метаданных.

Средства обнаружения данных оптимизированы для данных, управляемых каталогом Unity. Ресурсы данных, которые не были зарегистрированы в качестве объектов каталога Unity, могут быть недоступны для обнаружения с помощью некоторых из этих подходов.

Поиск данных с помощью пользовательского интерфейса

  • Genie: просмотрите ресурсы, которыми вы поделились, выполните поиск по имени, задайте вопросы о данных на естественном языке и фильтруйте по домену. См. раздел "Использование интерфейса Genie".
  • Страница «Обзор»: Это специально подобранный интерфейс для просмотра ресурсов данных, сгруппированных по доменам. Кураторы могут выделить ключевые ресурсы для своей организации, и потребители могут просматривать домен или тип ресурса. См. статью "Обнаружение страниц, доменов и поддоменов".
  • Обозреватель каталогов: предоставляет средства для изучения и управления ресурсами данных. Доступ к обозревателе каталогов с помощью значка данных.Каталог на боковой панели рабочей области. Используйте вкладку "Аналитика" , чтобы узнать, как используются данные в рабочей области. См. статью "Что такое обозреватель каталогов", а также просмотр частых запросов и пользователей таблицы.
    • Записные книжки и редактор SQL: также предоставьте навигатор каталога для изучения объектов базы данных. Щелкните значок каталога на боковой панели редактора, чтобы развернуть или свернуть навигатор каталога, не выходя из редактора кода.

Программное изучение данных

Для обнаружения ресурсов, зарегистрированных в каталоге Unity, можно использовать команду SHOW для всех объектов базы данных. Используйте команду LIST, магическую команду %fs или Служебные программы Databricks для перечисления файлов.

Ознакомьтесь со сведениями о хранилище и поиске файлов данных и поиске объектов базы данных.

Просмотр комментариев к данным

Вы можете просмотреть комментарии, чтобы узнать о содержимом наборов данных, доступных в lakehouse. Примечания можно задать для объектов данных, включая каталоги, схемы, таблицы и столбцы. Комментарии можно просмотреть в обозревателе каталога или с помощью команды DESCRIBE для объекта.

Обозреватель каталогов может предоставлять примечания, созданные ИИ для таблиц, что упрощает владельцам данных предоставление богатого обзора датасетов. См. добавление комментариев, созданных ИИ, в объекты каталога Unity.

Пользователи также могут предоставлять комментарии к таблицам и другим объектам базы данных с помощью markdown, который отображается в обозревателе каталогов. См. раздел "Добавление комментариев к данным и ресурсам ИИ".

Поиск таблиц в вашем lakehouse

Панель поиска в Azure Databricks можно использовать для поиска таблиц, зарегистрированных в каталоге Unity. Вы можете выполнить поиск по ключевым словам или использовать семантический поиск для поиска наборов данных или столбцов, связанных с запросом поиска. Поиск возвращает только результаты для таблиц, которые у вас есть разрешение на просмотр. Поиск проверяет имена таблиц, имена столбцов, примечания к таблицам и примечания к столбцам. См. статью "Поиск объектов рабочей области".