Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Эта страница посвящена поиску и изучению каталогов и файлов данных, управляемых томами каталога Unity, включая инструкции на основе пользовательского интерфейса для изучения томов с помощью обозревателя каталогов. Он содержит примеры для программного изучения данных в облачном хранилище объектов с помощью путей томов и облачных URI.
Databricks рекомендует использовать тома для управления доступом к данным в облачном хранилище объектов. Дополнительные сведения о подключении к данным в облачном хранилище объектов см. в статье "Подключение к источникам данных и внешним службам".
Полное пошаговое руководство по взаимодействию с файлами во всех расположениях см. в статье "Работа с файлами в Azure Databricks".
Внимание
При поиске файлов в пользовательском интерфейсе рабочей области можно обнаружить файлы данных, хранящиеся в виде файлов рабочей области. Databricks рекомендует использовать файлы рабочей области в основном для кода (например, скриптов и библиотек), скриптов инициализации или файлов конфигурации. В идеале следует ограничить данные, хранящиеся в виде файлов рабочей области, небольшими наборами данных, которые могут использоваться для таких задач, как тестирование во время разработки и качества обслуживания. См. раздел " Что такое файлы рабочей области?".
Сравнение томов и устаревших конфигураций облачного хранилища объектов
При использовании томов для управления доступом к данным в облачном хранилище объектов можно использовать только путь томов для доступа к данным, и эти пути доступны со всеми вычислительными ресурсами каталога Unity. Вы не можете зарегистрировать файлы данных, поддерживающие таблицы каталога Unity, с помощью томов. Databricks рекомендует использовать имена таблиц вместо путей к файлам для взаимодействия со структурированными данными, зарегистрированными в качестве таблиц каталога Unity. См. правила пути и доступ в томах каталога Unity.
При использовании устаревшего метода для настройки доступа к данным в облачном хранилище объектов Azure Databricks возвращается к устаревшим разрешениям списков управления доступом к таблицам. Пользователям, желающим получить доступ к данным с помощью облачных URI из хранилищ SQL или вычислений, настроенных в стандартном режиме доступа (ранее общий доступ), требуется разрешение ANY FILE. См. управление доступом к таблицам метаданных Hive (устаревшая версия).
Azure Databricks предоставляет несколько API для перечисления файлов в облачном хранилище объектов. Большинство примеров в этой статье посвящены использованию томов. Примеры взаимодействия с данными в хранилище объектов, настроенном без томов, см. в разделе List files with URIs.
Исследование томов
Обозреватель каталогов можно использовать для изучения данных в томах и просмотра сведений о томе. Вы можете видеть только тома, которые у вас есть разрешения на чтение, поэтому вы можете запрашивать все обнаруженные данные таким образом.
Вы можете использовать SQL для изучения томов и их метаданных. Для перечисления файлов в томах можно использовать SQL, %fs волшебную команду или служебные программы Databricks. При взаимодействии с данными в томах используйте путь, предоставленный каталогом Unity, который всегда имеет следующий формат:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Отображение томов
SQL
Выполните следующую команду, чтобы просмотреть список томов в данной схеме.
SHOW VOLUMES IN catalog_name.schema_name;
См. SHOW VOLUMES.
Обозреватель каталогов
Чтобы отобразить тома в данной схеме с помощью обозревателя каталогов, сделайте следующее:
- Выберите
и значок каталога.
- Выберите каталог.
- Выберите схему.
- Нажмите тома, чтобы развернуть все тома схемы.
Примечание.
Если ни один том не зарегистрирован в схеме, опция Volumes не отображается. Вместо этого отображается список доступных таблиц.
См. сведения об объёме
SQL
Выполните следующую команду для получения сведений о томе.
DESCRIBE VOLUME volume_name
См. DESCRIBE VOLUME.
Обозреватель каталогов
Щелкните имя тома и выберите вкладку Сведения, чтобы просмотреть сведения о томе.
Просмотр файлов в томах
SQL
Выполните следующую команду, чтобы получить список файлов в томе.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Обозреватель каталогов
Щелкните имя тома и выберите вкладку Сведения, чтобы просмотреть сведения о томе.
%fs
Выполните следующую команду, чтобы получить список файлов в томе.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Служебные программы Databricks
Выполните следующую команду, чтобы получить список файлов в томе.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
предварительный просмотр файлов в томах
Щелкните имя файла в томе из обозревателя каталогов, чтобы просмотреть предварительный просмотр файла.
Внимание
У пользователей должно быть разрешение READ VOLUME на доступ к содержащему тому для просмотра файлов.
Текстовые файлы отображают содержимое в виде обычного текста.
Поддерживаемые файлы изображений отрисовывают изображения.
Предварительный просмотр пытается предоставить выделение синтаксиса для таких файлов, как .yml, .yamlи .json.
Примечание.
Предварительные версии могут не отображаться правильно, если файлы повреждены, содержимое повреждено или используется неправильное расширение.
Поддерживаются следующие форматы файлов:
- файлы изображений: jpg, jpeg, png, gif, bmp, webp, ico
- Файлы векторного изображения: svg
- текстовые файлы: txt, log, md
- Видеофайлы: mp4, webm, ogg, mov, avi, mkv, m4v (другие типы файлов могут поддерживаться в зависимости от браузера).
- Аудиофайлы: mp3, wav, m4a, flac, aac, wma (другие типы файлов могут поддерживаться в зависимости от браузера).
- частично структурированные файлы данных: json, csv
- конфигурационные файлы: yaml, yml
- Файлы документов: pdf
- Файлы электронной таблицы: xls, xlsx
- Файлы колонковых данных: parquet
Список файлов с URI
Вы можете запросить облачное хранилище объектов, настроенное с помощью методов, отличных от томов, с помощью URI. Для доступа к облачному расположению необходимо подключиться к вычислительным ресурсам с привилегиями. Разрешение ANY FILE требуется для хранилищ SQL и вычислений, настроенных в стандартном режиме доступа (прежнее название — режим общего доступа).
Примечание.
Доступ URI к хранилищу объектов, настроенному с помощью томов, не поддерживается. Обозреватель каталогов нельзя использовать для просмотра содержимого хранилища объектов, не настроенного с томами.
В следующих примерах приведены примеры URI для данных, хранящихся в Azure Data Lake Storage, S3 и GCS.
SQL
Выполните следующую команду, чтобы получить список файлов в облачном хранилище объектов.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Выполните следующую команду, чтобы получить список файлов в облачном хранилище объектов.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Служебные программы Databricks
Выполните следующую команду, чтобы получить список файлов в облачном хранилище объектов.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")