Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Тома — это объекты каталога Unity, которые управляют доступом к не табличным данным. Они предоставляют логический слой по облачному хранилищу объектов, чтобы вы могли хранить, упорядочивать и управлять файлами с помощью централизованного управления.
Подробные сведения о томах см. в статье "Что такое тома каталога Unity?".
Каталог Unity поддерживает два типа томов:
- Управляемые тома: Azure Databricks управляет жизненным циклом и расположением облачного хранилища
- Внешние тома: Вы контролируете расположение и жизненный цикл облачного хранилища
Что можно сделать с томами каталога Unity?
Вы можете выполнять операции управления файлами с томами с помощью нескольких интерфейсов и средств:
- Отправка, скачивание и просмотр файлов в обозревателе каталогов. Смотрите Что такое обозреватель каталогов.
- Чтобы загрузить локальные файлы в том, см. статью "Работа с файлами в томах каталога Unity".
- Чтобы скачать файлы из Интернета в раздел, см. статью "Загрузка данных из Интернета".
- Чтение и запись данных программным способом с помощью Apache Spark, pandas или SQL. См. Программно работать с файлами в томах.
- Управление файлами с помощью
dbutils.fsкоманд, магических команд или команд оболочки Bash. См. команды служебной программы для файлов в томах.
Томами можно пользоваться с функциями платформы Databricks, для которых требуется путь к файловой системе. Тома предоставляют управляемый путь, который работает согласованно между пользователями и рабочими областями. Рассмотрим пример.
- Прием данных: используйте тома как исходное расположение для приема данных. Начните с файлов на диске и загрузите их в таблицы с помощью:
-
COPY INTO: загрузка файлов из тома в таблицу с помощью SQL. См.COPY INTO. - Автозагрузчик: пошаговая загрузка новых файлов, поступающих в каталог тома, в таблицу. См. раздел "Что такое автозагрузчик?".
- API чтения Spark: используйте API чтения Spark (например,
spark.read.load), чтобы загрузить файлы из пути тома в DataFrame и записать их в таблицу. См. Программно работать с файлами в томах. - Пользовательский интерфейс Databricks: создайте таблицу непосредственно из файлов, хранящихся в томе. См. раздел Создание таблицы из данных в томе.
-
- Доставка журналов вычислений: настройте доставку журналов вычислений для записи журналов в путь тома, поэтому доступ к журналам регулируется каталогом Unity. См. доставку журналов вычислений.
- Триггеры прибытия файлов: используйте триггеры прибытия файлов для запуска заданий Lakeflow при поступлении новых файлов в том. См. Запуск заданий при поступлении новых файлов.
- Библиотеки кластеров: установите библиотеки кластеров из тома (JAR-архивы, wheel-архивы,
requirements.txt), при этом доступ к библиотекам управляется каталогом Unity. См. статью "Установка библиотек из тома". - Скрипты инициализации: храните и запускайте скрипты инициализации, которые охватывают кластер, из тома, чтобы доступ к ним регулировался каталогом Unity. См. Скрипты инициализации на уровне кластера.
- Артефакты эксперимента машинного обучения: хранение артефактов эксперимента машинного обучения (моделей, метрик и выходных файлов) в томе, чтобы доступ к выходным данным эксперимента MLflow регулируется каталогом Unity. См. статью «Организация учебных запусков с использованием экспериментов MLflow».