Что такое пакеты ресурсов Databricks?

2025-06-03

Наборы активов Databricks — это средство для упрощения внедрения рекомендаций по проектированию программного обеспечения, включая управление версиями, проверку кода, тестирование и непрерывную интеграцию и доставку (CI/CD) для ваших данных и проектов искусственного интеллекта. Пакеты предоставляют способ включения метаданных вместе с исходными файлами проекта и позволяют описать ресурсы Databricks, такие как задания и конвейеры в качестве исходных файлов. В конечном счете пакет представляет собой комплексное определение проекта, включая структуру, тестирование и развертывание проекта. Это упрощает совместную работу над проектами во время активной разработки.

Коллекция исходных файлов и метаданных вашего пакетного проекта развертывается в виде единого пакета в целевой среде. Пакет включает следующие части:

Обязательные конфигурации облачной инфраструктуры и рабочей области
Исходные файлы, такие как записные книжки и файлы Python, которые включают бизнес-логику
Определения и параметры для ресурсов Databricks, таких как Задания Lakeflow, Декларативные конвейеры Lakeflow, конечные точки обслуживания моделей, эксперименты MLflow и зарегистрированные модели MLflow
Модульные тесты и тесты интеграции

На следующей схеме представлено высокоуровневое представление конвейера разработки и CI/CD с пакетами:

Общие сведения о пакетах активов Databricks

Когда следует использовать пакеты ресурсов Databricks?

Пакеты ресурсов Databricks — это подход «инфраструктура как код» (IaC) к управлению проектами Databricks. Используйте их, если требуется управлять сложными проектами, в которых необходимы несколько участников и автоматизации, а также непрерывная интеграция и развертывание (CI/CD) являются обязательными. Так как пакеты определяются и управляются с помощью шаблонов и файлов YAML, которые создаются и поддерживаются вместе с исходным кодом, они хорошо сопоставляются с сценариями, где IaC является подходящим подходом.

Ниже приведены некоторые идеальные сценарии для пакетов:

Разработка проектов данных, аналитики и машинного обучения в командной среде. Пакеты помогают эффективно упорядочивать и управлять различными исходными файлами. Это обеспечивает гладкую совместную работу и упрощенные процессы.
Ускорьте решение задач машинного обучения. Управляйте ресурсами конвейера машинного обучения (такими как задания на обучение и пакетное прогнозирование) с помощью проектов машинного обучения, которые с самого начала соответствуют производственным передовым практикам.
Установите организационные стандарты для новых проектов, создавая пользовательские шаблоны пакетов, которые включают разрешения по умолчанию, служебные принципалы и конфигурации CI/CD.
Соответствие нормативным требованиям: В отраслях, где соответствие нормативным требованиям является значительной проблемой, комплекты могут помочь поддерживать версированную историю работы кода и инфраструктуры. Это помогает в управлении и гарантирует соблюдение необходимых стандартов соответствия.

Как работают пакеты ресурсов Databricks?

Метаданные пакета определяются с помощью файлов YAML, которые указывают артефакты, ресурсы и конфигурацию проекта Databricks. Затем интерфейс командной строки Databricks можно использовать для проверки, развертывания и запуска пакетов с помощью этих файлов YAML пакета. Вы можете запускать пакетные проекты из IDE, терминалов или прямо в Databricks.

Пакеты можно создавать вручную или на основе шаблона. Интерфейс командной строки Databricks предоставляет шаблоны по умолчанию для простых вариантов использования, но для более конкретных или сложных заданий можно создать настраиваемые шаблоны пакетов для реализации рекомендаций вашей команды и обеспечения согласованности распространенных конфигураций.

Дополнительные сведения о конфигурации YAML, используемой для выражения пакетов активов Databricks, см. в разделе "Конфигурация пакета активов Databricks".

Требования

Наборы активов Databricks — это функция интерфейса командной строки Databricks. Вы создаете пакеты локально, а затем используете интерфейс командной строки Databricks для развертывания пакетов для целевых удаленных рабочих областей Databricks и запуска рабочих процессов пакетов в этих рабочих областях из командной строки.

Чтобы создавать, развертывать и запускать пакеты в рабочих областях Azure Databricks:

Удаленные рабочие области Databricks должны иметь включенные файлы рабочей области. Если вы используете Databricks Runtime версии 11.3 LTS или более поздней, эта функция включена по умолчанию.
Необходимо установить интерфейс командной строки Databricks версии 0.218.0 или более поздней. Сведения об установке или обновлении интерфейса командной строки Databricks см. в статье Установка или обновление интерфейса командной строки Databricks.

Databricks рекомендует регулярно обновляться до последней версии интерфейса командной строки, чтобы воспользоваться преимуществами новых функций пакета. Чтобы найти установленную версию интерфейса командной строки Databricks, выполните следующую команду:
```
databricks --version
```
Вы настроили интерфейс командной строки Databricks для доступа к рабочим областям Databricks. Databricks рекомендует настроить доступ с помощью проверки подлинности OAuth (U2M), которая описана в разделе Настройка доступа к рабочей области. Другие методы проверки подлинности описаны в разделе "Проверка подлинности для пакетов ресурсов Databricks".

Как приступить к работе с пакетами?

Самый быстрый способ начать разработку пакетов — использовать шаблон проекта пакета. Создайте свой первый проект пакета, используя команду Databricks CLI bundle init. Эта команда представляет выбор шаблонов пакетов по умолчанию, предоставляемых Databricks, и задает ряд вопросов для инициализации переменных проекта.

databricks bundle init

Создание пакета является первым шагом в жизненном цикле пакета. Затем создайте пакет, определив параметры пакета и ресурсы в databricks.ymlфайлах конфигурации ресурсов. Наконец, проверьте и разверните пакет, а затем запустите рабочие процессы.

Совет

Примеры конфигурации пакета можно найти в примерах конфигурации пакета и репозитории примеров пакетов в GitHub.

Следующие шаги

Создайте пакет, который развертывает записную книжку в рабочей области Azure Databricks, а затем запускает развернутую записную книжку в задании или конвейере Azure Databricks. См. статью "Разработка задания с помощью пакетов активов Databricks и Разработка декларативных конвейеров Lakeflow с помощью пакетов активов Databricks".
Создайте пакет, который развертывает и запускает стек MLOps. Ознакомьтесь с пакетами ресурсов Databricks для стеков MLOps.
Запуск развертывания пакета в рамках рабочего процесса CI/CD (непрерывной интеграции и непрерывного развертывания) в GitHub. Ознакомьтесь с рабочим процессом CI/CD с пакетом, выполняющим обновление конвейера.
Создайте пакет, который создает, развертывает и вызывает файл колесика Python. См. статью "Создание файла колесика Python с помощью пакетов ресурсов Databricks".
Создайте конфигурацию в пакете для задания или другого ресурса в рабочей области, а затем привязите ее к ресурсу в рабочей области, чтобы конфигурация оставалась в синхронизации. Смотрите статью "Создание файла конфигурации пакета" и "Привязка ресурса пакета".
Создайте и разверните пакет в рабочей области. См. Совместная работа над пакетами в рабочей области.
Создайте пользовательский шаблон, который вы и другие могут использовать для создания пакета. Настраиваемый шаблон может включать разрешения по умолчанию, основные представители службы и пользовательскую конфигурацию CI/CD. См. шаблоны проектов пакета ресурсов Databricks.
Переход с dbx на пакеты ресурсов Databricks. См. раздел "Миграция из dbx в пакеты".
Узнайте о последних новых возможностях, выпущенных для пакетов ресурсов Databricks. См. заметки о выпуске функции пакетов ресурсов Databricks.