Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Непрерывная интеграция и непрерывная поставка (CI/CD) — это процесс разработки и поставки программного обеспечения с короткими, частыми циклами посредством конвейеров автоматизации. CI/CD распространен в разработке программного обеспечения и становится все более необходимым в инженерии данных и науке о данных. Автоматив сборку, тестирование и развертывание кода, команды разработчиков могут предоставлять выпуски более надежно, чем с помощью ручных процессов.
Общие средства доступны для разработки конвейеров CI/CD, но реализации и подходы от организации к организации могут немного отличаться из-за уникальных аспектов жизненного цикла разработки программного обеспечения каждой организации. Эта страница содержит сведения о следующих подходах к CI/CD в Databricks, а также о плюсах и минусах для каждого подхода:
- Использование пакетов ресурсов Databricks (рекомендуется)
- Настройка рабочей папки Git
- Использование Git с заданиями
Обзор проектов CI/CD для проектов машинного обучения в Azure Databricks см. в статье О том, как Databricks поддерживает CI/CD для машинного обучения?.
Пакеты активов Databricks (рекомендуется)
Наборы активов Databricks — это рекомендуемый подход к CI/CD в Databricks. Используйте пакеты ресурсов Databricks, чтобы описать ресурсы Databricks, такие как задания и конвейеры в качестве исходных файлов, и объединить их вместе с другими ресурсами, чтобы обеспечить комплексное определение развертываемого проекта. Эти пакеты файлов можно управлять источником, и вы можете использовать внешнюю автоматизацию CI/CD, например Github Actions для активации развертываний.
Плюсы | Минусы |
---|---|
|
|
Рабочая папка Git
Если вы еще не готовы к внедрению пакетов ресурсов Databricks, но хотите, чтобы ваш код был управляемым источником, можно настроить рабочую папку Git. Затем используйте внешние средства CI/CD, такие как GitHub Actions, чтобы извлечь папку Git при слиянии или если у вас нет доступа к внешним конвейерам CI/CD, создайте запланированное задание для извлечения в папку Git в рабочей области.
Плюсы | Минусы |
---|---|
|
|
Git с заданиями
Если для заданий требуется только CI/CD, Git с заданиями позволяет настроить некоторые типы заданий для использования удаленного репозитория Git в качестве источника. При запуске задания Databricks создаёт моментальный снимок удаленного репозитория и гарантирует, что всё задание выполняется на той же версии кода.
Плюсы | Минусы |
---|---|
|
|
Другие рекомендации CI/CD
Независимо от выбранного подхода CI/CD используйте федерацию удостоверений рабочей нагрузки для проверки подлинности CI/CD. Федерация удостоверений рабочей нагрузки устраняет необходимость секретов Databricks, что делает его наиболее безопасным способом проверки подлинности в Databricks. См. сведения о проверке подлинности доступа к Azure Databricks с помощью федерации токенов OAuth.
Databricks также рекомендует использовать поставщик Databricks Terraform для управления рабочими областями Databricks и связанной облачной инфраструктурой.
Для других рекомендаций по CI/CD см. Лучшие практики и рекомендуемые рабочие процессы CI/CD на Databricks.
Связанные ссылки
Дополнительные сведения об управлении жизненным циклом ресурсов и данных Azure Databricks см. в следующей документации по средствам CI/CD и конвейера данных.
Площадь | Используйте эти инструменты, когда вы хотите… |
---|---|
Пакеты активов Databricks | Программное определение, развертывание и запуск заданий Lakeflow, Декларативных конвейеров Lakeflow и MLOps Stacks с помощью рекомендаций и рабочих процессов CI/CD. |
Провайдер Databricks для Terraform | Предоставление и управление рабочими областями и инфраструктурой Databricks с помощью Terraform. |
Рабочие процессы CI/CD с Git и папками Databricks Git | Используйте папки GitHub и Databricks Git для управления версиями и рабочих процессов CI/CD. |
Проверка подлинности с помощью Azure DevOps в Azure Databricks | Проверка подлинности с помощью Azure DevOps. |
Использование учетной записи службы Microsoft Entra для автоматизации с папками Git в Azure Databricks | Используйте сервис-принципал MS Entra для аутентификации доступа к папкам Databricks Git. |
Непрерывная интеграция и развертывание в Azure Databricks с помощью Azure DevOps | Разработка конвейера CI/CD для Azure Databricks, использующего Azure DevOps. |
Действия GitHub | Включите действие GitHub, разработанное для Azure Databricks, в рабочий процесс CI/CD. |
CI/CD с Jenkins на Azure Databricks | Разработать конвейер CI/CD для Azure Databricks с использованием Jenkins. |
Оркестрация заданий Lakeflow с Apache Airflow | Администрировать и планировать конвейеры данных, использующие Apache Airflow. |
Сервисные принципалы для CI/CD | С системами CI/CD используйте служебные учетные записи вместо пользователей. |