Condividi tramite


Informazioni sulle cartelle Git di Databricks

Le cartelle Git di Databricks sono un client Git visivo e un'API in Azure Databricks. Integra i repository Git all'interno dell'area di lavoro di Azure Databricks e supporta operazioni Git comuni, ad esempio la clonazione di un repository, il commit e il push, il pull, la gestione dei rami e il confronto visivo delle differenze durante il commit.

All'interno delle cartelle Git, è possibile sviluppare codice in notebook o altri file e seguire le procedure consigliate per lo sviluppo di codice di data science e ingegneria dei dati usando Git per il controllo della versione, la collaborazione e CI/CD.

Note

Le cartelle Git sono progettate principalmente per la creazione e la collaborazione di flussi di lavoro.

Cosa si può fare con le cartelle Git di Databricks?

Le cartelle Git di Databricks forniscono il controllo del codice sorgente per i progetti di dati e intelligenza artificiale grazie all'integrazione con i provider Git.

Nelle cartelle Git di Databricks è possibile usare la funzionalità Git dall'area di lavoro di Azure Databricks per:

  • Clonare, eseguire il push e il pull da un repository Git remoto.
  • Creare e gestire rami per il lavoro di sviluppo, tra cui l'unione, la riassegnazione e la risoluzione dei conflitti.
  • Creare i notebook (inclusi i notebook IPYNB) e modificarli, insieme ad altri file.
  • Confrontare visivamente le differenze durante il commit e risolvere i conflitti di merge.

Per istruzioni dettagliate, vedere Eseguire operazioni Git nelle cartelle Git di Databricks (Repository).

Note

Le cartelle Git di Databricks hanno anche un'API che è possibile integrare con la pipeline CI/CD. Ad esempio, è possibile aggiornare a livello di codice una cartella Git dell'area di lavoro in modo che abbia sempre la versione più recente del codice. Per informazioni sulle procedure consigliate per lo sviluppo di codice con le cartelle Git di Databricks, vedere CI/CD con cartelle Git di Databricks (Repos).

Per informazioni sui tipi di notebook supportati in Azure Databricks, vedere Importare ed esportare notebook di Databricks.

Fornitori Git supportati

Le cartelle Git di Azure Databricks sono supportate da un repository Git integrato. Il repository può essere ospitato da uno dei provider Git cloud e aziendali elencati nella sezione seguente.

Note

Che cos'è un "provider Git"?

Un "provider Git" è il servizio specifico (denominato) che ospita un modello di controllo del codice sorgente basato su Git. Le piattaforme di controllo del codice sorgente basate su Git sono ospitate in due modi: come servizio cloud ospitato dall'azienda che lo sviluppa, o come servizio locale installato e gestito dall’azienda nel proprio hardware. Molti provider Git, ad esempio GitHub, Microsoft, GitLab e Atlassian, offrono servizi Git basati sul cloud e locali (talvolta denominati servizi Git autogestito).

Quando si sceglie il provider Git durante la configurazione, è necessario tenere presenti le differenze tra i provider Git cloud (SaaS) e locali. Le soluzioni locali sono in genere ospitate dietro la VPN di un'azienda e potrebbero non essere accessibili da Internet. In genere, i provider Git locali hanno un nome che termina con "Server" o "Self-Managed", ma se non si è certi, contattare gli amministratori aziendali o esaminare la documentazione del provider Git.

Se il provider Git è basato sul cloud e non è elencato come provider supportato, selezionando "GitHub" come provider può funzionare, ma non è garantito.

Note

Se si usa "GitHub" come provider e si è ancora incerti sull’utilizzo della versione cloud o locale, vedere Informazioni su GitHub Enterprise Server nella documentazione di GitHub.

Provider Git su cloud supportati da Databricks

  • GitHub, GitHub AE e GitHub Enterprise Cloud
  • Atlassian BitBucket Cloud
  • GitLab e GitLab EE
  • Microsoft Azure DevOps (Azure Repos)

Fornitori Git locali supportati da Databricks

  • GitHub Enterprise Server
  • Atlassian BitBucket Server e Data Center
  • GitLab Self-Managed
  • Microsoft Azure DevOps Server: un amministratore dell'area di lavoro deve consentire in modo esplicito di elencare i prefissi di dominio URL per Microsoft Azure DevOps Server se l'URL non corrisponde a dev.azure.com/* o visualstudio.com/*. Per altri dettagli, vedere Limitare l'utilizzo agli URL in un elenco elementi consentiti

Se si sta integrando un repository Git locale non accessibile da Internet, è necessario installare anche un proxy per le richieste di autenticazione Git all'interno della VPN aziendale. Per altre informazioni, vedere Configurare la connettività Git privata per le cartelle Git di Azure Databricks (Repos).

Per informazioni su come usare i token di accesso con il provider Git, vedere Configurare le credenziali Git & connettere un repository remoto ad Azure Databricks.

Passaggi successivi