Configurare un ambiente di sviluppo con Azure Databricks e AutoML in Azure Machine Learning

Importante

Questo articolo fornisce informazioni sull'uso di Azure Machine Learning SDK v1. SDK v1 è deprecato a partire dal 31 marzo 2025. Il supporto per questo terminerà il 30 giugno 2026. È possibile installare e usare l'SDK v1 fino a tale data. I flussi di lavoro esistenti che usano SDK v1 continueranno a funzionare dopo la data di fine del supporto. Tuttavia, potrebbero essere esposti a rischi di sicurezza o modifiche sostanziali nel caso di cambiamenti nell'architettura del prodotto.

È consigliabile passare all'SDK v2 prima del 30 giugno 2026. Per altre informazioni sull'SDK v2, vedere What is Azure Machine Learning CLI and Python SDK v2? e la documentazione dell'SDK v2.

Informazioni su come configurare un ambiente di sviluppo in Azure Machine Learning che usa Azure Databricks e ML automatizzato.

Azure Databricks è ideale per l'esecuzione di flussi di lavoro di Machine Learning su larga scala nella piattaforma Apache Spark scalabile nel cloud Azure. Fornisce un ambiente collaborativo basato su notebook con una risorsa di calcolo basata su CPU o GPU.

Per informazioni su altri ambienti di sviluppo di Machine Learning, vedere Configura Python ambiente di sviluppo.

Prerequisito

Azure Machine Learning spazio di lavoro. Per crearne uno, usare la procedura descritta nell'articolo Creare risorse dell'area di lavoro .

Azure Databricks con Azure Machine Learning e AutoML

Azure Databricks si integra con Azure Machine Learning e le relative funzionalità AutoML.

Usare Azure Databricks per:

  • Addestrare un modello utilizzando Spark MLlib e distribuire il modello in ACI o AKS. Nota: la distribuzione di ACI e AKS tramite SDK v1 è legacy. Per le nuove distribuzioni, usare endpoint gestiti online con SDK v2.
  • Usare un SDK di Azure Machine Learning con funzionalità di machine learning automatizzato.
  • Fungere da destinazione di calcolo per una pipeline di Azure Machine Learning.

Configurare le risorse di calcolo di Databricks

Creare una risorsa di calcolo di Databricks. Alcune impostazioni si applicano solo se si installa l'SDK per l'apprendimento automatico in Databricks.

La creazione della risorsa di calcolo richiede alcuni minuti.

Usare queste impostazioni:

Impostazione Si applica a Valore
Nome del calcolatore Sempre yourcomputename
Versione di Databricks Runtime Sempre 14.3 LTS
Versione di Python Sempre 3
Tipo di lavoro
(determina il numero massimo di iterazioni simultanee)
Machine Learning automatizzato
Solo
Macchina virtuale ottimizzata per la memoria preferibile
Lavoratori Sempre 2 o superiore
Abilitare la scalabilità automatica Machine Learning automatizzato
Solo
Deselezionare

Attendere che il calcolo sia in esecuzione prima di procedere.

Aggiungere Azure Machine Learning SDK a Databricks

Quando l'ambiente di calcolo è in esecuzione, creare una libreria per collegare il pacchetto SDK Azure Machine Learning appropriato al calcolo.

Per usare Machine Learning automatizzato, passare a Aggiungi Azure Machine Learning SDK con AutoML.

  1. Fare clic con il pulsante destro del mouse sulla cartella Area di lavoro corrente in cui archiviare la libreria. Selezionare Crea>Libreria.

    Suggerimento

    Se si ha una versione precedente dell'SDK, deselezionarla dalle librerie installate di calcolo e passare al cestino. Installare la nuova versione dell'SDK e riavviare il calcolo. Se si verifica un problema dopo il riavvio, scollega e ricollega la risorsa di calcolo.

  2. Scegliere l'opzione seguente (non sono supportate altre installazioni SDK)

    Extra del pacchetto SDK Fonte Nome PyPi
    Per Databricks Caricare Python Egg o PyPI azureml-sdk[databricks]

    Avviso

    Non è possibile installare altri componenti aggiuntivi dell'SDK. Scegliere solo l'opzione [databricks] .

    • Non selezionare Connetti automaticamente a tutti i computer.
    • Selezionare Connetti accanto al nome dell'ambiente di calcolo.
  3. Monitorare gli errori fino a quando lo stato non cambia in Collegato, che potrebbe richiedere alcuni minuti. Se questo passaggio ha esito negativo:

    Provare a riavviare il calcolo in base a:

    1. Nel riquadro sinistro selezionare Calcolo.
    2. Nella tabella selezionare il nome del calcolo.
    3. Nella scheda Librerie selezionareRiavvia.

    Un'installazione completata visualizzerà Installato nella colonna stato.

Aggiungere Azure Machine Learning SDK con AutoML a Databricks

Se si crea il calcolo con un runtime di Databricks standard (non ML), eseguire il seguente comando nella prima cella del notebook per installare Azure Machine Learning SDK.

%pip install --upgrade --force-reinstall -r https://aka.ms/automl_linux_requirements.txt

Impostazioni di configurazione AutoML

Nella configurazione di AutoML, quando si usa Azure Databricks, aggiungere i parametri seguenti:

  • max_concurrent_iterations è basato sul numero di nodi di lavoro nell'ambiente di calcolo.
  • spark_context=sc è basato sul contesto spark predefinito.

Notebook ML che operano con Azure Databricks

Provare:

  • Sebbene siano disponibili molti notebook di esempio, solo questi notebook di esempio funzionano con Azure Databricks.

  • Importare questi esempi direttamente dall'area di lavoro:

    1. Nell'area di lavoro fare clic con il pulsante destro del mouse su una cartella e scegliere Importa.
    2. Specificare l'URL o passare a un file contenente un formato esterno supportato o un archivio ZIP di notebook esportati da un'area di lavoro di Databricks.
    3. Selezionare Importa.
  • Informazioni su come creare una pipeline con Databricks come ambiente di calcolo di training.

Risoluzione dei problemi

  • Databricks annulla un'esecuzione automatizzata di Machine Learning: quando si usano funzionalità di Machine Learning automatizzate in Azure Databricks, per annullare un'esecuzione e avviare una nuova esecuzione dell'esperimento, riavviare il calcolo Azure Databricks.

  • Databricks> 10 iterazioni per l'apprendimento automatico: nelle impostazioni di apprendimento automatico automatizzate, se sono presenti più di 10 iterazioni, impostare show_output su False quando si avvia l'esecuzione.

  • widget Databricks per Azure Machine Learning SDK e Machine Learning automatizzato: il widget Azure Machine Learning SDK non è supportato in un notebook di Databricks perché i notebook non possono analizzare i widget HTML. È possibile visualizzare il widget nel portale usando questo codice Python nella cella del notebook Azure Databricks:

    displayHTML("<a href={} target='_blank'>Azure portal: {}</a>".format(local_run.get_portal_url(), local_run.id))
    
  • Errore durante l'installazione dei pacchetti

    L'installazione dello SDK di Azure Machine Learning non riesce su Azure Databricks quando vengono installati molti pacchetti. Alcuni pacchetti, ad esempio psutil, possono causare conflitti. Per evitare errori di installazione, installare i pacchetti bloccando la versione della libreria. Questo problema è correlato a Databricks e non all'SDK di Azure Machine Learning. Questo problema potrebbe verificarsi anche con altre librerie. Esempio:

    psutil cryptography==1.5 pyopenssl==16.0.0 ipython==2.2.0
    

    In alternativa, è possibile usare script init se si verificano problemi di installazione con le librerie di Python. Questo approccio non è ufficialmente supportato. Per altre informazioni, vedere Script init con ambito cluster.

  • FailToSendFeather: se viene visualizzato un errore FailToSendFeather durante la lettura dei dati nel calcolo Azure Databricks, aggiornare il pacchetto azureml-sdk[automl] alla versione più recente.

Passaggi successivi