Tenere traccia di esperimenti e modelli usando MLflow

Il rilevamento è il processo di salvataggio delle informazioni pertinenti sugli esperimenti. Questo articolo illustra come usare MLflow per tenere traccia degli esperimenti e delle esecuzioni nelle aree di lavoro di Azure Machine Learning.

Alcuni metodi disponibili nell'API MLflow potrebbero non essere disponibili quando si usa Azure Machine Learning. Per informazioni dettagliate sulle operazioni supportate e non supportate, vedere Matrice di supporto per query su esecuzioni ed esperimenti. È anche possibile ottenere informazioni sulle funzionalità MLflow supportate in Azure Machine Learning dall'articolo MLflow e Azure Machine Learning.

Note

Per tenere traccia degli esperimenti in esecuzione in Azure Databricks, vedere Tenere traccia degli esperimenti di Machine Learning di Azure Databricks con MLflow e Azure Machine Learning.
Per tenere traccia degli esperimenti in esecuzione in Azure Synapse Analytics, vedere Tenere traccia degli esperimenti di ML di Azure Synapse Analytics con MLflow e Azure Machine Learning.

Prerequisiti

Avere una sottoscrizione di Azure e la versione gratuita o a pagamento di Azure Machine Learning.
Per eseguire i comandi dell'interfaccia della riga di comando di Azure e Python, installare l'interfaccia della riga di comando di Azure v2 e Azure Machine Learning SDK v2 per Python. L'estensione ml per l'interfaccia della riga di comando di Azure viene installata automaticamente la prima volta che si esegue un comando dell'interfaccia della riga di comando di Azure Machine Learning.

Installare il pacchetto MLflow SDK mlflow e il plug-in Azure Machine Learning azureml-mlflow per MLflow:
```
pip install mlflow azureml-mlflow
```
Suggerimento

È possibile usare il pacchetto mlflow-skinny, che è un pacchetto di MLflow leggero senza risorse di archiviazione SQL, server, interfaccia utente o dipendenze di data science. È consigliabile usare questo pacchetto per gli utenti che necessitano principalmente delle funzionalità di rilevamento e registrazione di MLflow, ma non della suite completa di funzionalità, incluse le distribuzioni.
Creare un'area di lavoro di Azure Machine Learning. Per creare un'area di lavoro, vedere Creare risorse necessarie per iniziare. Esaminare le autorizzazioni di accesso necessarie per eseguire operazioni MLflow nell'area di lavoro.
Per eseguire il rilevamento remoto o tenere traccia degli esperimenti in esecuzione all'esterno di Azure Machine Learning, configurare MLflow in modo che punti all'URI di rilevamento dell'area di lavoro di Azure Machine Learning. Per altre informazioni su come connettere MLflow all'area di lavoro, vedere Configurare MLflow per Azure Machine Learning.

Configurare l'esperimento

MLflow organizza le informazioni negli esperimenti e nelle esecuzioni. Le esecuzioni sono denominate processi in Azure Machine Learning. Per impostazione predefinita, esegue il log a un esperimento creato automaticamente denominato Default, ma è possibile configurare l'esperimento di cui tenere traccia.

Notebook
Processi

Per il training interattivo, ad esempio in un notebook Jupyter, usare il comando mlflow.set_experiment() di MLflow. Ad esempio, il frammento di codice seguente configura un esperimento:

experiment_name = 'hello-world-example'
mlflow.set_experiment(experiment_name)

Per inviare processi usando l'interfaccia della riga di comando di Azure Machine Learning o l'SDK, impostare il nome dell'esperimento usando la proprietà experiment_name del processo. Non è necessario configurare il nome dell'esperimento nello script di training.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

Configurare l'esecuzione

Azure Machine Learning tiene traccia dei processi di training nelle esecuzioni delle chiamate MLflow. Usare le esecuzioni per acquisire tutte le elaborazioni eseguite dal processo.

Notebook
Processi

Quando si lavora in modo interattivo, MLflow inizia a tenere traccia della routine di training non appena si registrano le informazioni che richiedono un'esecuzione attiva. Ad esempio, se la funzionalità di autologging di MLflow è abilitata, il monitoraggio di MLflow inizia quando si effettua il log di una metrica o un parametro, o si avvia un ciclo di allenamento.

Tuttavia, in genere è utile avviare l'esecuzione in modo esplicito, soprattutto se si vuole acquisire il tempo totale per l'esperimento nel campo Durata. Per avviare l'esecuzione in modo esplicito, usare mlflow.start_run().

Indipendentemente dal fatto che l'esecuzione venga avviata manualmente o meno, alla fine è necessario arrestare l'esecuzione, in modo che MLflow sappia che l'esecuzione dell'esperimento è stata completata e possa contrassegnare lo stato dell'esecuzione come Completed. Per arrestare un'esecuzione, usare mlflow.end_run().

Il codice seguente avvia un'esecuzione manualmente e la termina alla fine del blocco appunti:

mlflow.start_run()

# Your code

mlflow.end_run()

È consigliabile avviare manualmente le esecuzioni in modo da non dimenticare di terminarle. È possibile usare il paradigma del gestore del contesto per ricordarsi di terminare l'esecuzione.

with mlflow.start_run() as run:
    # Your code

Quando si avvia una nuova esecuzione usando mlflow.start_run(), può essere utile specificare il run_name parametro , che in seguito viene convertito nel nome dell'esecuzione nell'interfaccia utente di Azure Machine Learning. Questa procedura consente di identificare l'esecuzione più rapidamente.

with mlflow.start_run(run_name="hello-world-example") as run:
    # Your code

I processi di Azure Machine Learning consentono di inviare routine di training o inferenza a esecuzione prolungata come esecuzioni isolate e riproducibili.

Creare una routine di training con rilevamento

Quando si lavora con i processi, in genere si include tutta la logica di training come file in una cartella, ad esempio src. Uno dei file è un file Python con il punto di ingresso del codice di training.

Nella routine di training è possibile usare MLflow SDK per tenere traccia di qualsiasi metrica, parametro, artefatto o modello. Per alcuni esempi, vedere Registrare metriche, parametri e file con MLflow.

Nell'esempio seguente viene illustrata una routine di training hello_world.py che aggiunge la registrazione:

# imports
import os
import mlflow

from random import random

# define functions
def main():
    mlflow.log_param("hello_param", "world")
    mlflow.log_metric("hello_metric", random())
    os.system(f"echo 'hello world' > helloworld.txt")
    mlflow.log_artifact("helloworld.txt")


# run functions
if __name__ == "__main__":
    # run main function
    main()

L'esempio di codice precedente non usa mlflow.start_run(). Se si usa questa riga, MLflow riutilizza l'esecuzione attiva corrente. Non è quindi necessario rimuovere mlflow.start_run() se si esegue la migrazione del codice ad Azure Machine Learning.

Verificare che l'ambiente del lavoro abbia MLflow installato

In tutti gli ambienti curati di Azure Machine Learning è già installato MLflow. Tuttavia, se si usa un ambiente personalizzato, creare un file conda.yml con le dipendenze necessarie e fare riferimento all'ambiente nel processo.

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - fastparquet
  - cloudpickle==1.6.0
  - colorama==0.4.4
  - dask==2023.2.0

Configurare il nome del processo

Usare il parametro display_name dei processi di Azure Machine Learning per configurare il nome dell'esecuzione.

Usare la proprietà display_name per configurare il processo.

Interfaccia della riga di comando di Azure
Python SDK

Per configurare il processo, creare un file YAML con la definizione del processo in un file job.yml all'esterno della directory src.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

from azure.ai.ml import command, Environment

command_job = command(
    code="src",
    command="echo "hello world",
    environment=Environment(image="library/python:latest"),
    compute="cpu-cluster",
    display_name="hello-world-example"
)

Assicurarsi di non usare mlflow.start_run(run_name="") nella routine di training.

Inviare il processo

L'area di lavoro è la risorsa di primo livello per Azure Machine Learning che offre una posizione centralizzata per lavorare con tutti gli artefatti di Azure Machine Learning creati. Connettersi all'area di lavoro di Azure Machine Learning.
- Interfaccia della riga di comando di Azure
- Python SDK
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>
```
1. Importare le librerie necessarie:
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
```
2. Configurare i dettagli dell'area di lavoro e ottenere un handle per l'area di lavoro:
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```
Aprire un terminale e usare il codice seguente per inviare il compito. I processi che usano MLflow e sono eseguiti in Azure Machine Learning registrano automaticamente tutte le informazioni di rilevamento nell'area di lavoro.
- Interfaccia della riga di comando di Azure
- Python SDK
Usare l'interfaccia della riga di comando di Azure Machine Learning per inviare il processo.
```
az ml job create -f job.yml --web
```
Usare Python SDK per inviare il processo.
```
returned_job = ml_client.jobs.create_or_update(command_job)
returned_job.studio_url
```
Monitorare l'avanzamento dei lavori in Azure Machine Learning Studio.

Abilitare la registrazione automatica di MLflow

È possibile registrare metriche, parametri e file con MLflow manualmente ed è anche possibile basarsi sulla funzionalità di registrazione automatica di MLflow. Ogni framework di Machine Learning supportato da MLflow determina cosa tenere traccia automaticamente.

Per abilitare la registrazione automatica, inserire il codice seguente prima del codice di training:

mlflow.autolog()

Visualizzare le metriche e gli artefatti nell'area di lavoro

Le metriche e gli artefatti dalla registrazione di MLflow vengono rilevati nell'area di lavoro. È possibile visualizzarli e accedervi in Azure Machine Learning Studio o accedervi a livello di codice usando MLflow SDK.

Per visualizzare metriche e artefatti nello studio:

Nella pagina Processi nell'area di lavoro, selezionare il nome dell'esperimento.
Nella pagina dei dettagli dell'esperimento, selezionare la scheda Metriche.
Selezionare metriche registrate per il rendering dei grafici sul lato destro della pagina. È possibile personalizzare i grafici applicando lo smoothing, modificando il colore o tracciando più metriche in un singolo grafico. È anche possibile ridimensionare e riorganizzare il layout.
Dopo aver creato la visualizzazione desiderata, salvarla per usarla in futuro e condividerla con i colleghi usando un collegamento diretto.

Per accedere o eseguire query su metriche, parametri e artefatti a livello di codice tramite MLflow SDK, usare mlflow.get_run().

import mlflow

run = mlflow.get_run("<RUN_ID>")

metrics = run.data.metrics
params = run.data.params
tags = run.data.tags

print(metrics, params, tags)

Suggerimento

L'esempio precedente restituisce solo l'ultimo valore di una determinata metrica. Per recuperare tutti i valori di una determinata metrica, usare il metodo mlflow.get_metric_history. Per altre informazioni sul recupero dei valori delle metriche, vedere Ottenere parametri e metriche da un'esecuzione.

Per scaricare gli artefatti registrati, ad esempio file e modelli, usare mlflow.artifacts.download_artifacts().

mlflow.artifacts.download_artifacts(run_id="<RUN_ID>", artifact_path="helloworld.txt")

Per altre informazioni su come recuperare o confrontare informazioni da esperimenti ed esecuzioni in Azure Machine Learning usando MLflow, vedere Eseguire query e confrontare esperimenti ed esecuzioni con MLflow.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-10-31