Monitorare le prestazioni del cluster Kubernetes con informazioni dettagliate sul contenitore

2025-05-17

Usare le cartelle di lavoro, i grafici delle prestazioni e lo stato di integrità disponibili in Container insights per monitorare il carico di lavoro dei cluster Kubernetes ospitati su Azure Kubernetes Service (AKS), Azure Stack o in un altro ambiente. Questo articolo illustra come usare Monitoraggio di Azure per valutare, analizzare e risolvere rapidamente i problemi rilevati.

Cartelle di lavoro

Le cartelle di lavoro combinano testo, query di log, metriche e parametri in report interattivi avanzati che possono essere usati per analizzare le prestazioni dei cluster. Per una descrizione delle cartelle di lavoro disponibili per Container Insights e su come accedervi, vedere Cartelle di lavoro in Container Insights.

Visualizzazione multicluster di Azure Monitor

Azure Monitor offre una visualizzazione multicluster che mostra lo stato di integrità di tutti i cluster Kubernetes monitorati distribuiti nei gruppi di risorse delle tue sottoscrizioni. Questa visualizzazione consente di comprendere immediatamente lo stato di integrità del cluster e, quindi, di eseguire il drill-down alla pagina delle prestazioni dei nodi e dei controller oppure di vedere i grafici delle prestazioni del cluster. Per i cluster individuati e identificati come non monitorati, è possibile abilitare il monitoraggio dalla visualizzazione.

Nota

Azure Stack (anteprima) e Non Azure (anteprima) non sono più supportati in questa visualizzazione.

Per accedere alla visualizzazione multicluster, selezionare Monitoraggio nel riquadro sinistro nel portale di Azure. Nella sezione Informazioni dettagliate selezionare Contenitori.

La scheda Cluster monitorati contiene le informazioni seguenti:

Quanti cluster si trovano in uno stato critico o non integro e quanti sono integri o non inviano dati (ossia si trovano in uno stato sconosciuto).
Quantità di nodi o pod di sistema e utente distribuiti per ogni cluster.

Gli stati di salute inclusi sono:

Critico: sono stati rilevati uno o più problemi critici che devono essere risolti per ripristinare il normale funzionamento.
Avviso: sono stati rilevati uno o più problemi che devono essere risolti per evitare che la condizione di integrità diventi critica.
Non autorizzato: l'utente non dispone delle autorizzazioni necessarie per leggere i dati nell'area di lavoro o nella regola di raccolta dati.
Non trovato: l'area di lavoro, il gruppo di risorse o la sottoscrizione che contiene l'area di lavoro è stata eliminata.
Abilitare le regole di registrazione: abilitare le regole di registrazione di Prometheus per sbloccare i dati sulle prestazioni più elevati e le visualizzazioni Prometheus.
Configurazione errata: si è verificato un problema.
Errore: si è verificato un errore durante il tentativo di lettura dei dati dall'area di lavoro.
Nessun dato: i dati non sono stati segnalati all'area di lavoro per gli ultimi 30 minuti.
Sconosciuto: se non è stato possibile stabilire una connessione con il nodo o il pod, viene impostato uno stato sconosciuto.
Integro: non vengono rilevati problemi per la macchina virtuale e funziona in base alle esigenze.
In sospeso: la configurazione di monitoraggio per i cluster abilitati ad Arc richiede in genere circa 5 minuti. Se il cluster è disconnesso da Azure, questo processo potrebbe essere ritardato.
In sospeso per X ore: Il monitoraggio della configurazione per il cluster abilitato ad Arc richiede più tempo del previsto.
Non riuscito: la configurazione di monitoraggio per il cluster abilitato per Arc non è riuscita.

Lo stato di integrità calcola lo stato complessivo del cluster come il peggiore dei tre stati con un'eccezione. Se uno dei tre stati è Sconosciuto, lo stato complessivo del cluster è Sconosciuto.

La tabella seguente fornisce una suddivisione del calcolo che regola gli stati di integrità per un cluster monitorato nella vista multi-cluster.

Cluster monitorato	Stato	Disponibilità
Pod utente	Sano Avviso Critico Sconosciuto	100% 90 - 99% <90% Non segnalata negli ultimi 30 minuti
Pod sistema	Sano Avviso Critico Sconosciuto	100% N/D 100% Non segnalata negli ultimi 30 minuti
Nodo	Sano Avviso Critico Sconosciuto	>85% 60 - 84% <60% Non segnalata negli ultimi 30 minuti

Dall'elenco dei cluster, è possibile eseguire il drill-down alla pagina Panoramica per AKS e alla pagina Cluster per i cluster abilitati per Arc selezionando il nome del cluster. Passare quindi alla pagina delle prestazioni Nodi selezionando il rollup dei nodi nella colonna Nodi per il cluster specifico. In alternativa, è possibile eseguire il drill-down alla pagina delle prestazioni Controller selezionando il rollup della colonna Pod utente o Pod sistema.

Visualizzare le prestazioni direttamente da un cluster

L'accesso a Container insights è disponibile direttamente da un cluster AKS selezionando Monitor nel riquadro sinistro, oppure quando si seleziona un cluster dalla vista multi-cluster. Per ulteriori informazioni su Insights, consultare Visualizzazioni di Prometheus gestite in Monitoraggio di Azure.

Visualizzare le metriche dei contenitori in Esplora metriche

In Esplora metriche è possibile visualizzare le metriche aggregate di utilizzo dei nodi e dei pod da Informazioni dettagliate contenitore. La tabella seguente contiene un riepilogo dei dettagli utile per comprendere come usare i grafici delle metriche per visualizzare le metriche dei contenitori.

Namespace	Metrica	Descrizione
insights.container/nodes
	utilizzo CPU in millinuclei	Misurazione aggregata dell'utilizzo della CPU nel cluster. Si tratta di un core CPU suddiviso in 1.000 unità (milli = 1000). Questa metrica viene usata per determinare l'utilizzo dei core in un contenitore in cui molte applicazioni potrebbero usare un solo core.
	percentuale di utilizzo della CPU	Utilizzo medio aggregato della CPU misurato in percentuale nel cluster.
	memoryRssBytes	Utilizzo della memoria RSS del contenitore in byte.
	percentualeUsoMemoriaRss	Utilizzo della memoria RSS del contenitore in percentuale.
	memoryWorkingSetBytes	Utilizzo della memoria del working set del contenitore.
	percentualeSetDiLavoroMemoria	Utilizzo della memoria del working set del contenitore in percentuale.
	nodesCount	Numero dei nodi in Kubernetes.
insights.container/pods
	PodCount	Numero dei pod in Kubernetes.

È possibile dividere una metrica per visualizzarla in base alla dimensione e confrontare diversi segmenti della metrica tra loro. Per un nodo, è possibile segmentare il grafico in base alla dimensione dell’host. Da un pod, lo si può segmentare in base alle seguenti dimensioni.

Responsabile
Namespace di Kubernetes
Nodo
Fase

Analizzare l’integrità di nodi, controller e contenitori

Quando si passa alle schede Nodi, Controller e Contenitori, sul lato destro della pagina viene visualizzato automaticamente un riquadro delle proprietà. Mostra le proprietà dell'elemento selezionato, che include le etichette definite per organizzare gli oggetti Kubernetes. Quando si seleziona un nodo Linux, nella sezione Capacità disco locale vengono visualizzati anche lo spazio su disco disponibile e la percentuale usata per ogni disco presentato al nodo. Selezionare il collegamento >> nel riquadro per visualizzare o nascondere il riquadro.

Quando si espandono gli oggetti nella gerarchia, il riquadro delle proprietà viene aggiornato in base all'oggetto selezionato. Nel riquadro è anche possibile visualizzare i log dei contenitori Kubernetes (stdout/stderror), gli eventi e le metriche dei pod selezionando la scheda Eventi live nella parte superiore del riquadro. Per altre informazioni sulla configurazione necessaria per concedere e controllare l'accesso per la visualizzazione di questi dati, vedere Configurare Dati live.

Mentre si esaminano le risorse del cluster, è possibile visualizzare questi dati dal contenitore in tempo reale. Per altre informazioni su questa funzionalità, vedere Come visualizzare i log, gli eventi e le metriche dei pod Kubernetes in tempo reale.

Per visualizzare i dati dei log di Kubernetes archiviati nell'area di lavoro in base alle ricerche log predefinite, selezionare Visualizza log contenitori nell'elenco a discesa Visualizza in Analisi. Per altre informazioni, vedere Come eseguire query sui log da Informazioni dettagliate contenitore.

Usare l'opzione + Aggiungi filtro nella parte superiore della pagina per filtrare i risultati della visualizzazione per Servizio, Nodo, Spazio dei nomi o Pool di nodi. Dopo aver selezionato l'ambito del filtro, selezionare uno dei valori visualizzati nel campo Seleziona valore/i. Dopo che il filtro è stato configurato, viene applicato a livello globale mentre si visualizza qualsiasi prospettiva del cluster AKS. La formula supporta solo il segno uguale. È possibile aggiungere altri filtri al primo per restringere ulteriormente i risultati. Ad esempio, se si specifica un filtro in base a Nodo, come secondo filtro è possibile selezionare solo Servizio o Spazio dei nomi.

Se si specifica un filtro in una scheda, questo rimane applicato quando si seleziona un'altra scheda. Per eliminarlo occorre selezionare il simbolo x accanto al filtro specificato.

Passando alla scheda Nodi, la gerarchia delle righe segue il modello a oggetti Kubernetes, che parte da un nodo nel cluster. Espandere il nodo per visualizzare uno o più pod in esecuzione nel nodo. Se in un pod sono raggruppati più contenitori, questi vengono visualizzati come ultima riga della gerarchia. È anche possibile visualizzare il numero di carichi di lavoro non associati ai pod in esecuzione sull'host, in caso di pressione sul processore o sulla memoria.

I contenitori Windows Server che eseguono il sistema operativo Windows Server 2019 vengono visualizzati dopo tutti i nodi basati su Linux nell'elenco. Se si espande un nodo di Windows Server, è possibile visualizzare uno o più pod e contenitori in esecuzione nel nodo. Dopo aver selezionato un nodo, nel riquadro delle proprietà vengono visualizzate le informazioni sulla versione.

I nodi virtuali di Azure Container Instances che eseguono il sistema operativo Linux vengono visualizzati dopo l'ultimo nodo del cluster AKS (Azure Kubernetes Service) nell'elenco. Quando si espande un nodo virtuale di Container Instances, è possibile vedere uno o più pod e contenitori di Container Instances in esecuzione nel nodo. Le metriche non vengono raccolte e inviate per i nodi, solo per i pod.

Da un nodo espanso è possibile eseguire il drill-down dal pod o contenitore in esecuzione nel nodo al controller, per visualizzare i dati sulle prestazioni filtrati per quel controller specifico. Nella colonna Controller selezionare il valore per il nodo specifico.

Selezionare controller o contenitori nella parte superiore della pagina per controllare lo stato e l'utilizzo delle risorse per tali oggetti. Per controllare l'utilizzo della memoria, nell'elenco a discesa Metrica selezionare RSS memoria o Working set della memoria. L'opzione Memoria RSS è supportata solo per Kubernetes versione 1.8 e successive. Altrimenti, si visualizzano i valori per % minima come NaN %, che è un valore di tipo di dati numerico che rappresenta un valore non definito o non rappresentabile.

Set di lavoro della memoria mostra sia la memoria residente che la memoria virtuale (cache) comprese e rappresenta il totale della memoria utilizzata dall'applicazione. RSS memoria mostra solo la memoria principale, cioè soltanto la memoria residente. Questa metrica mostra la capacità effettiva della memoria disponibile. Qual è la differenza tra memoria residente e memoria virtuale?

La memoria residente, o memoria principale, è la quantità effettiva di memoria del computer disponibile per i nodi del cluster.
La memoria virtuale è lo spazio su disco rigido riservato (cache) usato dal sistema operativo per effettuare lo swapping dei dati dalla memoria al disco in caso di utilizzo elevato di memoria e quindi recuperarli in memoria quando necessario.

Per impostazione predefinita, i dati sulle prestazioni sono basati sulle ultime sei ore, ma è possibile modificare questa finestra tramite l'opzione TimeRange nell'angolo superiore sinistro. È anche possibile filtrare i risultati compresi nell'intervallo di tempo selezionando Min, Medio, 50°, 90°, 95° e Max tramite il selettore di percentile.

Quando si passa il puntatore del mouse sopra il grafico a barre sotto la colonna Tendenza, ogni barra mostra l'utilizzo di CPU o memoria, a seconda della metrica selezionata, all'interno di un periodo di campionamento di 15 minuti. Dopo aver selezionato il grafico di tendenza tramite una tastiera, utilizzare i tasti ALT+PGSU o ALT+PGGIÙ per scorrere singolarmente ogni barra. Si ottengono gli stessi dettagli che si otterrebbero se si passasse il puntatore sulla barra.

Nell'esempio seguente, per il primo nodo dell'elenco, aks-nodepool1-, il valore per Contenitori è 25. Questo valore è una sintesi del numero totale di container implementati.

Queste informazioni consentono di determinare rapidamente se i contenitori sono ripartiti in modo equilibrato tra i nodi del cluster.

Le informazioni visualizzate nella scheda Nodi sono descritte nella tabella seguente.

Colonna	Descrizione
Nome	Nome dell'host.
Stato	Visualizzazione Kubernetes dello stato del nodo.
% minima, % media, 50° %, 90° %, 95° %, % massima	Percentuale media dei nodi in base al percentile durante l'intervallo di tempo selezionato.
Min, Medio, 50°, 90°, 95°, Max	Valore effettivo medio dei nodi in base al percentile durante l'intervallo di tempo selezionato. Il valore medio viene misurato dal limite di CPU/memoria impostato per un nodo. Per i pod e i contenitori, è il valore medio segnalato dall'host.
Contenitori	Numero di contenitori.
Disponibilità	Rappresenta il tempo dall'avvio o dal riavvio di un nodo.
Responsabile	Solo per i contenitori e i pod. Mostra il controller in cui si trova. Non tutti i pod sono presenti in un controller. È quindi possibile che per alcuni sia visualizzato N/A per indicare che non sono disponibili.
% minima tendenza, % media, 50° %, 90° %, 95° %, % massima	Grafico a barre della tendenza che presenta il valore percentuale medio delle metriche di percentile del controller.

Dopo aver espanso un nodo denominato Altro processo, si potrebbe notare un carico di lavoro. Rappresenta i processi non in contenitori che vengono eseguiti nel nodo e include:

Processi non in contenitori Kubernetes gestiti o autogestiti.
Processi runtime del contenitore.
Kubelet.
Processi di sistema in esecuzione nel nodo.
Altri carichi di lavoro non Kubernetes in esecuzione su hardware o macchina virtuale del nodo.

Viene calcolato in base a Utilizzo totale da CAdvisor - Utilizzo da processo in contenitore.

Nel selettore selezionare Controller.

Qui è possibile visualizzare l'integrità delle prestazioni dei controller e dei controller di nodi virtuali di Istanze di Container o dei pod di nodi virtuali non connessi a un controller.

$Screenshot che mostra la visualizzazione prestazioni dei controller \<Nome>.$

La gerarchia di righe inizia con un controller. Quando si espande un controller, vengono visualizzati uno o più pod. Espandendo un pod, nell'ultima riga viene mostrato il contenitore raggruppato nel pod. Da un controller espanso è possibile eseguire il drill-down al nodo in cui è in esecuzione per visualizzare i dati sulle prestazioni filtrati per il nodo. I pod delle Container Instances non connessi a un controller vengono elencati per ultimi nell'elenco.

Nella colonna Nodo selezionare il valore per il controller specifico.

Le informazioni presentate quando si visualizzano i controller sono descritte nella tabella seguente.

Colonna	Descrizione
Nome	Nome del controller.
Stato	Stato di rollup dei contenitori al termine dell'esecuzione con uno stato come OK, Terminato, Non riuscito, Arrestato o In pausa. Se il contenitore è in esecuzione, ma lo stato non è stato visualizzato correttamente oppure non è stato rilevato dall'agente e non è stata inviata alcuna risposta per più di 30 minuti, lo stato è Sconosciuto. La tabella seguente contiene altri dettagli sull'icona dello stato.
% minima, % media, 50° %, 90° %, 95° %, % massima	Media aggregata della percentuale media di ciascuna entità per la metrica e il percentile selezionati.
Min, Medio, 50°, 90°, 95°, Max	Rollup della media di millicore della CPU o delle prestazioni di memoria del contenitore per il percentile selezionato. Il valore medio viene misurato dal limite di CPU/memoria impostato per un pod.
Contenitori	Numero totale di contenitori per il controller o il pod.
Riavvii	Rollup del numero di riavvii dai contenitori.
Disponibilità	Rappresenta il tempo da quando un contenitore è stato avviato.
Nodo	Solo per i contenitori e i pod. Mostra il controller in cui si trova.
% minima tendenza, % media, 50° %, 90° %, 95° %, % massima	La tendenza del grafico a barre rappresenta la metrica percentile media del controller.

Le icone nel campo dello stato indicano lo stato online dei contenitori.

Icona	Stato
	In esecuzione
	In attesa o In pausa
	Ultima esecuzione segnalata ma senza risposta per oltre 30 minuti
	Arresto completato o arresto non riuscito

L'icona dello stato mostra un numero in base ai dati forniti dal pod. Mostra i due stati peggiori. Quando si passa il puntatore del mouse sullo stato, viene visualizzato uno stato di rollup di tutti i pod del contenitore. Se non è presente alcuno stato Pronto, come stato viene visualizzato (0).

Nel selettore selezionare Contenitori.

Qui è possibile visualizzare l'integrità delle prestazioni dei contenitori del servizio Azure Kubernetes e di Istanze di Container.

$Screenshot che mostra la visualizzazione prestazioni dei contenitori \<Nome>.$

Da un contenitore è possibile eseguire il drill-down in un pod o nodo per visualizzare i dati sulle prestazioni filtrati per l'oggetto. Nella colonna Pod o Nodo selezionare il valore per il contenitore specifico.

Le informazioni presentate quando si visualizzano i contenitori sono descritte nella tabella seguente.

Colonna	Descrizione
Nome	Nome del controller.
Stato	Stato dei contenitori, se presente. La tabella seguente contiene altri dettagli sull'icona dello stato.
% minima, % media, 50° %, 90° %, 95° %, % massima	Rollup della percentuale media di ogni entità per la metrica e il percentile selezionati.
Min, Medio, 50°, 90°, 95°, Max	Rollup della media di millicore della CPU o delle prestazioni di memoria del contenitore per il percentile selezionato. Il valore medio viene misurato dal limite di CPU/memoria impostato per un pod.
Pod	Contenitore in cui è presente il pod.
Nodo	Nodo in cui è presente il contenitore.
Riavvii	Rappresenta il tempo da quando un contenitore è stato avviato.
Disponibilità	Rappresenta il tempo dall'avvio o dal riavvio di un contenitore.
% minima tendenza, % media, 50° %, 90° %, 95° %, % massima	Grafico a barre della tendenza che presenta il valore percentuale medio delle metriche di percentile del contenitore.

Altri processi

La voce Altri processi nella visualizzazione Nodo aiuta a riconoscere chiaramente la causa radice dell'utilizzo elevato delle risorse nel nodo. Queste informazioni consentono di distinguere l'utilizzo tra processi in contenitori e processi non in contenitori. Gli altri processi sono i processi non in contenitori che vengono eseguiti nel nodo e includono:

Processi non in contenitori Kubernetes gestiti o autogestiti.
Processi runtime del contenitore.
Kubelet.
Processi di sistema in esecuzione nel nodo.
Altri carichi di lavoro non Kubernetes in esecuzione su hardware o macchina virtuale del nodo.

Il valore di Altri processi è Total usage from CAdvisor - Usage from containerized process.

Stato

Le icone nel campo dello stato indicano lo stato online dei pod, come descritto nella tabella seguente.

Icona	Stato

	In attesa o In pausa
	Ultima esecuzione segnalata ma senza risposta da oltre 30 minuti
	Arresto completato o arresto non riuscito
	Stato fallito

Monitorare e visualizzare le configurazioni di rete

Azure Network Policy Manager include metriche informative di Prometheus che puoi utilizzare per monitorare e comprendere meglio le configurazioni di rete. Fornisce visualizzazioni predefinite sul portale di Azure o su Grafana Labs. Per ulteriori informazioni, vedere Monitorare e visualizzare le configurazioni di rete con Azure npm.

Passaggi successivi

Per sapere come creare avvisi per un utilizzo elevato della CPU e della memoria per supportare i processi e le procedure DevOps o operative, vedere Creare avvisi sulle prestazioni con Informazioni dettagliate sui container.
Per visualizzare query predefinite ed esempi da valutare o personalizzare per avvisare, visualizzare o analizzare i cluster, vedere Query di log di esempio.
Per informazioni sulla visualizzazione dello stato di integrità del cluster Kubernetes, vedere Monitorare l'integrità del cluster.