Condividi tramite


Procedure di triage per le operazioni di Azure Kubernetes Service (AKS)

Un'analisi della causa radice per un cluster del servizio Azure Kubernetes è spesso complessa. Per semplificare il processo, valutare i problemi usando un approccio dall'alto verso il basso basato sulla gerarchia del cluster. Iniziare a livello di cluster ed eseguire il drill-down, se necessario.

Diagramma che mostra la gerarchia dei componenti del cluster del servizio Azure Kubernetes: cluster, pool di nodi, nodi, pod e contenitori.

La sezione seguente offre una panoramica di una serie di procedure di valutazione, che descrivono in dettaglio l'approccio dall'alto verso il basso. Gli articoli forniscono esempi che usano un set di strumenti e dashboard. Gli articoli descrivono in che modo questi esempi evidenziano i sintomi dei problemi.

I problemi comuni risolti in questa serie includono:

  • Problemi di rete e connettività causati da una configurazione non corretta.
  • Comunicazione interrotta tra il piano di controllo e il nodo.
  • Pressioni del Kubelet causate da risorse di calcolo, memoria o archiviazione insufficienti.
  • Problemi di risoluzione DNS (Domain Name System).
  • Nodi che esauriscono le operazioni di input/output del disco per secondo (IOPS).
  • Pipeline di controllo di ammissione che blocca diverse richieste al server API.
  • Un cluster che non dispone delle autorizzazioni per eseguire il pull dal registro contenitori appropriato.

Questa serie non è progettata per risolvere problemi specifici. Per informazioni sulla risoluzione dei problemi specifici, vedere Risoluzione dei problemi del servizio Azure Kubernetes.

Serie di pratiche di triage

Passo Descrizione
1. Valutare l'integrità del cluster AKS. Controllare l'integrità complessiva del cluster e della rete.
2. Esaminare l'integrità dei nodi e dei pod. Valutare lo stato di salute dei nodi lavoratori di AKS.
3. Monitorare le distribuzioni dei carichi di lavoro. Assicurarsi che tutte le distribuzioni e le funzionalità DaemonSet siano in esecuzione.
4. Validare i controller di ammissione. Verificare se i controller di ammissione funzionano come previsto.
5. Verificare la connessione al registro contenitori. Verificare la connessione al registro contenitori.

Contributori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Altri collaboratori:

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi