Condividi tramite


Procedure consigliate per la manutenzione della soluzione Azure VMware Software-Defined Data Center (SDDC)

La soluzione Azure VMware effettua la manutenzione periodica del cloud privato. Questa manutenzione include patch di sicurezza, aggiornamenti secondari e principali dello stack software VMware. Questa pagina descrive il monitoraggio, la correzione e le procedure consigliate per mantenere il cloud privato pronto per la manutenzione.

Manutenzione dell'host e gestione del ciclo di vita

Uno dei vantaggi dei cloud privati della soluzione Azure VMware è il fatto che la piattaforma viene gestita per conto dell'utente. Microsoft è responsabile della gestione del ciclo di vita dei software VMware (ESXi, server vCenter e vSAN) e delle appliance NSX. Microsoft è anche responsabile del bootstrap della configurazione di rete, ad esempio della creazione del gateway di livello 0 e dell'abilitazione del routing verticale alto-basso. Si è responsabili della configurazione di NSX SDN: segmenti di rete, regole del firewall distribuite, gateway di livello 1 e servizi di bilanciamento del carico.

Annotazioni

Un gateway T0 viene creato e configurato come parte di una distribuzione di cloud privato. Qualsiasi modifica a tale router logico o alle macchine virtuali del nodo perimetrale NSX potrebbe influire sulla connettività al cloud privato e deve pertanto essere evitata.

Microsoft è responsabile dell'applicazione di patch e aggiornamenti a ESXi, server vCenter, vSAN e NSX nel cloud privato. L'impatto di patch e aggiornamenti su ESXi, server vCenter e NSX si basa sulle seguenti considerazioni:

  • ESXi : non c'è alcun impatto sui carichi di lavoro in esecuzione nel cloud privato. L'accesso al server vCenter e NSX non viene bloccato durante questo periodo. Durante questo periodo, è consigliabile non pianificare altre attività, ad esempio aumentare il cloud privato, pianificare o avviare migrazioni HCX attive, apportare modifiche alla configurazione di HCX e così via nel cloud privato.

  • Server vCenter : non c'è alcun impatto sui carichi di lavoro in esecuzione nel cloud privato. Durante questo periodo di tempo, il server vCenter non è disponibile e non è possibile gestire le macchine virtuali (arresto, avvio, creazione o eliminazione). È consigliabile non pianificare altre attività, ad esempio aumentare il cloud privato, creare nuove reti e così via nel cloud privato. Quando si utilizzano le interfacce utente di VMware Site Recovery Manager o vSphere Replication, è consigliabile evitare le azioni seguenti: configurare la replica vSphere e configurare o eseguire piani di ripristino del sito durante l'aggiornamento del server vCenter.

  • NSX : il carico di lavoro è interessato. Quando un particolare host viene aggiornato, le macchine virtuali in tale host potrebbero perdere la connettività da 2 secondi a 1 minuto con uno dei sintomi seguenti:

    • Errori di ping

    • Perdita di pacchetti

    • Messaggi di errore (ad esempio, Host di destinazione non raggiungibile e Non raggiungibile)

    Durante questa finestra di aggiornamento, viene bloccato l'intero accesso al piano di gestione NSX. Non è possibile apportare modifiche alla configurazione all'ambiente NSX per la durata dell'aggiornamento. I carichi di lavoro continuano a essere eseguiti normalmente, in base all'impatto dell'aggiornamento descritto in precedenza.

    Durante l'aggiornamento, è consigliabile non pianificare altre attività, ad esempio aumentare il cloud privato e così via nel cloud privato. Altre attività possono impedire l'avvio dell'aggiornamento o potrebbero avere effetti negativi sull'aggiornamento e sull'ambiente.

Si riceve una notifica tramite Integrità dei servizi di Azure che include la sequenza temporale dell'aggiornamento. Questa notifica fornisce anche informazioni dettagliate sul componente aggiornato, sul suo effetto sui carichi di lavoro, sull'accesso al cloud privato e su altri servizi di Azure. È possibile riprogrammare un aggiornamento in base alle esigenze.

Gli aggiornamenti software includono:

  • Patch - Patch di sicurezza o correzioni di bug rilasciate da VMware

  • Aggiornamenti - Modifica della versione secondaria di un componente dello stack VMware

  • Aggiornamenti - Modifica della versione principale di un componente stack VMware

Annotazioni

Microsoft testa una patch di sicurezza critica non appena diventa disponibile da VMware.

Le soluzioni alternative VMware documentate vengono implementate al posto dell'installazione di una patch corrispondente, fino a quando non vengono distribuiti gli aggiornamenti pianificati successivi.

Monitoraggio e correzione dell'host

La soluzione Azure VMware monitora continuamente l'integrità dei componenti VMware e dei componenti sottostanti. Quando la soluzione Azure VMware rileva un errore, esegue un'azione per ripristinare i componenti in errore. Quando la soluzione Azure VMware rileva una riduzione delle prestazioni o un errore in un proprio nodo, attiva il processo di correzione dell'host.

La correzione dell'host comporta la sostituzione del nodo difettoso con un nuovo nodo integro nel cluster. Quindi, quando possibile, l'host difettoso viene inserito nella modalità di manutenzione di VMware vSphere. VMware vSphere vMotion sposta le macchine virtuali dall'host in errore ad altri server disponibili nel cluster, azzerando potenzialmente il tempo di inattività per la migrazione in tempo reale dei carichi di lavoro. Se l'host difettoso non può essere inserito in modalità di manutenzione, viene rimosso dal cluster. Prima che l'host in errore venga rimosso, viene eseguita la migrazione dei carichi di lavoro del cliente a un nuovo host aggiunto.

Suggerimento

Comunicazioni con il cliente: viene inviato un messaggio all'indirizzo di posta elettronica del cliente prima dell'avvio della sostituzione e di nuovo dopo il completamento della sostituzione.

Per ricevere messaggi di posta elettronica correlati alla sostituzione dell'host, è necessario essere aggiunti a uno dei seguenti ruoli di Controllo di accesso di Azure Role-Based nella sottoscrizione: 'ServiceAdmin', 'CoAdmin', 'Owner', 'Contributor'.

La soluzione Azure VMware monitora le condizioni seguenti nell'host:

  • Stato del processore
  • Stato della memoria
  • Stato di connessione e di alimentazione
  • Stato della ventola hardware
  • Perdita della connettività di rete
  • Stato della scheda del sistema hardware
  • Si sono verificati errori in uno o più dischi di un host vSAN
  • Tensione dell'hardware
  • Stato della temperatura dell'hardware
  • Stato di alimentazione dell'hardware
  • Stato dello spazio di archiviazione
  • Errore di connessione

Procedure consigliate per le operazioni di manutenzione

Le azioni seguenti sono sempre consigliate per garantire che le operazioni di manutenzione host vengano eseguite correttamente:

  • Utilizzo dell'archiviazione vSAN: Per mantenere l'Accordo sul Livello di Servizio (SLA), assicurarsi che l'utilizzo dello spazio di archiviazione del cluster vSphere rimanga inferiore a 75%. Se l'utilizzo supera 75%, gli aggiornamenti potrebbero richiedere più tempo del previsto o non riuscire completamente. Se il tuo utilizzo dell'archiviazione supera il 75%%, considera l'aggiunta di un nodo per espandere il cluster e prevenire potenziali tempi di inattività durante gli aggiornamenti.
  • Regole di Distributed Resource Scheduler (DRS): Le regole di anti-affinità DRS VM-VM devono essere configurate in modo da avere almeno (N+1) host nel cluster, dove N è il numero di VM che fanno parte della regola DRS.
  • Violazione delle tolleranze di errore (FTT): Per evitare la perdita di dati, modificare le macchine virtuali configurate con un criterio di archiviazione vSAN per tolleranze di errore (FTT) pari a 0 in uno conforme allo SLA di Microsoft (FTT=1 per un massimo di cinque host in un cluster e FTT=2 per sei o più host in un cluster) e garantire che la manutenzione degli host avvenga senza interruzioni.
  • Rimuovere i montaggi di macchine virtuali CD-ROM: Le macchine virtuali montate con "Emulate mode" CD-ROMs bloccano la manutenzione dell'host. Assicurarsi che CD-ROMs siano montati in modalità pass-through.
  • Porta seriale/parallela o dispositivo esterno: Se si usa un file di immagine (ISO, FLP e così via), assicurarsi che sia accessibile da tutti gli host ESXi nel cluster. Archiviare i file in un archivio dati condiviso tra tutti i server ESXi che partecipano alla vMotion della macchina virtuale. Per altre informazioni, vedere l'articolo della Knowledge Base di Broadcom.
  • Macchine virtuali orfane: Nel caso di una macchina virtuale orfana, la macchina virtuale deve essere nuovamente registrata se possibile (se non è stata eliminata) o rimossa dall'inventario. Per altre informazioni, vedere l'articolo della Knowledge Base di Broadcom.
  • Controller condiviso SCSI: Quando si usa la condivisione del bus SCSI, configurare il tipo di bus come "Fisico" per le VM. Le macchine virtuali connesse ai controller SCSCI virtuali verranno spente. Per altre informazioni, vedere l'articolo della Knowledge Base di Broadcom.
  • Macchine virtuali e applicazioni di terze parti: Per le macchine virtuali e le applicazioni di terze parti:
    • Assicurarsi che le soluzioni di terze parti distribuite nella soluzione Azure VMware siano conformi e non interferiscano con le operazioni di manutenzione.
    • Assicurarsi che la macchina virtuale non sia associata a una regola DRS «Must run» VM-Host. Verificare inoltre che queste applicazioni siano compatibili con le versioni future dello stack VMware.
    • Rivolgersi al fornitore della soluzione e aggiornare in anticipo, se necessario, per mantenere la compatibilità dopo l'aggiornamento.

Codici di avviso e tabella di correzione

Codice di errore Dettagli dell'errore Azione consigliata
EPC_CDROM_EMULATEMODE Questo errore si verifica quando CD-ROM nella macchina virtuale usa la modalità emulazione, la cui immagine ISO non è accessibile Segui questo articolo della Knowledge Base per la rimozione di qualsiasi CDROM montato nelle macchine virtuali del carico di lavoro del cliente in modalità di emulazione o scollegamento ISO. È consigliabile usare la "modalità pass-through" per il montaggio di qualsiasi CD-ROM.
EPC_DRSOVERRIDERULE Questo errore si verifica quando è presente una macchina virtuale con override DRS impostato su "Disabilitato". Le VM non dovrebbero bloccare il vMotion mentre si mette l'host in modalità manutenzione. Impostare regole di ripristino di emergenza parzialmente automatizzate per la macchina virtuale. Fare riferimento a questo documento per altre informazioni sui criteri di posizionamento delle macchine virtuali.
EPC_SCSIDEVICE_SHARINGMODE Questo errore si verifica quando una macchina virtuale è configurata per l'uso di un dispositivo che impedisce un'operazione di manutenzione: un dispositivo che è un controller SCSI che è impegnato nella condivisione del bus Seguire questo articolo della Knowledge Base per la rimozione di qualsiasi controller SCSI impegnato nella condivisione del bus collegata alle macchine virtuali
EPC_DATASTORE_INACCESSIBLE Questo errore si verifica quando un archivio dati esterno collegato al cloud privato AVS diventa inaccessibile Seguire questo articolo per la rimozione di qualsiasi archivio dati non aggiornato collegato al cluster
EPC_NWADAPTER_STALE Questo errore si verifica quando l'interfaccia di rete connessa nella macchina virtuale usa la scheda di rete che diventa inaccessibile Consultare questo articolo della Knowledge Base per la rimozione di eventuali schede di rete obsolete collegate alle macchine virtuali.
Porta seriale EPC Questo errore si verifica quando la porta seriale di una macchina virtuale è connessa a un dispositivo a cui non è possibile accedere nell'host di destinazione. Se si usa un file di immagine (ISO, FLP e così via), assicurarsi che sia accessibile da tutti i server ESXi nel cluster. Archiviare i file in un archivio dati condiviso tra tutti i server ESXi che partecipano a vMotion della macchina virtuale. Per altre informazioni, vedere questo articolo della Knowledge Base di Broadcom.
EPC_dispositivo hardware Questo errore si verifica quando non è possibile accedere all'host di destinazione quando il dispositivo usb/porta parallela di una macchina virtuale è connesso a un dispositivo. Se si usa un file di immagine (ISO, FLP e così via), assicurarsi che sia accessibile da tutti i server ESXi del cluster. Archiviare i file in un archivio dati condiviso tra tutti i server ESXi che partecipano alla vMotion della macchina virtuale. Per altre informazioni, vedere questo articolo della Knowledge Base di Broadcom.
EPC_INVALIDVM/EPC_ORPHANVM Questo errore si verifica quando è presente una macchina virtuale orfana o non valida nell'inventario Assicurarsi che tutte le macchine virtuali siano accessibili a vCenter. Per altre informazioni, vedere questo articolo della Knowledge Base

Annotazioni

Gli amministratori tenant della soluzione Azure VMware non devono modificare o eliminare gli avvisi del server VMware vCenter definiti in precedenza perché sono gestiti dal piano di controllo della soluzione Azure VMware nel server vCenter. Questi avvisi vengono usati dal monitoraggio della soluzione Azure VMware per attivare il processo di correzione dell'host della soluzione Azure VMware.

Passaggi successivi

Dopo aver trattato le procedure consigliate per la manutenzione del cloud privato della soluzione Azure VMware, è possibile ottenere informazioni su: