Condividi tramite


Monitorare i problemi operativi nell'area di lavoro di Azure Monitor Log Analytics

Per mantenere le prestazioni e la disponibilità dell'area di lavoro di Log Analytics in Monitoraggio di Azure, è necessario essere in grado di rilevare in modo proattivo eventuali problemi che si verificano. Questo articolo descrive come monitorare l'integrità dell'area di lavoro di Log Analytics usando i dati nella tabella Operazione. Questa tabella è inclusa in ogni area di lavoro di Log Analytics. Contiene messaggi di errore e avvisi che si verificano nell'area di lavoro. È consigliabile creare avvisi per i problemi relativi al livello di avviso e errore.

Autorizzazioni obbligatorie

Occorrono autorizzazioni Microsoft.OperationalInsights/workspaces/query/*/read per le aree di lavoro Log Analytics su cui si esegue la query, ad esempio le autorizzazioni fornite dal ruolo predefinito Lettore di Log Analytics.

funzione _LogOperation

Log di Monitoraggio di Azure invia informazioni su eventuali problemi alla tabella Operazione nell'area di lavoro in cui si è verificato il problema. La funzione di sistema _LogOperation si basa sulla tabella Operazione e fornisce un set semplificato di informazioni per l'analisi e l'invio di avvisi.

Colonne

La funzione _LogOperation restituisce le colonne nella tabella seguente.

Colonna Descrizione
TimeGenerated Ora in cui si è verificato l'incidente in UTC.
Categoria Gruppo di categorie di operazioni. Può essere usato per filtrare i tipi di operazioni e contribuire a creare avvisi e controllo del sistema più precisi. Per un elenco di categorie, vedere la sezione seguente.
Operazione Descrizione del tipo di operazione. L'operazione può indicare che è stato raggiunto uno dei limiti di Log Analytics, un problema correlato al processo back-end o qualsiasi altro messaggio del servizio.
Livello Livello di gravità del problema:
- Info: nessuna attenzione specifica necessaria.
- Avviso: il processo non è stato completato come previsto ed è necessaria attenzione.
- Errore: processo non riuscito ed è necessaria l'attenzione.
Dettagli Descrizione dettagliata dell'operazione, include il messaggio di errore specifico.
_ResourceId ID della risorsa Azure correlata all'operazione.
Calcolatore Nome computer se l'operazione è correlata a un agente di Monitoraggio di Azure.
CorrelationId Utilizzato per raggruppare le operazioni correlate consecutive.

Categorie

Nella tabella seguente vengono descritte le categorie della funzione _LogOperation.

Categoria Descrizione
Inserimento Operazioni che fanno parte del processo di inserimento dati.
Agente Indica un problema relativo all'installazione dell'agente.
Raccolta dati Operazioni correlate ai processi di raccolta dati.
Obiettivo della soluzione L'operazione di tipo ConfigurationScope è stata elaborata.
Soluzioni di valutazione È stato eseguito un processo di valutazione.

Inserimento

Le operazioni di inserimento sono problemi che si sono verificati durante l'inserimento dei dati e includono notifiche relative al raggiungimento dei limiti dell'area di lavoro di Log Analytics. Le condizioni di errore in questa categoria potrebbero suggerire la perdita di dati, quindi sono importanti da monitorare. Per i limiti del servizio per le aree di lavoro di Log Analytics, vedere Limiti del servizio Monitoraggio di Azure.

Importante

Se si stanno risolvendo problemi relativi alla raccolta dati per uno scenario che utilizza una regola di raccolta dati (DCR), ad esempio l'agente di Azure Monitor o l'API per l'inserimento dei log, consultare Monitorare e risolvere i problemi relativi alla raccolta dei dati DCR in Azure Monitor per ulteriori informazioni sulla risoluzione dei problemi.

Operazione: Raccolta dati arrestata

"La raccolta dei dati è stata arrestata a causa del limite giornaliero di dati gratuiti raggiunto. Stato inserimento = OverQuota"

Negli ultimi sette giorni, la raccolta dei log ha raggiunto il limite giornaliero impostato. Il limite viene impostato se l'area di lavoro è impostata sul livello gratuito oppure se il limite di raccolta giornaliero è stato configurato per questa area di lavoro. Dopo che la raccolta dati raggiunge il limite impostato, si arresta automaticamente per il giorno e riprenderà solo durante il giorno successivo della raccolta.

Azioni consigliate:

  • Fare riferimento alla tabella _LogOperation per verificare la presenza di eventi di interruzione e ripresa della raccolta:
    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Detail has "Data collection"
  • Creare un avviso per l'evento Operazione "Raccolta dati arrestata". Questo avviso invia una notifica quando viene raggiunto il limite di raccolta.
  • I dati raccolti dopo il raggiungimento del limite di raccolta giornaliero andranno persi. Usare il riquadro Informazioni dettagliate sull'area di lavoro per esaminare i tassi di utilizzo di ogni origine. In alternativa, è possibile decidere di gestire il volume di dati giornaliero massimo o modificare il piano tariffario in base al modello di tariffe di raccolta.
  • La frequenza di raccolta dati viene calcolata al giorno e reimpostata all'inizio del giorno successivo. È anche possibile monitorare un evento di ripresa della raccolta creando un avviso sull'evento Operazione "Raccolta dati ripresa".

Operazione: tasso di ingestione

"La velocità del volume di inserimento dati ha superato la soglia nell'area di lavoro: {0:0.00} MB al minuto e i dati sono stati eliminati".

Azioni consigliate:

  • Fare riferimento alla tabella _LogOperation per verificare la presenza di un evento di frequenza di inserimento:
    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Operation has "Ingestion rate"
    un evento viene inviato alla tabella Operazione nell'area di lavoro ogni sei ore mentre la soglia continua a essere superata.
  • Creare un avviso per l'evento Operazione "Raccolta dati arrestata". Questo avviso invia una notifica quando viene raggiunto il limite.
  • I dati raccolti mentre la velocità di inserimento raggiunge il 100% verranno eliminati e persi. Usare il riquadro Informazioni dettagliate sull'area di lavoro per esaminare i modelli di utilizzo e provare a ridurli.
    Per altre informazioni, vedere:

Operazione: numero massimo di colonne della tabella

"I dati del tipo <nome tabella> sono stati rimossi perché il numero di campi <numero di nuovi campi> è superiore al limite attuale di <limite attuale di campi> per tipo di dati."

Azione consigliata: per le tabelle personalizzate, è possibile passare all'analisi dei dati nelle query.

Operazione: Convalida del contenuto del campo

I valori dei seguenti campi <nome campo> di tipo <nome tabella> sono stati ridotti fino alla dimensione massima consentita, <limite dimensioni campo> byte. Modificare l'input di conseguenza."

Un campo maggiore della dimensione limite è stato elaborato dai log di Azure. Il campo è stato tagliato fino al limite di campo consentito. Non è consigliabile inviare campi superiori al limite consentito perché comporta una perdita di dati.

Azioni consigliate:

Controllare l'origine del tipo di dati interessato:

  • Se i dati vengono inviati tramite l'API dell'agente di raccolta dati HTTP, è necessario modificare il codice\script per suddividere i dati prima che vengano inseriti.
  • Per i log personalizzati, raccolti da un agente di Log Analytics, modificare le impostazioni di registrazione dell'applicazione o dello strumento.
  • Per qualsiasi altro tipo di dati, generare un caso di supporto. Per altre informazioni, vedere Limiti del servizio Monitoraggio di Azure.

Raccolta dati

Nella sezione seguente vengono fornite informazioni sulla raccolta dati.

Operazione: raccolta log delle attività di Azure

"L'accesso alla sottoscrizione è andato perso. Assicurarsi che la sottoscrizione <ID sottoscrizione> sia nel tenant Microsoft Entra <ID tenant>. Se la sottoscrizione viene trasferita a un altro tenant, non c'è alcun impatto sui servizi, ma le informazioni per il tenant potrebbero richiedere fino a un'ora per propagarsi".

In alcune situazioni, ad esempio lo spostamento di una sottoscrizione in un tenant diverso, i log delle attività di Azure potrebbero smettere di confluire nell'area di lavoro. In queste situazioni, è necessario riconnettere la sottoscrizione seguendo il processo descritto in questo articolo.

Azioni consigliate:

  • Se la sottoscrizione indicata nel messaggio di avviso non esiste più, passare al riquadro Connettore log attività legacy in Versione classica. Selezionare la sottoscrizione pertinente e quindi selezionare il pulsante Disconnetti.
  • Se non si ha più accesso alla sottoscrizione indicata nel messaggio di avviso:
    • Seguire il passaggio precedente per disconnettere la sottoscrizione.
    • Per continuare a raccogliere i log da questa sottoscrizione, contattare il proprietario della sottoscrizione per correggere le autorizzazioni e riabilitare la raccolta dei log attività.
  • Creare un'impostazione di diagnostica per inviare il log attività a un'area di lavoro di Log Analytics.

Agente

Nella sezione seguente vengono fornite informazioni sugli agenti.

Operazione: Agente Linux

"Due applicazioni di configurazione successive dalle impostazioni di OMS non sono riuscite".

Le impostazioni di configurazione nel portale sono state modificate.

Azione consigliata: questo problema viene sollevato nel caso in cui l'agente incontri difficoltà nel recuperare le nuove impostazioni di configurazione. Per attenuare questo problema, reinstallare l'agente. Controllare la tabella _LogOperation per l'evento dell'agente:

_LogOperation | where TimeGenerated >= ago(6h) | where Category == "Agent" | where Operation == "Linux Agent" | distinct _ResourceId

L'elenco mostra gli ID risorsa in cui l'agente ha la configurazione errata. Per attenuare il problema, reinstallare gli agenti elencati.

Regole di avviso

Usare gli avvisi di ricerca log in Monitoraggio di Azure per ricevere notifiche proattive quando viene rilevato un problema nell'area di lavoro di Log Analytics. Usare una strategia che consente di rispondere in modo tempestivo ai problemi riducendo al minimo i costi. La sottoscrizione verrà addebitata per ogni regola di avviso, come indicato nelle tariffe di Monitoraggio di Azure.

Una strategia consigliata consiste nell'iniziare con due regole di avviso in base al livello del problema. Usare una frequenza breve, ad esempio ogni 5 minuti per Errori e una frequenza più lunga, ad esempio 24 ore per gli avvisi. Poiché gli errori indicano una potenziale perdita di dati, è necessario rispondere rapidamente per ridurre al minimo eventuali perdite. Gli avvisi indicano in genere un problema che non richiede attenzione immediata, quindi è possibile esaminarli ogni giorno.

Usare il processo in Creare, visualizzare e gestire gli avvisi di ricerca log usando Monitoraggio di Azure per creare le regole di avviso di ricerca log. Le sezioni seguenti descrivono i dettagli per ogni regola.

Query Valore di soglia Periodo Frequenza
_LogOperation | where Level == "Error" 0 5 5
_LogOperation | where Level == "Warning" 0 1.440 1.440

Queste regole di avviso rispondono allo stesso modo a tutte le operazioni con Errore o Avviso. Man mano che si ha familiarità con le operazioni che generano avvisi, è possibile che si voglia rispondere in modo diverso per determinate operazioni. Ad esempio, è possibile inviare notifiche a persone diverse per operazioni specifiche.

Per creare una regola di avviso per un'operazione specifica, usare una query che include le colonne Categoria e Operazione.

Nell'esempio seguente viene creato un avviso di avviso quando la frequenza del volume di inserimento ha raggiunto l'80% del limite:

  • Target: selezionare l'area di lavoro di Log Analytics
  • Criteri:
    • Nome del segnale: ricerca log personalizzata
    • Query di ricerca: _LogOperation | where Category == "Ingestion" | where Operation == "Ingestion rate" | where Level == "Warning"
    • In base a: Numero di risultati
    • Condizione: Maggiore di
    • Soglia: 0
    • Periodo: 5 (minuti)
    • Frequenza: 5 (minuti)
  • Nome regola di avviso: Soglia dei dati giornaliera raggiunta
  • Gravità: Avviso (Sev 1)

Nell'esempio seguente viene creato un avviso di avviso quando la raccolta dati ha raggiunto il limite giornaliero:

  • Target: selezionare l'area di lavoro di Log Analytics
  • Criteri:
    • Nome del segnale: ricerca log personalizzata
    • Query di ricerca: _LogOperation | where Category == "Ingestion" | where Operation == "Data collection Status" | where Level == "Warning"
    • In base a: Numero di risultati
    • Condizione: Maggiore di
    • Soglia: 0
    • Periodo: 5 (minuti)
    • Frequenza: 5 (minuti)
  • Nome regola di avviso: Soglia dei dati giornaliera raggiunta
  • Gravità: Avvertimento (Sev 1)

Passaggi successivi