Поделиться через


Project Flash. Использование Azure Resource Graph для мониторинга доступности виртуальных машин Azure

Azure Resource Graph — это одно решение, предлагаемое Flash. Flash — это внутреннее имя проекта, посвященного созданию надежного и быстрого механизма для мониторинга работоспособности виртуальных машин.

В этой статье описывается использование Azure Resource Graph для мониторинга доступности виртуальных машин Azure. Общие сведения о решениях Flash см. в обзоре Flash.

Для документации, конкретной для других решений, которые предлагает Flash, выберите из следующих статей:

Azure Resource Graph — HealthResources

Эта функция в настоящее время общедоступна. Это полезно для проведения крупномасштабных расследований. Он предоставляет удобный пользовательский интерфейс для получения информации с использованием языка запросов Kusto (KQL). Он также может служить центральным центром для сведений о ресурсах и позволяет легко извлекать исторические данные.

Помимо уже существующих состояний доступности виртуальных машин, мы опубликовали аннотации доступности виртуальных машин в Azure Resource Graph (ARG) для подробного анализа причин сбоев и простоев, а также включили 14-дневный механизм отслеживания изменений в доступности виртуальных машин для быстрой отладки. С этими новыми дополнениями мы с удовольствием объявляем о доступности сведений о работе виртуальных машин в наборе данных HealthResources в ARG для всех пользователей! С помощью этого предложения пользователи могут:

  • Эффективно запрашивать последний снимок доступности ВМ во всех подписках Azure одновременно и с низкой задержкой для периодического и мониторинга всего автопарка.
  • Точно оцените влияние на соглашения об уровне обслуживания по всему бизнесу и быстро активируйте решительные действия по устранению рисков в ответ на нарушения и тип сигнатуры сбоя.
  • Настройте пользовательские панели мониторинга для обеспечения полной работоспособности приложений путем объединения сведений о доступности виртуальных машин с метаданными ресурсов, присутствующих в ARG.
  • Отслеживайте соответствующие изменения в доступности виртуальных машин в 14-дневном окне с помощью механизма отслеживания изменений для проведения подробных исследований.

Примеры запросов

Начало работы

Пользователи могут запрашивать ARG через PowerShell, REST API, Azure CLI или даже портал Azure. Ниже описано, как получить доступ к данным из портал Azure.

  1. Попав на портал Azure, перейдите в Обозреватель Resource Graph.

    Снимок экрана целевой страницы обозревателя Azure Resource Graph на портале Azure.

  2. Выберите вкладку "Таблица" и однократно щелкните таблицу HealthResources, чтобы получить последний актуальный снимок сведений информации о доступности ВМ (состояние доступности и заметки о работоспособности).

    Снимок экрана окна обозревателя Azure Resource Graph, в котором показаны последние состояния доступности виртуальных машин и аннотации доступности виртуальных машин в таблице ресурсов работоспособности.

В таблице HealthResources заполнены два типа событий:

Моментальный снимок типа событий в таблице

  • статусы доступности ресурсаздоровья

Это событие обозначает последнее состояние доступности виртуальной машины на основе проверок работоспособности, выполняемых базовой платформой Azure. Состояния доступности, которые мы в настоящее время выпускаем для виртуальных машин:

  • Доступно: виртуальная машина запущена и работает должным образом.
  • Недоступно. Мы обнаружили нарушения нормальной работы виртуальной машины, поэтому приложения не будут работать должным образом.
  • Неизвестно: платформа не может точно определить работоспособность виртуальной машины. Обычно пользователи могут вернуться в течение нескольких минут для обновленного состояния.

Чтобы провести опрос последнего состояния доступности виртуальной машины, см. поле свойств, содержащее следующие сведения:

Образец

{
 "targetResourceType": "Microsoft.Compute/virtualMachines",
 "previousAvailabilityState": "Available",
 "targetResourceId": "/subscriptions//resourceGroups//providers/Microsoft.Compute/virtualMachines/",
 "occurredTime": "2022-10-11T11:13:59.9570000Z",
 "availabilityState": "Unavailable"
 }

Описание свойства

Свойство Описание Соответствующая категория состояния ресурсов (RHC)
целевая категория ресурсов Тип ресурса, для которого передаются данные о здоровье тип ресурса
targetResourceId ИД ресурса идентификатор ресурса
время события Метка времени, когда платформа выдает последнее состояние доступности временная метка события
предыдущее состояние доступности Предыдущее состояние доступности виртуальной машины предыдущееСостояниеЗдоровья
состояние доступности Текущее состояние доступности виртуальной машины текущийСтатусЗдоровья

Чтобы подробнее изучить эти данные, см. список начальных запросов в разделе HealthResources документации по образцам запросов.

  • ресурсное здоровье/аннотации к ресурсам (НОВО ДОБАВЛЕНО)

Это событие контекстуализирует любые изменения доступности виртуальных машин, детализируя необходимые атрибуты сбоя, чтобы помочь пользователям изучить и устранить неполадки по мере необходимости. См. полный список аннотаций доступности виртуальных машин, выдаваемых платформой. Эти заметки можно классифицировать в три сегмента:

  • Аннотации простоя: Эти аннотации создаются, когда платформа обнаруживает, что доступность виртуальной машины переходит в состояние Недоступна. (Например, во время непредвиденных сбоев узла, выполняются операции восстановления с перезагрузкой).
  • Информационные заметки. Эти заметки создаются во время действий уровня управления без влияния на доступность виртуальной машины. (Например, выделение виртуальной машины, остановка, удаление и запуск). Как правило, дальнейшие действия клиента не требуются в ответ.
  • Аннотации деградации: Эти аннотации выдаются при обнаружении угрозы доступности виртуальных машин. (Например, если модели прогнозирования сбоев прогнозируют снижение производительности оборудования, что может привести к перезагрузке виртуальной машины в любое время). Мы настоятельно призываем пользователей повторно развернуть до крайнего срока, указанного в сообщении с аннотацией, чтобы избежать непреднамеренной потери данных или простоя. Вы можете получить оповещение в панели управления здоровьем ресурсов или журнале действий масштабируемых наборов виртуальных машин Azure в одном из следующих сценариев:

Чтобы опросить аннотации доступности ВМ, связанные с ресурсом, если они имеются, обратитесь к полю свойств, которое содержит следующие сведения:

Образец

{
 "targetResourceType": "Microsoft.Compute/virtualMachines", "targetResourceId": "/subscriptions//resourceGroups//providers/Microsoft.Compute/virtualMachines/",
 "annotationName": "VirtualMachineHostRebootedForRepair",
 "occurredTime": "2022-09-25T20:21:37.5280000Z",
 "category": "Unplanned",
 "summary": "We're sorry, your virtual machine isn't available because an unexpected failure on the host server. Azure has begun the auto-recovery process and is currently rebooting the host server. No further action is required from you at this time. The virtual machine will be back online after the reboot completes.",
 "context": "Platform Initiated",
 "reason": "Unexpected host failure"
 }

Описание свойства

Свойство Описание Соответствующий RHC
целевая категория ресурсов Тип ресурса, для которого передаются данные о здоровье тип ресурса
targetResourceId ИД ресурса идентификатор ресурса
время события Метка времени, когда последнее состояние доступности передается платформой временная метка события
имяАннотации Имя создаваемой заметки eventName
причина Краткий обзор влияния на доступность, наблюдаемую клиентом заголовок
категория Указывает, было ли действие платформы, активировающее заметку, либо плановое обслуживание, либо незапланированное восстановление. Это поле не применимо к событиям, инициированным клиентом или виртуальной машиной. Возможные значения: Запланировано, Незапланировано, Не применимо, Пусто категория
контекст Указывает, было ли действие, активировавшее аннотацию, инициировано авторизованным пользователем или процессом (инициировано клиентом), платформой Azure (инициировано платформой) или действием в гостевой ОС, повлиявшим на доступность (инициировано виртуальной машиной). Возможные значения: инициированные платформой, инициированные пользователем, инициированные виртуальными машинами, неприменимо, NULL контекст
сводка Заявление, содержащее подробное описание причины появления аннотаций, а также действия по их исправлению, которые пользователи могут предпринять. сводка

Чтобы подробнее изучить эти данные, см. список начальных запросов в разделе HealthResources документации по образцам запросов.

У нас запланировано несколько улучшений для метаданных аннотаций, которые отображаются в наборе данных HealthResources. Эти обогащения дают пользователям доступ к более богатым атрибутам сбоя, чтобы решительно подготовить ответ на нарушение. Параллельно мы стремимся продлить период исторического просмотра до минимума 30 дней, чтобы пользователи могли комплексно отслеживать прошлые изменения в доступности виртуальных машин.

Дальнейшие действия

Чтобы узнать больше о предлагаемых решениях, перейдите к соответствующей статье решения:

Для общего обзора мониторинга виртуальных машин Azure см. статьи Мониторинг виртуальных машин Azure и Справочник по мониторингу виртуальных машин Azure.