Project Flash — Совершенствование мониторинга доступности виртуальных машин Azure

2025-05-06

Flash, внутреннее имя проекта, происходит от нашей неизменной приверженности созданию надежного, устойчивого и быстрого механизма для мониторинга работоспособности виртуальных машин. Наша основная цель заключается в том, чтобы клиенты могли надежно получать доступ к эффективной и точной телеметрии, быстро получать оповещения об изменениях и периодически отслеживать данные в масштабе. Мы также уделяем особое внимание разработке централизованного и согласованного опыта, который клиенты могут удобно использовать для удовлетворения своих уникальных требований к наблюдаемости. Это наша миссия гарантировать, что вы можете:

Потребляйте точные и практические данные о сбоях доступности виртуальных машин (например, перезагрузки и перезапуска виртуальных машин, замораживание приложений из-за обновлений сетевого драйвера и 30-секундных обновлений ОС узла), а также точные сведения о сбоях (например, платформа и инициированные пользователем, перезагрузка и замораживание, запланированные и незапланированные).
Анализ и оповещение о тенденциях доступности виртуальных машин для быстрого отладки и ежемесячной отчетности.
Периодически отслеживайте данные в масштабе и создавайте пользовательские панели мониторинга для обновления последних состояний доступности всех ресурсов.
Автоматизированные анализы первопричин (RCA) поступают с подробными сведениями о пострадавших виртуальных машинах, причине и длительности простоя, последующих исправлениях и аналогичных деталях — все это способствует целенаправленным исследованиям и последующим анализам.
Получайте мгновенные уведомления о критических изменениях доступности виртуальной машины, чтобы быстро активировать действия по исправлению и предотвратить влияние конечных пользователей.
Динамически адаптируйте и автоматизируйте политики восстановления платформы с учетом постоянно меняющихся чувствительностей рабочих нагрузок и требований к резервированию.

Решения Flash

Инициатива Flash посвящена разработке решений на протяжении многих лет, которые удовлетворяют разнообразным потребностям мониторинга наших клиентов. Чтобы определить наиболее подходящие решения для мониторинга Flash для конкретных требований, ознакомьтесь со следующей таблицей:

Решение	Описание
Azure Resource Graph (Общая Доступность)	Для расследований в крупном масштабе, централизованного репозитория ресурсов и поиска в истории, крупные клиенты хотят периодически получать данные телеметрии о доступности ресурсов по всем рабочим нагрузкам одновременно, используя Azure Resource Graph (ARG).
Тема системы Event Grid (общедоступная предварительная версия)	Чтобы активировать чувствительные к времени и критически важные меры по снижению рисков (повторное развертывание, действия по перезапуску виртуальной машины) для предотвращения воздействия на конечных пользователей, компании, такие как Pearl Abyss и Krafton, хотят получать оповещения в течение нескольких секунд после критических изменений доступности ресурсов через обработчики событий в Сетке событий.
Azure Monitor (общедоступная предварительная версия)	Чтобы отслеживать тенденции, агрегировать метрики платформы (ЦП, диск и т. д.) и настроить точные оповещения на основе пороговых значений, клиенты хотят использовать метрику доступности виртуальных машин с помощью Azure Monitor.
Состояние ресурсов (общедоступность)	Чтобы выполнять мгновенные и удобные проверки состояния пользовательского интерфейса портала для каждого ресурса, клиенты могут быстро просмотреть модуль RHC на портале. Они также могут получить доступ к 30-дневному журналу проверок работоспособности для этого ресурса для быстрого и простого устранения неполадок.

Комплексный мониторинг доступности виртуальных машин

Для комплексного подхода к мониторингу доступности виртуальных машин, включая сценарии планового обслуживания, динамической миграции, восстановления служб и снижения производительности виртуальных машин, рекомендуется использовать как запланированные события (SE), так и события работоспособности Flash.

Запланированные события предназначены для раннего предупреждения, предоставляя до 15-минутного уведомления до действий по обслуживанию. Это время приводит к принятию обоснованных решений о предстоящих простоях, что позволяет либо избежать, либо подготовиться к нему. Вы можете подтвердить эти события или отложить действия в течение этого 15-минутного периода в зависимости от готовности к предстоящему обслуживанию.

С другой стороны, мероприятия Flash Health сосредоточены на отслеживании текущих и завершенных сбоев доступности, включая деградацию ВМ. Эта функция позволяет эффективно отслеживать время простоя и управлять им, поддерживая автоматическое снижение рисков, исследования и анализ завершенных процессов.

Чтобы начать путешествие в сфере наблюдаемости, вы можете изучить набор продуктов Azure, в которые мы передаем высококачественные данные о доступности виртуальных машин. К этим продуктам относятся работоспособность ресурсов, журналы активности, граф ресурсов Azure, метрики Azure Monitor и системная тема Azure Event Grid.

Дальнейшие действия

Чтобы узнать больше о предлагаемых решениях, перейдите к соответствующей статье решения:

Для общего обзора мониторинга виртуальных машин Azure см. статьи Мониторинг виртуальных машин Azure и Справочник по мониторингу виртуальных машин Azure.

Поделиться через

Project Flash — Совершенствование мониторинга доступности виртуальных машин Azure

Решения Flash

Комплексный мониторинг доступности виртуальных машин

Дальнейшие действия

Обратная связь

Дополнительные ресурсы