Поделиться через


Наблюдение за виртуальными машинами: Улучшение мониторинга работоспособности виртуальных машин (предварительная версия)

Служба мониторинга ВМ — это стандартизированная, легкая и настраиваемая услуга для виртуальных машин и масштабируемых наборов виртуальных машин. Он выполняет проверки работоспособности в виртуальной машине с настраиваемыми интервалами и отправляет результаты через единую модель данных в Azure. Подсистемы операций ИИ (AIOps) для мониторинга рабочей среды в Azure используют эти результаты работоспособности для обнаружения и предотвращения регрессии.

Мониторинг ВМ предоставляется через расширение ВМ "Работоспособность приложений", чтобы упростить развертывание и управление для клиентов. Кроме того, часы виртуальных машин предлагаются без дополнительных затрат.

Специфика мониторинга виртуальных машин

  • Простота внедрения: мониторинг виртуальных машин доступен через расширение виртуальной машины "Работоспособность приложений".
  • Гибкое развертывание. Вы можете включить просмотр виртуальных машин с помощью шаблона Azure Resource Manager (шаблона ARM), PowerShell или Azure CLI.
  • Совместимость: часы виртуальных машин работают легко в средах Linux и Windows. Он одинаково подходит для отдельных виртуальных машин и масштабируемых наборов виртуальных машин.
  • Управление ресурсами: наблюдатель за виртуальными машинами обеспечивает эффективный мониторинг, не влияя на производительность системы. Ограничения ресурсов для использования ЦП и памяти в процессе наблюдения за виртуальными машинами помогают защитить виртуальные машины.
  • Готовность к работе с виртуальными машинами: часы виртуальной машины оснащены набором тестов по умолчанию, которые можно настроить для ваших сценариев.

Сеть

Название сигнала Тип Description
Исходящее подключение Проверить Проверьте исходящее подключение сети с виртуальной машины Azure.
Разрешение DNS Проверить Проверьте, можно ли определить одно или несколько имен DNS.
TCPSynRetransmits (только для Linux) Метрика Количество раз, когда система повторно отправляет пакет TCP SYN и SYN/ACK, прежде чем отказаться от установки подключения.
Сегменты Повторно переданные Метрика Количество передаваемых сегментов TCP, содержащих один или несколько ранее передаваемых октетов.
НормализованныеСегментыПовторноПереданы Метрика Повторно переданные сегменты / (Отправленные сегменты + Повторно переданные сегменты)
ConnectionResets Метрика Количество случаев, когда TCP-подключения сделали прямой переход к CLOSED состоянию из ESTABLISHED состояния или CLOSE_WAIT состояния.
NormalizedConnectionResets Метрика Процент сброшенных подключений во время последнего интервала измерения.
FailedConnectionAttempts Метрика Количество случаев, когда TCP-подключения сделали прямой переход к CLOSED состоянию из SYN_SENT состояния или SYN_RCVD состояния.
НормализованныеНеудачныеПопыткиПодключения Метрика FailedConnectionAttempts / (ActiveConnectionOpenings + PassiveConnectionOpenings)
ActiveConnectionOpenings Метрика Количество моментов, когда TCP-подключения сделали прямой переход к SYN_SENT состоянию из CLOSED состояния.
PassiveConnectionOpenings Метрика Количество моментов, когда TCP-подключения сделали прямой переход к SYN_RCVD состоянию из LISTEN состояния.
CurrentConnections Метрика Число установленных подключений.
СегментыПолучено Метрика Количество полученных сегментов, включая сегменты, полученные в ошибке.
Отправленные сегменты Метрика Количество отправленных сегментов, включая сегменты в текущих подключениях, но исключение сегментов, содержащих только перенаправляемые октеты.

Диск

Название сигнала Тип Description
Операции ввода-вывода дисков Azure Проверить Проверка создания, записи и чтения файлов. Удаление операций на каждом диске, подключенном к виртуальной машине.
FreeSpaceInBytes Метрика Свободное место на диске целевой точки подключения.
UsedSpaceInBytes Метрика Используемое место на диске целевой точки подключения.
CapacityInBytes Метрика Емкость места на диске целевой точки подключения.
Процент использования Метрика Процент используемого места на диске для целевой точки подключения.
WriteOps Метрика Операции записи в секунду для целевого диска или раздела.
ReadOps Метрика Операции чтения в секунду для целевого диска или раздела.

ЦП

Название сигнала Тип Description
ProcessCPUCoreUsage Метрика Мгновенное измерение процента одного ядра ЦП, используемого целевым процессом (100 = 100 %, целое ядро).
ProcessCPUMachineUsage Метрика Процент общего ЦП компьютера, используемого этим процессом.
ОбщееИспользованиеПроцессораМашины Метрика Общее количество мгновенного использования ЦП виртуальной машины.

Память

Название сигнала Тип Description
ProcessRSSPercent Метрика Обработка RSS / (общая память * компьютера100%)
ProcessPageFaults Метрика Количество сбоев страниц с момента начала процесса.
MachineMemoryTotalInBytes Метрика Общая память виртуальной машины в байтах.
MachineMemoryUsedPercent Метрика Используемая память компьютера / (общая память * компьютера100%)
TotalPageFaults Метрика Общее количество ошибок страниц для всех запущенных процессов с момента их запуска.

Процедура

Название сигнала Тип Description
Создание процесса Проверить Запустите упрощенный процесс для проверки возможности создания процесса.
Запущенные процесс(ы) Проверить Проверьте, запущен ли целевой процесс или процессы.
Время безотказной работы Показатель Как долго целевой процесс работает с момента последнего запуска процесса.

IMDS

Название сигнала Тип Description
IMDS Проверить Убедитесь, что пользователь может получить доступ к конечной точке службы метаданных экземпляра Azure (IMDS) из виртуальной машины. Сведения о виртуальной машине возвращаются из запроса конечной точки IMDS.

Часы

Название сигнала Тип Description
Часовое отклонение Проверить Проверьте расхождение времени между удалённым сервером протокола NTP и виртуальной машиной Azure. Для виртуальной машины Windows проверьте, синхронизирована ли служба времени Windows с w32tm, если удаленный NTP-сервер недоступен.

ОС

Название сигнала Тип Description
Системные ошибки Метрика Соберите количество ошибок из журнала событий уровня системы (только Windows), где SystemData <=2 (включая LOG_ALWAYS, критические, ошибки). Цель измерения определяется как Source_EventId записи журнала событий с использованием локали по умолчанию для Windows. Каждая коллекция ограничена более чем 10 разными целевыми объектами измерения.

azblob

Название сигнала Тип Description
подключение к объектам BLOB хранилища Azure Проверить Проверьте подключение к службе хранилища Azure и загрузите BLOB-объект с помощью MSI или токена общей ключевой подписи (SAS).

Оборудование

Название сигнала Тип Description
Монитор аппаратного здоровья EventLog Сбор сведений о работоспособности оборудования из журнала событий Windows. В настоящее время собираются только критические события, связанные с дисками, включая события с идентификатором 7, 500, 504, 505, 512 и 549.
Состояние оборудования Nvidia Smi EventLog Сбор статистики GPU, включая использование памяти и GPU, температуру и другие показатели, выполняя команду nvidia-smi (только для Linux Ubuntu)