Поделиться через


Наблюдение за виртуальными машинами: Улучшение мониторинга работоспособности виртуальных машин (предварительная версия)

Служба мониторинга ВМ — это стандартизированная, легкая и настраиваемая услуга для виртуальных машин и масштабируемых наборов виртуальных машин. Он выполняет проверки работоспособности в виртуальной машине с настраиваемыми интервалами и отправляет результаты через единую модель данных в Azure. Подсистемы операций ИИ (AIOps) для мониторинга рабочей среды в Azure используют эти результаты работоспособности для обнаружения и предотвращения регрессии.

Мониторинг виртуальных машин осуществляется через расширение виртуальной машины Работоспособность приложений для упрощения развертывания и управления для клиентов. Кроме того, часы виртуальных машин предлагаются без дополнительных затрат.

Специфика мониторинга виртуальных машин

  • Простота внедрения: функция мониторинга виртуальных машин доступна через расширение виртуальной машины "Состояние приложений".
  • Гибкое развертывание. Вы можете включить просмотр виртуальных машин с помощью шаблона Azure Resource Manager (шаблона ARM), PowerShell или Azure CLI.
  • Совместимость: часы виртуальных машин работают легко в средах Linux и Windows. Он одинаково подходит для отдельных виртуальных машин и масштабируемых наборов виртуальных машин.
  • Управление ресурсами: наблюдатель за виртуальными машинами обеспечивает эффективный мониторинг, не влияя на производительность системы. Ограничения ресурсов для использования ЦП и памяти в процессе наблюдения за виртуальными машинами помогают защитить виртуальные машины.
  • Готовность из коробки: инструмент мониторинга виртуальных машин оснащён набором стандартных тестов, которые вы можете настроить для своих сценариев.

Мониторинг ограничений памяти для виртуальных машин

Чтобы поддерживать стабильную производительность в различных конфигурациях виртуальных машин, VM watch применяет ограничения на использование памяти в соответствии с общим доступным объемом памяти SKU виртуальной машины. Ограничения памяти настраиваются динамически на основе уровня памяти виртуальной машины.

Диапазон памяти виртуальной машины Виртуальная машина следит за ограничением объема памяти
Менее 8 ГБ 80 МБ
8 ГБ до 16 ГБ 200 МБ
Больше 16 ГБ 400 МБ

Сеть

Имя сигнала Тип Описание
Исходящее подключение Проверить Проверьте исходящее подключение сети с виртуальной машины Azure.
Разрешение DNS Проверить Проверьте, можно ли определить одно или несколько имен DNS.
TCPSynRetransmits (только для Linux) Метрика Количество раз, когда система повторно отправляет пакет TCP SYN и SYN/ACK, прежде чем отказаться от установки подключения.
Повторно переданные сегменты Метрика Количество передаваемых сегментов TCP, содержащих один или несколько ранее передаваемых октетов.
НормализованныеСегментыПереданныеПовторно Метрика СегментыПовторноПереданные / (СегментыОтправленные + СегментыПовторноПереданные)
ConnectionResets Метрика Количество случаев, когда TCP-подключения сделали прямой переход к CLOSED состоянию из ESTABLISHED состояния или CLOSE_WAIT состояния.
NormalizedConnectionResets Метрика Процент сброшенных подключений во время последнего интервала измерения.
НеудачныеПопыткиПодключения Метрика Количество случаев, когда TCP-подключения сделали прямой переход к CLOSED состоянию из SYN_SENT состояния или SYN_RCVD состояния.
НормализованныеНеудачныеПопыткиСоединения Метрика НеудачныеПопыткиСоединения / (АктивныеОткрытияСоединений + ПассивныеОткрытияСоединений)
ActiveConnectionOpenings Метрика Количество моментов, когда TCP-подключения сделали прямой переход к SYN_SENT состоянию из CLOSED состояния.
Пассивное открытие соединений Метрика Количество моментов, когда TCP-подключения сделали прямой переход к SYN_RCVD состоянию из LISTEN состояния.
CurrentConnections Метрика Число установленных подключений.
СегментыПолучено Метрика Количество полученных сегментов, включая сегменты, полученные в ошибке.
СегментыОтправлено Метрика Количество отправленных сегментов, включая сегменты в текущих подключениях, но исключение сегментов, содержащих только перенаправляемые октеты.

Диск

Имя сигнала Тип Описание
Операции ввода-вывода дисков Azure Проверить Проверка создания, записи и чтения файлов. Удаление операций на каждом диске, подключенном к виртуальной машине.
FreeSpaceInBytes Метрика Свободное место на диске целевой точки подключения.
UsedSpaceInBytes Метрика Используемое место на диске целевой точки подключения.
CapacityInBytes Метрика Емкость места на диске целевой точки подключения.
ИспользованныйПроцент Метрика Процент используемого места на диске для целевой точки подключения.
WriteOps Метрика Операции записи в секунду для целевого диска или раздела.
ReadOps Метрика Операции чтения в секунду для целевого диска или раздела.

ЦП

Имя сигнала Тип Описание
ProcessCPUCoreUsage Метрика Мгновенное измерение процента одного ядра ЦП, используемого целевым процессом (100 = 100 %, целое ядро).
ProcessCPUMachineUsage Метрика Процент общего ЦП компьютера, используемого этим процессом.
ОбщееИспользованиеЦПМашины Метрика Общее количество мгновенного использования ЦП виртуальной машины.

Память

Имя сигнала Тип Описание
ProcessRSSPercent Метрика Обработка RSS / (общая память * компьютера100%)
ProcessPageFaults Метрика Количество сбоев страниц с момента начала процесса.
MachineMemoryTotalInBytes Метрика Общая память виртуальной машины в байтах.
MachineMemoryUsedPercent Метрика Используемая память компьютера / (общая память * компьютера100%)
TotalPageFaults Метрика Общее количество ошибок страниц для всех запущенных процессов с момента их запуска.

Процедура

Имя сигнала Тип Описание
Создание процесса Проверить Запустите упрощенный процесс для проверки возможности создания процесса.
Запущенные процессы Проверить Проверьте, запущен ли целевой процесс или процессы.
Аптайм Метрика Как долго целевой процесс работает с момента последнего запуска процесса.

IMDS

Имя сигнала Тип Описание
IMDS Проверить Убедитесь, что пользователь может получить доступ к конечной точке службы метаданных экземпляра Azure (IMDS) из виртуальной машины. Сведения о виртуальной машине возвращаются из запроса конечной точки IMDS.

Часы

Имя сигнала Тип Описание
Часовое отклонение Проверить Проверьте расхождение времени между удалённым сервером протокола NTP и виртуальной машиной Azure. Для виртуальной машины Windows проверьте, синхронизирована ли служба времени Windows с w32tm, если удаленный NTP-сервер недоступен.

ОС

Имя сигнала Тип Описание
Системные ошибки Метрика Соберите количество ошибок из журнала событий уровня системы (только Windows), где SystemData <=2 (включая LOG_ALWAYS, критические, ошибки). Цель измерения определяется как Source_EventId записи журнала событий с использованием локали по умолчанию для Windows. Каждая коллекция ограничена более чем 10 разными целевыми объектами измерения.

azblob

Имя сигнала Тип Описание
Подключение BLOB-объектов службы хранилища Azure Проверить Проверьте подключение к службе хранилища Azure и загрузите BLOB-объект с помощью MSI или токена общей ключевой подписи (SAS).

Оборудование

Имя сигнала Тип Описание
Монитор работоспособности оборудования EventLog Сбор сведений о работоспособности оборудования из журнала событий Windows. В настоящее время собираются только критические события, связанные с дисками, включая события с идентификатором 7, 500, 504, 505, 512 и 549.
Состояние оборудования Nvidia Smi EventLog Сбор статистики GPU, включая использование памяти и GPU, температуру и другие показатели, выполняя команду nvidia-smi (только для Linux Ubuntu)