Поделиться через


Оценка работоспособности кластера AKS

Эта статья является частью серии. Начните с обзора.

Чтобы начать практику триажа, оцените общую работоспособность кластера и сети.

Инструменты

Существует множество средств и функций, которые можно использовать для диагностики и решения проблем в кластере Службы Azure Kubernetes (AKS).

На портале Azure выберите ресурс кластера AKS. Эти средства и функции находятся в области навигации.

  • Диагностика и устранение проблем. Это средство позволяет выявлять и устранять проблемы в кластере.

  • Работоспособность ресурсов. Это средство позволяет диагностировать и получать поддержку проблем со службами, которые могут повлиять на ресурсы Azure. Это средство предоставляет сведения о текущем и прошлом состоянии работоспособности ресурсов.

  • Рекомендации помощника. Помощник по Azure предоставляет рекомендации по оптимизации развертываний Azure. Помощник можно использовать для анализа конфигурации ресурсов и телеметрии использования. Помощник предлагает действия по повышению эффективности затрат, производительности, надежности и безопасности.

  • Журналы. Используйте эту функцию для доступа к журналам и метрикам кластера, хранящимся в рабочей области Log Analytics . Вы можете отслеживать и анализировать журналы и метрики кластера, чтобы обеспечить аналитические сведения и улучшить устранение неполадок.

Используйте эти средства и функции, чтобы эффективно диагностировать и устранять проблемы, оптимизировать развертывание кластера AKS и отслеживать работоспособность и производительность ресурсов Azure.

Диагностика и решение проблем

Функция диагностики и решения проблем предоставляет комплексный набор средств для выявления и решения различных проблем, связанных с кластером. Выберите категорию устранения неполадок, которая наиболее актуальна для вашей проблемы.

Снимок экрана: страница диагностики и решения проблем.

Чтобы проверить работоспособность кластера, можно выбрать следующее:

  • Доступность и производительность кластера и плоскости управления. Проверьте наличие проблем с доступностью или ограничениями служб, влияющих на работоспособность кластера.
  • Проблемы с подключением. Проверьте наличие ошибок с разрешением системы доменных имен кластера (DNS) или если исходящий маршрут связи имеет проблемы с подключением.

Состояние ресурса

Используйте функцию работоспособности ресурсов для выявления и получения поддержки проблем с кластером и служб, которые могут повлиять на работоспособность кластера. Настройте оповещение о ресурсе, чтобы отслеживать работоспособность кластера. Функция работоспособности ресурсов предоставляет отчет о текущем и прошлом работоспособности кластера. Существует четыре состояния здоровья:

  • Доступно: это состояние указывает на отсутствие событий, которые влияют на работоспособность кластера. Если кластер восстановился после незапланированного простоя за последние 24 часа, появится недавно разрешенное уведомление.

  • Недоступно: это состояние указывает на то, что обнаружена текущая платформа или неплатформенное событие, влияющее на работоспособность кластера.

  • Неизвестно: это состояние указывает, что функция не получила никаких сведений о ресурсе в течение более 10 минут. Обычно этот статус отображается, когда выделение ресурсов виртуальной машины прекращается. Это состояние не является окончательным указанием состояния ресурса, но это может быть полезной точкой для устранения неполадок.

  • Пониженный уровень: это состояние указывает на то, что производительность кластера снижается, но кластер по-прежнему доступен для использования.

На следующем снимке экрана показано общее состояние ресурсов.

Снимок экрана: обзор работоспособности ресурсов AKS.

Дополнительные сведения см. в обзоре работоспособности ресурсов Azure.

Помощник

Помощник предоставляет практические рекомендации, помогающие оптимизировать кластеры AKS для обеспечения надежности, безопасности, эффективности работы и производительности. Помощник можно использовать для упреждающего улучшения производительности кластера и предотвращения потенциальных проблем. Выберите рекомендацию для получения подробных сведений о том, как оптимизировать кластер.

Снимок экрана, показывающий результат советника для AKS и предложенные действия.

На следующем снимка экрана показаны ресурсы для выбранной рекомендации.

Снимок экрана, показывающий второй образец результата системы Помощника по AKS. Дополнительные сведения см. в обзоре системы Помощника.

Аналитика логов

Log Analytics предоставляет аналитические сведения о работоспособности кластера. Чтобы получить доступ к рабочей области Log Analytics, перейдите в кластер АКС и выберите «Журналы» в области навигации.

Вы можете выбрать стандартные запросы для анализа работоспособности кластера.

Снимок экрана, показывающий запросы.

Используйте встроенные запросы для запроса журналов и метрик, собранных в рабочей области Log Analytics. В следующем списке описаны функции некоторых запросов в группах доступности, журналах контейнеров и категориях диагностики.

  • Доступность

    • Состояние готовности для каждого запроса узла: просмотрите количество всех узлов в кластере по состоянию готовности.

    • Запрос на получение количества pod по фазам: Просмотрите количество всех pod по фазам, таким как сбой, ожидание, неизвестно, выполнение или успешно завершено.

  • Журналы контейнеров

    • Найдите значение в запросе таблицы журналов контейнеров: найдите строки в таблице ContainerLogs, где LogEntry имеет указанный строковый параметр.

    • Список журналов контейнеров по пространствам имен: просмотр журналов контейнеров из пространств имен в кластере.

  • Диагностика

    • Запрос журналов автомасштабирования кластера: запрос журналов автомасштабирования кластера. Этот запрос может предоставить сведения о том, почему кластер неожиданно масштабируется вверх или вниз.

    • Запрос журналов сервера API Kubernetes: запрос журналов с сервера API Kubernetes.

    • Запрос инвентаризации изображений: вывод списка всех образов контейнеров и их состояния.

    • Чтение диска Prometheus в секунду на узел: просмотр метрик чтения диска Prometheus из пространства имен Kubernetes по умолчанию как временную диаграмму.

    • Среднее увеличение использования ЦП по экземплярам по сравнению с прошедшей неделей, запрос: Покажите средний рост ЦП за прошлую неделю для каждого экземпляра в порядке убывания.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Основные авторы:

Другой участник:

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.