Устранение проблем с агентом Log Analytics для Windows

В этой статье описаны ошибки, которые могут возникнуть при работе с агентом Log Analytics для Windows в Azure Monitor. Он предлагает возможные решения для их устранения.

Средство устранения неполадок в Log Analytics

Агент Log Analytics для средства устранения неполадок Windows — это коллекция сценариев PowerShell, которые помогут вам найти и диагностировать проблемы с агентом Log Analytics. Установка агента автоматически включает средство. Запуск средства должен быть первым шагом при диагностике проблемы.

Использование средства устранения неполадок

  1. Откройте запрос PowerShell от имени администратора на компьютере, на котором установлен агент Log Analytics.

  2. Перейдите в каталог, в котором находится средство:

    cd "C:\Program Files\Microsoft Monitoring Agent\Agent\Troubleshooter"

  3. Запустите основной скрипт с помощью следующей команды:

    .\GetAgentInfo.ps1

  4. Выберите сценарий устранения неполадок.

  5. Следуйте инструкциям в консоли. Действия по журналам трассировки требуют ручного вмешательства для остановки сбора журналов. На основе воспроизводимости проблемы подождите положенное время и выберите s, чтобы остановить сбор журналов и перейти к следующему шагу.

    Процесс регистрирует расположение файла результатов после завершения и открывает новое окно обозревателя, в котором он выделен.

Установка

Средство устранения неполадок автоматически включается при установке сборки агента Log Analytics 10.20.18053.0 и более поздних версий.

Рассматриваемые сценарии

Средство устранения неполадок проверяет следующие сценарии:

  • Агент не сообщает данные или данные пульса отсутствуют.
  • Развертывание расширения агента завершается сбоем.
  • Агент завершает работу.
  • Агент потребляет высокую загрузку ЦП или память.
  • Сбои при установке и удалении.
  • У пользовательских журналов есть проблемы.
  • Шлюз OMS имеет проблемы.
  • Счетчики производительности имеют проблемы.
  • Невозможен сбор журналов агента.

Примечание.

Запустите средство устранения неполадок при возникновении проблемы. Наличие журналов с самого начала помогает команде поддержки быстрее выявить и устранить вашу проблему.

Важные источники для устранения неполадок

Чтобы устранить неполадки, связанные с агентом Log Analytics для Windows, агент регистрирует события в журнал событий Windows. В нем используется раздел Application and Services\Operations Manager .

Проблемы с подключением

Если агент взаимодействует через прокси-сервер или брандмауэр, ограничения могут препятствовать обмену данными между исходным компьютером и службой Azure Monitor. Если ошибка настройки блокирует обмен данными, регистрация в рабочей области может завершиться неудачей при попытке установить агента или, после установки, настроить его для передачи данных в другую рабочую область. Обмен данными агента может завершиться ошибкой после успешной регистрации. В этом разделе описываются методы устранения этой проблемы с помощью агента Windows.

Дважды проверьте, настроен ли брандмауэр или прокси-сервер, чтобы разрешить порты и URL-адреса, описанные в следующей таблице. Кроме того, убедитесь, что проверка HTTP не включена для веб-трафика. Он может предотвратить безопасный канал TLS между агентом и Azure Monitor.

Ресурс агента Порты Направление Обход проверки HTTP
*.ods.opinsights.azure.com Порт 443 Исходящий Да
*.oms.opinsights.azure.com Порт 443 Исходящий Да
*.blob.core.windows.net Порт 443 Исходящий Да
*.agentsvc.azure-automation.net Порт 443 Исходящий Да

Сведения о брандмауэре, необходимые для Azure Government, см. в разделе управление Azure для государственных организаций. Вы можете использовать гибридную рабочую роль Runbook службы автоматизации Azure для подключения и регистрации в службе автоматизации для использования модулей Runbook или решений управления. Он должен иметь возможность получить доступ к необходимым портам и URL-адресам, указанным в Настройке сети для гибридного рабочего Runbook.

Вы можете проверить, успешно ли агент взаимодействует с Azure Monitor с помощью нескольких методов:

  • Включите Оценку Работоспособности агентов Azure Log Analytics в рабочей области. На панели мониторинга "Работоспособность агентов" просмотрите столбец Число агентов, не отвечающих на запросы, чтобы быстро увидеть, указан ли агент.

  • Выполните следующий запрос, чтобы подтвердить, что агент сообщает пульс в настроенную рабочую область. Замените <ComputerName> на действительное имя компьютера.

    Heartbeat 
    | where Computer like "<ComputerName>"
    | summarize arg_max(TimeGenerated, * ) by Computer 
    

    Если компьютер успешно взаимодействует со службой, запрос возвращает результат. Если запрос не возвращает результат, сначала убедитесь, что агент настроен для отправки отчета в правильную рабочую область. Если все настроено правильно, перейдите к шагу 3. Выполните поиск в журнале событий Windows, чтобы определить, регистрирует ли агент проблему, которая может препятствовать ему взаимодействовать с Azure Monitor.

  • Также проблемы с подключением можно выявить, запустив инструмент TestCloudConnectivity. Этот инструмент по умолчанию устанавливается вместе с агентом в папку %SystemRoot%\Program Files\Microsoft Monitoring Agent\Agent. В командной строке с повышенными привилегиями перейдите в папку и запустите средство. Инструмент возвращает результаты и выделяет места, где тест завершился ошибкой. Например, это может быть связано с определенным портом или URL-адресом, заблокированным.

    Снимок экрана: результаты выполнения средства TestCloudConnection.

  • Отфильтруйте журнал событий Operations Manager по источникам модули службы работоспособности, событий, HealthService, и Service Connector, и отфильтруйте по уровню событияПредупреждение и Ошибка, чтобы подтвердить, что события записываются из следующей таблицы. Если это так, просмотрите шаги по разрешению, предусмотренные для каждого возможного события.

    ИД события Оригинал Описание Решение
    2133 и 2129 Служба здравоохранения Не удалось выполнить подключение к службе со стороны агента. Эта ошибка возникает, когда агент не может напрямую взаимодействовать или через брандмауэр или прокси-сервер со службой Azure Monitor. Проверьте параметры прокси-сервера агента и убедитесь, что сетевой брандмауэр или прокси-сервер разрешает TCP-трафик от компьютера к службе.
    2138 Модули службы здравоохранения Для прокси-сервера требуется проверка подлинности. Настройте параметры прокси-сервера агента и укажите имя пользователя и пароль, необходимые для проверки подлинности с прокси-сервером.
    2129 Модули службы здравоохранения Сбой подключения. Не удалось выполнить согласование TLS. Проверьте параметры TCP/IP сетевого адаптера и параметры прокси-сервера агента.
    2127 Модули службы здравоохранения Ошибка при отправке данных: получен код ошибки. Если это происходит только периодически в течение дня, это может быть случайной аномалией, которую можно игнорировать. Мониторьте, чтобы понять, как часто это происходит. Если ошибка появляется часто в течение дня, сначала проверьте конфигурацию сети и параметры прокси-сервера. Если описание содержит код ошибки HTTP 404, и это первая попытка агента отправить данные в службу, она также отображает ошибку 500. Ошибка 500 содержит внутренний код ошибки 404. Код ошибки 404 означает "не найдено", что означает, что область хранения для новой рабочей области по-прежнему подготавливается. При следующей попытке данные успешно записываются в рабочую область, как и ожидалось. Ошибка HTTP 403 может указывать на проблему, связанную с разрешениями или учетными данными. Дополнительные сведения включаются в ошибку 403, чтобы помочь устранить проблему.
    4000 Соединитель служб Сбой разрешения DNS-имен. Компьютеру не удалось разрешить интернет-адрес, используемый при отправке данных в сервис. Эта проблема может быть параметрами сопоставителя DNS на компьютере, неправильными параметрами прокси-сервера или временной проблемой DNS с вашим поставщиком. Если это происходит периодически, это может привести к временной проблеме, связанной с сетью.
    4001 Соединитель служб Не удалось подключиться к службе. Эта ошибка возникает, когда агент не может напрямую взаимодействовать или через брандмауэр или прокси-сервер со службой Azure Monitor. Проверьте параметры прокси-сервера агента и убедитесь, что сетевой брандмауэр или прокси-сервер разрешает TCP-трафик от компьютера к службе.
    4002 Соединитель служб Служба вернула код состояния HTTP 403 в ответ на запрос. Обратитесь к администратору службы, чтобы проверить работоспособность службы. Запрос будет повторно отправлен позже. Эта ошибка записывается на начальном этапе регистрации агента. Вы увидите URL-адрес, аналогичный https://<workspaceID>.oms.opinsights.azure.com/AgentService.svc/AgentTopologyRequest. Код ошибки 403 означает "запрещено" и может быть вызвана неправильно введённым идентификатором рабочей области или ключом. Дата и время также могут быть неверными на компьютере. Если время равно +/- 15 минут с текущего времени, подключение завершается ошибкой. Чтобы устранить эту проблему, обновите дату и время компьютера Windows.

Проблемы с сбором данных

После установки агента и его настройки для передачи данных в одно или несколько рабочих пространств агент может перестать получать конфигурацию. Он также может прекратить сбор или отправку данных о производительности, журналов или других данных в службу. Эта проблема зависит от того, что предназначено и включено на компьютере. Вам нужно определить следующее:

  • Это определенный тип данных или все данные, недоступные в рабочей области?
  • Тип данных указан решением или задан в составе конфигурации сбора данных для рабочей области?
  • Сколько компьютеров затронуто проблемой? Это один компьютер или несколько компьютеров, подключенных к рабочей области?
  • Работало ли это, и оно остановилось в определенное время дня, или его никогда не собирали?
  • Синтаксически правильно ли ваш запрос поиска по логам?
  • Получал ли агент когда-либо свою конфигурацию из Azure Monitor?

Первый шаг при устранении этих неполадок — определить, отправляет ли компьютер события пульса.

Heartbeat 
    | where Computer like "<ComputerName>"
    | summarize arg_max(TimeGenerated, * ) by Computer

Если запрос возвращает результаты, необходимо определить, не собирается и не пересылается ли определенный тип данных в службу. Эта проблема может возникнуть из-за того, что агент не получает обновленную конфигурацию из службы или некоторые другие симптомы, которые препятствуют нормальной работе агента. Для дальнейшей диагностики и устранения неполадок выполните следующие шаги.

  1. Откройте командную строку с повышенными привилегиями на компьютере и перезапустите службу агента, введя net stop healthservice && net start healthservice.

  2. Откройте журнал событий Operations Manager и найдите идентификаторы событий 7023, 7024, 7025, 7028 и 1210 из источникасобытий HealthService. Эти события указывают, что агент успешно получает конфигурацию из Azure Monitor, и они активно отслеживают компьютер. Описание события для идентификатора события 1210 также перечисляет в последней строке все решения и аналитику, включенные в область мониторинга агента.

    Снимок экрана: описание идентификатора события 1210.

  3. Подождите несколько минут. Если в результатах запроса или визуализации не отображаются ожидаемые данные, в зависимости от того, просматриваете ли данные из решения или аналитики из журнала событий Operations Manager, найдите источникисобытий HealthService и служба работоспособности Modules. Фильтруйте по уровню событияПредупреждение и Ошибка, чтобы подтвердить, записывались ли события из следующей таблицы.

    ИД события Оригинал Описание Решение
    8 000 Медицинская служба Это событие указывает на то, что рабочий процесс, связанный с производительностью, событием или другим типом собранных данных, не может быть перенаправлен в службу для передачи в рабочую область. Идентификатор события 2136 из источника HealthService записывается вместе с этим событием и может указать, что агент не может взаимодействовать со службой. Возможные причины: неправильная настройка параметров прокси-сервера и проверки подлинности, прекращение работы сети, или сетевой брандмауэр или прокси-сервер не разрешают TCP-трафик от компьютера к службе.
    10102 и 10103 Модули службы здравоохранения Рабочий процесс не смог получить доступ к источнику данных. Эта проблема может возникнуть, если указанный счетчик производительности или экземпляр не существует на компьютере. Это также может произойти, если параметры данных рабочей области определяют его неправильно. Если это счетчик производительности, указанный пользователем, убедитесь, что указанные сведения соответствуют правильному формату и существуют на целевых компьютерах.
    26002 Модули службы здравоохранения Рабочий процесс не смог получить доступ к источнику данных. Эта проблема может возникнуть, если указанный журнал событий Windows не существует на компьютере. Эту ошибку можно безопасно игнорировать, если не ожидается, что этот журнал событий будет зарегистрирован на компьютере. В противном случае, если это журнал событий, указанный пользователем, проверьте правильность указанной информации.