Затронутые ресурсы из событий планового обслуживания в Azure

Чтобы поддержать процесс просмотра затронутых ресурсов, система работоспособности предлагает следующие функции:

  • Отображение ресурсов, затронутых из-за запланированного события обслуживания.
  • Предоставьте информацию о затронутых ресурсах для планового обслуживания через Портал состояния службы.

В этой статье описаны сведения о том, что сообщается пользователям и где они могут просматривать сведения о затронутых ресурсах.

Просмотр затронутых ресурсов для запланированных событий обслуживания на портале работоспособности служб

В портале Azure вкладка "Затронутые ресурсы" в разделе "Состояние службы"> отображает ресурсы, затронутые событием планового обслуживания. В следующем примере на вкладке "Затронутые ресурсы" показано событие планового обслуживания с затронутыми ресурсами.

Скриншот ресурсов, затронутых запланированным обслуживанием в Azure Service Health.

Состояние служб предоставляет следующие сведения о ресурсах, затронутых событием планового обслуживания:

Поля Описание
Имя ресурса Имя ресурса, затронутого событием планового обслуживания.
Тип ресурса Тип ресурса, затронутый запланированным событием обслуживания.
Группа ресурсов Группа ресурсов, содержащая затронутый ресурс.
Регион Регион, содержащий затронутый ресурс.
ИД подписки Уникальный идентификатор подписки, содержащей затронутый ресурс.
Действие (*) Ссылка на страницу примененного обновления во время Self-Service окна (только для обновлений, требующих перезагрузки на вычислительных ресурсах).
Дата выполнения самостоятельного обслуживания (*) Дата выполнения окна Self-Service, когда пользователь применяет обновление (только для перезагрузки обновлений вычислительных ресурсов).

Примечание.

Поля со звездочкой * являются необязательными полями, доступными в зависимости от типа ресурса.

Фильтрация результатов

Клиенты могут фильтровать результаты с помощью следующих фильтров:

  • Регион: регион, в котором находится затронутый ресурс.
  • Идентификатор подписки: все идентификаторы подписок, к которые у пользователя есть доступ.
  • Тип ресурса: все типы ресурсов в подписках пользователей.

Снимок экрана: фильтры, используемые для сортировки затронутых ресурсов.

Экспорт в CSV-файл

Список затронутых ресурсов можно экспортировать в виде файла Excel, щелкнув этот параметр.

Снимок экрана: кнопка экспорта в csv-файл.

CSV-файл содержит свойства, связанные с каждым событием и дополнительные сведения на уровне событий. Этот файл можно использовать в качестве статического снимка состояния на данный момент времени для всех активных событий в представлении Состояние услуг>Плановое обслуживание.
Эти сведения представляют собой подмножество дополнительных сведений о уровне событий, доступных через API работоспособности служб, которые могут быть интегрированы с сеткой событий или другими решениями для автоматизации событий.

Снимок экрана: затронутые службы.

Эта таблица содержит краткое описание каждого свойства столбца.

Свойство столбца Описание
ResourceGroup Имя группы ресурсов
Имя ресурса Имя затронутого ресурса.
ТипРесурса Тип затронутого ресурса.
Подписка Все идентификаторы подписки, которые находятся в области опубликованного события.
Регион Регион, в котором находятся затронутые ресурсы.
Статус Текущее состояние затронутого ресурса.

Примечание.

Поля со звездочкой * — это недавно появившиеся свойства, которые могут быть пустыми для некоторых служб, так как они еще не приняли новый макет.

Поля "Тип влияния на обслуживание" и "Длительность"

В нашем непрерывном поиске сделать уведомления о плановом обслуживании более надежными и предсказуемыми для клиентов, мы недавно добавили 3 новых свойства, в частности, касающиеся аспекта влияния при опубликовании события. Эти свойства доступны в настоящее время через параметр экспорта CSV или через вызов API состояния службы.

Примечание.

Мы разрешаем больше служб включать эти поля в публикацию событий, однако существует подмножество служб, которые находятся в процессе подключения, и эти поля могут не показывать значения для их событий.

Влияние на размещенные службы и конечных пользователей

Свойство "Тип влияния " является ключом к ответу на эту общую проблему. Портал работоспособности служб Azure включает новое поле "Тип влияния" для событий обслуживания, которое быстро показывает ожидаемое влияние во время запланированного времени.

У нас есть предопределенный набор категорий, охватывающих или представляющих различные симптомы влияния в службах Azure. Существует вероятность незначительных перекрытий, так как каждая служба имеет свои уникальные критерии относительно влияния, в соответствии с дизайном продукта.

Эта таблица содержит дополнительные сведения о возможных значениях свойства Impact Type. В столбцах описания показано сопоставление с стандартными терминами отрасли, такими как отключение, понижение напряжения и снижение яркости.

Категория типа влияния Описание Примеры
Доступность службы #Отключение, #Влияние, #ПриостановкаСервиса, #ПотеряВременногоХранения

Ресурс или служба находится в состоянии приостановки в течение короткого времени. События в этой категории могут временно повлиять на общую доступность ресурсов и (или) подключения пользователей.
Сеть. Виртуальная машина может потерять сетевое подключение и (или) существующие подключения могут быть прекращены.

Вычисления (виртуальные машины): временная приостановка или замораживание виртуальных ядер (ЦП), влияющих на время отклика виртуальной машины и подключение. Процесс работоспособности службы во время принудительного обновления или снижения работоспособности узла является еще одним распространенным сценарием.

Хранилище: полная или временная приостановка на дисках IOS (например, обновления драйверов или обновления агента хранилища).

SQL: временное воздействие на базы данных SQL из-за перенастройки обслуживания, влияющей на время отклика запросов и кратковременную потерю соединения с базой данных. Длительные запросы, возможно, будут прерваны и потребуют перезапуска.
Снижение производительности #Браунаут, #УмеренноеВоздействие, #Задержка, #ПериодическиеТаймауты, #Медлительность, #СостояниеВМСохранено

Симптомы могут отличаться для каждой службы или продукта. Для некоторых, таких как приложения SQL, задержка или более медленное время отклика могут быть более очевидными для пользователей или запросов, выполняемых.
Ресурс обычно работает, но с пониженной или ограниченной функциональностью. Более заметным для конфиденциальных рабочих нагрузок.
Сетевое взаимодействие: видимое ухудшение качества подключения, приводящее к прерывистым таймаутам или прерыванию подключений. Медленное время отклика при доступе к дискам (например, во время обновления возможность ускоренного сетевого взаимодействия может быть приостановлена). Периодические потери пакетов.

Вычисление (виртуальные машины): действие динамической миграции . Приложения или пользователи могут наблюдать за более медленной обработкой. Другой сценарий — сброс сетевого адаптера, при котором может наблюдаться снижение производительности подключения до 9 секунд.

Хранилище: возможность снижения производительности диска IOPS.

SQL: запрос на задержку базы данных может столкнуться с задержкой или сбоем в операциях чтения или записи.
Сетевое подключение #Grayout, #ModerateImpact, #ConnectionTimeouts, #RetriesSucceed

Умеренное влияние пользователя, так как события связаны с сетевым стеком. Длительность воздействия короче, так как существуют избыточные слои, встроенные в структуру архитектуры, что сводит к минимуму общее влияние.
Таймауты могут быть связаны с событиями, связанными с обновлением T0, T1, сетевого интерфейса или NMAgent, и/или с региональными или зональными сетевыми кабелями и коммутаторами.
Сеть: существующие подключения продолжают работать, но новые подключения не могут быть установлены (которые могут произойти во время обновлений VFP, например).
Некоторое обслуживание, связанное с устройствами ToR (Top of Rack), попадает в эту категорию.
Ресурс недоступен #Влиятельный, #Перезапуск, #ПерезапускСистемы, #ПовторноеРазвертывание, #ЗавершениеРаботы, #НетСоединения, #ВремяПростоя

Событие с относительно длительным временем простоя ресурса (например, для виртуальных машин > 30 секунд). Служба или ресурс могут быть недоступны для пользователей и (или) приложений. Благодаря новым инновациям в разработке платформы частота событий в этой категории резко уменьшается.
Вычислительные задачи: перезапуск или перезагрузка виртуальной машины. Данные о временном хранилище могут быть потеряны.
Такие операции, как перезагрузка, повторное развертывание, остановка запуска виртуальной машины являются типичными примерами этого сценария.
Инициирование управляемого обслуживания виртуальных машин попадает в эту категорию, так как она представляет собой повторное развертывание.
Доступность данных #Grayout, #Failover#ModerateImpact, #ConnectionTimeouts, #QueryTimeouts, #RetriesSucceed

Применимо к набору приложений SQL. Влияние на пользователей минимальное и заметно только во время переключения на резервный сервер.
SQL: мероприятия по обслуживанию могут создавать одну или несколько перенастроек или переключений при отказе в зависимости от расположения первичных и вторичных реплик в начале мероприятия по обслуживанию. Средняя длительность воздействия составляет несколько секунд. Если уже подключено, ваше приложение должно переподключиться, и длительные запросы могут быть прерваны и, возможно, потребуется их перезапуск.
Нет ожидаемого влияния #NoImpact, #Impactless Нет заметного влияния.

Сеть: например, события обслуживания оптоволоконного кабеля обычно не вызывают серьезных проблем, за исключением краткого момента, когда трафик перенаправляется, что может вызвать незначительные временные потери пакетов. Однако эти пакеты обычно успешно повторно отправляются.
Другие (дополнительные сведения см. в сообщении) Если ни одна из этих категорий не применяется напрямую или если применимо несколько из указанных выше категорий, мы предоставим дополнительные сведения в содержимом сообщения. Более одной категории воздействия применимо.

Длительность воздействия

В поле "Длительность влияния" будет отображаться числовое значение, представляющее время в секундах, событие повлияет на указанный ресурс. В зависимости от устойчивости и дизайна реализации службы, поле "Длительность" в сочетании с полем "Тип влияния" должно помочь определить общий уровень влияния, который могут ожидать пользователи.

Одним из ключевых аспектов вызова является разница между событием StartTime и EndTime и длительностью. Хотя поля уровня событий, такие как время начала и окончания, представляют запланированное рабочее окно, поле длительности влияния представляет фактическое время простоя в этом запланированном рабочем окне.

Доступ к затронутым ресурсам программным способом через API

Сведения о ресурсах, затронутых сбоем, можно получить программными средствами с помощью API событий. Дополнительные сведения о том, как получить доступ к этим данным, см. в документации по API.

Часто задаваемые вопросы

Вопрос Ответ
Доступны ли затронутые ресурсы только для событий работоспособности службы Active? Да, портал Azure отображает затронутые ресурсы только для активных событий в неисправностях службы.
Существует ли срок хранения затронутых ресурсов? Срок хранения составляет 90 дней в Azure Resource Graph.

Узнать больше