Поделиться через


Разработка плана аварийного восстановления для развертываний в нескольких регионах

В качестве архитектора облачных решений вы играете ключевую роль в обеспечении того, чтобы восстановление после сбоев в широком масштабе было намеренно запланировано, разработано и задокументировано как план аварийного восстановления (DR). В случае сбоя качество этого плана влияет на то, является ли событие временным сбоем или становится репутационным и финансовым кризисом.

План должен основываться на стратегиях, управляемых бизнес-приоритетами и управляемыми измеримыми целями. В этой статье рассматривается процесс разработки практического плана аварийного восстановления, начиная с базовых практик восстановления служб и перехода к новому мышлению, которое поддерживает непрерывность бизнес-процессов в условиях давления.

В этой статье рассматриваются способы обеспечения непрерывности бизнес-процессов с помощью технических мер и процессов. Прежде чем начать, ознакомьтесь с ключевыми стратегиями и выберите те, которые имеет смысл для вашего бизнеса. Дополнительные сведения см. в документе RE:09 Архитектурные стратегии для аварийного восстановления.

План аварийного восстановления должен быть создан на основе основных принципов управления инцидентами, которые служат необходимым условием для эффективного планирования аварийного восстановления. Рекомендации по разработке плана управления инцидентами см. в статье "Разработка практики по управлению инцидентами", чтобы восстановиться после сбоев.

Терминология

Прежде чем приступить к разработке плана, ознакомьтесь с этими ключевыми условиями.

Срок Definition
Активный -активный (горячий режим ожидания) Две или более сред полностью работают и обслуживают динамический трафик одновременно в нескольких регионах. Если одна среда отказывает, другие продолжают обрабатывать нагрузку без нарушений или с минимальными нарушениями.
Активный-резервный (режим холодного ожидания) Среда, которая в данный момент не функционирует и требует развёртывания и восстановления данных при активации. Наименьшая стоимость, самое длительное время восстановления.
Активный пассивный (теплый режим ожидания) Частично подготовленная среда, выполняющая минимальные сервисы, которые могут быстро масштабироваться при сбоях.
Непрерывность бизнес-процессов Стратегии обеспечения продолжения критически важных операций во время и после сбоев, включая резервное восстановление, управление персоналом, связь и процессы.
План аварийного восстановления Подробные исполняемые процедуры для восстановления определенных систем, включая пошаговые действия, роли, обязанности, последовательности переключения на резервные системы и процессы коммуникации.
Стратегия аварийного восстановления (DR/АВВ) Высокоуровневый подход, определяющий цели, принципы и стратегию восстановления для реагирования на катастрофические сбои в нагрузках.
Активация системы аварийного восстановления Официальное решение инициировать процедуры аварийного восстановления, обычно требующее авторизации исполнительной власти.
Возврат к основной системе Процесс возврата рабочих нагрузок в исходную первичную среду после разрешения инцидентов.
Переключение Процесс перемещения рабочих нагрузок из основной в резервную среду во время аварии.
Целевая точка восстановления (RPO) Объем потери данных, который можно допустить прежде чем произойдут серьезные потери. RPO определяет частоту резервного копирования необходимых данных.
Целевое время восстановления (RTO) Время, затрачиваемое на восстановление необходимого доступа, данных и функциональных возможностей после аварии, связанной с технологией.

Что такое аварийное восстановление?

Аварийное восстановление (АВ) — это стратегический и методический подход для восстановления систем или их критически важных частей после серьезного сбоя.

В облачных средах временные сбои являются нормальными. Эти краткие нарушения, часто называемые скольжениями или временными сбоями, могут привести к недоступности изолированных компонентов или непредвиденных падений производительности. Они обычно разрешаются с помощью функций устойчивости платформы и встроенных механизмов самовосстановления без вмешательства человека.

Однако аварии представляют собой другой класс событий. Они широки в области, влияют на несколько систем или служб одновременно и могут привести к остановке системы. Эти события требуют внешнего вмешательства и специализированных функций, руководствуясь четко определенным планом аварийного восстановления, который можно активировать, если встроенная способность системы к самовосстановлению оказывается недостаточной. Ниже приведены некоторые примеры:

  • Полные региональные сбои

  • Потеря доступа к контрольной плоскости или возможностей управления сервисами

  • Поврежденные рабочие среды из-за вредоносных действий или критической неправильной настройки

  • Серьезные сбои инфраструктуры, влияющие на несколько уровней системы

  • Стихийные бедствия или геополитические события, вызывающие недоступность расширенной службы

Оставленные без внимания ошибки могут перерасти в полномасштабные бедствия. Хотя расширенный мониторинг и моделирование состояния здоровья может помочь выявить и устранить эти проблемы на ранних стадиях, эта тема выходит за рамки обсуждения в данной статье. Дополнительные сведения см. в разделе "Моделирование работоспособности".

Конечная цель резервного копирования и восстановления — обеспечить непрерывность бизнес-процессов в рамках определенных количественных показателей. Думайте о плане как о скоординированных усилиях, требующих предопределенных процедур, четких протоколов связи и принятия решений на уровне исполнительного уровня.

Выберите уровень критической важности

Не все нагрузки (или их части) нуждаются в серьезном плане восстановления. Восстановление должно отражать его критическость.

Это важно

Определение критичности — это бизнес-решение, и ваша ответственность заключается в том, чтобы содействовать этому решению. Это зависит от того, какова функция вашего сервиса, кто на него полагается и что случится, если он выйдет из строя. Azure не решает, что является критически важным для вашей миссии, именно Вы это определяете. Если сбой негативно скажется на вашем доходе, подорвет доверие клиентов или лишит соответствия установленным нормам, то это критическая система. Примите это решение и проектируйте с его учетом.

Чрезмерное проектирование служб с низким уровнем воздействия приводит к растрате ресурсов; недостаточная подготовка служб с высоким уровнем воздействия может привести к серьезным последствиям. Ключевым фактором является оптимальная настройка стратегии восстановления в зависимости от влияния на бизнес. Используйте следующие уровни классификации в качестве отправной точки, чтобы оценить критичность и соответствующим образом выровнять инвестиции в аварийное восстановление.

Распространенный способ квалифицировать уровни — это цели уровня обслуживания (SLO), часто выраженные как "пять девяти" (99,999%), "четыре девять" (99,99%) и т. д. Эти процентили широко представляют уровень доступности, ожидаемый для данной рабочей нагрузки.

Наиболее важными метриками в стратегии аварийного восстановления являются целевое время восстановления (RTO) и целевая точка восстановления (RPO), которые измеряются как единицы времени. RTO определяет, насколько быстро должна быть восстановлена система после сбоя. Он представляет устойчивость организации к простою. RPO определяет допустимое количество потери данных и отражает частоту резервного копирования данных.

В этой статье предполагается, что целевые уровни обслуживания (SLOs) и метрики восстановления уже определены и не будут охватывать их вычисление. Если вам нужно руководство по установлению значимых SLO, обратитесь к метрикам надежности.

Схема, показывающая целевые показатели восстановления в нескольких регионах.

Уровень 0: критически важный для миссии

Критически важный уровень включает в себя все рабочие нагрузки или определенные компоненты, в которых время простоя не является вариантом, а экономия затрат является вторичной для непрерывности. Эти системы являются фундаментальными для организации, поскольку они напрямую управляют доходами, защищают доверие клиентов и влияют на жизни. К общим примерам относятся финансовые платформы, системы здравоохранения и инфраструктура безопасности.

Этот уровень требует SLO выше 99,99%, при этом RTO измеряется в секундах и RPO приближается к нулю. Для удовлетворения этих требований обычно требуется активное развертывание с несколькими регионами, что обеспечивает мгновенное восстановление без прерывания работы с пользователями.

Если критически важные системы дают сбой, последствия являются немедленными и значительными: потеря доходов, репутационный ущерб или подвергание рискам со стороны регулирующих органов.

Уровень 1. Критически важный для бизнеса

Критически важные для бизнеса системы важны для повседневных операций и взаимодействия с клиентами, но в отличие от критически важных систем, они могут терпеть короткие периоды нарушений, если восстановление быстро и потери данных минимальны. Эти системы часто зависят от стимулов доходов, таких как платформы электронной коммерции, клиентские приложения и порталы партнеров.

Обычно для них требуются SLO на уровне около 99,95% с показателями RTO и RPO, измеряемыми в минутах. Сочетание активно-активного или теплого резервного развертывания часто используется для балансировки резерва с затратами.

Хотя короткие сбои могут быть выживаемыми, расширенные простои на этом уровне напрямую влияют на доход, удовлетворенность пользователей и доверие к бренду. Прогнозируемость и скорость восстановления являются критически важными.

Уровень 2. Операционная деятельность бизнеса

Операционные системы поддерживают внутренние команды и процессы. Хотя они не напрямую сталкиваются с клиентом, они важны для обеспечения производительности и непрерывности работы. Типичные примеры включают платформы отчетов, внутренние панели мониторинга и средства администрирования.

Эти системы обычно предназначены для SLO порядка 99,9%, при этом RTO и RPO измеряются в часах. Стратегия активного-пассивного развертывания с использованием теплого/холодного развертывания распространена: вторичные среды остаются неактивными до тех пор, пока не потребуется, что оптимизирует затраты в ущерб быстроте восстановления.

Сбои на этом уровне могут не сразу повлиять на клиентов, но более длительные нарушения могут замедлить бизнес. Своевременное восстановление важно, даже если это не немедленно.

Уровень 3. Администрирование

Административные системы — это некритичные рабочие нагрузки, поддерживающие фоновые операции или обслуживающие варианты использования с низкой срочностью. Обычно они включают архивные платформы, среды песочницы, порталы обучения или средства пакетной обработки, где доступность не учитывает время.

При использовании уровней обслуживания ниже 99,9% эти системы позволяют более длительное время восстановления, при этом RTO может составлять от нескольких часов до нескольких дней, а RPO измеряется в часах. Наиболее экономичный подход обычно используется для резервного копирования и восстановления, минимизируя текущие затраты на инфраструктуру, сохраняя возможность восстановления.

Хотя задержки на этом уровне являются приемлемыми, целостность данных по-прежнему должна быть защищена. Эти системы могут не остановить бизнес, если они идут вниз, но потеря их полностью может создать риски соответствия или пробелы в знаниях с течением времени.

Классификация рабочей нагрузки

Прежде чем начать стратегию аварийного восстановления, классифицируйте рабочие нагрузки на основе фактического влияния на бизнес и требований к восстановлению.

Начните с перечисления каждого потока пользователя в вашей задаче. Задокументируйте то, что он делает, кто полагается на него, и что произойдет, если он выходит из строя. Для различных потоков в одной рабочей нагрузке могут потребоваться различные стратегии аварийного восстановления на основе их индивидуального влияния на бизнес и критическость.

Обратитесь к заинтересованным сторонам вашего бизнеса, чтобы получить их одобрение по этим классификациям. Подтвердите целевые показатели RTO и RPO на основе реальных бизнес-последствий, а не только технических мнений. Их приверженность закладывает основу, и ваша стратегия аварийного восстановления опирается на нее. Без выравнивания по бизнес-рискам технический ответ не имеет направления.

Регулярно просматривайте эти классификации. По мере развития бизнес-потребностей обновите план аварийного восстановления соответствующим образом.

Следите за этими точками трения

Ниже приведены некоторые ключевые точки соприкосновения, о которых следует проявлять осторожность, иначе планирование аварийного восстановления может превратиться в дорогостоящий процесс без нужных результатов.

  • Несоответствие между ожиданиями и бюджетом. Настройте ожидания должным образом, чтобы заинтересованные стороны не ожидали горячей резервной производительности в холодном резервном бюджете. Разрыв между обещаниями RTO/RPO и бюджетами может привести к риску и разочарованию.

  • Зависимости общих служб могут разорвать цепочку. Ваш план аварийного восстановления действует только так же эффективно, как его самый слабый компонент. Если рабочие нагрузки зависят от общих или сторонних ресурсов, которые не имеют надлежащих стратегий отработки отказа, это может создать уязвимости во время аварии.

  • Критерии активации аварийного восстановления должны быть ясно определены. Все, перечисленные в списке подотчетности, должны четко понимать критерии. Без этого может возникнуть нерешительность для запуска восстановления, что может привести к ненужным задержкам.

  • Восстановление после отказа так же важно, как переключение при отказе. Хотя многие сосредоточены на обработке отказа как одностороннего процесса, иногда возврат является жизнеспособным вариантом. Однако возврат операций на первичный сайт часто включает в себя более сложную работу. Обязательно запланируйте и протестируйте процедуры восстановления после сбоя. Хорошим руководством является автоматизация переключения при управлении восстановлением после отказа через контролируемый процесс.

Оптимизация затрат на восстановление

Стоимость аварийного восстановления масштабируется с критичностью рабочей нагрузки.

  • Уровень 0 (критически важный для миссии) поставляется с самой высокой стоимостью, и это ожидается. Развертывания active-active и резервная инфраструктура существенно увеличивают ваши затраты для достижения почти нулевого времени простоя. При оптимизации затрат лучшие варианты — это стандартные методики, такие как зарезервированные экземпляры или преимущество гибридного использования Azure, где это применимо.

    Стремитесь к простоте в дизайне. Чрезмерное проектирование, выходящее за рамки четко определенных требований, — это то, где скрытые затраты незаметно накапливаются. Имейте в виду, что базовые методики, такие как инфраструктура как код, автоматизированные развертывания и тестирование, представляют предварительные усилия по проектированию. Хотя эти усилия могут конкурировать с предоставлением новых функций, компрометирование инвестиций в сильные операции просто не вариант.

  • Уровень 1 (Критически важный для бизнеса) предлагает баланс, обычно используя теплые резервные среды, которые снижают затраты.

    Снизьте базовую производительность в теплом резерве, развернув вычислительные ресурсы в вторичном регионе в частичном масштабе и включив автоматическое масштабирование для увеличения только в случае необходимости. Этот подход позволяет избежать оплаты за полную емкость 24/7.

    Использование процесса отработки отказа вручную с оркестрированным модульом Runbook для снижения сложности и текущих операционных затрат по сравнению с полностью автоматизированной отработкой отказа. Регулярное тестирование переключения на резерв помогает определить неэффективность.

  • Уровень 2 (Бизнес-операционный) фокусируется на оптимизации затрат с помощью холодных резервных настроек и вариантов оплаты по мере использования, таких как точечные экземпляры и цены на потребление. Автоматизировать развертывание PaaS-вычислений в дополнительном регионе только при необходимости, чтобы избежать оплаты за неактивные ресурсы. Определите четкие критерии аварийных ситуаций и процессы переключения на резерв, чтобы предотвратить ненужные сбои. Регулярное тестирование гарантирует выполнение целевых показателей восстановления и выделяет области для снижения затрат.

  • Уровень 3 (Административный) определяет экономию затрат, используя резервное копирование и архивное хранилище с более длинными окнами восстановления. Используйте реплицированные резервные копии и хранилища Azure Backup в дополнительном регионе для защиты постоянных данных без выполнения резервной инфраструктуры. Регулярно тестируйте процессы восстановления, чтобы обеспечить надежность при сохранении затрат на минимальное значение.

Независимо от выбранного уровня, используйте правильный инструментарий для анализа затрат. Используйте такие средства, как Microsoft Cost Management и Azure Advisor, чтобы отслеживать, прогнозировать и оптимизировать расходы на всех уровнях. Пометьте ресурсы и установите пределы бюджета, чтобы облегчить отслеживание моделей подотчетности и возврата расходов. Сведения о тегах, рекомендуемых корпорацией Майкрософт, см. в разделе «Теги критически важных рабочих нагрузок».

Документируйте план аварийного восстановления

Сильный план аварийного восстановления превращает стратегию в решительные действия. Активация начинается с сочетания автоматизированных оповещений и контроля над человеком. Средства наблюдения обнаруживают и помечают потенциальные проблемы, такие как замедление производительности, и инициируют оповещения для команды операций, чтобы провести дальнейшее исследование. Они просматривают панели мониторинга для аномалий и оценивают ситуацию. Если проблема оказывается более масштабной или серьезной, она передается на более высокий уровень, и могут быть привлечены дополнительные команды. После того как собрано достаточное количество доказательств, руководитель по аварийному восстановлению официально объявляет о наступлении аварийной ситуации, инициируя структурированный процесс переключения на резервную систему для поддержания непрерывности работы системы.

Чтобы сделать это возможным, каждый план аварийного восстановления должен включать три основных компонента: четкая документация, четко определенный план связи и структурированный путь эскалации.

План коммуникаций для аварийного восстановления

План коммуникации гарантирует, что правильная информация достигает правильных людей в нужное время во время нарушения. Она поддерживает координацию, уменьшает путаницу и держит заинтересованных лиц в курсе всего процесса восстановления. План должен охватывать следующие аспекты:

  • Условия активации и утверждения. Определите, что квалифицируется как событие управления спросом. Определите, кто имеет полномочия на запуск процесса аварийного восстановления. Документирование путей эскалации и контрольных точек принятия решений.

  • Роли и обязанности. Определите, кто отвечает за общение и кому.

  • Ключевые заинтересованные лица. Определите ключевые внутренние и внешние аудитории, такие как, сотрудники, руководство, партнеры и клиенты.

  • Каналы связи. Установите основные и резервные методы, такие как электронная почта, SMS и другие. Также установите частоту обновлений этих каналов.

  • Уведомления и шаблоны. Опишите, когда следует отправлять обновления и подготавливать предварительно утвержденные шаблоны обмена сообщениями для сообщений электронной почты, страницы состояния и каналов инцидентов.

  • Эскалация и непрерывность. Убедитесь, что существует структурированный способ эскалации проблем, если кто-то недоступен или что-то изменится быстро. Планы коммуникации должны охватывать как внутренних, так и внешних заинтересованных лиц с соответствующей степенью детализации и частотой, используя отдельные каналы. Внутренняя связь обеспечивает регулярное обновление исполнительного руководства и бизнес-пользователей, фокусируясь на влиянии бизнеса, временной шкале и потребностях ресурсов. Внешняя коммуникация координируется с клиентами, партнерами и регулирующими органами, а также включает текущий статус и реалистичные сроки восстановления системы.

Руководство по аварийному восстановлению

Сильное руководство заменяет абстрактные стратегии чёткой структурой и позволяет команде реагировать под давлением. Сделайте это ясно, сделайте его практическим и убедитесь, что он работает. Начните с простого плана и постепенного развития. Совместная работа с бизнесом, безопасностью и операциями для обеспечения полного охвата.

  • Документирование процедур переключения на резерв и восстановления. Напишите пошаговые технические инструкции для инициирования переключения на резервный сервер. Справочные инструменты и скрипты для выполнения с использованием ссылок или указателей. Установите критерии для инициирования отката и согласованных шагов по переключению.

    Разработайте пошаговый процесс для выполнения аварийного переключения:

    Действие Владелец Критерии
    1. Обнаружение инцидента Мониторинг и операции Инцидент активируется оповещениями или отчетами пользователей.
    2. Оценка серьезности Диспетчер инцидентов Используйте таблицу классификации инцидентов для определения уровня серьезности.
    3. Объявление сбоя (при необходимости) Старший руководитель Ops/BCDR Объявите о сбоях только для инцидентов высокой и критической серьезности.
    4. Уведомление заинтересованных лиц Руководитель по связям и коммуникациям Следуйте установленному плану коммуникации для уведомлений.
    5. Запуск выполнения runbook Группа операций Инициируйте выполнение руководства аварийного восстановления (DR), включая автоматизированные и ручные шаги.
    6. Подготовка вторичной инфраструктуры Группа операций Разверните и(или) масштабируйте и проверьте конфигурацию инфраструктуры в дополнительном регионе.
    7. Обеспечение целостности данных Группа операций При необходимости восстановите данные из резервных копий и проверьте целостность данных и соблюдение RPO.
    8. Восстановление приложений Команда Ops/QA Развертывание, при необходимости и активация приложений в дополнительных. Проверка правильной операции и всех зависимостей
    9. Переключение трафика Группа операций Переход пользователя на вторичную среду. При необходимости обновите записи DNS
    10. Закрытие инцидента и документирование Диспетчер инцидентов Проводите постмортем и обновляйте записи инцидентов.

    Аналогичным образом создайте решение о восстановлении после сбоя и процесс выполнения решения (при доступности основного региона).

    Действие Владелец Критерии и точка принятия решений
    1. Мониторинг состояния основного региона Операции/Облачная команда Убедитесь, что основной регион проходит все проверки работоспособности и полностью работает.
    Используйте средства автоматического мониторинга и проверку вручную для подтверждения готовности.
    2. Оценка влияния на бизнес Владелец приложения/Непрерывность бизнеса Проверьте готовность бизнеса к возврату после отказа, включая окна с низким трафиком и необходимые утверждения.
    Координируется с заинтересованными лицами, чтобы обеспечить соответствие времени бизнес-потребностям.
    3. Проверка синхронизации данных Команда по базе данных и инфраструктуре Убедитесь, что данные в дополнительном регионе синхронизированы с основным и соответствуют требованиям RPO/RTO.
    Используйте панели мониторинга состояния репликации для проверки согласованности данных.
    4. Сообщите о плане возврата к начальной системе Диспетчер инцидентов Уведомите заинтересованных лиц о запланированном откате, что включает таймлайн и потенциальное влияние.
    Используйте электронную почту, Teams или средства управления инцидентами для общения.
    5. Подготовка основного региона Команда по инфраструктуре и облаку Убедитесь, что компоненты инфраструктуры, безопасности и приложений готовы в основном регионе.
    Выполните контрольные проверки перед возвратом после отказа, чтобы обеспечить полную готовность.
    6. Инициализация отказоустойчивости Операции/Облачная команда Следуйте только с утвержденным запросом на изменение, и только если выполняются все критерии.
    Начните перенаправление трафика и рабочих нагрузок в основной регион.
    7. Мониторинг хода восстановления размещения Операции/Облачная команда Отслеживайте ошибки, задержку или потерю данных во время перехода.
    Используйте панели мониторинга и системы оповещений для отслеживания хода выполнения.
    8. Проверка функциональности приложения Владелец приложения/QA Убедитесь, что приложения и службы полностью работают в основном регионе.
    Выполните тесты дыма и регрессионные тесты для проверки функциональности.
    9. Завершение и закрытие инцидента Диспетчер инцидентов Убедитесь, что все системы стабильны, заинтересованные стороны информированы, и документация обновляется.
    Полный анализ после смерти и сбор извлеченных уроков.
  • Установите проверки работоспособности и проверки готовности. Определите, как вы проверяете функциональность службы после отработки отказа. Включите проверки целостности данных на уровне приложения, инфраструктуры и данных.

  • План для поствосстановительных мероприятий и обзор. Перечислите действия для чистки временных окружений. При необходимости выверка данных документа. Планирование анализа первопричин и анализа аварийного восстановления.

Подсказка

Обрабатывайте план аварийного восстановления, как рабочий код: управляйте версиями и обеспечьте к нему доступ. Используйте средства управления версиями, такие как Git или вики-сайт с версиями, чтобы отслеживать обновления и обеспечивать точность с течением времени. Так же важно, убедитесь, что модуль Runbook всегда доступен, даже во время сбоя. Храните его в нескольких форматах, включая автономные или печатные версии, чтобы команды могли получить доступ к нему, когда это важно.

План эскалации в процессе аварийного восстановления

Во время аварийного восстановления скорость и ясность имеют решающее значение. План эскалации гарантирует, что, когда дела идут не по плану, необходимые люди оперативно уведомляются.

  • Триггеры эскалации. Определите точное время для эскалации, будь то пропущенная веха восстановления, критически важный сбой системы или неотзывчивый поставщик.

  • Цепочка команд. В указанном списке ролей и контактов выложите сведения о том, как связаться. Таким образом, как передавать проблемы на более высокий уровень с участием основного, дополнительного и резервного персонала. Также включают ожидания времени отклика. Например, свяжитесь с менеджером по аварийному восстановлению в течение 15 минут по телефону или через платформу экстренного взаимодействия.

  • Уровни серьезности инцидентов. Классифицируйте инциденты по влиянию, чтобы незначительные проблемы не засоряли систему, и крупные из них получают непосредственное внимание от руководства.

Ниже приведен пример шаблона:

Уровень серьезности Description Примеры Триггер объявления об отключении Заинтересованные лица уведомлены
Low Незначительное ухудшение качества обслуживания Краткое увеличение задержки Отсутствие официального заявления Группа операций
Средний Частичное снижение службы Ошибки одной службы Инцидент зарегистрирован, под наблюдением Операции, Бизнес-процессы, потенциальные клиенты
High Крупный сбой, широко распространенное влияние Сбой нескольких служб Официальное объявление о сбоях Все заинтересованные лица, клиенты
Критически важно Общая потеря, критически важный для бизнеса Завершение регионального сбоя Azure Немедленное объявление, уровень C Все заинтересованные лица, команда Exec

Регулярное тестирование и улучшение плана

Аварийное восстановление — это операционная дисциплина. План аварийного восстановления, который никогда не тестировался, остается теоретическим и непроверенным.

  • Репетируйте Runbook с регулярной периодичностью, чтобы имитировать сценарии и уточнять роли команды.

  • ** Планируйте полные или частичные отработки переключения для проверки фактических шагов восстановления и времен. Плановая имитация сбоя служит для практической отработки плавного перехода системы. Средства, такие как Azure Chaos Studio, используются для тестирования незапланированных сбоев и просмотра реагирования систем.

  • После каждого теста проверьте данные, чтобы подтвердить, что ничего не было потеряно или повреждено. Зафиксируйте обнаруженные пробелы или проблемы, а затем быстро обновите архитектуру и модули Runbook.

Стратегия восстановления для резервного копирования и восстановления

Стратегии резервного копирования и восстановления должны быть частью всех стратегий восстановления.

Предлагаемые действия

Используйте это в качестве основы для всех уровней. Каждый шаг должен включать четкую цель и способ проверки его эффективности.

Действия Конфигурация Validation
Настройка политик резервного копирования и хранения — настройка расписаний резервного копирования и периодов хранения для инфраструктуры и баз данных, согласованных с требованиями RPO
— Использование Azure Backup для виртуальных машин, файлов Azure и хранилища BLOB-объектов
— Хранение резервных копий в дополнительном регионе, например с помощью хранилища резервных копий Geo-Redundant, где доступно
— тестирование выполнения политики резервного копирования
— Проверка завершения резервного копирования и целостности
— проверка применения политики хранения
Реализация экономичных уровней хранилища — Используйте архивное или холодное хранилище для данных, к которым редко обращаются
Примените политики уровней резервного копирования для перевода старых резервных копий на более дешёвые варианты.
— настройка сжатия и дедупликации для минимизации затрат на хранение
— Просмотр отчетов по оптимизации затрат на хранение
— верификация выполнения политики многоуровневого хранения
— проверка получения данных из разных уровней хранилища
Процедуры восстановления документов — поддерживайте операционные руководства с детальными шагами по восстановлению
— Определение целевых сред для восстановления
— Включение списков контактов для утверждений и эскалаций
- Проверка точности документации по процедуре восстановления
— Проверка валюты контактных данных
— тестирование путей эскалации и рабочих процессов утверждения
Мониторинг затрат на резервное копирование и соответствие требованиям — установка пороговых значений бюджета для ресурсов, связанных с резервным копированием
— Применение тегов, предназначенных для резервного копирования, для обеспечения правильного отслеживания
— настройка политик хранения для соответствия нормативным требованиям
— просмотр отчетов о затратах на резервное копирование ежемесячно
— проверка эффективности порогового значения бюджета
— аудит соответствия политикам хранения
Обслуживание и аудит систем резервного копирования — выполнение ежеквартального аудита требований к резервному копированию
— удаление устаревших систем и настройка политик
— Проверка и обновление требований RPO/RTO на основе изменений бизнес-технологий
- Подтвердить, что результаты аудита устранены
— Убедитесь, что устаревшие системы правильно выведены из эксплуатации
— Подтвердите, что изменения требований RPO/RTO являются возможными

Стратегия восстановления для активно-пассивного (холодного резерва)

Развертывания с активным-пассивным резервированием удерживают вычислительные ресурсы во вторичном регионе в состоянии остановки до тех пор, пока они не понадобятся. Этот подход идеально подходит для рабочих нагрузок уровня 2 или уровня 3, где ОСРВ могут терпеть более длительные задержки, но восстановление по-прежнему должно быть надежным и повторяемым.

Основной регион обрабатывает весь рабочий трафик, в то время как дополнительный регион поддерживает готовность инфраструктуры с минимальными работающими ресурсами, требуя активации вручную во время сценариев аварии.

Предлагаемые действия

Создавайте стратегии восстановления для резервного копирования и восстановления и охватывайте эти моменты. При необходимости расширьте его.

Действия Конфигурация Validation
Настройка основных и вторичных регионов — Развертывание полномасштабной рабочей нагрузки в основном регионе
— повторяющиеся сетевые топологии, политики и конфигурации из основного источника
— Обеспечение согласованности RBAC, базовых показателей безопасности, агентов мониторинга и политик
— развертывание инфраструктуры в виде кода с использованием вычислительных ресурсов остановлено
— Проверка готовности инфраструктуры вторичного региона
— проверка согласованности политик в разных регионах
— проверка сетевого подключения и маршрутизации
Настройка репликации данных между регионами — включение встроенной репликации для базы данных SQL Azure, PostgreSQL, MySQL, Cosmos DB
— включение GZRS или RA-GZRS для репликации хранилища в парном регионе
— настройка репликации объектов для хранилища блобов в непарных регионах
— настройка нескольких регионов чтения и записи с настраиваемыми уровнями согласованности для Azure Cosmos DB
— настройка процессов проверки согласованности данных и мониторинга задержки репликации
— проверка задержки синхронизации данных для целевых объектов RPO
— проверка работоспособности репликации и метрик задержки
— проверка согласованности данных между регионами
— Проверка целостности данных в сценариях резервного переключения
Защита среды аварийного восстановления и обеспечение соответствия требованиям — репликация требований к месту расположения данных во всех регионах
— поддержание идентичности и согласованности доступа между регионами
— проверка непрерывности журнала аудита во время и после переключения на резервный узел
— аудит конфигураций безопасности в разных регионах
— Тестирование сценариев резервного переключения идентификации
— проверка соответствия во время мероприятий по восстановлению после сбоев
— проверка непрерывности журналов аудита
Автоматизация развертывания и подготовка операций — Определение шаблонов IaC для автоматизированной среды подготовки ресурсов по мере необходимости
— включение конфигураций служб, параметров масштабирования и зависимостей
— предварительно определяемые целевые объекты масштабирования для выполнения полной нагрузки при активации
— Для IaC: Bicep, Terraform, шаблоны ARM
— автоматизация развертывания: конвейеры CI/CD для обоих регионов
— Модули Runbook: автоматизированные и ручные шаги для вызова процедур аварийного восстановления
— тестирование процедур автоматического провизирования
— Проверка времени запуска вычислений в соответствии с целевыми объектами RTO
— Проверка последовательностей активации служебных зависимостей
— Проверка согласованности развертывания IaC в разных регионах
— проверка выполнения и времени выполнения модуля Runbook
Мониторинг готовности и работоспособности — настройка оповещений о работоспособности репликации и метрик задержки
— мониторинг состояния инфраструктуры дополнительного региона
— Отслеживание готовности активации для всех компонентов
— Реализация проверок работоспособности для состояния репликации
— настройка оповещений для автоматического масштабирования событий и маршрутизации трафика
— Обеспечьте охват инструментами наблюдаемости обоих регионов
— тестирование систем мониторинга и оповещений
— Проверка проверок работоспособности инфраструктуры
— проверка точности индикаторов готовности
— проверка охвата наблюдаемости
Настройка балансировщика нагрузки с ручным переключением при отказе - Azure Front Door или диспетчер трафика с маршрутизацией на основе приоритета
— маршрутизация всего рабочего трафика в основной регион в обычных условиях
— вручную активировать перенаправление трафика в случае отказа
— Тестирование сценариев переключения трафика при отказе
— проверка конфигураций приоритета маршрутизации
— Проверка распространения и времени переключения DNS
Определение модуля Runbook и критериев отработки отказа вручную — определение четких триггеров резервного переключения и критериев активации
— Инструкции по активации вручную, включая запуск вычислений и обновления DNS
Включите процедуры отката для неудачных или временных активаций.
— Тестирование выполнения runbook переключения при отказе
— Проверка процедур активации вручную
— проверка процессов отката и времени
Регулярное тестирование процессов восстановления Назначение периодических тестирований восстановления для проверки целостности резервных копий
— включение восстановления данных в тестовые среды
— Запишите время, затраченное, и сравните с целевыми показателями RTO
— выполнение квартальных учений по восстановлению
— проверка согласованности данных после восстановления
- Документирование производительности в сравнении с целями по RTO

Стратегия восстановления для пассивно-активного режима (теплое резервирование)

Активно-пассивные развертывания обеспечивают баланс между затратами и устойчивостью, поддерживая минимально ресурсную резервную инфраструктуру, которая может быстро масштабироваться при возникновении сбоев. Этот подход сокращает время простоя, избегая полной стоимости постоянного резервирования по всем регионам.

Основной регион обрабатывает весь рабочий трафик в обычных условиях, а вторичный регион работает с минимальным количеством ресурсов и масштабируется только при активации аварийного восстановления.

Предлагаемые действия

Создайте стратегии восстановления для активного пассивного (холодного ожидания) и охватывайте эти моменты. При необходимости расширьте его.

Действия Конфигурация Validation
Настройка дополнительного региона в частичном масштабе развернуть минимально жизнеспособную вычислительную инфраструктуру во вторичном регионе — Проверка готовности инфраструктуры вторичного региона
Включение автоматического масштабирования в дополнительном регионе — настройка правил автоматического масштабирования для увеличения вычислительных ресурсов после отказа
— Установка соответствующих пороговых значений масштабирования и ограничений
— Определение последовательностей запуска для зависимых служб
— Тестирование масштабирования во время тренировочных учений по отказоустойчивости
— проверка доступности ресурсов во время масштабирования
Конфигурирование процедур автоматизированного аварийного переключения — Включить автоматическое переключение при отказе, где это поддерживается
— Документирование выполнения процедур ручного переключения на резерв для других служб
— Создайте оркестрированные инструкции отработки отказа с пошаговыми процессами
тестирование механизмов автоматического переключения при отказе
— проверка процедур ручного переключения в случае отказа
— Проверка времени выполнения модуля Runbook и точности
Настройка балансировщика нагрузки с автоматическим переходом на резерв - Azure Front Door или диспетчер трафика с включенной автоматической отработкой отказа
— настройка проверок работоспособности для автоматического перенаправления трафика
— Тестирование сценариев переключения трафика при отказе
— проверка конфигураций приоритета маршрутизации

Стратегия восстановления для развертываний «active-active»

Развертывания "активный-активный" максимизируют доступность служб, разворачивая несколько экземпляров рабочей нагрузки в разных регионах, и каждый экземпляр активно обрабатывает производственный трафик. Этот дизайн исключает время простоя и обеспечивает мгновенное переключение в случае отказа, но также требует точного планирования для управления согласованностью, маршрутизацией и затратами в распределенных системах.

Выберите один из двух подходов к развертыванию:

  • Активный-активный (при полной загрузке): зеркальные метки развертывания или георазделы в двух или более регионах, где каждый регион обрабатывает свою долю производственной нагрузки и может масштабироваться для обработки полной нагрузки в случае сбоя в одном из регионов.

  • Active-active (overprovisioned): зеркальные метки развертывания или геодоки в двух или более регионах. Каждый регион работает в полной мощности в любое время, самостоятельно обрабатывая 100% трафика.

Замечание

В сценариях с активной активностью при сбое взаимодействие с пользователем может оставаться небезопасным, так как загрузка перемещается на остальные экземпляры. Однако усилия по аварийному восстановлению по-прежнему необходимы для восстановления отказавшего экземпляра.

Предлагаемые действия

Основывайтесь на стратегиях восстановления для режима активно-пассивного (теплого ожидания). При необходимости расширьте его.

Действия Конфигурация Validation
Настройка вторичного региона на полную мощность Разверните дополнительный регион с полномасштабной мощностью, наравне с основным. — Убедитесь, что вторичный регион может мгновенно поддерживать полную нагрузку в случае сбоя первичного.
Настройка подсистемы балансировки нагрузки для распределения трафика между активными экземплярами - Azure Front Door или Traffic Manager с маршрутизацией на основе задержки или взвешенной маршрутизацией
— пробы работоспособности, настроенные для каждой конечной точки
— автоматическое перенаправка трафика при обнаружении сбоя
— Тестирование сценариев отработки отказа в разных регионах
— проверка точности проверки работоспособности и времени отклика
— проверка маршрутизации трафика во время имитации сбоев
Настройка поведения распределения нагрузки — пороговое значение загрузки документа для каждого региона обрабатывается во время обычной операции.
— ожидаемое поведение производительности и масштабирования при сбое однорангового региона
— Определение системного поведения при сбое в одном регионе, частичное нарушение работы службы, секционирование сети
— тестирование сценариев регионального сбоя при загрузке
— Проверка ограничений снижения производительности
— тестирование обработки сетевых разделов

Дальнейшие шаги