Поделиться через


Аварийное восстановление для платформы данных Azure

В этой серии представлен пример того, как организация может разработать стратегию аварийного восстановления (DR) для корпоративной платформы данных Azure.

Azure предоставляет широкий спектр вариантов надежности, которые могут обеспечить непрерывность служб в случае аварии. Но более высокие уровни обслуживания могут привести к сложности и стоимости премиум. Компромисс между затратами, надежностью и сложностью является ключевым фактором в принятии решений большинства клиентов относительно восстановления после аварийных ситуаций.

Хотя случайные сбои точки происходят на платформе Azure, центры обработки данных Microsoft Azure и службы Azure имеют несколько уровней избыточности. Любой сбой обычно ограничен в области и обычно устраняется в течение нескольких часов. Исторически это гораздо более вероятно, что ключевая служба, например управление удостоверениями, возникает проблема со службой, а не весь регион Azure в автономном режиме.

Следует также признать, что кибератаки, особенно программы-шантажисты, представляют собой реальную угрозу для любой современной экосистемы данных и могут привести к сбою платформы данных. Хотя это не является областью действия для этой серии, клиентам рекомендуется реализовать средства управления такими атаками в рамках разработки безопасности и надежности любой платформы данных.

  • Руководство майкрософт по защите от программ-шантажистов доступно в azure Cloud Fundamentals

Scope

Область действия этой серии статей включает:

  • Восстановление службы платформы данных Azure из физической аварии для иллюстрирующей персоны клиента. Этот иллюстрированный клиент:
    • Средняя организация с определенной функцией операционной поддержки после методологии управления службами на основе библиотеки ит-технологий (ITIL).
    • Не облачная среда, с основным предприятием, общими службами, такими как управление доступом и проверкой подлинности, а также управление инцидентами, оставшимися в локальной среде.
    • На пути миграции в облако в Azure, включенную автоматизацией.
  • Платформа данных реализует следующие проекты в среде Azure клиента:
    • Начальная площадка предприятия предоставляет фундамент платформы, включая сети, мониторинг, безопасность и другие возможности.
    • Платформа аналитики Azure предоставляет компоненты данных, поддерживающие различные решения и продукты данных, которые предоставляет служба.
  • Процессы, описанные в этой статье, должны выполняться отдельным человеком, который имеет следующий уровень знаний и навыков:
    • Основы Azure — рабочие знания о Azure, ее основных службах и компонентах данных.
    • Рабочие знания о Azure DevOps. Возможность перемещаться по системе управления версиями и выполнять развертывания конвейеров.
  • Процессы, описанные в этой статье, охватывают операции переключения в случае отказа служб из основного региона на вторичный регион.

Вне сферы действия

Для этой серии статей рассматриваются следующие элементы:

  • Резервный процесс из дополнительного региона обратно в основной регион.
  • Любые приложения, компоненты или системы, отличные от Azure, включая, но не ограничиваются локальными системами, другими поставщиками облачных служб и сторонними веб-службами.
  • Восстановление всех вышестоящих служб, таких как локальные сети, шлюзы, корпоративные общие службы и другие, независимо от любых зависимостей от этих служб.
  • Восстановление всех подчиненных служб, таких как локальные операционные системы, сторонние системы отчетности, моделирование данных или приложения для обработки и анализа данных, а также другие, независимо от любых зависимостей от этих служб.
  • Сценарии потери данных, включая восстановление от программ-шантажистов или аналогичных инцидентов безопасности данных
  • Стратегии резервного копирования данных и планы восстановления данных
  • Установка первопричины события аварийного восстановления.

Ключевые предположения

Основные предположения для этого примера аварийного восстановления:

  • Организация следует методологии управления службами на основе ITIL для операционной поддержки платформы данных Azure.
  • Организация имеет существующий процесс аварийного восстановления в рамках платформы восстановления службы для ИТ-ресурсов.
  • Инфраструктура как код (IaC) использовалась для развертывания платформы данных Azure, включенной службой автоматизации, например Azure DevOps или аналогичной.
  • Каждое решение, размещенное платформой данных Azure, завершило оценку влияния на бизнес или аналогичное, предоставляя четкие требования к службе для целевой точки восстановления (RPO), целевой цели восстановления (RTO) и среднее время для восстановления метрик (MTTR).

Дальнейшие шаги

После просмотра сценария на высоком уровне перейдите к архитектуре для этого варианта использования.