Поделиться через


Надежность виртуальных машин

В этой статье содержатся подробные сведения о региональной устойчивости виртуальных машин с зонами доступности и аварийного восстановления между регионами и непрерывностью бизнес-процессов.

Поддержка зоны доступности

Зоны доступности — это физически отдельные группы центров обработки данных в каждом регионе Azure. При сбое одной зоны службы могут переключаться на оставшиеся зоны.

Виртуальные машины поддерживают зоны доступности, предоставляя три зоны доступности для каждого поддерживаемого региона Azure, а также являются зональными и с резервированием по зонам. Дополнительные сведения см. в разделе службы Azure с зонами доступности. Клиент отвечает за настройку и перенос виртуальных машин для доступности.

Дополнительные сведения о параметрах готовности зоны доступности см. в следующем разделе:

Предварительные требования

Улучшения в Соглашении об уровне обслуживания

Так как зоны доступности физически отделены и обеспечивают различные источники питания, сеть и охлаждение, соглашения об уровне обслуживания (соглашения об уровне обслуживания) увеличиваются. Дополнительные сведения см. в статье о соглашении об уровне обслуживания для виртуальных машин.

Создание ресурса с включенными зонами доступности

Начните с создания виртуальной машины (VM) с включенной зоной доступности, выбрав из доступных ниже вариантов развертывания.

Поддержка зональной отказоустойчивости

Виртуальные машины можно настроить для обеспечения отказоустойчивости в другую зону доступности с помощью службы Site Recovery. Дополнительные сведения см. в разделе Site Recovery.

Отказоустойчивость

Виртуальные машины могут переключаться при отказе на другой сервер в кластере с перезапуском их операционной системы на новом сервере. Вы должны обратиться к процессу переключения на резервные ресурсы для аварийного восстановления, учету виртуальных машин в плане восстановления и проведению учений по аварийному восстановлению, чтобы убедиться, что их решение по отказоустойчивости успешно действует.

Дополнительные сведения см. в разделе о процессах восстановления сайта.

Опыт снижения активности в зоне

Во время сбоя на уровне зоны следует ожидать краткого снижения производительности, пока служба виртуальной машины самостоятельно не перебалансирует базовую емкость, чтобы адаптироваться к здоровым зонам. Самовосстановление не зависит от восстановления зоны; Ожидается, что управляемое корпорацией Майкрософт состояние самовосстановления компенсирует потерянную зону, используя емкость из других зон.

Вы также должны подготовиться к возможности сбоя всего региона. Если для всего региона произошло нарушение работы службы, локальные избыточные копии данных временно будут недоступны. Если включена георепликация, в другом регионе хранятся три дополнительные копии блоков BLOB и таблиц Azure Storage. Когда произошел полный региональный сбой или авария, в которой основной регион не может восстановиться, Azure перенаправляет все записи DNS в геореплицированный регион.

Подготовка к сбоям в работе зоны и их устранение

Следующие рекомендации предоставляются для виртуальных машин Azure во время сбоя службы всего региона, в котором развертывается приложение виртуальной машины Azure:

Проектирование с низкой задержкой

Кросс-регион (вторичный регион), кросс-подписка (предварительная версия) и кросс-зональный (предварительная версия) являются доступными вариантами для рассмотрения при разработке решения виртуальной машины с минимальной задержкой. Дополнительные сведения об этих параметрах см. в поддерживаемых методах восстановления.

Внимание

Отказываясь от развертывания с учетом зон, вы лишаетесь защиты от изоляции базовых сбоев. Использование SKU, которые не поддерживают зоны доступности, или отказ от конфигурации зоны доступности заставляет полагаться на ресурсы, которые не подчиняются размещению и разделению по зонам (включая зависимости, связанные с этими ресурсами). На то, что эти ресурсы смогут выжить в сценариях сбоя зоны, не следует рассчитывать. Решения, использующие такие ресурсы, должны определять стратегию аварийного восстановления и настраивать восстановление решения в другом регионе.

Методы безопасного развертывания

При выборе изоляции зон доступности следует использовать безопасные методы развертывания для кода приложения и обновлений приложений. Помимо настройки Azure Site Recovery и реализации любого из следующих методов безопасного развертывания для виртуальных машин:

Так как корпорация Майкрософт периодически выполняет запланированные обновления обслуживания, могут возникать редкие случаи, когда эти обновления требуют перезагрузки виртуальной машины для применения необходимых обновлений к базовой инфраструктуре. Дополнительные сведения см. в вопросах доступности во время запланированного обслуживания.

Перед обновлением следующего набора узлов в другой зоне необходимо выполнить следующие задачи:

Перейти на поддержку зон доступности

Сведения о том, как перевести виртуальную машину на поддержку зон доступности, см. в статье "Миграция виртуальных машин и масштабируемых наборов виртуальных машин на поддержку зон доступности".

Аварийное восстановление между регионами и непрерывность бизнес-процессов

Аварийное восстановление (DR) относится к процедурам, которые организации используют для восстановления после событий значительного воздействия, таких как стихийные бедствия или ошибочные развертывания, которые приводят к простою и потере данных. Независимо от причины, лучшее средство для аварийного восстановления является хорошо определенным и проверенным планом аварийного восстановления и проектом приложения, который активно поддерживает аварийное восстановление. Прежде чем приступить к созданию плана аварийного восстановления, ознакомьтесь с рекомендациями по разработке стратегии аварийного восстановления.

Для восстановления после сбоя компания Microsoft использует модель общей ответственности. В этой модели корпорация Майкрософт гарантирует, что доступны базовые инфраструктуры и службы платформы. Однако многие службы Azure не делают автоматической репликации данных и не обеспечивают возврат из вышедшего из строя региона для перекрестной репликации в другой доступный регион. Для этих услуг вы отвечаете за настройку плана аварийного восстановления, который подходит для вашей рабочей нагрузки. Большинство служб, работающих на платформе Azure как услуга (PaaS), предоставляют функции и рекомендации для поддержки аварийного восстановления. Вы можете использовать специализированные функции для поддержки быстрого восстановления и разработки плана аварийного восстановления.

Восстанавливайте виртуальные машины Azure в парных регионах, используя восстановление между регионами. При восстановлении между регионами можно восстановить все виртуальные машины Azure для выбранной точки восстановления, если резервное копирование выполняется в дополнительном регионе. Более подробную информацию о восстановлении между регионами см. в строке таблицы "Восстановление между регионами" в наших параметрах восстановления.

Аварийное восстановление в географическом регионе с несколькими регионами

В случае сбоя службы на уровне региона корпорация Майкрософт старательно работает над восстановлением службы виртуальной машины. Однако для обеспечения высокого уровня доступности необходимо использовать другие стратегии резервного копирования для конкретного приложения. Дополнительные сведения см. в разделе о стратегиях аварийного восстановления данных.

Обнаружение сбоев, уведомление и управление

Оборудование или физическая инфраструктура для виртуальной машины может неожиданно выйти из строя. Непредвиденные сбои могут включать сбои локальной сети, сбои локального диска или другие сбои на уровне стойки. При выявлении таких сбоев платформа Azure автоматически переносит виртуальную машину на работоспособный физический компьютер в том же центре обработки данных. Во время восстановления работоспособности виртуальной машины возникает простой (перезагрузка), а в некоторых случаях отключается временный диск. Подключенные диски ОС и диски данных всегда сохраняются.

Для получения более подробной информации о сбоях службы виртуальных машин см. руководство по аварийному восстановлению.

Настройка аварийного восстановления и обнаружения сбоев

При настройке аварийного восстановления для виртуальных машин важно понимать, что предоставляет Azure Site Recovery. Включите аварийное восстановление для виртуальных машин с помощью следующих методов:

Аварийное восстановление в единственном географическом регионе

При установке аварийного восстановления виртуальные машины Azure непрерывно реплицируются в другой целевой регион. В случае сбоя вы можете переключить виртуальные машины на вторичный регион и получить к ним доступ оттуда.

При репликации виртуальных машин Azure с помощью Site Recovery все диски виртуальных машин непрерывно и асинхронно реплицируются в целевой регион. Точки восстановления создаются каждые несколько минут, что обеспечивает время восстановления (RPO) в пределах нескольких минут. Можно выполнять аварийное восстановление столько раз, сколько требуется. Это не повлияет на рабочее приложение или текущую репликацию. Дополнительные сведения см. в разделе проведение теста аварийного восстановления в Azure.

Дополнительные сведения см. в статье об архитектурных компонентах виртуальных машин Azure и связывании регионов.

Резервирование емкости и проактивное аварийное восстановление

Корпорация Майкрософт и ее клиенты работают в рамках модели общей ответственности. Общая ответственность означает, что для аварийного восстановления, включённого клиентами (сервисы, за которые отвечают клиенты), необходимо обратиться к аварийному восстановлению для любой службы, которую они развертывают и контролируют. Чтобы обеспечить упреждающее восстановление, всегда следует предварительно развертывать резервные системы, так как не гарантируется наличие ресурсов в момент воздействия для тех, кто их заранее не выделил.

Для развертывания виртуальных машин можно использовать гибкий режим оркестрации в масштабируемых наборах виртуальных машин. Все размеры виртуальных машин можно использовать с гибким режимом оркестрации. Режим гибкой оркестрации также обеспечивает гарантии высокой доступности (до 1000 виртуальных машин), распространяя виртуальные машины по доменам сбоя в пределах региона или в пределах зоны доступности.

Следующие шаги