Поделиться через


Надежность в обучении сообщества Майкрософт

Microsoft Community Training — это облачное решение, основанное на Azure, которое может предоставлять крупномасштабные и высокопроизводительные учебные программы с высоким качеством и эффективностью. С помощью обучения сообщества организации всех размеров и типов могут выполнять крупномасштабные учебные программы для своих внутренних и внешних сообществ. Общины могут включать работников на передовой, расширенные рабочие силы, экосистему партнеров, сеть добровольцев и получателей программы.

В этой статье описывается поддержка надежности в обучении сообщества и охватывает как региональную устойчивость с зонами доступности, так и аварийное восстановление и непрерывность бизнес-процессов. Более подробный обзор принципа надежности в Azure см. в статье "Надежность Azure".

Поддержка зоны доступности

Зоны доступности — это физически отдельные группы центров обработки данных в каждом регионе Azure. При сбое одной зоны службы могут переключаться на одну из оставшихся зон.

Дополнительные сведения о зонах доступности в Azure см. в статье "Что такое зоны доступности?"

Обучение сообщества использует зоны доступности Azure для обеспечения высокой доступности и отказоустойчивости в регионе Azure. Обучение сообщества обеспечивает поддержку зоны доступности уровня данных и управления:

  • Контрольная плоскость имеет избыточность по зонам в основных регионах доступности.

  • Плоскость данных может быть зональной или избыточной между зонами в зависимости от того, что вы выбрали для ваших потребностей. Однако настоятельно рекомендуется выбрать развертывание с зональной избыточностью, чтобы избежать потери данных и поддерживать доступность службы во время сбоя в зоне.

Предварительные условия

  • Зоны доступности поддерживаются для следующих SKU системы обучения сообществ:

    • Стандартный (более низкий масштаб пользователей)
    • Премиум (высокий масштаб пользователей)
  • Тренинг для сообщества поддерживается только в парных регионах. Каждый вспомогательный регион развертывается с зональной конфигурацией. В следующей таблице показаны все регионы, которые поддерживают зоны доступности ресурсов для обучения сообщества, а также их соответствующий регион.

Основной регион Парный регион
UKSouth UKWest
AustraliaEast Step 2: АвстралияЮгоВосток
Восток США Запад США
EastUS2 Центральные США
NorthEurope WestEurope
WestUS3 Восточный регион США
ШвецияCentral ШвецияЮг

Поддержка зональной отработки отказа

Для обучения сообщества используется множество зависимых служб Azure, таких как служба приложений и Azure SQL. При выборе развертывания с избыточностью между зонами Обучение сообществ также создает предложения с зональной избыточностью для этих базовых ресурсов службы Azure. Если одна зона выходит из строя, все ресурсы, включая зависимые ресурсы, переходят в одну из работоспособных зон.

Создание ресурса с включенной зоной доступности

Программа Community Training предоставляет возможность конфигурации зон доступности только в момент создания экземпляра. Если вы хотите изменить конфигурацию зоны доступности после создания экземпляра, необходимо создать новый экземпляр.

опыт упрощения зоны

  • Зональный. Во время сбоя в зоне обучающие программы для сообщества могут столкнуться с полным или частичным сбоем в работе службы. Степень доступности зависит от различных факторов, таких как недоступность всего дата-центра или отсутствие конкретной службы-зависимости в этой зоне.

  • Избыточность зон. Во время сбоя на уровне зоны вы не должны испытывать воздействия на предоставленные ресурсы. Однако вы должны быть готовы к краткому прерыванию связи с этими ресурсами. В ситуации отказа зоны клиенты обычно получают коды ошибок 409, а логика повторных попыток пытается снова установить соединения через соответствующие интервалы. Новые запросы направляются на здоровые узлы без влияния на пользователя. Во время сбоев на уровне зоны пользователи могут создавать новые ресурсы и успешно масштабировать существующие.

Аварийное восстановление и непрерывность бизнес-процессов

Аварийное восстановление (DR) относится к процедурам, которые организации используют для восстановления после событий значительного воздействия, таких как стихийные бедствия или ошибочные развертывания, которые приводят к простою и потере данных. Независимо от причины, лучшее средство для аварийного восстановления является хорошо определенным и проверенным планом аварийного восстановления и проектом приложения, который активно поддерживает аварийное восстановление. Прежде чем приступить к созданию плана аварийного восстановления, ознакомьтесь с рекомендациями по разработке стратегии аварийного восстановления.

Для восстановления после сбоя компания Microsoft использует модель общей ответственности. В этой модели корпорация Майкрософт гарантирует, что доступны базовые инфраструктуры и службы платформы. Однако многие службы Azure не делают автоматической репликации данных и не обеспечивают возврат из вышедшего из строя региона для перекрестной репликации в другой доступный регион. Для этих услуг вы отвечаете за настройку плана аварийного восстановления, подходящего для вашей рабочей нагрузки. Большинство служб, работающих на платформе Azure как услуга (PaaS), предоставляют функции и рекомендации для поддержки аварийного восстановления. Вы можете использовать специализированные функции для поддержки быстрого восстановления и разработки плана аварийного восстановления.

Команда microsoft Community Training управляет всей процедурой аварийного восстановления для обучения сообщества. Аварийное восстановление не относится к концепциям active-active или active-passive, а основывается на восстановлении из последней доступной резервной копии служб Azure. Команда группы по обучению сообщества вручную создает все ресурсы в парном регионе из резервного копирования данных.

Примечание.

Аварийное восстановление обучения сообщества поддерживается только в парных регионах.

Аварийное восстановление в географическом регионе с несколькими регионами

  • В случае региональной катастрофы плоскость управления вручную переключается на парный регион. Ожидайте некоторого снижения уровня обслуживания до завершения процесса переключения на резервный сервер. После отработки отказа поддерживаются только операции для чтения, пока регион, где произошла катастрофа, не будет снова в сети. Служба вручную возвращается в исходный регион после восстановления работы в сети, и все операции возобновляются. Ожидается, что цель точки восстановления (RPO) составляет 10 минут; Цель времени восстановления (RTO), 24 часа.

  • Для плоскости данных обучение сообщества предлагает управляемое корпорацией майкрософт аварийное восстановление. Чтобы использовать управляемое аварийное восстановление, необходимо включить аварийное восстановление во время создания экземпляра обучения сообщества в Azure. После включения аварийного восстановления корпорация Майкрософт сохраняет резервную копию хранилища и базы данных в парном регионе. Ожидается, что целевая точка восстановления (RPO) составляет 12 часов; Цель времени восстановления (RTO), 48 часов.

Примечание.

RTO зависит от размера базы данных и хранилища, а также от задержки между парными регионами. Емкость базы данных или виртуальной машины хранилища (SKU). RPO зависит от базовых ресурсов Azure, таких как Azure SQL и Azure хранилище. Дополнительные сведения о RTO и RPO см. в статье "Что такое непрерывность бизнес-процессов, высокий уровень доступности и аварийное восстановление?".

Обнаружение сбоев, уведомление и управление

Когда проверка работоспособности обучения сообщества обнаруживает сбой любой службы в любом регионе, Microsoft запрашивает ваше согласие на переключение в парный регион. Корпорация Майкрософт сообщает вам, какие функции доступны во время процедуры аварийного восстановления. После получения вашего согласия команда Community Training сможет запустить процедуру аварийного восстановления.

Внимание

Учащиеся не смогут использовать функции аудио и видео, пока основной регион не будет работать. Рекомендуется избежать операций отправки мультимедиа до тех пор, пока основной сайт не будет работоспособным.

Гибкость системной емкости и упреждающие мероприятия по восстановлению после аварий

Корпорация Майкрософт и ее клиенты работают в рамках модели общей ответственности. Когда любой регион отключен, не только экземпляр Community Training переносится в парный регион, но и все рабочие нагрузки продуктов и клиентов также переносятся в парный регион. Эта процедура может привести к нехватке ресурсов в парном регионе или центре обработки данных. В результате доступность аварийного восстановления зависит от доступной емкости базовых ресурсов Azure.

Следующие шаги