Поделиться через


Что такое документация по надежности #REF!?

#REF! предоставляет полный набор возможностей надежности, которые помогут вам удовлетворить требования к рабочей нагрузке. В документации по надежности #REF! содержатся руководства по обеспечению надежности каждой службы #REF!, такие как временная обработка ошибок, зоны доступности, поддержка нескольких регионов и поддержка резервного копирования. Чтобы ознакомиться с текущим списком руководств по службам надежности, см. Руководства по надежности по службам.

В дополнение к руководствам по обслуживанию надежности, документация #REF! по надежности также содержит общие сведения, такие как:

  • #REF! регионы: информация о регионах #REF!, парных и непарных регионах и различных конфигурациях регионов.
  • #REF! зоны доступности: сведения о зонах доступности, включая поддержку высокого уровня доступности и аварийного восстановления. В этом разделе также содержатся списки #REF! служб и регионов, поддерживающих зоны доступности.
  • Основные понятия надежности: основные понятия надежности, такие как:
    • Непрерывность бизнес-процессов, высокий уровень доступности и аварийное восстановление.
    • Избыточность, репликация и резервное копирование.
    • Переключение на резерв и возврат к исходной системе.
    • Общая ответственность между корпорацией Майкрософт и вами.

Что такое надежность?

Надежность относится к способности рабочей нагрузки последовательно выполняться на приемлемом уровне обслуживания и в соответствии с требованиями к непрерывности бизнес-процессов. Надежность — это ключевая концепция облачных вычислений. В #REF! надежность достигается с помощью сочетания факторов, включая проектирование самой платформы, ее служб, архитектуру приложений и реализацию рекомендаций.

Ниже приведены два основных подхода к достижению надежности в рабочей нагрузке:

  • Устойчивость: способность выдержать и продолжить работу, когда вещи идут не так, например временные ошибки, сбои инфраструктуры или непредвиденные всплески спроса. Устойчивость помогает избежать сбоев.

  • Возможность восстановления: возможность восстановления нормальных операций после сбоя. Если происходит сбой, возможность восстановления помогает вернуть систему в надежное состояние.

Платформа и службы #REF! предлагают ряд функций надежности, таких как зоны доступности, поддержка нескольких регионов, репликация данных и резервное копирование и восстановление. Эти функции следует учитывать при разработке рабочей нагрузки для удовлетворения требований к непрерывности бизнес-процессов.

Подсказка

Надежность также включает в себя другие элементы разработки решения, включая безопасное развертывание изменений, управление производительностью, чтобы избежать простоя из-за высокой нагрузки, а также способ тестирования и проверки каждой части решения. Дополнительные сведения см. в #REF! Well-Architected Framework.

Руководства по надежности служб #REF!

#REF! предоставляет полный набор возможностей надежности, которые помогут вам удовлетворить требования к рабочей нагрузке. Руководства по надежности служб #REF! — это руководства по обеспечению надежности каждой службы #REF!, такие как временная обработка ошибок, устойчивость к зоне доступности и региональным сбоям, а также резервное копирование и восстановление. Чтобы ознакомиться с текущим списком руководств по надежности, см. руководства по надежности для служб #REF!.

регионы #REF!

#REF! предоставляет более 60 регионов по всему миру, расположенных во многих разных географических регионах. Каждый регион — это набор физических объектов, включающих центры обработки данных и сетевую инфраструктуру. Все регионы могут быть разделены на географические области, называемые географическими областями. Каждая география — это граница расположения данных и может содержать один или несколько регионов.

#REF! регионы предоставляют определенные типы возможностей устойчивости. Многие регионы предоставляют зоны доступности, и некоторые из них имеют парный регион, а другие - непарные. При выборе региона для служб важно обратить внимание на параметры устойчивости, доступные в этом регионе.

Зоны доступности #REF!

Многие #REF! регионы предоставляют зоны доступности, которые являются отдельными группами центров обработки данных в пределах региона. Зоны доступности являются важным способом обеспечения надежности на платформе #REF!, так как они обеспечивают определенный уровень физической изоляции в регионе.

Зоны доступности достаточно близки, чтобы иметь подключения с низкой задержкой к другим зонам доступности, но достаточно далеко друг от друга, чтобы снизить вероятность того, что несколько из них будут затронуты локальными сбоями или погодой. Зоны доступности имеют независимую инфраструктуру питания, охлаждения и сетевой инфраструктуры. Они разработаны таким образом, чтобы если одна зона испытывала сбой, то региональные службы, емкость и высокий уровень доступности поддерживаются остальными зонами.

  • Дополнительные сведения о зонах доступности см. в разделе "Что такое зоны доступности?".
  • Сведения о том, какие регионы поддерживают зоны доступности, см. в разделе Список регионов #REF!.

Основные понятия надежности

В разделе "Основные понятия надежности" представлен обзор некоторых ключевых понятий и принципов, лежащих в основе надежности в #REF!.

Непрерывность бизнес-процессов, высокий уровень доступности и аварийное восстановление

Планирование непрерывности бизнес-процессов можно понять как текущий процесс управления рисками с помощью высокого уровня доступности и проектирования аварийного восстановления.

При рассмотрении непрерывности бизнес-процессов важно понимать следующие термины:

  • Непрерывность бизнес-процессов — это состояние, в котором бизнес может продолжать работу во время сбоев, сбоев или аварий. Для обеспечения непрерывности бизнес-процессов требуется упреждающее планирование, подготовка и реализация устойчивых систем и процессов.

  • Высокий уровень доступности заключается в разработке решения для удовлетворения потребностей бизнеса в доступности и устойчивости к повседневным проблемам, которые могут повлиять на требования времени простоя.

  • Аварийное восстановление заключается в планировании того, как справиться с редкими рисками и катастрофическими сбоями, которые могут привести.

Сведения о планировании непрерывности бизнес-процессов и непрерывности бизнес-процессов с помощью проектирования высокого уровня доступности и аварийного восстановления см. в статье "Что такое непрерывность бизнес-процессов, высокий уровень доступности и аварийное восстановление?".

Избыточность, репликация и резервное копирование

Мы часто думаем об облаке как глобально распределенной, универсальной системе. Однако в действительности облако состоит из оборудования, работающего в центрах обработки данных. Для обеспечения устойчивости необходимо учитывать некоторые риски, связанные с расположением физических мест выполнения облачных компонентов.

Избыточность — это возможность поддерживать несколько идентичных копий компонента службы, а также использовать эти копии таким образом, чтобы один компонент не стал одной точкой сбоя.

Репликация или избыточность данных — это возможность поддерживать несколько копий данных, называемых репликами.

Резервное копирование — это возможность поддерживать метку времени, которую можно использовать для восстановления потерянных данных.

Общие сведения о избыточности, репликации и резервном копировании см. в статье "Что такое избыточность, репликация и резервное копирование?".

Отказоустойчивость и восстановление после сбоя

Распространенной причиной сохранения избыточных копий как приложений, так и реплик данных является возможность выполнить переключение на резервную систему. При резервном переключении можно перенаправить трафик и запросы от неисправных экземпляров на исправные. Затем, как только исходные экземпляры снова станут работоспособными, вы можете выполнить возврат к исходной конфигурации.

Дополнительные сведения об отработке отказа и восстановлении после сбоя см. в разделе "Что такое отработка отказа и восстановление после сбоя?".

Общая ответственность

#REF! службы создаются для обеспечения устойчивости ко многим общим сбоям, и каждый продукт предоставляет соглашение об уровне обслуживания (SLA), описывающее время простоя, которое можно ожидать. Однако общая надежность рабочей нагрузки зависит от того, как вы разработали решение для удовлетворения бизнес-потребностей. Некоторые планы непрерывности бизнес-процессов могут рассматривать некоторые риски сбоя, которые могут быть неважными, в то время как другие могут рассматривать их критическими.

В #REF! общедоступной облачной платформе надежность является общей ответственностью между корпорацией Майкрософт и вами. Так как существуют различные уровни надежности в каждой рабочей нагрузке, которую вы разрабатываете и развертываете, важно понимать, кто несет основную ответственность за каждый из этих уровней с точки зрения надежности. Чтобы лучше понять, как работает общая ответственность, особенно при столкновении с сбоем или катастрофой, см. раздел "Общая ответственность за надежность".

  • Доступность службы по категориям
  • Создание решений для обеспечения высокой доступности с помощью зон доступности
  • Учебный курс. Описание стратегий высокого уровня доступности и аварийного восстановления