Поделиться через


Контрольный список проверки разработки для надежности

Этот контрольный список содержит набор рекомендаций для оценки надежности, устойчивости и восстановления сбоев в архитектуре. Чтобы обеспечить надежность, определите оптимальную инфраструктуру и разработку приложений для рабочей нагрузки. Выполните эти решения на основе бизнес-требований, сопоставленных с целевыми метриками доступности и восстановления.

Чтобы реализовать надежную структуру, тщательно рассмотрите точки принятия решений в проектировании и помните о том, как эти решения влияют на рабочую нагрузку. Этот контрольный список и сопутствующие руководства предоставляют ресурсы, которые помогут вам принять эти решения. Сделайте надежность рабочей нагрузки центральным фактором в процессе проектирования, разработки и эксплуатации рабочих нагрузок.

Контрольный перечень

Подход к проектированию с акцентом на надежность, чтобы гарантировать, что вы разрабатываете рабочую нагрузку, которая является устойчивой, управляемой и повторяемой. Если вы не включаете методики надежности и рассматриваете компромиссы, ваша конструкция потенциально подвержена риску. Внимательно рассмотрим все моменты, описанные в контрольном списке, чтобы обеспечить уверенность в успехе вашей системы.

  Код Рекомендация
RE:01 Сосредоточьтесь на проектировании рабочей нагрузки на простоту и эффективность. Используйте практический подход, чтобы избежать ненужной сложности при выполнении бизнес-целей и требований.
RE:02 Определите и оцените потоки пользователей и системы. Используйте шкалу критичности на основе бизнес-требований, чтобы расставить приоритеты потоков.
RE:03 Используйте анализ режима сбоя (FMA) для выявления потенциальных сбоев в рабочей нагрузке. Определение зависимостей и точек сбоя и разработка стратегий устранения рисков для этих сбоев.
РЕ:04 Определите целевые показатели надежности и восстановления для рабочей нагрузки. Используйте цели для разработки и в качестве основы вашей модели здоровья.
RE:05
RE:05
RE:05
Добавьте избыточность на разных уровнях, особенно для потоков, критически важных для надежности, чтобы помочь достичь целевых показателей надежности. Рассмотрим избыточные компоненты инфраструктуры, такие как вычисления и сеть, и несколько экземпляров решения.
RE:06 Реализуйте своевременную и надежную стратегию масштабирования на уровнях приложения, данных и инфраструктуры. Основывайте стратегию масштабирования на фактических или прогнозируемых паттернах использования, и минимизируйте ручное вмешательство.
RE:07 Повышение устойчивости рабочей нагрузки путем реализации мер самосохранения и самовосстановления. Используйте встроенные функции и хорошо установленные облачные шаблоны, чтобы помочь рабочей нагрузке оставаться функциональными во время и восстановиться после инцидентов.
RE:08 Протестируйте сценарии устойчивости и доступности, применяя принципы проектирования хаоса. Убедитесь, что ваша реализация деградации системы и стратегии масштабирования эффективны, проводя активное тестирование сбоев и имитированное нагрузочное тестирование.
RE:09 Реализуйте структурированные, протестированные и документированные планы непрерывности бизнес-процессов и аварийного восстановления (BCDR), которые соответствуют целевым объектам восстановления. Планы должны охватывать все компоненты и систему в целом.
РЕ:10 Измеряйте и моделировайте сигналы о работоспособности решения. Непрерывно фиксируйте время простоя и другие данные надежности из рабочей нагрузки, а также из отдельных компонентов и ключевых потоков.

Дальнейшие шаги

Мы рекомендуем ознакомиться с компромиссами надежности, чтобы изучить другие понятия.