Общие сведения о инженерии хаоса и устойчивости

Прежде чем приступить к использованию Azure Chaos Studio, полезно понять основные концепции проектирования надежности сайта.

Что такое устойчивость?

Никогда не было проще создавать крупномасштабные распределенные приложения. Инфраструктура размещена в облаке, а поддержка языков программирования разнообразна. Также существует множество компонентов и служб с открытым исходным кодом, а также предоставляемых в качестве услуги, на основе которых можно строить.

К сожалению, нет гарантии надежности для этих базовых компонентов и зависимостей, или для систем, построенных на них. Инфраструктура может выходить из строя, и в любое время могут возникать перебои в работе службы или отключения. Незначительные нарушения в одной области могут быть усилены и может иметь длительные побочные эффекты в другой области.

Приложения и службы должны планировать и устранять такие проблемы, как:

Сбои служб.
Нарушения известных и неизвестных зависимостей.
Внезапная непредвиденная нагрузка.
Задержки во всей системе.

Приложения и службы должны быть разработаны для обработки сбоев и защиты от нарушений.

Программы и службы, которые справляются со стрессом и нерешёнными вопросами, являются устойчивыми. Надежность отдельных компонентов хороша, но устойчивость является свойством всей системы. Сквозная устойчивость системы должна быть проверена в интегрированной среде, приближенной к производственной, с условиями и нагрузкой, с которыми сталкиваются в процессе эксплуатации.

Что такое инженерия хаоса и внедрение ошибок?

Проектирование хаоса: практика применения приложений и служб в реальном мире стрессов и сбоев. Цель заключается в создании и проверке устойчивости к ненадежным условиям и отсутствующим зависимостям.
Инъекция ошибок: действие внесения ошибки в систему. Для целевых системных компонентов можно использовать различные ошибки, такие как задержка сети или потеря доступа к хранилищу. Вы можете создавать сценарии, с которыми приложение или служба должны справляться.

Эксперимент хаоса — это применение ошибок по отдельности, параллельно или последовательно в отношении одного или нескольких ресурсов подписки или зависимостей. Цель заключается в мониторинге состояния и работоспособности системы, чтобы вы могли действовать при возникновении любых проблем.

Эксперимент может представлять реальный сценарий, например отключение питания центра обработки данных или задержку сети на DNS-сервере. Его также можно использовать, чтобы имитировать возникающие граничные условия. Примерами являются распродажи Черной пятницы или когда начинается продажа билетов на концерт популярной группы.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-04-21

Общие сведения о инженерии хаоса и устойчивости

Что такое устойчивость?

Что такое инженерия хаоса и внедрение ошибок?

Обратная связь

Дополнительные ресурсы