Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Прежде чем приступить к использованию Azure Chaos Studio, полезно понять основные концепции проектирования надежности сайта.
Что такое устойчивость?
Никогда не было проще создавать крупномасштабные распределенные приложения. Инфраструктура размещена в облаке, а поддержка языков программирования разнообразна. Также существует множество компонентов и служб с открытым исходным кодом, а также предоставляемых в качестве услуги, на основе которых можно строить.
К сожалению, нет гарантии надежности для этих базовых компонентов и зависимостей, или для систем, построенных на них. Инфраструктура может выходить из строя, и в любое время могут возникать перебои в работе службы или отключения. Незначительные нарушения в одной области могут быть усилены и может иметь длительные побочные эффекты в другой области.
Приложения и службы должны планировать и устранять такие проблемы, как:
- Сбои служб.
- Нарушения известных и неизвестных зависимостей.
- Внезапная непредвиденная нагрузка.
- Задержки во всей системе.
Приложения и службы должны быть разработаны для обработки сбоев и защиты от нарушений.
Программы и службы, которые справляются со стрессом и нерешёнными вопросами, являются устойчивыми. Надежность отдельных компонентов хороша, но устойчивость является свойством всей системы. Сквозная устойчивость системы должна быть проверена в интегрированной среде, приближенной к производственной, с условиями и нагрузкой, с которыми сталкиваются в процессе эксплуатации.
Что такое инженерия хаоса и внедрение ошибок?
- Проектирование хаоса: практика применения приложений и служб в реальном мире стрессов и сбоев. Цель заключается в создании и проверке устойчивости к ненадежным условиям и отсутствующим зависимостям.
- Инъекция ошибок: действие внесения ошибки в систему. Для целевых системных компонентов можно использовать различные ошибки, такие как задержка сети или потеря доступа к хранилищу. Вы можете создавать сценарии, с которыми приложение или служба должны справляться.
Эксперимент хаоса — это применение ошибок по отдельности, параллельно или последовательно в отношении одного или нескольких ресурсов подписки или зависимостей. Цель заключается в мониторинге состояния и работоспособности системы, чтобы вы могли действовать при возникновении любых проблем.
Эксперимент может представлять реальный сценарий, например отключение питания центра обработки данных или задержку сети на DNS-сервере. Его также можно использовать, чтобы имитировать возникающие граничные условия. Примерами являются распродажи Черной пятницы или когда начинается продажа билетов на концерт популярной группы.