Chaos Monkey 是 Netflix 丟出來的工具,這個工具的目的是希望建立超高可靠度的系統。方法則是沒事就亂關 AWS 上的 instance:「Chaos Monkey released into the wild」。
- 在 AWS 上的系統容錯率要超高。
- 上班時間爛掉比凌晨三點被 call 起床好。
- 所以平常就放火測試容錯率到底夠不夠高,方法就是隨機關 instance。
照 Netflix 的說法,他們不僅在開發環境測試,也在正式環境測試。利用 Chaos Monkey 看看 failure 的結果是否如預期。
Netflix 甚至建議可以排成每個上班日都隨機跑一跑:
The service has a configurable schedule that, by default, runs on non-holiday weekdays between 9am and 3pm.
只有在爆炸機率超高的系統上,設計師才會在意 failure 的問題...