カオスエンジニアリングとは?Chaos Monkey・LitmusChaosで障害耐性テストを自動化
オープンソースラボ編集部 ・ 2026年6月13日
「本番でしか発生しない障害」を防ぐために、意図的に障害を注入して耐性をテストするのがカオスエンジニアリングです。NetflixやAmazonが実践する手法をOSSで自社システムに導入できます。
カオスエンジニアリングとは
「本番は正常なはずだ」という思い込みを壊すエンジニアリング手法です。意図的にサーバー停止・ネットワーク遅延・ディスク障害を注入して、システムが想定通りに回復するかを継続的にテストします。
前提: カオスエンジニアリングはステージング環境で実施するのが入門ステップです。本番適用は十分な自動回復の仕組みを整えてから。
OSS カオスエンジニアリングツール比較表
| ツール | 対象環境 | 障害種別 | 特徴 |
|---|---|---|---|
| LitmusChaos | Kubernetes | Pod・Node・Network・Disk | CNCF卒業・最も多機能 |
| Chaos Monkey | AWS EC2 | インスタンス停止 | Netflix製・AWS特化 |
| Chaos Mesh | Kubernetes | Pod・Network・Disk・Time | CNCF・中国ByteDance製 |
| Pumba | Docker | コンテナ停止・遅延 | ローカルDocker向け |
LitmusChaos:CNCF卒業のKubernetes向けOSS
LitmusChaos(公式サイト↗・GitHub↗)はKubernetes向けのOSSカオスエンジニアリングプラットフォームです。Pod障害・Node停止・ネットワーク遅延・ディスクI/Oストレスなど多種の障害を注入できます。
kubectl apply -f https://litmuschaos.github.io/litmus/litmus-operator-v3.0.0.yaml
詳しくはLitmusChaos公式ドキュメント↗およびChaos Monkey(Simian Army)GitHubリポジトリ↗を参照。
DevOps関連OSSはDevOpsカテゴリから。可観測性ツールとの組み合わせはセキュリティカテゴリも参照。
Chaos Monkey:Netflixが生んだ元祖カオスツール
Chaos Monkey(GitHub↗)はNetflixが開発したOSSのカオスエンジニアリングツールです。AWS EC2インスタンスをランダムに停止させることで、単一インスタンス障害への耐性を本番でテストします。Netflixは毎日本番でこれを動かしています。
カオスエンジニアリングの始め方
- 可観測性を先に整える — モニタリング(Prometheus+Grafana等)がないと障害の影響が見えない
- ステージング環境で実施 — 本番前に回復の仕組みを検証
- 小さな爆発半径から — 1つのPodを停止してサービスが回復するか確認
- 自動化して継続実施 — CI/CDパイプラインに組み込む
まとめ
2026年のカオスエンジニアリングOSS:Kubernetes環境にはLitmusChaosが最も成熟しています。AWS EC2限定なら元祖Chaos Monkeyです。
よくある質問(FAQ)
Q. カオスエンジニアリングは危険ではないですか?
適切に設計すれば安全です。「爆発半径」(影響範囲)を小さく保ち、自動ロールバックが動くことを確認してから実施します。最初は非本番環境で実施してください。
Q. マイクロサービスが少ない場合でも必要ですか?
5サービス以下の小規模システムでは複雑すぎる場合があります。まずサービスごとのヘルスチェック・自動再起動・冗長化を整えることが優先です。
Q. AWSにはFault Injection Simulatorがありますか?
はい。AWS FIS(Fault Injection Simulator)はAWSマネージドのカオスエンジニアリングサービスです。LitmusChaosはAWS FISのカオス実験をKubernetes内から実行できます。