AI

カオスエンジニアリングとは?Chaos Monkey・LitmusChaosで障害耐性テストを自動化

オープンソースラボ編集部2026年6月13日

「本番でしか発生しない障害」を防ぐために、意図的に障害を注入して耐性をテストするのがカオスエンジニアリングです。NetflixやAmazonが実践する手法をOSSで自社システムに導入できます。

カオスエンジニアリングとは

「本番は正常なはずだ」という思い込みを壊すエンジニアリング手法です。意図的にサーバー停止・ネットワーク遅延・ディスク障害を注入して、システムが想定通りに回復するかを継続的にテストします。

前提: カオスエンジニアリングはステージング環境で実施するのが入門ステップです。本番適用は十分な自動回復の仕組みを整えてから。

OSS カオスエンジニアリングツール比較表

ツール対象環境障害種別特徴
LitmusChaosKubernetesPod・Node・Network・DiskCNCF卒業・最も多機能
Chaos MonkeyAWS EC2インスタンス停止Netflix製・AWS特化
Chaos MeshKubernetesPod・Network・Disk・TimeCNCF・中国ByteDance製
PumbaDockerコンテナ停止・遅延ローカルDocker向け

LitmusChaos:CNCF卒業のKubernetes向けOSS

LitmusChaos公式サイトGitHub)はKubernetes向けのOSSカオスエンジニアリングプラットフォームです。Pod障害・Node停止・ネットワーク遅延・ディスクI/Oストレスなど多種の障害を注入できます。

kubectl apply -f https://litmuschaos.github.io/litmus/litmus-operator-v3.0.0.yaml

詳しくはLitmusChaos公式ドキュメントおよびChaos Monkey(Simian Army)GitHubリポジトリを参照。

DevOps関連OSSはDevOpsカテゴリから。可観測性ツールとの組み合わせはセキュリティカテゴリも参照。

Chaos Monkey:Netflixが生んだ元祖カオスツール

Chaos MonkeyGitHub)はNetflixが開発したOSSのカオスエンジニアリングツールです。AWS EC2インスタンスをランダムに停止させることで、単一インスタンス障害への耐性を本番でテストします。Netflixは毎日本番でこれを動かしています。

カオスエンジニアリングの始め方

  1. 可観測性を先に整える — モニタリング(Prometheus+Grafana等)がないと障害の影響が見えない
  2. ステージング環境で実施 — 本番前に回復の仕組みを検証
  3. 小さな爆発半径から — 1つのPodを停止してサービスが回復するか確認
  4. 自動化して継続実施 — CI/CDパイプラインに組み込む

まとめ

2026年のカオスエンジニアリングOSS:Kubernetes環境にはLitmusChaosが最も成熟しています。AWS EC2限定なら元祖Chaos Monkeyです。

よくある質問(FAQ)

Q. カオスエンジニアリングは危険ではないですか?

適切に設計すれば安全です。「爆発半径」(影響範囲)を小さく保ち、自動ロールバックが動くことを確認してから実施します。最初は非本番環境で実施してください。

Q. マイクロサービスが少ない場合でも必要ですか?

5サービス以下の小規模システムでは複雑すぎる場合があります。まずサービスごとのヘルスチェック・自動再起動・冗長化を整えることが優先です。

Q. AWSにはFault Injection Simulatorがありますか?

はい。AWS FIS(Fault Injection Simulator)はAWSマネージドのカオスエンジニアリングサービスです。LitmusChaosはAWS FISのカオス実験をKubernetes内から実行できます。

他の記事も読む

Let's Build Together

OSS導入、自社だけで悩まない。

ツール選定から構築・運用・AI活用まで、オープンソースラボ運営元のClasslessが伴走します。初回のご相談は無料です。