【CloudWatch】「StatusCheckFailed」系の監視メトリクスで障害発生テスト

インスタンス毎のソフトウェアとネットワーク監視
サーバ停止してもデータなし扱いとなるので、障害テストできない
1 |
systemctl stop network |
15:20前に、ネットワーク停止させた
コンソール上から直接再起動してあげると復活
インスタンスを使用するためのAWSインフラ全体の監視
疑似的な障害テストはできない
StatusCheckFailed_Instance
とStatusCheckFailed_System
のどちらかが異常な場合、異常と判定する。
最低これだけチェックしておけばいい感じ?