事象
Sysdigをインストールした仮想マシン(Linux)から以下アラートが発行されるも
Subject : Host is down is Triggered on host.mac = ... Trigger : timeAvg(avg(uptime)): 0.0000 /s
マシンは正常稼働している。
環境情報
$ /opt/draios/bin/dragent --version 11.4.0
原因/解決策
Sysdig Agentとバックエンドのサービスで接続が切れている。具体的なログメッセージは以下。
.., Error, connection_manager:455: connect():Timeout: Timeout: connect timed out: 166.9.44.38:6443 .., Warning, connection_manager:517: Connection attempt timed out. Retrying...
補足
Sysdigのエージェント(dragent.service/LSB: Draios Agent.)は/opt/draios/logsにログが配置されているので該当時刻を調査すると以下のようなメッセージが出ていました。
.., Error, connection_manager:1821: receive:IOException: SSL connection unexpectedly closed .., Warning, connection_manager:780: Receive failed. Looping back to reconnect. .., Error, connection_manager:449: :connect():IOException: SSL connection unexpectedly closed .., Warning, connection_manager:534: Connection attempt failed. Retrying... .., Error, connection_manager:449: :connect():IOException: Connection refused ..., Warning, connection_manager:534: Connection attempt failed. Retrying... ..., Warning, connection_manager:1571: Transmitting delayed message. type=1, now=1637060338696154000, ..., Warning, connection_manager:2019: Did not receive ACK for message 2, 1
念の為バックエンド側のサービスを確認すると、該当時刻にエラーが起きていたこともあり接続が切れたことがホストダウンの誤検知に結びついていました。
以上です。