プロジェクト

全般

プロフィール

その他問い合わせ #3731

完了

JobArrangerで定義されたジョブの異常同時起動

匿名ユーザー さんが1年以上前に追加. 1年以上前に更新.

ステータス:
終了
優先度:
通常
担当者:
-
開始日:
2024/05/13

説明

JobArrangerが原因かどうかは特定できていませんが、原因不明の事象が発生しているため、質問させていただきます。

AWS・EC2サーバ上に構築しているバッチサーバ上で、普段、JobArranger上で管理している定期バッチが稼動しているのですが
ある日の朝に、JobArranger上の起動スケジュールや、起動順番を無視して、複数のジョブが一斉に起動しました。

異なる複数のジョブが一斉に起動したのに加えて、同一のジョブが複数のプロセスで一斉に起動もしています。
複数のジョブが一斉に起動して、その後も断続的に、複数のジョブが一斉に起動することが繰り返されて、1時間ほどその状態が続きました。
(その間、起動したジョブの総数は、2500程度。JobArranger上に定義されているジョブは250程度。)

それにより、バッチサーバのCPUが100%となり、データベースのアクセス数も一気に上がり、中にはDBコネクションが
取得できずエラーとなったジョブもあります。

想定外の順番や、想定外の多重度でジョブが起動されたため、データ自体は不整合がかなり出た状態で登録や更新が
されてしまいました。

JobArrangerの管理コンソール上には、上記の想定外にランダムに複数起動されたジョブのログは出ていませんでした。

また、JobArrangerサーバのログにも、上記の想定外にランダムに複数起動されたジョブのログは出ていませんでした。
及び、JobArrangerエージェントのログには、ログは出ていましたが、通常の場合も、おかしな挙動をした時間帯に
ジョブは起動しており、正常な場合の日のログと、異常な場合の日のログは、そこまで差がなかったように見えています。

尚、JobArrangerから起動されるジョブについては、異常となったバッチサーバの他に、もう1台別のバッチサーバでも
スケジュールしたジョブを起動しているのですが、もう1台のバッチサーバの方では、想定外にジョブが起動はしていません。

【利用環境】
AWS・EC2利用
Red Hat Enterprise Linux (RHEL) 8.5
Windows 2019 ※JobArranger/Zabbix GUIクライアント
JobArrengerAgent 5.0.1
JobArrengerServer 5.0.1
Job Arrenger for Zabbix Manager 5.0
Zabbix Server 5.0.19
Zabbix Agent 5.0.19

【質問】
①過去に類似のケースの事象や問合せが存在したことは、ありませんでしょうか?
 なければ、想定される原因などが何かあれば、ご教示いただけないでしょうか?

②JobArrangerサーバ側のログについてですが、通常起動時も開始・終了のログは出ないものでしょうか?
 ジョブの異常時・遅延時のみ出るなどでしょうか?

③JobArrangerエージェント側のログについてですが、ログ内に、jobid:XXXXXXXX(数字のみのID)が出ていますが
 このIDは何のIDでしょうか?(JobArranger上のジョブネット内のジョブとの紐付はできないでしょうか?)

④JobArrangerのサーバ側、エージェント側のクラッシュ→一斉起動指示かは分かっていませんが
 JobArranger側が起因ではないことを確認するために、何か方法はあるでしょうか?
(JobArrangerトリガーで、ジョブが暴走したのでないことが確実に分かれば、JobArranger関連の線はなくせるため
 原因を絞っていきたい)

調査の糸口すらつかめていない状況のため、何かアドバイス含めて、頂けると幸いです。

他の形式にエクスポート: Atom PDF