その他問い合わせ #3731
closedJobArrangerで定義されたジョブの異常同時起動
Description
JobArrangerが原因かどうかは特定できていませんが、原因不明の事象が発生しているため、質問させていただきます。
AWS・EC2サーバ上に構築しているバッチサーバ上で、普段、JobArranger上で管理している定期バッチが稼動しているのですが
ある日の朝に、JobArranger上の起動スケジュールや、起動順番を無視して、複数のジョブが一斉に起動しました。
異なる複数のジョブが一斉に起動したのに加えて、同一のジョブが複数のプロセスで一斉に起動もしています。
複数のジョブが一斉に起動して、その後も断続的に、複数のジョブが一斉に起動することが繰り返されて、1時間ほどその状態が続きました。
(その間、起動したジョブの総数は、2500程度。JobArranger上に定義されているジョブは250程度。)
それにより、バッチサーバのCPUが100%となり、データベースのアクセス数も一気に上がり、中にはDBコネクションが
取得できずエラーとなったジョブもあります。
想定外の順番や、想定外の多重度でジョブが起動されたため、データ自体は不整合がかなり出た状態で登録や更新が
されてしまいました。
JobArrangerの管理コンソール上には、上記の想定外にランダムに複数起動されたジョブのログは出ていませんでした。
また、JobArrangerサーバのログにも、上記の想定外にランダムに複数起動されたジョブのログは出ていませんでした。
及び、JobArrangerエージェントのログには、ログは出ていましたが、通常の場合も、おかしな挙動をした時間帯に
ジョブは起動しており、正常な場合の日のログと、異常な場合の日のログは、そこまで差がなかったように見えています。
尚、JobArrangerから起動されるジョブについては、異常となったバッチサーバの他に、もう1台別のバッチサーバでも
スケジュールしたジョブを起動しているのですが、もう1台のバッチサーバの方では、想定外にジョブが起動はしていません。
【利用環境】
AWS・EC2利用
Red Hat Enterprise Linux (RHEL) 8.5
Windows 2019 ※JobArranger/Zabbix GUIクライアント
JobArrengerAgent 5.0.1
JobArrengerServer 5.0.1
Job Arrenger for Zabbix Manager 5.0
Zabbix Server 5.0.19
Zabbix Agent 5.0.19
【質問】
①過去に類似のケースの事象や問合せが存在したことは、ありませんでしょうか?
なければ、想定される原因などが何かあれば、ご教示いただけないでしょうか?
②JobArrangerサーバ側のログについてですが、通常起動時も開始・終了のログは出ないものでしょうか?
ジョブの異常時・遅延時のみ出るなどでしょうか?
③JobArrangerエージェント側のログについてですが、ログ内に、jobid:XXXXXXXX(数字のみのID)が出ていますが
このIDは何のIDでしょうか?(JobArranger上のジョブネット内のジョブとの紐付はできないでしょうか?)
④JobArrangerのサーバ側、エージェント側のクラッシュ→一斉起動指示かは分かっていませんが
JobArranger側が起因ではないことを確認するために、何か方法はあるでしょうか?
(JobArrangerトリガーで、ジョブが暴走したのでないことが確実に分かれば、JobArranger関連の線はなくせるため
原因を絞っていきたい)
調査の糸口すらつかめていない状況のため、何かアドバイス含めて、頂けると幸いです。
Updated by 保守サポート 担当314 4 months ago
現象が発生した日のServer.log と 対象のAgent.log(複数あれば代表的な物を1つ)をUploadして頂けますでしょうか。
あと、発生した日時を教えてください。
Updated by 保守サポート 担当314 4 months ago
申し訳ありませんが、セキュアな環境の提供は、御契約が必要になります。
⑤の操作ログの機能は、現在の所、ありません。他のお客様からも要望が来ておりますので、早めに機能追加したいと考えております。
Updated by Anonymous 4 months ago
ご担当者さま:
添付したログファイルについて、取得済みでしたらファイル削除いただけますでしょうか?
※マスクはしておりますが、本番サーバの資材のため。
また、本件早急に原因究明をしたいため、保守サポートの契約を検討しております。
以下サイトの問合せフォームから5/15朝に問合せさせていただいていますが、まだ回答いただけていない状況です。(本チケット番号を問合せ本文に記載しています)
https://www.jobarranger.info/jpn/service/index.html?
こちらの状況についてわかることがあれば連絡いただけますでしょうか?
※問合せ後のリプライがなく、着信できているのかが不明です。
よろしくお願いいたします。
Updated by 保守サポート 担当314 4 months ago
ファイル削除の件、了解しました。
お問い合わせの件については、営業の方に連絡させていただきました。