Project

General

Profile

Edit Actions

その他問い合わせ #3731

closed

JobArrangerで定義されたジョブの異常同時起動

Added by Anonymous about 1 month ago. Updated 6 days ago.

Status:
終了
Priority:
通常
Assignee:
-
Start date:
05/13/2024

Description

JobArrangerが原因かどうかは特定できていませんが、原因不明の事象が発生しているため、質問させていただきます。

AWS・EC2サーバ上に構築しているバッチサーバ上で、普段、JobArranger上で管理している定期バッチが稼動しているのですが
ある日の朝に、JobArranger上の起動スケジュールや、起動順番を無視して、複数のジョブが一斉に起動しました。

異なる複数のジョブが一斉に起動したのに加えて、同一のジョブが複数のプロセスで一斉に起動もしています。
複数のジョブが一斉に起動して、その後も断続的に、複数のジョブが一斉に起動することが繰り返されて、1時間ほどその状態が続きました。
(その間、起動したジョブの総数は、2500程度。JobArranger上に定義されているジョブは250程度。)

それにより、バッチサーバのCPUが100%となり、データベースのアクセス数も一気に上がり、中にはDBコネクションが
取得できずエラーとなったジョブもあります。

想定外の順番や、想定外の多重度でジョブが起動されたため、データ自体は不整合がかなり出た状態で登録や更新が
されてしまいました。

JobArrangerの管理コンソール上には、上記の想定外にランダムに複数起動されたジョブのログは出ていませんでした。

また、JobArrangerサーバのログにも、上記の想定外にランダムに複数起動されたジョブのログは出ていませんでした。
及び、JobArrangerエージェントのログには、ログは出ていましたが、通常の場合も、おかしな挙動をした時間帯に
ジョブは起動しており、正常な場合の日のログと、異常な場合の日のログは、そこまで差がなかったように見えています。

尚、JobArrangerから起動されるジョブについては、異常となったバッチサーバの他に、もう1台別のバッチサーバでも
スケジュールしたジョブを起動しているのですが、もう1台のバッチサーバの方では、想定外にジョブが起動はしていません。

【利用環境】
AWS・EC2利用
Red Hat Enterprise Linux (RHEL) 8.5
Windows 2019 ※JobArranger/Zabbix GUIクライアント
JobArrengerAgent 5.0.1
JobArrengerServer 5.0.1
Job Arrenger for Zabbix Manager 5.0
Zabbix Server 5.0.19
Zabbix Agent 5.0.19

【質問】
①過去に類似のケースの事象や問合せが存在したことは、ありませんでしょうか?
 なければ、想定される原因などが何かあれば、ご教示いただけないでしょうか?

②JobArrangerサーバ側のログについてですが、通常起動時も開始・終了のログは出ないものでしょうか?
 ジョブの異常時・遅延時のみ出るなどでしょうか?

③JobArrangerエージェント側のログについてですが、ログ内に、jobid:XXXXXXXX(数字のみのID)が出ていますが
 このIDは何のIDでしょうか?(JobArranger上のジョブネット内のジョブとの紐付はできないでしょうか?)

④JobArrangerのサーバ側、エージェント側のクラッシュ→一斉起動指示かは分かっていませんが
 JobArranger側が起因ではないことを確認するために、何か方法はあるでしょうか?
(JobArrangerトリガーで、ジョブが暴走したのでないことが確実に分かれば、JobArranger関連の線はなくせるため
 原因を絞っていきたい)

調査の糸口すらつかめていない状況のため、何かアドバイス含めて、頂けると幸いです。

Updated by 保守サポート 担当314 about 1 month ago

現象が発生した日のServer.log と 対象のAgent.log(複数あれば代表的な物を1つ)をUploadして頂けますでしょうか。
あと、発生した日時を教えてください。

Updated by Anonymous about 1 month ago

確認ありがとうございます。
ログのアップロードは、後ほど実施します。(本番サーバから持ってくるため、少し時間を要します)

発生した日時は、5/9(木) 09:00~10:15の間です。

Updated by Anonymous about 1 month ago

現象が発生した日のServer.log と 対象のAgent.log(複数あれば代表的な物を1つ)をUploadして頂けますでしょうか。

こちらですが、サーバ名やIPなど、マスクをかけるところは掛けさせて頂きますが
念のため、個別にメールで送付させて頂くなどはできますでしょうか?

可能な場合は、公開可能なメールアドレスを教えて頂けますでしょうか?
質問のやり取り自体は、こちらのRedmineにて行わせていただきます。

Updated by Anonymous about 1 month ago

五月雨で申し訳ありません。もう1つ質問追加させて頂きます。

⑤JobArranger側の操作ログ(管理コンソール上の操作だけではなく、コマンドレベルでの操作ログ)を
 確認することは可能でしょうか?

Updated by 保守サポート 担当314 about 1 month ago

申し訳ありませんが、セキュアな環境の提供は、御契約が必要になります。

⑤の操作ログの機能は、現在の所、ありません。他のお客様からも要望が来ておりますので、早めに機能追加したいと考えております。

Updated by Anonymous about 1 month ago

  • File jobarg_server.log.zip added
  • File jobarg_agentd.log.zip added

ご回答ありがとうございます。

現象が発生した日のServer.log と 対象のAgent.log(複数あれば代表的な物を1つ)をUploadして頂けますでしょうか。

一部マスキングをかけたものを添付します。
ご確認のほど、よろしくお願いいたします。

Actions #7

Updated by 保守サポート 担当314 about 1 month ago

  • Status changed from 新規登録 to 担当者処理中

Updated by Anonymous about 1 month ago

ご担当者さま:

添付したログファイルについて、取得済みでしたらファイル削除いただけますでしょうか?
※マスクはしておりますが、本番サーバの資材のため。

また、本件早急に原因究明をしたいため、保守サポートの契約を検討しております。
以下サイトの問合せフォームから5/15朝に問合せさせていただいていますが、まだ回答いただけていない状況です。(本チケット番号を問合せ本文に記載しています)
https://www.jobarranger.info/jpn/service/index.html?

こちらの状況についてわかることがあれば連絡いただけますでしょうか?
※問合せ後のリプライがなく、着信できているのかが不明です。

よろしくお願いいたします。

Updated by 保守サポート 担当314 about 1 month ago

ファイル削除の件、了解しました。
お問い合わせの件については、営業の方に連絡させていただきました。

Actions #11

Updated by 保守サポート 担当314 about 1 month ago

  • File deleted (jobarg_server.log.zip)
Actions #12

Updated by 保守サポート 担当314 about 1 month ago

  • File deleted (jobarg_agentd.log.zip)

Updated by Anonymous about 1 month ago

ご対応ありがとうございます。
引き続きよろしくお願いいたします。

Updated by 保守サポート 担当314 6 days ago

  • Status changed from 担当者処理中 to 終了

こちらのチケットは、クローズします。

Edit Actions

Also available in: Atom PDF