プロジェクト

全般

プロフィール

その他問い合わせ #3731

完了

JobArrangerで定義されたジョブの異常同時起動

匿名ユーザー さんが3ヶ月前に追加. 約2ヶ月前に更新.

ステータス:
終了
優先度:
通常
担当者:
-
開始日:
2024/05/13

説明

JobArrangerが原因かどうかは特定できていませんが、原因不明の事象が発生しているため、質問させていただきます。

AWS・EC2サーバ上に構築しているバッチサーバ上で、普段、JobArranger上で管理している定期バッチが稼動しているのですが
ある日の朝に、JobArranger上の起動スケジュールや、起動順番を無視して、複数のジョブが一斉に起動しました。

異なる複数のジョブが一斉に起動したのに加えて、同一のジョブが複数のプロセスで一斉に起動もしています。
複数のジョブが一斉に起動して、その後も断続的に、複数のジョブが一斉に起動することが繰り返されて、1時間ほどその状態が続きました。
(その間、起動したジョブの総数は、2500程度。JobArranger上に定義されているジョブは250程度。)

それにより、バッチサーバのCPUが100%となり、データベースのアクセス数も一気に上がり、中にはDBコネクションが
取得できずエラーとなったジョブもあります。

想定外の順番や、想定外の多重度でジョブが起動されたため、データ自体は不整合がかなり出た状態で登録や更新が
されてしまいました。

JobArrangerの管理コンソール上には、上記の想定外にランダムに複数起動されたジョブのログは出ていませんでした。

また、JobArrangerサーバのログにも、上記の想定外にランダムに複数起動されたジョブのログは出ていませんでした。
及び、JobArrangerエージェントのログには、ログは出ていましたが、通常の場合も、おかしな挙動をした時間帯に
ジョブは起動しており、正常な場合の日のログと、異常な場合の日のログは、そこまで差がなかったように見えています。

尚、JobArrangerから起動されるジョブについては、異常となったバッチサーバの他に、もう1台別のバッチサーバでも
スケジュールしたジョブを起動しているのですが、もう1台のバッチサーバの方では、想定外にジョブが起動はしていません。

【利用環境】
AWS・EC2利用
Red Hat Enterprise Linux (RHEL) 8.5
Windows 2019 ※JobArranger/Zabbix GUIクライアント
JobArrengerAgent 5.0.1
JobArrengerServer 5.0.1
Job Arrenger for Zabbix Manager 5.0
Zabbix Server 5.0.19
Zabbix Agent 5.0.19

【質問】
①過去に類似のケースの事象や問合せが存在したことは、ありませんでしょうか?
 なければ、想定される原因などが何かあれば、ご教示いただけないでしょうか?

②JobArrangerサーバ側のログについてですが、通常起動時も開始・終了のログは出ないものでしょうか?
 ジョブの異常時・遅延時のみ出るなどでしょうか?

③JobArrangerエージェント側のログについてですが、ログ内に、jobid:XXXXXXXX(数字のみのID)が出ていますが
 このIDは何のIDでしょうか?(JobArranger上のジョブネット内のジョブとの紐付はできないでしょうか?)

④JobArrangerのサーバ側、エージェント側のクラッシュ→一斉起動指示かは分かっていませんが
 JobArranger側が起因ではないことを確認するために、何か方法はあるでしょうか?
(JobArrangerトリガーで、ジョブが暴走したのでないことが確実に分かれば、JobArranger関連の線はなくせるため
 原因を絞っていきたい)

調査の糸口すらつかめていない状況のため、何かアドバイス含めて、頂けると幸いです。

保守サポート 担当314 さんが3ヶ月前に更新

現象が発生した日のServer.log と 対象のAgent.log(複数あれば代表的な物を1つ)をUploadして頂けますでしょうか。
あと、発生した日時を教えてください。

匿名ユーザー さんが3ヶ月前に更新

確認ありがとうございます。
ログのアップロードは、後ほど実施します。(本番サーバから持ってくるため、少し時間を要します)

発生した日時は、5/9(木) 09:00~10:15の間です。

匿名ユーザー さんが2ヶ月前に更新

現象が発生した日のServer.log と 対象のAgent.log(複数あれば代表的な物を1つ)をUploadして頂けますでしょうか。

こちらですが、サーバ名やIPなど、マスクをかけるところは掛けさせて頂きますが
念のため、個別にメールで送付させて頂くなどはできますでしょうか?

可能な場合は、公開可能なメールアドレスを教えて頂けますでしょうか?
質問のやり取り自体は、こちらのRedmineにて行わせていただきます。

匿名ユーザー さんが2ヶ月前に更新

五月雨で申し訳ありません。もう1つ質問追加させて頂きます。

⑤JobArranger側の操作ログ(管理コンソール上の操作だけではなく、コマンドレベルでの操作ログ)を
 確認することは可能でしょうか?

保守サポート 担当314 さんが2ヶ月前に更新

申し訳ありませんが、セキュアな環境の提供は、御契約が必要になります。

⑤の操作ログの機能は、現在の所、ありません。他のお客様からも要望が来ておりますので、早めに機能追加したいと考えております。

匿名ユーザー さんが2ヶ月前に更新

  • ファイル jobarg_server.log.zip を追加
  • ファイル jobarg_agentd.log.zip を追加

ご回答ありがとうございます。

現象が発生した日のServer.log と 対象のAgent.log(複数あれば代表的な物を1つ)をUploadして頂けますでしょうか。

一部マスキングをかけたものを添付します。
ご確認のほど、よろしくお願いいたします。

保守サポート 担当314 さんが2ヶ月前に更新

  • ステータス新規登録 から 担当者処理中 に変更

匿名ユーザー さんが2ヶ月前に更新

ご担当者さま:

添付したログファイルについて、取得済みでしたらファイル削除いただけますでしょうか?
※マスクはしておりますが、本番サーバの資材のため。

また、本件早急に原因究明をしたいため、保守サポートの契約を検討しております。
以下サイトの問合せフォームから5/15朝に問合せさせていただいていますが、まだ回答いただけていない状況です。(本チケット番号を問合せ本文に記載しています)
https://www.jobarranger.info/jpn/service/index.html?

こちらの状況についてわかることがあれば連絡いただけますでしょうか?
※問合せ後のリプライがなく、着信できているのかが不明です。

よろしくお願いいたします。

保守サポート 担当314 さんが2ヶ月前に更新

ファイル削除の件、了解しました。
お問い合わせの件については、営業の方に連絡させていただきました。

保守サポート 担当314 さんが2ヶ月前に更新

  • ファイル を削除 (jobarg_server.log.zip)

保守サポート 担当314 さんが2ヶ月前に更新

  • ファイル を削除 (jobarg_agentd.log.zip)

匿名ユーザー さんが2ヶ月前に更新

ご対応ありがとうございます。
引き続きよろしくお願いいたします。

保守サポート 担当314 さんが約2ヶ月前に更新

  • ステータス担当者処理中 から 終了 に変更

こちらのチケットは、クローズします。

他の形式にエクスポート: Atom PDF