Project

General

Profile

その他問い合わせ #3482

毎日スケジュール実行されているジョブが、稀に[JARUNAGENT200004]でエラーになる

Added by Anonymous 7 months ago. Updated 6 months ago.

Status:
回答中
Priority:
通常
Start date:
07/15/2020
Due date:
% Done:

0%

Estimated time:

Description

事象

毎日スケジュール実行されているジョブで、稀に「[JARUNAGENT200004] received data is null」エラーが発生します。
1台のJobArrangerServerから、2台のWindowsServerに対して、日時処理を実行している環境です。
2ヶ月に1回程度の頻度で、記載のエラーが発生しております。

・エラー発生するジョブは、毎回異なる
・エラー発生したジョブの前後のジョブは、正常に動作している
・2台のWindowsServerでは、同時刻に同内容の処理を実行している
・エラー発生箇所のジョブでは、ジョブネットアイコンを6並列で実行しているので、2台のWindowsSereverで最大12ジョブ同時にジョブが動作する可能性がある
・zabbix監視データより、エラー発生時刻のサーバー負荷やNW負荷は平時と変わらない

上記内容より、たまたま複数ジョブの実行が重なった際に、本エラーが発生するのではないかと推測しておりますが、
エラー原因や対策等、ご教示頂けますでしょうか。

何卒、よろしくお願いいたします。

ログ

/var/log/jobarranger/jobarg_server.log

18546:20200715:005228.293 [WARN] [JAJOBICONJOB300001] In jajob_icon_job_timeout() timeout occurrence. inner_job_id: 503905, timeout: 140, start_time: 20200714223204, jobnet_id: AAA_2_DA1_06, job_id: AAA_2_DA1_06/2_DA2_06_01/06_01_06, user_name: SUB-USER
21760:20200715:050048.646 [ERROR] [JARUNAGENT200004] In jarun_agent() error response received. inner_job_id: 504389 message: [received data is null]
21760:20200715:050048.724 [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 504389 status is RUNERR jobnet_id: AAA_2_DA1_01, job_id: AAA_2_DA1_01/2_DA2_01_02/01_02_01, user_name: SUB-USER, job_exit_cd: , icon_status:

⇒2行目でエラーが発生し、3行目でジョブのエラーが記載されています。

C:\Program Files\Job Arranger\Job Arranger Agent\logs

1796:20200713:090010.931 [INFO] jadbbackup  CONFIG_BACKUP_TIME START BACKUP
1796:20200714:090010.388 [INFO] jadbbackup CONFIG_BACKUP_TIME START BACKUP
1796:20200715:090010.511 [INFO] jadbbackup CONFIG_BACKUP_TIME START BACKUP

⇒エラーに関するログは出ていないようです。

バージョン情報

■JobArrangerServer
・CentOS Linux release 7.7.1908
・zabbix_server:4.0.17
・Job Arranger Server v4.1.0
・PostgreSQL 12.1

■クライアント(同内容が2台)
・Windows Server 2016 Standard
・zabbix_agentd Win64 (service) (Zabbix) 4.0.17
・Job Arranger Agent Win64 (service) v4.1.0


Files

3482_01.jpg (62.6 KB) 3482_01.jpg Anonymous, 07/31/2020 02:30 PM

Updated by 保守サポート 担当 7 months ago

  • Status changed from 新規登録 to 回答中

ョブアレンジャーのご利用ありがとうございます。

キーワードを右上の【検索:"JARUNAGENT200004"】に入れて過去のQAを検索できますのでぜひご活用ください。

#2958 でJARUNAGENT200004 エラーのQAがあります。
[JARUNAGENT200004] In jarun_agent() error response received. inner_job_id: 3558046 message: [ZBX_TCP_READ() failed: [4] Interrupted system call]

今回のケースは以下で内容は異なります。
[JARUNAGENT200004] In jarun_agent() error response received. inner_job_id: 504389 message: [received data is null]

#2958 でエラー発生時のserverとAgentログを両方頂いております。
今回Agentログはないとのことですが、エラー発生時刻に inner_job_id: 504389 が出ているログがあると思います。
調査の為には両方頂けますと幸甚です。

ログは部分を切り取らずに、logファイルの添付で頂けますと、より入念な調査ができます。
今回は、同一Agentで同時に動いたジョブが6並列あるということですので、言及の通りそれらとの関連も考えられます。

同一Agentで複数ジョブ同時実行で稀に起きる問題は、同時実行での何かが原因の可能性が高いです。
可能であれば、起動時刻をずらすなどで回避ができます。こちらも検討下さい。

速やかな返信のためにサポート契約をご検討頂ければ幸甚です。
宜しくお願い致します。

Updated by Anonymous 7 months ago

保守サポートご担当様
ご回答頂きまして誠にありがとうございます。
質問者でございます。

ログは部分を切り取らずに、logファイルの添付で頂けますと、より入念な調査ができます。

今回、Agentログは既に削除されていたため、次回以降添付させていただきます。

同一Agentで複数ジョブ同時実行で稀に起きる問題は、同時実行での何かが原因の可能性が高いです。

こちら、同時実行によりエラー発生した過去事例等ございますでしょうか?
参考までに、以下画像の赤枠部分は、今回エラー発生したジョブネットの呼び出し箇所となります。
エラー発生したジョブは、赤枠のジョブネット内のジョブとなります。

可能であれば、起動時刻をずらすなどで回避ができます。こちらも検討下さい。

また、今回のように、並行処理アイコンを用いて複数のジョブネットアイコンを実行する場合、
どのように起動時刻をずらすことが出来ますでしょうか?

今回の場合、赤枠のジョブネットと横一列に並んだジョブネットアイコンの前に、
拡張ジョブアイコンを追加して時刻待ち合わせを行い、時間をずらす方法を思いつきましたが、
ジョブの同時実行によりエラー発生する場合、拡張ジョブアイコンが同時実行されてもエラー発生する可能性があるのではないかと考えます。

過去事例等と併せて、エラー回避策等ご教示いただけますと幸いです。
何卒、よろしくお願いいたします。

Updated by 保守サポート 担当 7 months ago

ジョブフローのご開示有難うございました。

拡張ジョブアイコンを追加して時刻待ち合わせを行い、時間をずらす方法を思いつきましたが、
ジョブの同時実行によりエラー発生する場合、拡張ジョブアイコンが同時実行されてもエラー発生する可能性があるのではないかと考えます。

今回のエラーはおそらく同一WindowsAgentジョブが同時に動いて何らかの問題が起きているのではないかと推定します。
拡張ジョブアイコン処理は、サーバ上ですので同時実行での問題はないはずです。
6個並列の中のフローは見えませんので判りませんが、同時刻に実行開始されるジョブアイコンの直前で拡張ジョブアイコンの時刻待ち合わせでずらすことは有効と思います。

過去事例等と併せて、エラー回避策等ご教示いただけますと幸いです。

過去の類似事象にはVer3.4で対応されたSQLiteのファイルを掴みあった問題などがあります。
こうした事象の調査には発生時のAgentログ、SQLiteDBの等の調査が必要となります。
https://www.jobarranger.info/jaz/jaz_release_note.html#side500t

再発時にこうした情報を確保頂けると幸甚です。

速やかな返信のためにサポート契約をご検討頂ければ幸甚です。
宜しくお願い致します。

Updated by Anonymous 7 months ago

保守サポートご担当様
再度、詳細にご回答頂きまして誠にありがとうございます。

拡張ジョブアイコン処理は、サーバ上ですので同時実行での問題はないはずです。
6個並列の中のフローは見えませんので判りませんが、同時刻に実行開始されるジョブアイコンの直前で拡張ジョブアイコンの時刻待ち合わせでずらすことは有効と思います。

WindowsAgentとジョブアイコン/拡張ジョブアイコンの関係について、理解いたしました。
ご提案頂きました改善策を実施いたします。
詳細にご解説頂きまして、有難うございます。

過去の類似事象にはVer3.4で対応されたSQLiteのファイルを掴みあった問題などがあります。
こうした事象の調査には発生時のAgentログ、SQLiteDBの等の調査が必要となります。

類似事例につきましても、ご提示頂きまして有難うございます。
万一再発した場合は、ご記載頂いたファイル等を提示出来るようにさせていただきます。

この度は丁寧にご回答頂きまして、誠に有難うございました。
今後とも、何卒よろしくお願いいたします。

Also available in: Atom PDF