Project

General

Profile

Edit Actions

その他問い合わせ #3638

closed

ジョブが異常終了となる原因について

Added by Anonymous over 2 years ago. Updated over 1 year ago.

Status:
終了
Priority:
通常
Assignee:
-
Start date:
06/21/2022

Description

Pythonスクリプトを実行するのみのシンプルなジョブネットを即時実行させたところ、以下のエラーでジョブが止まってしまいます。
どのようなことが原因として考えられますでしょうか?

zabbix: 6.0.1
Job Arranger: 6

■jobarg_server.log

 21668:20220621:162917.519 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [14485], message [received data is null]
 21668:20220621:162917.544 [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 14485 status is RUNERR jobnet_id: ****-TEST-000, job_id: ****-TEST-000/JOB-1, user_name: Admin, job_exit_cd: , icon_status: 2
Response from "***.***.***.***:10051": "processed: 0; failed: 1; total: 1; seconds spent: 0.000026" 
sent: 1; skipped: 0; total: 1
  1080:20220621:162917.834 [ERROR] In message_send() failed to execute the command. command: (2) [/usr/bin/zabbix_sender -z '***.***.***.***' -p '10051' -s 'Zabbix server' -k 'jasender' -o '[2022/06/21 16:29:17] [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [14485], message [received data is null] (USER NAME=Admin HOST=Zabbix server JOBNET=****-TEST-000 JOB=****-TEST-000/JOB-1 INNER_JOBNET_MAIN_ID=1500000000000000470)']
Response from "***.***.***.***:10051": "processed: 0; failed: 1; total: 1; seconds spent: 0.000028" 
sent: 1; skipped: 0; total: 1
  1080:20220621:162917.843 [ERROR] In message_send() failed to execute the command. command: (2) [/usr/bin/zabbix_sender -z '***.***.***.***' -p '10051' -s 'Zabbix server' -k 'jasender' -o '[2022/06/21 16:29:17] [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 14485 status is RUNERR jobnet_id: ****-TEST-000, job_id: ****-TEST-000/JOB-1, user_name: Admin, job_exit_cd: , icon_status: 2 (USER NAME=Admin HOST=Zabbix server JOBNET=****-TEST-000 JOB=****-TEST-000/JOB-1 INNER_JOBNET_MAIN_ID=1500000000000000470)']

■jobarg_agentd.log

jobarg_agentd: malloc.c:4048: _int_malloc: Assertion `(unsigned long) (size) >= (unsigned long) (nb)' failed.
 21430:20220621:162917.498 [CRIT] One child process died (PID:21432,exitcode/signal:6). Exiting ...
 21430:20220621:162919.498 [INFO] Job Arranger Agent stopped. Job Arranger 6.0.0 (revision 2258).
 21715:20220621:162929.699 [INFO] Starting Job Arranger Agent. Job Arranger 6.0.0 (revision 2258).
 21715:20220621:162929.699 [INFO] Use folder [/var/lib/jobarranger/tmp/begin]
 21715:20220621:162929.699 [INFO] Use folder [/var/lib/jobarranger/tmp/close]
 21715:20220621:162929.699 [INFO] Use folder [/var/lib/jobarranger/tmp/data]
 21715:20220621:162929.699 [INFO] Use folder [/var/lib/jobarranger/tmp/end]
 21715:20220621:162929.699 [INFO] Use folder [/var/lib/jobarranger/tmp/error]
 21715:20220621:162929.699 [INFO] Use folder [/var/lib/jobarranger/tmp/exec]
 21717:20220621:162929.700 [INFO] jobarg_agentd #0 started [executive]
 21718:20220621:162929.700 [INFO] jobarg_agentd #1 started [listener]
 21719:20220621:162929.700 [INFO] jobarg_agentd #2 started [jabackup]


Files

ジョブネット.jpg (98.4 KB) ジョブネット.jpg Anonymous, 06/21/2022 06:28 PM
JOB-1変数表示.jpg (105 KB) JOB-1変数表示.jpg Anonymous, 06/21/2022 06:28 PM
JOB-1_設定内容.jpg (75.5 KB) JOB-1_設定内容.jpg Anonymous, 06/28/2022 10:32 AM
BMS_jobnet_Manager_Primary.py (36 Bytes) BMS_jobnet_Manager_Primary.py Anonymous, 06/28/2022 10:46 AM
jobarg_agentd.log (46 KB) jobarg_agentd.log Anonymous, 06/28/2022 10:54 AM
jobarg_agentd.conf (6.24 KB) jobarg_agentd.conf Anonymous, 06/28/2022 10:59 AM

Updated by 保守サポート 担当 over 2 years ago

  • Status changed from 新規登録 to 回答中

ジョブアレンジャーのご利用ありがとうございます。

Pythonスクリプトを実行するのみのシンプルなジョブネットを即時実行させたところ、以下のエラーでジョブが止まってしまいます。
どのようなことが原因として考えられますでしょうか?

ログより、ジョブネット即時実行で動いたJOB-1が、Agentでエラーを惹き起こしています。
原因調査の為、以下の情報をいただけますか?

①JOB-1設定内容(ジョブアイコンの設定画面のキャプチャで)
②差支えない範囲で Pythonスクリプトの内容、ソース情報
③このエラーは再現性(実行の度に同じ現象が発生する)がありますね?
 できましたら、そのエラー発生時のjobarg_agentd.log をファイルでいただけますか。
④他のジョブは問題なく実行できますでしょうか?
 特定のPythonスクリプトを実行するジョブのみの発生かの確認です。
⑤エラー発生のAgentサーバの jobarg_agentd.conf をファイルでいただけますか。

 ※上記機密情報部分は書換え、塗りつぶしで結構ですので。

以上宜しくお願い致します。

Updated by Anonymous over 2 years ago

本事象、一度発生すると再現性があるのですが、ジョブ実行欄を下記のように変更を繰り返すと再現しなくなります。
1. 当該Pythonスクリプト ⇒ 再現する
2. 他のPythonスクリプト ⇒ 再現しない
3. 当該Pythonスクリプト ⇒ 再現しない
※Zibbixサーバを再起動するとまた再現するようになります。

①JOB-1設定内容(ジョブアイコンの設定画面のキャプチャで)

添付いたします。
ジョブコントローラ変数にて、以下の変数を選択しています。
JOBNET_ID
JOB_ID
MANAGEMENT_ID

②差支えない範囲で Pythonスクリプトの内容、ソース情報

添付いたします。

③このエラーは再現性(実行の度に同じ現象が発生する)がありますね?
できましたら、そのエラー発生時のjobarg_agentd.log をファイルでいただけますか。

再現性は冒頭の通りになります。
jobarg_agentd.log を添付いたします。

④他のジョブは問題なく実行できますでしょうか?

問題なく実行できております。

⑤エラー発生のAgentサーバの jobarg_agentd.conf をファイルでいただけますか。

添付いたします。

以上、何卒よろしくお願いいたします。

Updated by 保守サポート 担当 over 2 years ago

情報、資料のご提供大変ありがとうございました。

こちらでも同類の事象再現ができました。
原因・対応につきましてはさらに詳細を調査中ですが、この発生を回避することは出来ると思います。

大変に恐縮ですが、ジョブアイコンの以下の記述を
 python3 /BmsAppl/jobCenter/BMS_jobnet_Manager_Primary.py
全体の文字列の長さが変わるように書き換えて設定し、実行を試していただけませんでしょうか?
以下例ではpyプログラムの名前を変えましたが、パスの方で変えて頂いても結果は同様かと思います。
 python3 /BmsAppl/jobCenter/BMS_jobnet_Manager_Primary_1.py

その結果をお知らせ頂ければ幸甚です。

以上よろしくお願いいたします。

Updated by Anonymous over 2 years ago

回避方法ありがとうございます。
こちらにて再現しなくなることを確認いたしました。
何度かサーバを再起動して確認しましたが、正常に動作しております。

原因・対応につきましては、
引き続き、何卒よろしくお願いいたします。

Actions #5

Updated by 保守サポート 担当2 over 1 year ago

  • Status changed from 回答中 to 終了
Edit Actions

Also available in: Atom PDF