プロジェクト

全般

プロフィール

その他問い合わせ #3638

完了

ジョブが異常終了となる原因について

匿名ユーザー さんが約2年前に追加. 約1年前に更新.

ステータス:
終了
優先度:
通常
担当者:
-
開始日:
2022/06/21

説明

Pythonスクリプトを実行するのみのシンプルなジョブネットを即時実行させたところ、以下のエラーでジョブが止まってしまいます。
どのようなことが原因として考えられますでしょうか?

zabbix: 6.0.1
Job Arranger: 6

■jobarg_server.log

 21668:20220621:162917.519 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [14485], message [received data is null]
 21668:20220621:162917.544 [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 14485 status is RUNERR jobnet_id: ****-TEST-000, job_id: ****-TEST-000/JOB-1, user_name: Admin, job_exit_cd: , icon_status: 2
Response from "***.***.***.***:10051": "processed: 0; failed: 1; total: 1; seconds spent: 0.000026" 
sent: 1; skipped: 0; total: 1
  1080:20220621:162917.834 [ERROR] In message_send() failed to execute the command. command: (2) [/usr/bin/zabbix_sender -z '***.***.***.***' -p '10051' -s 'Zabbix server' -k 'jasender' -o '[2022/06/21 16:29:17] [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [14485], message [received data is null] (USER NAME=Admin HOST=Zabbix server JOBNET=****-TEST-000 JOB=****-TEST-000/JOB-1 INNER_JOBNET_MAIN_ID=1500000000000000470)']
Response from "***.***.***.***:10051": "processed: 0; failed: 1; total: 1; seconds spent: 0.000028" 
sent: 1; skipped: 0; total: 1
  1080:20220621:162917.843 [ERROR] In message_send() failed to execute the command. command: (2) [/usr/bin/zabbix_sender -z '***.***.***.***' -p '10051' -s 'Zabbix server' -k 'jasender' -o '[2022/06/21 16:29:17] [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 14485 status is RUNERR jobnet_id: ****-TEST-000, job_id: ****-TEST-000/JOB-1, user_name: Admin, job_exit_cd: , icon_status: 2 (USER NAME=Admin HOST=Zabbix server JOBNET=****-TEST-000 JOB=****-TEST-000/JOB-1 INNER_JOBNET_MAIN_ID=1500000000000000470)']

■jobarg_agentd.log

jobarg_agentd: malloc.c:4048: _int_malloc: Assertion `(unsigned long) (size) >= (unsigned long) (nb)' failed.
 21430:20220621:162917.498 [CRIT] One child process died (PID:21432,exitcode/signal:6). Exiting ...
 21430:20220621:162919.498 [INFO] Job Arranger Agent stopped. Job Arranger 6.0.0 (revision 2258).
 21715:20220621:162929.699 [INFO] Starting Job Arranger Agent. Job Arranger 6.0.0 (revision 2258).
 21715:20220621:162929.699 [INFO] Use folder [/var/lib/jobarranger/tmp/begin]
 21715:20220621:162929.699 [INFO] Use folder [/var/lib/jobarranger/tmp/close]
 21715:20220621:162929.699 [INFO] Use folder [/var/lib/jobarranger/tmp/data]
 21715:20220621:162929.699 [INFO] Use folder [/var/lib/jobarranger/tmp/end]
 21715:20220621:162929.699 [INFO] Use folder [/var/lib/jobarranger/tmp/error]
 21715:20220621:162929.699 [INFO] Use folder [/var/lib/jobarranger/tmp/exec]
 21717:20220621:162929.700 [INFO] jobarg_agentd #0 started [executive]
 21718:20220621:162929.700 [INFO] jobarg_agentd #1 started [listener]
 21719:20220621:162929.700 [INFO] jobarg_agentd #2 started [jabackup]


ファイル

ジョブネット.jpg (98.4 KB) ジョブネット.jpg 匿名ユーザー, 2022/06/21 18:28
JOB-1変数表示.jpg (105 KB) JOB-1変数表示.jpg 匿名ユーザー, 2022/06/21 18:28
JOB-1_設定内容.jpg (75.5 KB) JOB-1_設定内容.jpg 匿名ユーザー, 2022/06/28 10:32
BMS_jobnet_Manager_Primary.py (36 Bytes) BMS_jobnet_Manager_Primary.py 匿名ユーザー, 2022/06/28 10:46
jobarg_agentd.log (46 KB) jobarg_agentd.log 匿名ユーザー, 2022/06/28 10:54
jobarg_agentd.conf (6.24 KB) jobarg_agentd.conf 匿名ユーザー, 2022/06/28 10:59

保守サポート 担当 さんが約2年前に更新

  • ステータス新規登録 から 回答中 に変更

ジョブアレンジャーのご利用ありがとうございます。

Pythonスクリプトを実行するのみのシンプルなジョブネットを即時実行させたところ、以下のエラーでジョブが止まってしまいます。
どのようなことが原因として考えられますでしょうか?

ログより、ジョブネット即時実行で動いたJOB-1が、Agentでエラーを惹き起こしています。
原因調査の為、以下の情報をいただけますか?

①JOB-1設定内容(ジョブアイコンの設定画面のキャプチャで)
②差支えない範囲で Pythonスクリプトの内容、ソース情報
③このエラーは再現性(実行の度に同じ現象が発生する)がありますね?
 できましたら、そのエラー発生時のjobarg_agentd.log をファイルでいただけますか。
④他のジョブは問題なく実行できますでしょうか?
 特定のPythonスクリプトを実行するジョブのみの発生かの確認です。
⑤エラー発生のAgentサーバの jobarg_agentd.conf をファイルでいただけますか。

 ※上記機密情報部分は書換え、塗りつぶしで結構ですので。

以上宜しくお願い致します。

匿名ユーザー さんが約2年前に更新

本事象、一度発生すると再現性があるのですが、ジョブ実行欄を下記のように変更を繰り返すと再現しなくなります。
1. 当該Pythonスクリプト ⇒ 再現する
2. 他のPythonスクリプト ⇒ 再現しない
3. 当該Pythonスクリプト ⇒ 再現しない
※Zibbixサーバを再起動するとまた再現するようになります。

①JOB-1設定内容(ジョブアイコンの設定画面のキャプチャで)

添付いたします。
ジョブコントローラ変数にて、以下の変数を選択しています。
JOBNET_ID
JOB_ID
MANAGEMENT_ID

②差支えない範囲で Pythonスクリプトの内容、ソース情報

添付いたします。

③このエラーは再現性(実行の度に同じ現象が発生する)がありますね?
できましたら、そのエラー発生時のjobarg_agentd.log をファイルでいただけますか。

再現性は冒頭の通りになります。
jobarg_agentd.log を添付いたします。

④他のジョブは問題なく実行できますでしょうか?

問題なく実行できております。

⑤エラー発生のAgentサーバの jobarg_agentd.conf をファイルでいただけますか。

添付いたします。

以上、何卒よろしくお願いいたします。

保守サポート 担当 さんが約2年前に更新

情報、資料のご提供大変ありがとうございました。

こちらでも同類の事象再現ができました。
原因・対応につきましてはさらに詳細を調査中ですが、この発生を回避することは出来ると思います。

大変に恐縮ですが、ジョブアイコンの以下の記述を
 python3 /BmsAppl/jobCenter/BMS_jobnet_Manager_Primary.py
全体の文字列の長さが変わるように書き換えて設定し、実行を試していただけませんでしょうか?
以下例ではpyプログラムの名前を変えましたが、パスの方で変えて頂いても結果は同様かと思います。
 python3 /BmsAppl/jobCenter/BMS_jobnet_Manager_Primary_1.py

その結果をお知らせ頂ければ幸甚です。

以上よろしくお願いいたします。

匿名ユーザー さんが約2年前に更新

回避方法ありがとうございます。
こちらにて再現しなくなることを確認いたしました。
何度かサーバを再起動して確認しましたが、正常に動作しております。

原因・対応につきましては、
引き続き、何卒よろしくお願いいたします。

保守サポート 担当2 さんが約1年前に更新

  • ステータス回答中 から 終了 に変更

他の形式にエクスポート: Atom PDF