Project

General

Profile

その他問い合わせ #3614

JobArranger Agentプロセスが突然再起動する

Added by Anonymous 3 months ago. Updated 3 months ago.

Status:
回答中
Priority:
高め
Assignee:
-
Start date:
10/26/2021

Description

Zabbix / JobArranger version5環境で運用しています。
先日、突然ジョブが異常終了し、ログを確認したのですが、
エージェント側のジョブログは記録されていませんでした。
そこで、エージェントサーバのMessageログをみたところ、
JobArrangerサービスがkillされているようなログが見受けられました。
人為的にkillコマンド等は実行していないのですが、
このように突然、JobArrangerサービスが再起動することはあるのでしょうか?
また、突然再起動することについて、有効な対処方法をご教授頂けますでしょうか。
JobArrangerログはエラーの記載がありましたので、転記します。

Agent    :jobarranger-agentd-5.0.1-1.el7.x86_64
JobServer  :jobarranger-server-mysql-5.0.0-1.el8.x86_64.rpm
ZABBIXサーバ :5.0.1

■エージェントサーバのMessageログ
Oct 24 13:30:33 ホスト名 kill: Usage:
Oct 24 13:30:33 ホスト名 kill: kill [options] <pid|name> [...]
Oct 24 13:30:33 ホスト名 kill: オプション:
Oct 24 13:30:33 ホスト名 kill: -a, --all do not restrict the name-to-pid conversion to processes
Oct 24 13:30:33 ホスト名 kill: with the same uid as the present process
Oct 24 13:30:33 ホスト名 kill: -s, --signal <sig> send specified signal
Oct 24 13:30:33 ホスト名 kill: -q, --queue <sig> use sigqueue(2) rather than kill(2)
Oct 24 13:30:33 ホスト名 kill: -p, --pid print pids without signaling them
Oct 24 13:30:33 ホスト名 kill: -l, --list [=<signal>] list signal names, or convert one to a name
Oct 24 13:30:33 ホスト名 kill: -L, --table list signal names and numbers
Oct 24 13:30:33 ホスト名 kill: -h, --help display this help and exit
Oct 24 13:30:33 ホスト名 kill: -V, --version output version information and exit
Oct 24 13:30:33 ホスト名 kill: For more details see kill(1).
Oct 24 13:30:33 ホスト名 systemd: jobarg-agentd.service: control process exited, code=exited status=1
Oct 24 13:30:33 ホスト名 systemd: Unit jobarg-agentd.service entered failed state.
Oct 24 13:30:33 ホスト名 systemd: jobarg-agentd.service failed.
Oct 24 13:30:33 ホスト名 rsyslogd: action 'action 7' resumed (module 'builtin:omfwd') [v8.24.0 try http://www.rsyslog.com/e/2359 ]
Oct 24 13:30:33 ホスト名 rsyslogd: action 'action 7' resumed (module 'builtin:omfwd') [v8.24.0 try http://www.rsyslog.com/e/2359 ]
Oct 24 13:30:43 ホスト名 systemd: jobarg-agentd.service holdoff time over, scheduling restart.
Oct 24 13:30:43 ホスト名 systemd: Starting Jobarranger Agent...
Oct 24 13:30:43 ホスト名 systemd: PID file /run/jobarranger/jobarg_agentd.pid not readable (yet?) after start.
Oct 24 13:30:43 ホスト名 systemd: Started Jobarranger Agent.

■JobServerログ
894979:20211024:132900.125 [INFO] [JABOOT000001] skipped the start of jobnet: inner jobnet id100967 jobnet id[job1] scheduled time202110241329
3894979:20211024:133000.323 [INFO] [JABOOT000001] skipped the start of jobnet: inner jobnet id100972 jobnet id[job1] scheduled time202110241330
3867294:20211024:133031.337 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [731272], message [received data is null]
3867294:20211024:133031.357 [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 731272 status is RUNERR jobnet_id: job5, job_id: job5/Check, user_name: Ad
min, job_exit_cd: , icon_status: 2
Response from "10.100.2.17:10051": "processed: 1; failed: 0; total: 1; seconds spent: 0.000053"
sent: 1; skipped: 0; total: 1
Response from "10.100.2.17:10051": "processed: 1; failed: 0; total: 1; seconds spent: 0.000051"
sent: 1; skipped: 0; total: 1
3867412:20211024:133033.342 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [731225], message [received data is null]
3867295:20211024:133033.343 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [731278], message [received data is null]
3867412:20211024:133033.351 [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 731225 status is RUNERR jobnet_id: job2, job_id: job2/Check, user_name: Ad
min, job_exit_cd: , icon_status: 2
3867295:20211024:133033.352 [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 731278 status is RUNERR jobnet_id: job3, job_id: job3/Check, user_name: Ad
min, job_exit_cd: , icon_status: 2
Response from "10.100.2.17:10051": "processed: 1; failed: 0; total: 1; seconds spent: 0.000065"
sent: 1; skipped: 0; total: 1
Response from "10.100.2.17:10051": "processed: 1; failed: 0; total: 1; seconds spent: 0.000033"
sent: 1; skipped: 0; total: 1
Response from "10.100.2.17:10051": "processed: 1; failed: 0; total: 1; seconds spent: 0.000052"
sent: 1; skipped: 0; total: 1
Response from "10.100.2.17:10051": "processed: 1; failed: 0; total: 1; seconds spent: 0.000064"
sent: 1; skipped: 0; total: 1
3894975:20211024:133049.572 [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 729900 status is RUNERR jobnet_id: job4, job_id: job4/JOB-1, user_name: Admin
, job_exit_cd: -1, icon_status: 2
Response from "10.100.2.17:10051": "processed: 1; failed: 0; total: 1; seconds spent: 0.000062"
sent: 1; skipped: 0; total: 1

Updated by 保守サポート 担当 3 months ago

  • Status changed from 新規登録 to 回答中

ジョブアレンジャーのご利用有難うございます。

このように突然、JobArrangerサービスが再起動することはあるのでしょうか?
また、突然再起動することについて、有効な対処方法をご教授頂けますでしょうか。

通常のJobArranger稼働でJobArranger自体でこういった事象発生の報告事例は過去ございません。
ログを見ますと Jobarranger Agentに対し、killコマンドが実行され、systemdの仕組みにより再起動されているのは間違いないようです。

人為的なkillコマンド実行はないとのことですが、何かがKillを行う要因はありませんでしょうか?
発生サーバ、発生のないサーバの環境的な差異による何かが関わっているという事はないでしょうか?

速やかな返信・対応のためにサポート契約をご検討頂ければ幸甚です。
宜しくお願い致します。

Also available in: Atom PDF