操作問い合わせ #2958
closedジョブの異常終了について
Description
ご担当者様
複数のジョブが異常終了しており、原因を調査しています。
ログを見ると、 query failed、the database is busy等の状況であったようですが、
原因・対処方法についてご教授頂けますでしょうか。
■クライアントログ
64343:20180731:101004.886 [INFO] In ja_agent_begin() jobid: 3558046, method: 0
64343:20180731:101004.886 [DEBUG] In ja_extjob_script()
64343:20180731:101004.886 [DEBUG] In ja_jobdb_insert() jobid: 3558046
64343:20180731:101004.886 [DEBUG] query [BEGIN IMMEDIATE;]
64343:20180731:101004.886 [DEBUG] In ja_journal_save() filename: /var/lib/jobarranger/jobarg_agentd.db.jajournal
64343:20180731:101004.886 [DEBUG] In ja_jobdb_get_status() jobid: 3558046
64343:20180731:101004.886 [DEBUG] query [select status from jobs where jobid = 3558046]
64343:20180731:101004.886 [WARN] In ja_jobdb_get_status() can not find jobid: 3558046
64343:20180731:101004.886 [DEBUG] In ja_jobdb_replace() jobid: 3558046
64343:20180731:101004.886 [DEBUG] query [replace into jobs values (3558046, 1, '20180722164633730' , 0, 'extjob', '[ "\/opt\/SystemIntegrator\/webshop\/batch\/JobExecutableRep", "0", "0" ]', '"/etc/jobarranger/extendedjob/jafcheck.sh" "/opt/SystemIntegrator/webshop/batch/JobExecutableRep" "0" "0"', '{ }', 0, 0, 0, 0, 0, '', '', '', -1, 0, '', '')]
64343:20180731:101004.887 [ERROR] query failed: [replace into jobs values (3558046, 1, '20180722164633730' , 0, 'extjob', '[ "\/opt\/SystemIntegrator\/webshop\/batch\/JobExecutableRep", "0", "0" ]', '"/etc/jobarranger/extendedjob/jafcheck.sh" "/opt/SystemIntegrator/webshop/batch/JobExecutableRep" "0" "0"', '{ }', 0, 0, 0, 0, 0, '', '', '', -1, 0, '', '')] error [database disk image is malformed]
64342:20180731:101005.863 [WARN] the database is busy.
■サーバログ
119268:20180731:100643.767 [ERROR] [JARUNAGENT200004] In jarun_agent() error response received. inner_job_id: 3558046 message: [ZBX_TCP_READ() failed: [4] Interrupted system call]
119265:20180731:100643.768 [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 3558035 status is RUNERR jobnet_id: EC_00071, job_id: EC_00071/EC_EXE_CHK_0020/FWAIT-1, user_name: Admin, job_exit_cd: , icon_status:
119268:20180731:100643.772 [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 3558046 status is RUNERR jobnet_id: EC_00072, job_id: EC_00072/EC_EXE_CHK_0020/FWAIT-1, user_name: Admin, job_exit_cd: , icon_status:
119273:20180731:100643.775 [ERROR] In ja_tcp_recv_to() message: ZBX_TCP_READ() failed: [4] Interrupted system call
1088:20180731:100644.441 [ERROR] In message_send() failed to execute the command. command: (2) [/bin/zabbix_sender -z 'xx.xx.xx.xx' -p '10051' -s 'Zabbix server' -k 'jasender' -o '[2018/07/31 10:06:43] [ERROR] [JARUNAGENT200004] In jarun_agent() error response received. inner_job_id: 3558046 message: [ZBX_TCP_READ() failed: [4] Interrupted system call] (USER NAME=Admin HOST=aaaaaa JOBNET=EC_00072 JOB=EC_00072/EC_EXE_CHK_0020/FWAIT-1 INNER_JOBNET_MAIN_ID=665984)']
info from server: "processed: 0; failed: 1; total: 1; seconds spent: 0.000034"
sent: 1; skipped: 0; total: 1
<環境>
サーバ
OS :CentOS Linux release 7.5
Zabbix server :3.0.18
MariaDB server :10.1.34
Job Arranger Server:3.4.0
クライアント
OS :CentOS Linux release 7.4
Zabbix agent :3.0.13
Job Arranger Agent:3.4.0
Updated by 保守サポート 担当 about 6 years ago
- Status changed from 新規登録 to 回答中
ジョブアレンジャーのご利用ありがとうございます。
#2931 で類似の質問に回答しておりますので、ご確認下さい。
※右上の検索欄にキーワード(例えば malformed)を入れて過去のQAを検索できます。
このエラーはエージェントサーバ上のSqliteのクラッシュによるエラーになります。
発生している環境、バージョン情報、ジョブの実行条件(同一エージェントで同時実行があるか)、
発生頻度や発生の無いサーバとの違い等の情報を開示頂ければ助かります。
速やかな返信のためにサポート契約をご検討頂ければ幸甚です。
宜しくお願い致します。
Updated by Anonymous about 6 years ago
環境は以下になります。
サーバ
OS :CentOS Linux release 7.5
Zabbix server :3.0.18
MariaDB server :10.1.34
Job Arranger Server:3.4.0
クライアント
OS :CentOS Linux release 7.4
Zabbix agent :3.0.13
Job Arranger Agent:3.4.0
ジョブの実行条件(同一エージェントで同時実行があるか)についてですが、
エージェントログやJOB設定のエクスポートでも確認できるでしょうか?
ファイルは提供可能ですが、こちらのオープンな環境にアップロードする事が出来ない為、
可能であれば、ご担当者様のメールアドレスをご教授頂けないでしょうか。
Updated by 保守サポート 担当 about 6 years ago
情報ありがとうございました。
ジョブの実行条件(同一エージェントで同時実行があるか)についてですが、
エージェントログやJOB設定のエクスポートでも確認できるでしょうか?
同一エージェントでの同時実行は当該エージェントのログで、ほぼ同時刻で開始されているジョブの有無で分かります。
本お問合せの■クライアントログは部分ですが、例えば10時10分で開始されている他のジョブあれば、同時刻で実行のスケジュールがあったことになります。
可能であれば、ご担当者様のメールアドレスをご教授頂けないでしょうか。
申し訳ありませんが、メール・お電話での問合せ対応はサポート契約のユーザ様向けサービスとなっております。
●原因・対処方法について
/var/lib/jobarranger以下にあるSqliteのDBになんらかの問題が起きているのではと思います。
エージェントを再起動し同じジョブを実行し、同じエラーが出るようでしたら一旦どこかに退避し、
/var/lib/jobarranger以下にあるデータを削除してエージェント再起動し、同じジョブを実行して頂けますか?
過去例では削除して回復したと言うご報告もあります。
本エラーについてこちら側で再現に至っておりません。
ですので、このエラーが確実に起きるケースについて情報(起きないケースと比較しどういった条件の差異があるか等)を頂ければ幸甚です。
よろしくお願いいたします。
Updated by Anonymous about 6 years ago
ご連絡ありがとうございます。以下について実施してみます。
エージェントを再起動し同じジョブを実行し、同じエラーが出るようでしたら一旦どこかに退避し、
/var/lib/jobarranger以下にあるデータを削除してエージェント再起動し、同じジョブを実行して頂けますか?
過去例では削除して回復したと言うご報告もあります。
設定ファイルやログファイルを提供する場合に、このサイト上では無く、
セキュアな環境(他のインターネットのアクセス者から見られない)に
アップロードすることは無理でしょうか?
Updated by 保守サポート 担当 about 6 years ago
ご連絡ありがとうございます。以下について実施してみます。
データ削除、エージェント再起動した結果はいかがでしょうか?
確実に起きるようなら、他の問題ないケースとの環境・その他の条件の相異を確認して頂ければと存じます。
設定ファイルやログファイルを提供する場合に、このサイト上では無く、
セキュアな環境(他のインターネットのアクセス者から見られない)に
アップロードすることは無理でしょうか?
本サイトにつきましては、公開可の情報のみになります。
非公開の個別対応につきましてはご契約者ユーザ向けのサービスとなります。
サポート契約につきましてご検討頂ければ幸甚です。
よろしくお願いいたします。