プロジェクト

全般

プロフィール

操作問い合わせ #2958

ジョブの異常終了について

匿名ユーザー が3ヶ月前に追加. 2ヶ月前に更新.

ステータス:
回答中
優先度:
高め
担当者:
-
開始日:
2018/07/31
期日:
進捗率:

0%


説明

ご担当者様

複数のジョブが異常終了しており、原因を調査しています。
ログを見ると、 query failed、the database is busy等の状況であったようですが、
原因・対処方法についてご教授頂けますでしょうか。

■クライアントログ
64343:20180731:101004.886 [INFO] In ja_agent_begin() jobid: 3558046, method: 0
64343:20180731:101004.886 [DEBUG] In ja_extjob_script()
64343:20180731:101004.886 [DEBUG] In ja_jobdb_insert() jobid: 3558046
64343:20180731:101004.886 [DEBUG] query [BEGIN IMMEDIATE;]
64343:20180731:101004.886 [DEBUG] In ja_journal_save() filename: /var/lib/jobarranger/jobarg_agentd.db.jajournal
64343:20180731:101004.886 [DEBUG] In ja_jobdb_get_status() jobid: 3558046
64343:20180731:101004.886 [DEBUG] query [select status from jobs where jobid = 3558046]
64343:20180731:101004.886 [WARN] In ja_jobdb_get_status() can not find jobid: 3558046
64343:20180731:101004.886 [DEBUG] In ja_jobdb_replace() jobid: 3558046
64343:20180731:101004.886 [DEBUG] query [replace into jobs values (3558046, 1, '20180722164633730' , 0, 'extjob', '[ "\/opt\/SystemIntegrator\/webshop\/batch\/JobExecutableRep", "0", "0" ]', '"/etc/jobarranger/extendedjob/jafcheck.sh" "/opt/SystemIntegrator/webshop/batch/JobExecutableRep" "0" "0"', '{ }', 0, 0, 0, 0, 0, '', '', '', -1, 0, '', '')]
64343:20180731:101004.887 [ERROR] query failed: [replace into jobs values (3558046, 1, '20180722164633730' , 0, 'extjob', '[ "\/opt\/SystemIntegrator\/webshop\/batch\/JobExecutableRep", "0", "0" ]', '"/etc/jobarranger/extendedjob/jafcheck.sh" "/opt/SystemIntegrator/webshop/batch/JobExecutableRep" "0" "0"', '{ }', 0, 0, 0, 0, 0, '', '', '', -1, 0, '', '')] error [database disk image is malformed]
64342:20180731:101005.863 [WARN] the database is busy.

■サーバログ
119268:20180731:100643.767 [ERROR] [JARUNAGENT200004] In jarun_agent() error response received. inner_job_id: 3558046 message: [ZBX_TCP_READ() failed: [4] Interrupted system call]
119265:20180731:100643.768 [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 3558035 status is RUNERR jobnet_id: EC_00071, job_id: EC_00071/EC_EXE_CHK_0020/FWAIT-1, user_name: Admin, job_exit_cd: , icon_status:
119268:20180731:100643.772 [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 3558046 status is RUNERR jobnet_id: EC_00072, job_id: EC_00072/EC_EXE_CHK_0020/FWAIT-1, user_name: Admin, job_exit_cd: , icon_status:
119273:20180731:100643.775 [ERROR] In ja_tcp_recv_to() message: ZBX_TCP_READ() failed: [4] Interrupted system call

1088:20180731:100644.441 [ERROR] In message_send() failed to execute the command. command: (2) [/bin/zabbix_sender -z 'xx.xx.xx.xx' -p '10051' -s 'Zabbix server' -k 'jasender' -o '[2018/07/31 10:06:43] [ERROR] [JARUNAGENT200004] In jarun_agent() error response received. inner_job_id: 3558046 message: [ZBX_TCP_READ() failed: [4] Interrupted system call] (USER NAME=Admin HOST=aaaaaa JOBNET=EC_00072 JOB=EC_00072/EC_EXE_CHK_0020/FWAIT-1 INNER_JOBNET_MAIN_ID=665984)']
info from server: "processed: 0; failed: 1; total: 1; seconds spent: 0.000034"
sent: 1; skipped: 0; total: 1

<環境>
サーバ
 OS :CentOS Linux release 7.5
 Zabbix server :3.0.18
 MariaDB server :10.1.34
 Job Arranger Server:3.4.0
クライアント
 OS :CentOS Linux release 7.4
 Zabbix agent :3.0.13
 Job Arranger Agent:3.4.0

履歴

#1 保守サポート 担当3ヶ月前に更新

  • ステータス新規登録 から 回答中 に変更

ジョブアレンジャーのご利用ありがとうございます。

#2931 で類似の質問に回答しておりますので、ご確認下さい。
※右上の検索欄にキーワード(例えば malformed)を入れて過去のQAを検索できます。

このエラーはエージェントサーバ上のSqliteのクラッシュによるエラーになります。
発生している環境、バージョン情報、ジョブの実行条件(同一エージェントで同時実行があるか)、
発生頻度や発生の無いサーバとの違い等の情報を開示頂ければ助かります。

速やかな返信のためにサポート契約をご検討頂ければ幸甚です。
宜しくお願い致します。

#2 匿名ユーザー が3ヶ月前に更新

環境は以下になります。
サーバ
 OS :CentOS Linux release 7.5
 Zabbix server :3.0.18
 MariaDB server :10.1.34
 Job Arranger Server:3.4.0
クライアント
 OS :CentOS Linux release 7.4
 Zabbix agent :3.0.13
 Job Arranger Agent:3.4.0

ジョブの実行条件(同一エージェントで同時実行があるか)についてですが、
エージェントログやJOB設定のエクスポートでも確認できるでしょうか?
ファイルは提供可能ですが、こちらのオープンな環境にアップロードする事が出来ない為、
可能であれば、ご担当者様のメールアドレスをご教授頂けないでしょうか。

#3 保守サポート 担当3ヶ月前に更新

情報ありがとうございました。

ジョブの実行条件(同一エージェントで同時実行があるか)についてですが、
エージェントログやJOB設定のエクスポートでも確認できるでしょうか?

同一エージェントでの同時実行は当該エージェントのログで、ほぼ同時刻で開始されているジョブの有無で分かります。
本お問合せの■クライアントログは部分ですが、例えば10時10分で開始されている他のジョブあれば、同時刻で実行のスケジュールがあったことになります。

可能であれば、ご担当者様のメールアドレスをご教授頂けないでしょうか。

申し訳ありませんが、メール・お電話での問合せ対応はサポート契約のユーザ様向けサービスとなっております。

●原因・対処方法について
/var/lib/jobarranger以下にあるSqliteのDBになんらかの問題が起きているのではと思います。

エージェントを再起動し同じジョブを実行し、同じエラーが出るようでしたら一旦どこかに退避し、
/var/lib/jobarranger以下にあるデータを削除してエージェント再起動し、同じジョブを実行して頂けますか?
過去例では削除して回復したと言うご報告もあります。
本エラーについてこちら側で再現に至っておりません。
ですので、このエラーが確実に起きるケースについて情報(起きないケースと比較しどういった条件の差異があるか等)を頂ければ幸甚です。

よろしくお願いいたします。

#4 匿名ユーザー が3ヶ月前に更新

ご連絡ありがとうございます。以下について実施してみます。

エージェントを再起動し同じジョブを実行し、同じエラーが出るようでしたら一旦どこかに退避し、
/var/lib/jobarranger以下にあるデータを削除してエージェント再起動し、同じジョブを実行して頂けますか?
過去例では削除して回復したと言うご報告もあります。

設定ファイルやログファイルを提供する場合に、このサイト上では無く、
セキュアな環境(他のインターネットのアクセス者から見られない)に
アップロードすることは無理でしょうか?

#5 保守サポート 担当2ヶ月前に更新

ご連絡ありがとうございます。以下について実施してみます。

データ削除、エージェント再起動した結果はいかがでしょうか?
確実に起きるようなら、他の問題ないケースとの環境・その他の条件の相異を確認して頂ければと存じます。

設定ファイルやログファイルを提供する場合に、このサイト上では無く、
セキュアな環境(他のインターネットのアクセス者から見られない)に
アップロードすることは無理でしょうか?

本サイトにつきましては、公開可の情報のみになります。
非公開の個別対応につきましてはご契約者ユーザ向けのサービスとなります。

サポート契約につきましてご検討頂ければ幸甚です。
よろしくお願いいたします。

他の形式にエクスポート: Atom PDF