プロジェクト

全般

プロフィール

その他問い合わせ #3550

完了

[ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [1181758], message [ZBX_TCP_READ() failed: [4] Interrupted system call]について

匿名ユーザー さんが3年以上前に追加. 約1年前に更新.

ステータス:
終了
優先度:
通常
担当者:
-
開始日:
2020/11/06

説明

お世話になっております。
11/02 16時にジョブエラーを確認いたしました。ジョブ自体は終了している模様ですがエラーが出ております。
発生原因について教えていただけますでしょうか。

43697:20201102:160046.810 [ERROR] In ja_tcp_recv_to() message: ZBX_TCP_READ() failed: [4] Interrupted system call
43695:20201102:160046.811 [ERROR] In ja_tcp_recv_to() message: ZBX_TCP_READ() failed: [4] Interrupted system call
43693:20201102:160046.811 [ERROR] In ja_tcp_recv_to() message: ZBX_TCP_READ() failed: [4] Interrupted system call
43699:20201102:160046.827 [ERROR] In ja_tcp_recv_to() message: ZBX_TCP_READ() failed: [4] Interrupted system call
43701:20201102:160046.827 [ERROR] In ja_tcp_recv_to() message: ZBX_TCP_READ() failed: [4] Interrupted system call
43703:20201102:160046.833 [ERROR] In ja_tcp_recv_to() message: ZBX_TCP_READ() failed: [4] Interrupted system call
43701:20201102:160046.839 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [1239343], message [ZBX_TCP_READ() failed: [4] Interrupted system call]
43703:20201102:160046.839 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [1239350], message [ZBX_TCP_READ() failed: [4] Interrupted system call]
43693:20201102:160046.840 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [1239297], message [ZBX_TCP_READ() failed: [4] Interrupted system call]
43695:20201102:160046.840 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [1239310], message [ZBX_TCP_READ() failed: [4] Interrupted system call]
43699:20201102:160046.841 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [1239330], message [ZBX_TCP_READ() failed: [4] Interrupted system call]
43697:20201102:160046.842 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [1239319], message [ZBX_TCP_READ() failed: [4] Interrupted system call]

ファイル

jobarranger.zip (946 KB) jobarranger.zip 匿名ユーザー, 2020/11/06 15:29

匿名ユーザー さんが3年以上前に更新

たまに来る人です。

agentのリソースが足りない見たいです。
the database is busy.多発されています。

ご確認お願い致します。
以上です。

匿名ユーザー さんが3年以上前に更新

匿名のユーザ様、ご回答ありがとうございます。
確認をしてみます。

匿名ユーザー さんが3年以上前に更新

リソース値の設定等はどちらを確認すればいいでしょうか。
確認してみましたが、そういったパラーメータは見当たらなかったので。

匿名ユーザー さんが3年以上前に更新

agent logにはなんと書いてありますか?

以上です。

匿名ユーザー さんが3年以上前に更新

下記のメッセージが確認できました。該当時間中のサーバはCPU利用率の高い時間ではありましたが、張り付かない程度の状態でした。
88954:20201102:160030.018 [WARN] the database is busy.
88953:20201102:160042.636 [WARN] the database is busy.

88953:20201102:160132.034 [ERROR] job response message: the job is not running. inner_job_id: 1239310
88953:20201102:160133.430 [ERROR] job response message: the job is not running. inner_job_id: 1239319
88953:20201102:160130.691 [ERROR] job response message: the job is not running. inner_job_id: 1239297
88953:20201102:160134.663 [ERROR] job response message: the job is not running. inner_job_id: 1239343
88953:20201102:160139.595 [ERROR] job response message: the job is not running. inner_job_id: 1239330
88953:20201102:160140.723 [ERROR] job response message: the job is not running. inner_job_id: 1239350

保守サポート 担当 さんが3年以上前に更新

ジョブアレンジャーのご利用ありがとうございます。

頂いたログの解析結果、問題の発生理由(推定)をお知らせいたします。

Server.logの★[JARUNICONJOB200012] Cannot send dataは、Agentがジョブ終了後にその終了通知電文をServer側に送り、
Serverがその通知に対し返信電文を送れない”Cannot send data”と言っているものです。

エラーが [ZBX_TCP_READ() failed: [4] Interrupted system call] であることから、何らかの理由でAgentサーバで問題が起きていた、と推定します。
[ZBX_TCP_READ() failed: ... はJobArranger AgentとServer間の通信で何らかの問題があったときに時に出るエラーです。
「何らかの問題」は、環境、タイミングによると考えられこの情報だけでは特定は困難ですなのですが、
過去の事例より、今回のケースはAgentサーバが反応できない、固まっていたというケースが疑われます。

理由は、Server.log のCannot send dataエラーに出ている6つのinner_jobid は全てAgent.logにありますので、同じAgentで実行されております。
つまりこれらのjob は全て同じAgentで一斉に実行されたものです。
11/02の16時過ぎの"command, status: BEGIN"の行は30件ありました。"command, status: BEGIN"の行はAgentのジョブ実行開始を意味します。
つまり同じAgentで16時過ぎに多数のジョブが一斉に実行されています。
これが「Agentサーバが反応できない、固まっていた」という状況を引き起こしていたと推定します。

Serverが最後に"the job is not running"と言っているのは、Agentの再送応答に対し既にそのジョブはServer側では終了している為に言っているものです。

普段は問題なくとも、ジョブの実行内容はデータ量などにより負荷は日々違っていることは考えられますので、稀におきる問題になりえます。

対策としてはジョブの集中を分散する、サーバの性能/チューニングで対応する等が考えられます。
※性能/チューニング事項は本QAの対象外となります。

以下は job_id: 1239343 に絞ってServer,Agentログを抽出したものです。
問題解析のログの読み方の例としてご活用下さい。

Server.log
  43701:20201102:160046.827 [ERROR] In ja_tcp_recv_to() message: ZBX_TCP_READ() failed: [4] Interrupted system call
★43701:20201102:160046.839 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [1239343], message [ZBX_TCP_READ() failed: [4] Interrupted system call]
  43701:20201102:160047.056 [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 1239343 status is RUNERR jobnet_id: p_sqr_cif_n64, job_id: p_sqr_cif_n64/JOB-1, user_name: P_SQUARE, job_exit_cd: , icon_status: 2
  15406:20201102:160134.657 [ERROR] In jatrap_jobresult() error: the job is not running. inner_job_id: 1239343
Agent.log
●今回のエラー発生 jobid: 1239343, 
  88954:20201102:160105.227 [INFO] In ja_agent_begin() jobid: 1239343, method: 0
  88954:20201102:160106.164 [WARN] In ja_jobdb_get_status() can not find jobid: 1239343
  88954:20201102:160106.453 [INFO] In ja_jobdb_insert() jobid: 1239343 is created
  88954:20201102:160109.263 [INFO] jobid: 1239343, method: 0 is begin
  88953:20201102:160124.884 [INFO] In ja_job_object_list_executive () jobid: 1239343, type: command, status: BEGIN
  88953:20201102:160124.884 [INFO] jobid: 1239343, status: 0
  88953:20201102:160134.615 [INFO] In ja_job_object_list_executive() jobid: 1239343, status: END 
  88953:20201102:160134.653 [INFO] In ja_agent_close() jobid: 1239343, status: 2

  88953:20201102:160134.663 [ERROR] job response message: the job is not running. inner_job_id: 1239343
  88953:20201102:160134.787 [INFO] In ja_job_object_list_executive() jobid: 1239343,  status: CLOSE

●正常例 jobid: 1239273, 
  88954:20201102:160028.566 [INFO] In ja_agent_begin() jobid: 1239273, method: 0
  88954:20201102:160031.018 [WARN] In ja_jobdb_get_status() can not find jobid: 1239273
  88954:20201102:160032.339 [INFO] In ja_jobdb_insert() jobid: 1239273 is created
  88954:20201102:160038.077 [INFO] jobid: 1239273, method: 0 is begin
  88953:20201102:160057.426 [INFO] In ja_job_object_list_executive () jobid: 1239273, type: command, status: BEGIN
  88953:20201102:160057.913 [INFO] jobid: 1239273, status: 0
  88953:20201102:160121.690 [INFO] In ja_job_object_list_executive() jobid: 1239273, status: END
  88953:20201102:160121.723 [INFO] In ja_agent_close() jobid: 1239273, status: 2
  88953:20201102:160122.046 [INFO] In ja_job_object_list_executive() jobid: 1239273, status: CLOSE

お問合せはご契約ユーザ様を最優先で対応しております。
本一般QAサイトでの回答は、かなり遅くなることがございます。
速やかな返信・対応のためにサポート契約をご検討頂ければ幸甚です。
宜しくお願い致します。

保守サポート 担当 さんが3年以上前に更新

  • ステータス新規登録 から 回答中 に変更

匿名ユーザー さんが3年以上前に更新

ご回答ありがとうございます。
ご教示いただいた内容についても参考にさせていただきます。

保守サポート 担当2 さんが約1年前に更新

  • ステータス回答中 から 終了 に変更

他の形式にエクスポート: Atom PDF