その他問い合わせ #3654
closedBroken pipeエラーと連動して発生する起動遅延について
Description
Zabbix バージョン:3.0.32-1
Job Arranger バージョン:3.4.0-1
DB:PostgreSQL バージョン 9.2.24
上記環境でjobarrangerを利用しています。
通常は問題なくジョブが実行できているのですが、1週間に一度(JST月曜日 9:30)ごろになると下記エラーが発生します。ここ2週連続で発生しております。
[ERROR] In jatrap_jobresult() error: the job is not running. inner_job_id: 12994592
[ERROR] [JATRAPPER200038] Error sending result back: ZBX_TCP_WRITE() failed: [32] Broken pipe
info from server: "processed: 1; failed: 0; total: 1; seconds spent: 0.000478"
sent: 1; skipped: 0; total: 1
また上記のエラーが発生すると、そのあとJST10:00に予定されているジョブスケジュールのうちで数個のジョブにて下記エラーが発生します。
[ERROR] [JAMONITOR200002] In ja_sender() jobnet_id 'Jip*' can not be not run on schedule time '202301230100'. calendar_id: EVERYDAY_CALENDAR, schedule_id: *, user_name: Admin
起動遅延は発生するもののJST10:02頃から処理を開始し、ジョブ自体は正常に終了します。
該当の時間でネットワークエラーなどは確認できていないのですが、上記エラーが発生する条件など教えていただけますでしょうか。
Files
Updated by Anonymous about 2 years ago
- Status changed from 新規登録 to 回答中
ジョブアレンジャーのご利用ありがとうございます。
同様のエラーについては #3596 等でも回答しておりますのでご確認いただけますでしょうか。
ご記載のログはjobarg_server.logのものと思いますが、詳細な確認には
ジョブ実行ホストのagentd.logと突き合わせて確認しますと状況が明らかになります。
#3550 ではその突合せ例の記載があります。
該当の時間でネットワークエラーなどは確認できていないのですが、上記エラーが発生する条件など教えていただけますでしょうか。
上で上げたQAにも記載がありますが、このエラーは主にジョブServerとAgent間のtcp通信での問題が原因です。
過去事例からServerもしくはAgentでの処理が集中した時に起きることが多いです。
つまりその時間帯に多数のジョブネットが一斉に起動した、そのAgentで多数のジョブが一気に実行された、というようなケースです。
そのAgentでの実行ジョブ自体の処理負荷も関わることが有ります。普段は短時間で終わるものがデータ量などで実行負荷が高まるケースなど。
バージョン:3.4ですと長らくご利用になって最近特定の曜日時間(月曜日 9:30頃)に発生が顕著ということと思います。
以下のような点を確認されると良いと思います。
・最近その時間に新たなジョブネット、ジョブの起動スケジュールが追加されていないか
・その時間帯のジョブServer、Agentのサーバ負荷状況
・月曜日 9:30頃にジョブServerとAgentで何か他に動いている処理
JobArranger以外の処理が関係することもありますので、当該時刻帯で動いている全てのプロセスを精査されると有益です。
その時間帯に特有のものがあればその影響は考えられます。
JST10:00に予定されているジョブスケジュールのエラーも上記の影響が考えられます。
またJobArrangerバージョンのサポート期間は Zabbixのサポート期間 に準じており、
バージョン:3.4はサポート期間を過ぎております。
是非新しいバージョンをご利用くださるようお願いいたします。
速やかな返信・対応のためにサポート契約をご検討頂ければ幸甚です。
宜しくお願い致します。
Updated by Anonymous about 2 years ago
- File jobarg_agentlog.zip jobarg_agentlog.zip added
ご返信いただきまして誠にありがとうございます。
ご記載のログはjobarg_server.logのものと思いますが、詳細な確認には
ジョブ実行ホストのagentd.logと突き合わせて確認しますと状況が明らかになります。
今週も発生いたしましたので、突き合わせて確認いたしました。
月曜日JST9:30に実行されているジョブネットのjobarg_agentd.logの内容を確認いたしましたが特に異常のある内容が見られないように思えます。
添付jobarg_agentlog.zipをご確認いただくことは可能でしょうか。
・最近その時間に新たなジョブネット、ジョブの起動スケジュールが追加されていないか
新たなジョブなどの追加はありません
・その時間帯のジョブServer、Agentのサーバ負荷状況
Agent側はJST9:30と10:00で特段負荷はかかっていませんでした。
server側についてはJST9:15頃からJST11:00頃まで高い状態にはなっていますが最高値でもCPU使用率70%ほどとなっており、張り付いてしまうような状態ではありませんでした。
JST9:30のZBX_TCP_WRITE() failed: [32] Broken pipeとJST10:00のIn ja_sender() jobnet_id 'Jip*' can not be not run on schedule timeのエラーに関連性は考えられますでしょうか。
お忙しいところ恐縮ですがご返信のほどお願いいたします。