Project

General

Profile

不具合調査依頼 #1104

Interrupted system callのエラーについて

Added by Anonymous over 5 years ago. Updated over 5 years ago.

Status:
終了
Priority:
通常
Assignee:
-
Start date:
07/17/2014
Due date:
% Done:

0%

Estimated time:

Description

TO:ご担当者様

jobarrangerにてジョブをスケジュール起動しているのですが、本日以下のエラーが発生致しました。

jobarg_server.log
25231:20140717:090130.041 [ERROR] In ja_tcp_recv_to() message: ZBX_TCP_READ() failed: [4] Interrupted system call

jobarg_agentd.log
1352:20140717:090135.500 [ERROR] job response message: the job is not running. inner_job_id: 78567

手動での再実行により正常終了を確認できたのですが、本エラーが発生する原因をご教授いただけますでしょうか。

History

#1 Updated by Anonymous over 5 years ago

  • Status changed from 新規登録 to 担当者アサイン中

#2 Updated by Anonymous over 5 years ago

  • Status changed from 担当者アサイン中 to 受付完了
  • Assignee set to Anonymous

#3 Updated by Anonymous over 5 years ago

  • Status changed from 受付完了 to 担当者処理中

#4 Updated by Anonymous over 5 years ago

  • Status changed from 担当者処理中 to 回答中

Job Arranger for Zabbixのご利用ありがとうございます。
お問い合わせの件についてご回答致します。

このエラーはジョブサーバで、処理中に「システムコールに割り込みが発生した(エラー番号4(EINTR))」ことを示します。
通常このエラーはネットワーク、およびサーバ(DB含む)の負荷が高くなった際に発生します。

対処方法としてコンフィグファイルの以下のパラメータを調整して頂くことで回避出来る可能性があります。

jobarg_server.conf および jobarg_agentd.conf

・「Timeout」 こちらの値を大きな値にします。弊社では約1000個のジョブアイコンを同時並行処理した際に、この値を180に変更して対応したケースがございます。

jobarg_server.conf のみ。

・「JaStartTrappers」 こちらの値を大きくします。弊社では20以上の値で対応したケースがございます。

よろしくお願いいたします。

#5 Updated by Anonymous over 5 years ago

TO:ご担当者様
ご回答ありがとうございます。

通常このエラーはネットワーク、およびサーバ(DB含む)の負荷が高くなった際に発生します。

これはジョブサーバ側の、ということでしょうか。

また、jasender.shにて通知を行っているのですが、今回のエラーについてzabbix側に通知が来ていませんでした。
これは今回のエラー原因として挙げて頂いた負荷等に関連してjasender.shの通知もできなかったと考えられますでしょうか。
ちなみに手動にてjasender.shを実行した場合は正常にzabbix側に検知されることは確認しております。
ログメッセージファイルのNotice flagも「1」になっており、このメッセージIDについては以前検知した実績があります。

以上よろしくお願い致します。

#6 Updated by Anonymous over 5 years ago

お問い合わせの件についてご回答致します。

これはジョブサーバ側の、ということでしょうか。

はい。頂いた情報からの推測となりますが、ジョブサーバ側の負荷と考えられます。

また、jasender.shにて通知を行っているのですが、今回のエラーについてzabbix側に通知が来ていませんでした。
これは今回のエラー原因として挙げて頂いた負荷等に関連してjasender.shの通知もできなかったと考えられますでしょうか。

申し訳ございません。
こちらは既知の不具合となります。
現在、本エラーではjasender.sh通知を行っていません。
本件につきましては次期バージョンで対応予定です。

申し訳ございませんが、
よろしくお願いいたします。

#7 Updated by Anonymous over 5 years ago

ご回答ありがとうございます。

現在、本エラーではjasender.sh通知を行っていません。

以前このIDで検知した実績があるのですが、メッセージ内容によって変わってくるのでしょうか?
因みに弊社のバージョンは1.3です。

また、エージェント側で出力された、
1352:20140717:090135.500 [ERROR] job response message: the job is not running. inner_job_id: 78567
は、サーバ側のエラーとどのような関連になるのでしょうか。

サーバ側の負荷によりZBX_TCP_READ() failed: [4] Interrupted system callが出力され、エージェントとの通信が
できなくなったためエージェント側はジョブが停止したと認識してnot runningを出力してジョブネットの処理が
止まってしまったとか、そういった関連性がわかればご教授いただきたいです。

以上よろしくお願い致します。

#8 Updated by Anonymous over 5 years ago

お問い合わせの件についてご回答致します。

以前このIDで検知した実績があるのですが、メッセージ内容によって変わってくるのでしょうか?

jasender.sh で通知される場合、[ERROR]に続けて[JAxxxxnnnnnn]形式のメッセージID※が付加されます(ログも同様です)
そのため、今回の[ERROR]のみのメッセージはjasender.shで送信されていないメッセージと判断出来ます。
※/etc/jobarranger/locale/logmessage_xxBIT.txtファイルの各メッセージ行に書かれているメッセージIDとなります。

また、エージェント側で出力された、
1352:20140717:090135.500 [ERROR] job response message: the job is not running. inner_job_id: 78567
は、サーバ側のエラーとどのような関連になるのでしょうか。

今回のケースではエージェントからの完了通知を受信しようとした際にサーバ側でエラーが発生したため、サーバ側より通信を切断し、アイコンをエラーとしました。
その後、エージェントより完了通知を再送し、サーバ側で正しく受信したのですが、すでに該当アイコンがエラー停止していたため、エージェント側にエラー停止している旨の返信を行い「the job is not running.」メッセージが出力されています。

よろしくお願いいたします。

#9 Updated by Anonymous over 5 years ago

TO:ご担当者様

jasender.sh で通知される場合、[ERROR]に続けて[JAxxxxnnnnnn]形式のメッセージID※が付加されます(ログも同様です)

申し訳ございません。ログには最初に記載した行の次に、以下の行も出力されておりました。
25231:20140717:090130.078 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [78567], message [ZBX_TCP_READ() failed: [4] Interrupted system call]
このメッセージIDのものを以前検知しており、今回は検知しなかったということになります。

今回のケースではエージェントからの完了通知を受信しようとした際にサーバ側でエラーが発生したため、サーバ側より通信を切断し、アイコンをエラーとしました。
その後、エージェントより完了通知を再送し、サーバ側で正しく受信したのですが、すでに該当アイコンがエラー停止していたため、エージェント側にエラー停止している旨の返信を行い「the job is not running.」メッセージが出力されています。

25231:20140717:090130.078 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [78567], message [ZBX_TCP_READ() failed: [4] Interrupted system call]については、送れなかったというように見えるのですが、これが出ていることで解釈変わりますでしょうか。
情報が足りず二度手間になってしまって申し訳ございませんが、よろしくお願い致します。

以上よろしくお願い致します。

#10 Updated by Anonymous over 5 years ago

お問い合わせの件についてご回答致します。

このメッセージIDのものを以前検知しており、今回は検知しなかったということになります。
25231:20140717:090130.078 [ERROR] [JARUNICONJOB200012] Cannot send data:inner_jobid [78567], message [ZBX_TCP_READ() failed: [4] Interrupted system call]については、送れなかったというように見えるのですが、これが出ていることで解釈変わりますでしょうか。

大変申し訳ございません。
現状では原因は不明です。
ZabbixGUIの「最新データ」でも表示されていない場合は何らかの理由により通知出来ていないと思われます。
なお、ご指摘の通り、上記メッセージが送れていないように見えますが、特に解釈が変わることはありません。

よろしくお願いいたします。

#11 Updated by Anonymous over 5 years ago

TO:ご担当者様

何らかの原因でjasender.shで通知がされなかったということですが、jasender.shで通知されるものについては
jobarg_server.logでERRORとCRITを監視していれば問題ないという認識で宜しいでしょうか。

以上よろしくお願い致します。

#12 Updated by Anonymous over 5 years ago

お問い合わせの件についてご回答致します。

何らかの原因でjasender.shで通知がされなかったということですが、jasender.shで通知されるものについては
jobarg_server.logでERRORとCRITを監視していれば問題ないという認識で宜しいでしょうか。

はい。
jasender.shで通知するものはすべてログファイルに出力されますので、
jobarg_server.logで[ERROR]と[CRIT]を監視することにより通知漏れをカバーできます。

よろしくお願いいたします。

#13 Updated by Anonymous over 5 years ago

TO:ご担当者様

了解致しました。ありがとうございます。
本件クローズ頂けますようお願い致します。
また何かありましたらよろしくお願い致します。

#14 Updated by Anonymous over 5 years ago

  • Status changed from 回答中 to 終了

Also available in: Atom PDF