その他問い合わせ #3647
closedジョブを実行できない原因について
Description
以下のようなエラーが発生してプログラムを実行できないことがあります。
再現性は無くリトライすれば問題なく実行できるのですが、頻繁に発生しておりますため原因についてご教示いただけますと幸いです。
■JOBARG_MESSAGE
[JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.12]:10055]: [4] Interrupted system call host_ip:[10.30.1.12] port:[10055] source_ip:[10.30.1.23] timeout:[5]
■jobarg_server.log
1222:20221027:163321.270 [ERROR] In message_send() failed to execute the command. command: (2) [/usr/bin/zabbix_sender -z '127.0.0.1' -p '10051' -s 'Zabbix server' -k 'jasender' -o '[2022/10/27 16:33:20] [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.12]:10055]: [4] Interrupted system call host_ip:[10.30.1.12] port:[10055] source_ip:[10.30.1.23] timeout:[5] (USER NAME=Admin HOST=vmf3001 JOBNET=JMB00000000000000_ZZ_MAIN_9999_1 JOB=JMB00000000000000_ZZ_MAIN_9999_1/JMB03100000000000_VR_MAIN_9999_1/JMB03100200000000_MK_MAIN_9999_1/JMB03100202000000_MK_CACL_9999_1/0200_MK_CACL INNER_JOBNET_MAIN_ID=1600000000000001571)'] Response from "127.0.0.1:10051": "processed: 0; failed: 1; total: 1; seconds spent: 0.000042" sent: 1; skipped: 0; total: 1 1222:20221027:163321.277 [ERROR] In message_send() failed to execute the command. command: (2) [/usr/bin/zabbix_sender -z '127.0.0.1' -p '10051' -s 'Zabbix server' -k 'jasender' -o '[2022/10/27 16:33:20] [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 59022 status is RUNERR jobnet_id: JMB00000000000000_ZZ_MAIN_9999_1, job_id: JMB00000000000000_ZZ_MAIN_9999_1/JMB03100000000000_VR_MAIN_9999_1/JMB03100200000000_MK_MAIN_9999_1/JMB03100202000000_MK_CACL_9999_1/0200_MK_CACL, user_name: Admin, job_exit_cd: 0, icon_status: 2 (USER NAME=Admin HOST=vmf3001 JOBNET=JMB00000000000000_ZZ_MAIN_9999_1 JOB=JMB00000000000000_ZZ_MAIN_9999_1/JMB03100000000000_VR_MAIN_9999_1/JMB03100200000000_MK_MAIN_9999_1/JMB03100202000000_MK_CACL_9999_1/0200_MK_CACL INNER_JOBNET_MAIN_ID=1600000000000001571)']
zabbix: 6.0.1
Job Arranger: 6
zabbix server: 10.30.1.23 (LINUX)
client server: 10.30.1.12 (WINDOWS)
Files
Updated by Anonymous over 2 years ago
- File jobarg_agentd.log jobarg_agentd.log added
- File jobarg_server.log jobarg_server.log added
- File 実行ジョブ詳細画面.png 実行ジョブ詳細画面.png added
ご返答ありがとうございます。
ポートはサーバ側、エージェント側ともに10055が設定されていて、利用可能な状態でした。
zabbix server: 10.30.1.23 (LINUX)
/etc/jobarranger/jobarg_server.conf JaAgentListenPort=10055
client server: 10.30.1.12 (WINDOWS)
C:\Program Files\Job Arranger\Job Arranger Agent\conf\jobarg_agentd.conf JaListenPort=10055 >netstat -nao | findstr 10055 TCP 0.0.0.0:10055 0.0.0.0:0 LISTENING 3068
他に確認すべき箇所等ございますでしょうか。
当事象につきまして何かしらの対策が講じられれば幸いです。
Updated by Anonymous about 2 years ago
資料のご提供有難うございました。
jobarg_server.log を" [ERROR] [JACONNECT300001] In ja_connect() can not connect the host"で検索しますと以下6件あります。
パターンはこの3つです。Agentホストは3種類で出ています。
Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5]
No route to host host_ip:[10.30.1.12] port:[10055] source_ip:[10.30.1.23] timeout:[5]
Interrupted system call host_ip:[10.30.1.12] port:[10055] source_ip:[10.30.1.23] timeout:[5]
888841:20221027:101855.879 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.6]:10055]: [111] Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5] 893926:20221027:104216.116 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.6]:10055]: [111] Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5] 968716:20221027:152250.011 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[127.0.0.1]:10055]: [111] Connection refused host_ip:[127.0.0.1] port:[10055] source_ip:[10.30.1.23] timeout:[5] 982226:20221027:160555.744 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.12]:10055]: [113] No route to host host_ip:[10.30.1.12] port:[10055] source_ip:[10.30.1.23] timeout:[5] 982380:20221027:160627.063 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[127.0.0.1]:10055]: [111] Connection refused host_ip:[127.0.0.1] port:[10055] source_ip:[10.30.1.23] timeout:[5] 1013170:20221027:163320.274 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.12]:10055]: [4] Interrupted system call host_ip:[10.30.1.12] port:[10055] source_ip:[10.30.1.23] timeout:[5]
ログの最後に出ていますtimeout:[5]の通り、 タイムアウト(5秒)しております。
リトライすれば問題なく実行できることから、その時点で一時的な問題があったと思われます。
この処理はサーバがAgentに接続に行ってcannot connect となっており、5秒以内でAgent側が応答できていないことを意味します。
よくあるケースでは当該Agentに処理が集中し、サーバからの接続に応じられない逼迫状況が起きている事例があります。
対策としましては
①タイムアウト(5秒)はサーバの設定値ですのでこれを大きくする
②処理の集中が原因であれば、集中を避けるようなジョブスケジューリングをする。
③Agentサーバの性能を上げる
いずれにしましても対応の前にエラー発生時の当該Agentのサーバの状況をご確認ください。
host_ip:[10.30.1.12]は No route to host、Interrupted system call と他の2サーバと違うメッセージですが、WindowsとLinuxの違いかもしれません。
このメッセージはTCPで出たもので、JobArrangerではそのまま出しています。
以上よろしくお願いいたします。
Updated by Anonymous about 2 years ago
- File jobarg_agentd.log jobarg_agentd.log added
昨日、上記エラーが再発生したため、Job Arrangerサーバのログを確認したところ、ログに前の発生時と同様のログが出力されておりました。
1939908:20221123:100302.871 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.6]:10055]: [111] Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5] 1939910:20221123:100302.920 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.6]:10055]: [111] Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5] 1940469:20221123:100809.483 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.6]:10055]: [111] Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5] 1940471:20221123:100809.512 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.6]:10055]: [111] Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5]
Job Arranger Agentをインストールしたサーバのログを確認したところ、以下のログが出力されておりました。
(Agentのログファイルを添付しております。)
3504:20221123:083056.627 [INFO] Starting Job Arranger Agent. Job Arranger 6.0.0 (revision 2258). 3504:20221123:083056.627 [INFO] Use folder [C:\Program Files\Job Arranger\Job Arranger Agent\temp\begin] 3504:20221123:083056.629 [INFO] Use folder [C:\Program Files\Job Arranger\Job Arranger Agent\temp\close] 3504:20221123:083056.874 [INFO] Use folder [C:\Program Files\Job Arranger\Job Arranger Agent\temp\data] 3504:20221123:083057.214 [INFO] Use folder [C:\Program Files\Job Arranger\Job Arranger Agent\temp\end] 3504:20221123:083057.291 [INFO] Use folder [C:\Program Files\Job Arranger\Job Arranger Agent\temp\error] 3504:20221123:083057.359 [INFO] Use folder [C:\Program Files\Job Arranger\Job Arranger Agent\temp\exec] 3756:20221123:083057.363 [INFO] jobarg_agentd #0 started [executive] 3760:20221123:083057.365 [INFO] jobarg_agentd #1 started [listener] 3764:20221123:083057.366 [INFO] jobarg_agentd #2 started [jabackup] 3756:20221123:083057.527 [ERROR] In ja_job_checkprocess(), jobid: 111639 job execution is incomplete.
既にサーバを再起動しているため、Agentのプロセス有無や発生時のnetstatの状況は不明です。
ですが、昨日ジョブの実行を複数回行っているにも関わらず、当日のAgentのログには上記ログ以外出力されておりませんでした。
Agentのソースコードを確認したところ、以下の場所で通常時に出力されないエラーログが出力されているようです。
src\jobarg_agent\executive.c 308行目
zbx_snprintf(check_file, sizeof(check_file), "%s%c%s",JA_EXEC_FOLDER,JA_DLM,filename); file_size = ja_file_getsize(check_file); // if process exited and job file size ids less than 30, Write failed time and errorno to job file. if(file_size<30) { zabbix_log(LOG_LEVEL_ERR, "In %s(), jobid: " ZBX_FS_UI64 " job execution is incomplete.", __function_name, job->jobid);
原因などわかりますでしょうか。
以上、よろしくお願いいたします。
Updated by Anonymous about 2 years ago
追加の情報です。
Agentの上記エラーログが発生したタイミングで、Windowsサーバのイベントビューアーに以下のログが出力されておりました。
Agentがバッファ オーバーランによるアクセス違反エラーで落ちていると考えられます。
障害が発生しているアプリケーション名: jobarg_agentd.exe、バージョン: 0.0.0.0、タイム スタンプ: 0x62186e28 障害が発生しているモジュール名: jobarg_agentd.exe、バージョン: 0.0.0.0、タイム スタンプ: 0x62186e28 例外コード: 0xc0000005
なにか対策等ございましたら教えてください。
以上、よろしくお願いいたします。
Updated by Anonymous about 2 years ago
情報の提供有難うございました。
[ERROR] In ja_job_checkprocess(), jobid: 111639 job execution is incomplete.
このエラーについては調査いたします。
このエラー発生後、当該AgentサーバでのJobAgentの実行が出来ていない状況ではないでしょうか?
もしその状況でしたら、リカバリ方法として以下を実施願えますか。
①先ずJobAgentを停止後、
②C:\Program Files\Job Arranger\Job Arranger Agent\temp のtmp以下を別名で他へcopy退避
③C:\Program Files\Job Arranger\Job Arranger Agent\temp のtmp以下を全削除
④その後JobAgentを再起動しますと、C:\Program Files\Job Arranger\Job Arranger Agent\temp 以下にフォルダが作成されます。
それでジョブが実行できるかご確認お願いできますか。
②で退避頂いたデータについては、後日調査に役立つかもしれませんので、しばらく保管いただければ幸甚です。
以上よろしくお願いいたします。
Updated by 保守サポート 担当2 over 1 year ago
JAZ Agent 6.0.1 または、6.0.2 、7.0.0にて修正版をリリースします。