Project

General

Profile

その他問い合わせ #3647

ジョブを実行できない原因について

Added by Anonymous 3 months ago. Updated 2 months ago.

Status:
回答中
Priority:
通常
Assignee:
-
Start date:
10/27/2022

Description

以下のようなエラーが発生してプログラムを実行できないことがあります。
再現性は無くリトライすれば問題なく実行できるのですが、頻繁に発生しておりますため原因についてご教示いただけますと幸いです。

■JOBARG_MESSAGE

[JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.12]:10055]: [4] Interrupted system call host_ip:[10.30.1.12] port:[10055] source_ip:[10.30.1.23] timeout:[5]

■jobarg_server.log

  1222:20221027:163321.270 [ERROR] In message_send() failed to execute the command. command: (2) [/usr/bin/zabbix_sender -z '127.0.0.1' -p '10051' -s 'Zabbix server' -k 'jasender' -o '[2022/10/27 16:33:20] [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.12]:10055]: [4] Interrupted system call host_ip:[10.30.1.12] port:[10055] source_ip:[10.30.1.23] timeout:[5] (USER NAME=Admin HOST=vmf3001 JOBNET=JMB00000000000000_ZZ_MAIN_9999_1 JOB=JMB00000000000000_ZZ_MAIN_9999_1/JMB03100000000000_VR_MAIN_9999_1/JMB03100200000000_MK_MAIN_9999_1/JMB03100202000000_MK_CACL_9999_1/0200_MK_CACL INNER_JOBNET_MAIN_ID=1600000000000001571)']
Response from "127.0.0.1:10051": "processed: 0; failed: 1; total: 1; seconds spent: 0.000042" 
sent: 1; skipped: 0; total: 1
  1222:20221027:163321.277 [ERROR] In message_send() failed to execute the command. command: (2) [/usr/bin/zabbix_sender -z '127.0.0.1' -p '10051' -s 'Zabbix server' -k 'jasender' -o '[2022/10/27 16:33:20] [INFO] [JAJOBNETRUN000001] In ja_set_runerr() job execution error. inner_job_id: 59022 status is RUNERR jobnet_id: JMB00000000000000_ZZ_MAIN_9999_1, job_id: JMB00000000000000_ZZ_MAIN_9999_1/JMB03100000000000_VR_MAIN_9999_1/JMB03100200000000_MK_MAIN_9999_1/JMB03100202000000_MK_CACL_9999_1/0200_MK_CACL, user_name: Admin, job_exit_cd: 0, icon_status: 2 (USER NAME=Admin HOST=vmf3001 JOBNET=JMB00000000000000_ZZ_MAIN_9999_1 JOB=JMB00000000000000_ZZ_MAIN_9999_1/JMB03100000000000_VR_MAIN_9999_1/JMB03100200000000_MK_MAIN_9999_1/JMB03100202000000_MK_CACL_9999_1/0200_MK_CACL INNER_JOBNET_MAIN_ID=1600000000000001571)']

zabbix: 6.0.1
Job Arranger: 6

zabbix server: 10.30.1.23 (LINUX)
client server: 10.30.1.12 (WINDOWS)


Files

jobarg_agentd.log (238 KB) jobarg_agentd.log Anonymous, 11/04/2022 05:52 PM
jobarg_server.log (264 KB) jobarg_server.log Anonymous, 11/04/2022 05:52 PM
実行ジョブ詳細画面.png (104 KB) 実行ジョブ詳細画面.png Anonymous, 11/04/2022 05:52 PM
jobarg_agentd.log (872 KB) jobarg_agentd.log Anonymous, 11/24/2022 11:20 AM

Updated by 保守サポート 担当 3 months ago

  • Status changed from 新規登録 to 回答中

Job Arranger for Zabbixのご利用ありがとうございます。

JACONNECT300001 を右上の検索の横に入れてEnter押下しますと、過去のQAを検索できます。
#3583 #2891 で類似の問合わせがあり回答しております。
まずはそれら内容をご確認いただけますでしょうか。

速やかな返信のためにサポート契約をご検討頂ければ幸甚です。
何卒宜しくお願い致します。

Updated by Anonymous 3 months ago

ご返答ありがとうございます。
ポートはサーバ側、エージェント側ともに10055が設定されていて、利用可能な状態でした。

zabbix server: 10.30.1.23 (LINUX)

/etc/jobarranger/jobarg_server.conf
JaAgentListenPort=10055

client server: 10.30.1.12 (WINDOWS)

C:\Program Files\Job Arranger\Job Arranger Agent\conf\jobarg_agentd.conf
JaListenPort=10055

>netstat -nao | findstr 10055
  TCP         0.0.0.0:10055          0.0.0.0:0              LISTENING       3068

他に確認すべき箇所等ございますでしょうか。
当事象につきまして何かしらの対策が講じられれば幸いです。

Updated by 保守サポート 担当 3 months ago

資料のご提供有難うございました。
jobarg_server.log を" [ERROR] [JACONNECT300001] In ja_connect() can not connect the host"で検索しますと以下6件あります。

パターンはこの3つです。Agentホストは3種類で出ています。
Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5]
No route to host host_ip:[10.30.1.12] port:[10055] source_ip:[10.30.1.23] timeout:[5]
Interrupted system call host_ip:[10.30.1.12] port:[10055] source_ip:[10.30.1.23] timeout:[5]

 888841:20221027:101855.879 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.6]:10055]: [111] Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5]
 893926:20221027:104216.116 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.6]:10055]: [111] Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5]
 968716:20221027:152250.011 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[127.0.0.1]:10055]: [111] Connection refused host_ip:[127.0.0.1] port:[10055] source_ip:[10.30.1.23] timeout:[5]
 982226:20221027:160555.744 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.12]:10055]: [113] No route to host host_ip:[10.30.1.12] port:[10055] source_ip:[10.30.1.23] timeout:[5]
 982380:20221027:160627.063 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[127.0.0.1]:10055]: [111] Connection refused host_ip:[127.0.0.1] port:[10055] source_ip:[10.30.1.23] timeout:[5]
1013170:20221027:163320.274 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.12]:10055]: [4] Interrupted system call host_ip:[10.30.1.12] port:[10055] source_ip:[10.30.1.23] timeout:[5]

ログの最後に出ていますtimeout:[5]の通り、 タイムアウト(5秒)しております。
リトライすれば問題なく実行できることから、その時点で一時的な問題があったと思われます。
この処理はサーバがAgentに接続に行ってcannot connect となっており、5秒以内でAgent側が応答できていないことを意味します。
よくあるケースでは当該Agentに処理が集中し、サーバからの接続に応じられない逼迫状況が起きている事例があります。

対策としましては
①タイムアウト(5秒)はサーバの設定値ですのでこれを大きくする
②処理の集中が原因であれば、集中を避けるようなジョブスケジューリングをする。
③Agentサーバの性能を上げる
いずれにしましても対応の前にエラー発生時の当該Agentのサーバの状況をご確認ください。

host_ip:[10.30.1.12]は No route to host、Interrupted system call と他の2サーバと違うメッセージですが、WindowsとLinuxの違いかもしれません。
このメッセージはTCPで出たもので、JobArrangerではそのまま出しています。

以上よろしくお願いいたします。

Updated by Anonymous 2 months ago

昨日、上記エラーが再発生したため、Job Arrangerサーバのログを確認したところ、ログに前の発生時と同様のログが出力されておりました。

1939908:20221123:100302.871 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.6]:10055]: [111] Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5]
1939910:20221123:100302.920 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.6]:10055]: [111] Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5]
1940469:20221123:100809.483 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.6]:10055]: [111] Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5]
1940471:20221123:100809.512 [ERROR] [JACONNECT300001] In ja_connect() can not connect the host. cannot connect to [[10.30.1.6]:10055]: [111] Connection refused host_ip:[10.30.1.6] port:[10055] source_ip:[10.30.1.23] timeout:[5]

Job Arranger Agentをインストールしたサーバのログを確認したところ、以下のログが出力されておりました。
(Agentのログファイルを添付しております。)

  3504:20221123:083056.627 [INFO] Starting Job Arranger Agent. Job Arranger 6.0.0 (revision 2258).
  3504:20221123:083056.627 [INFO] Use folder [C:\Program Files\Job Arranger\Job Arranger Agent\temp\begin]
  3504:20221123:083056.629 [INFO] Use folder [C:\Program Files\Job Arranger\Job Arranger Agent\temp\close]
  3504:20221123:083056.874 [INFO] Use folder [C:\Program Files\Job Arranger\Job Arranger Agent\temp\data]
  3504:20221123:083057.214 [INFO] Use folder [C:\Program Files\Job Arranger\Job Arranger Agent\temp\end]
  3504:20221123:083057.291 [INFO] Use folder [C:\Program Files\Job Arranger\Job Arranger Agent\temp\error]
  3504:20221123:083057.359 [INFO] Use folder [C:\Program Files\Job Arranger\Job Arranger Agent\temp\exec]
  3756:20221123:083057.363 [INFO] jobarg_agentd #0 started [executive]
  3760:20221123:083057.365 [INFO] jobarg_agentd #1 started [listener]
  3764:20221123:083057.366 [INFO] jobarg_agentd #2 started [jabackup]
  3756:20221123:083057.527 [ERROR] In ja_job_checkprocess(), jobid: 111639 job execution is incomplete.

既にサーバを再起動しているため、Agentのプロセス有無や発生時のnetstatの状況は不明です。
ですが、昨日ジョブの実行を複数回行っているにも関わらず、当日のAgentのログには上記ログ以外出力されておりませんでした。

Agentのソースコードを確認したところ、以下の場所で通常時に出力されないエラーログが出力されているようです。

src\jobarg_agent\executive.c 308行目

                zbx_snprintf(check_file, sizeof(check_file), "%s%c%s",JA_EXEC_FOLDER,JA_DLM,filename);
                file_size = ja_file_getsize(check_file);
                // if process exited and job file size ids less than 30, Write failed time and errorno to job file.
                if(file_size<30)
                {
                    zabbix_log(LOG_LEVEL_ERR, "In %s(), jobid: " ZBX_FS_UI64 " job execution is incomplete.", __function_name, job->jobid);

原因などわかりますでしょうか。

以上、よろしくお願いいたします。

Updated by Anonymous 2 months ago

追加の情報です。
Agentの上記エラーログが発生したタイミングで、Windowsサーバのイベントビューアーに以下のログが出力されておりました。
Agentがバッファ オーバーランによるアクセス違反エラーで落ちていると考えられます。

障害が発生しているアプリケーション名: jobarg_agentd.exe、バージョン: 0.0.0.0、タイム スタンプ: 0x62186e28
障害が発生しているモジュール名: jobarg_agentd.exe、バージョン: 0.0.0.0、タイム スタンプ: 0x62186e28
例外コード: 0xc0000005

なにか対策等ございましたら教えてください。

以上、よろしくお願いいたします。

Updated by 保守サポート 担当 2 months ago

情報の提供有難うございました。

[ERROR] In ja_job_checkprocess(), jobid: 111639 job execution is incomplete.

 このエラーについては調査いたします。

このエラー発生後、当該AgentサーバでのJobAgentの実行が出来ていない状況ではないでしょうか?
もしその状況でしたら、リカバリ方法として以下を実施願えますか。

①先ずJobAgentを停止後、
②C:\Program Files\Job Arranger\Job Arranger Agent\temp のtmp以下を別名で他へcopy退避 
③C:\Program Files\Job Arranger\Job Arranger Agent\temp のtmp以下を全削除
④その後JobAgentを再起動しますと、C:\Program Files\Job Arranger\Job Arranger Agent\temp 以下にフォルダが作成されます。

それでジョブが実行できるかご確認お願いできますか。
②で退避頂いたデータについては、後日調査に役立つかもしれませんので、しばらく保管いただければ幸甚です。

以上よろしくお願いいたします。

Also available in: Atom PDF