Project

General

Profile

その他問い合わせ #2506

並列処理実行後のジョブ起動時にJobArrangerServerプロセスが再起動を繰り返す

Added by Anonymous over 2 years ago. Updated about 2 years ago.

Status:
終了
Priority:
急いで
Assignee:
-
Start date:
03/31/2017
Due date:
03/31/2017
% Done:

0%

Estimated time:
1.00 h

Description

---------------------------------------------------
Job Arranger Server/Agent 3.0
JobServer:CentOS Linux release 7.2.1511 (Core) 64bit
JobAgent1:Solaris10(エージェントレス実行)
JobAgent2:CentOS Linux release 7.2.1511 (Core) 64bit

DB:MySQL5.7
Zabbix:3.0.5
---------------------------------------------------

お世話になります。

表題の件について問い合わせをさせて下さい。

8つの並列処理実行後の、次のジョブが起動するタイミングで
JobArrangerServerのプロセスが強制終了し再起動を繰り返します。
(そのジョブはSTARTアイコンのみ緑色になっている状態)

この状態になると、単純にプロセスの停止・起動するだけでは起動せず
STARTアイコンの次の処理をスキップにすることで、プロセスの起動ができるようになります。

8つの並列処理を行っているジョブと、その次のジョブは
それぞれ個別に起動できることは確認しています。

画面キャプチャと、再起動不可に陥った時のログを添付致します。
考えられる原因と対処方法について教えてください。

宜しくお願い致します。

20170331_001.JPG (175 KB) 20170331_001.JPG ジョブフロー Anonymous, 03/31/2017 10:45 AM
20170331_002.JPG (168 KB) 20170331_002.JPG 停止するジョブ Anonymous, 03/31/2017 10:45 AM
joblog.txt (3.77 KB) joblog.txt jobserverのログ Anonymous, 03/31/2017 10:47 AM
ジョブフロー.xlsx (470 KB) ジョブフロー.xlsx フロー Anonymous, 04/03/2017 10:41 AM

History

#1 Updated by 保守サポート 担当 over 2 years ago

ジョブアレンジャーのご利用ありがとうございます。

最近ありましたお問合わせ #2475 で似たような事象~JobArrangerServerのプロセスが強制終了し再起動を繰り返す~がありました。
状況は似ております。

今回ご報告いただきましたリスタートも、ジョブサーバの1つの子プロセスが停止したために起きています。
23623:20170331:082631.790 [CRIT] One child process died (PID:23625,exitcode/signal:11). Exiting ...

違いは本件で停止した子プロセスが異なる点です。
23625:20170331:082631.767 [INFO] [JASERVER000004] server #2 started [start the job #1]

#2475 ではtrapperプロセスでしたが、本件ではジョブ実行プロセスです。

この同じジョブを実行する際に必ず起きますか?つまり再現性はありますか?
もしそうであれば、#2475 にある
「Agentから送付されるデータの問題(文字コード)」について先ずご確認いただければと思います。、

不明の場合はこのリスタート時に動いたジョブに関連するジョブネットの詳細を見せて頂けますか?
ジョブネットフローと当該ジョブの詳細(設定画面)をエクセルへの張り付けファイルなどでOKです。

また、問題発生時の当該ジョブ実行サーバのエージェントログ、サーバログも発生時間を含み前後1日分くらいは見たいと思います。

速やかな返信のためにサポート契約をご検討頂ければ幸甚です。
宜しくお願い致します。

#2 Updated by Anonymous over 2 years ago

保守サポート 担当様

お世話になります。
ご回答ありがとうございます。

この同じジョブを実行する際に必ず起きますか?つまり再現性はありますか?

必ず発生します。

停止するジョブですが、Zabbix_senderコマンドを使用しています。

過去(3年ほど前)の問い合わせにて、並列処理の次のジョブが起動しない。というような事例がありましたので、
並列処理の次に情報取得アイコンを置いて確認もしてみたのですが、結果は変わらずでした。
しかし、並列処理終了の次に「hostname」コマンドを実行するだけのジョブを置き、
そのあとで、問題のジョブを置いたところ正常に動作することがわかりました。

× 8つの並列処理→終了アイコン→問題ジョブ(zabbix_sender)
○ 8つの並列処理→終了アイコン→簡易ジョブ(hostnameコマンド)→問題ジョブ(zabbix_sender)

以上のことから、ジョブネットの組み方で問題があり、
なんらかの制限のようなものでエラーが発生しているのではと考えております。

以上、よろしくお願いします。

#3 Updated by 保守サポート 担当 over 2 years ago

こちらでは似たような並列ジョブとZabbix_senderジョブで再現しませんでした。
確実に再現するとのことですから、Debugモードにして本件発生時のジョブサーバのログ、問題のMomoサーバのエージェントログを頂くことはできますか?

以下確認です。
①最初に頂いた 20170331_001.JPG のジョブネットとジョブフロー.xlsx のジョブネットは同じですね?
 ジョブフロー.xlsx の8つの並行ジョブの後ろにINFO-1~8、その後ろにINFO-9 がつけてありますが有っても無くても結果は同じですね?
③ホスト名の"Momo" はジョブサーバ(Zabbixサーバ兼?)ですか?
④ジョブ単独では問題が起きないとのことですが、並行しない場合は発生しますか?
⑤並列ジョブの処理内容はどういったものですか?8つとも別ホストで実行する内容ですか?
⑥問題のZabbix_senderジョブですが、子ジョブネットネットでなく直接ジョブで置いている理由はなんですか?
⑦簡易ジョブ(hostnameコマンド)と置くOKとのことですが、ここでのコマンドはなんでもOKですか?例:ls

以上宜しくお願いいたします。

#4 Updated by Anonymous over 2 years ago

保守サポート 担当様

お世話になります。
ご回答ありがとうございます。

確実に再現するとのことですから、Debugモードにして本件発生時のジョブサーバのログ、問題のMomoサーバのエージェントログを頂くことはできますか?

特定顧客のログとなりますので、サポート担当者様へ直接ご送付することができれば可能です。
そういった事は可能でしょうか。

①最初に頂いた 20170331_001.JPG のジョブネットとジョブフロー.xlsx のジョブネットは同じですね?
ジョブフロー.xlsx の8つの並行ジョブの後ろにINFO-1~8、その後ろにINFO-9 がつけてありますが有っても無くても結果は同じですね?

同じジョブです。また、INFO-Xの有無に関係なくプロセスが再起動を繰り返します。

③ホスト名の"Momo" はジョブサーバ(Zabbixサーバ兼?)ですか?

ジョブサーバ兼、Zabbixサーバです。

④ジョブ単独では問題が起きないとのことですが、並行しない場合は発生しますか?

確認しておりません。

⑤並列ジョブの処理内容はどういったものですか?8つとも別ホストで実行する内容ですか?

同一ホスト(WindowsServer)で、batファイルを実行しています。

⑥問題のZabbix_senderジョブですが、子ジョブネットネットでなく直接ジョブで置いている理由はなんですか?

Zabbix_senderジョブをトリガーにして、Zabbixがメールを送信します。
このジョブは複数配置する予定のため、毎回作成するのではなくジョブとして作成しそれを挿入する形にしています。

⑦簡易ジョブ(hostnameコマンド)と置くOKとのことですが、ここでのコマンドはなんでもOKですか?例:ls

確認しておりません。

運用中のサーバのためわざとエラーを発生することが難しく、
確認できないご質問が多く申し訳ありません。

こちらでも別の環境で、同様のジョブフローを作成し確認を行っているですが、
別の環境ではエラーが発生することはありません。
並列ジョブの標準出力の量が多いのですが関係しますでしょうか。

以上、よろしくお願い致します。

#5 Updated by Anonymous over 2 years ago

たまにくるひとです。

Job Arrangerのパフォーマンステストあります。
https://naiggy.blogspot.jp/2017/03/job-arranger-1000.html
これを見ると特に問題なさそうです。

rebootアイコンを使っている場合は
STARTジョブから次にいかない場合ja_host_lock_table テーブルを確認する必要があります。

以上です。

#6 Updated by 保守サポート 担当 over 2 years ago

特定顧客のログとなりますので、サポート担当者様へ直接ご送付することができれば可能です。
そういった事は可能でしょうか。

当サイトは公開を前提としております。直接のご相談はサポート契約ユーザ様に可能です。

こちらでも別の環境で、同様のジョブフローを作成し確認を行っているですが、
別の環境ではエラーが発生することはありません。

環境に依存した問題のように思われます。
本サイトは多くのユーザで有益な汎用的情報共有に重きを置いております。。
サポートサービスではお客様の要望に合わせた対応も可能ですので、是非ご検討ください。

以上何卒よろしくお願いいたします。

#7 Updated by 保守サポート 担当 about 2 years ago

  • Status changed from 新規登録 to 回答中

#8 Updated by Anonymous about 2 years ago

保守サポート 担当さま

お世話になっております。

承知しました。
結局、原因特定には至りませんでしたが、簡易ジョブ(hostnameコマンド)を1つ置くことで
問題は発生しなくなるためこれで運用しようと思います。

クローズでお願いします。

#9 Updated by 保守サポート 担当 about 2 years ago

  • Status changed from 回答中 to 終了

Also available in: Atom PDF