Project

General

Profile

操作問い合わせ #3545

Agent が突然落ちる現象について

Added by Anonymous about 1 year ago. Updated about 1 year ago.

Status:
回答中
Priority:
高め
Start date:
10/12/2020

Description

大変お世話になっております。

以下のチケットIDと同じように、Agentが突然落ちてしまう現象が発生しております。
#3485
#2958
#2931

Agentのlogにも、以下のように記録されており、同じ現象だと思います。
201009:054003.098 [WARN] query failed: [select jobid from jobs where status = 3 and end_time < 1601424012 limit 25 ] error [database disk image is malformed]
1988:20201009:054003.098 [WARN] query failed: [ select * from jobs where status in (0,6)] error [database disk image is malformed]

ただし、私どもは
ServerはVer4.0 (MySQL、CentOS7.2で利用)
AgentはVer4.1(CentOS6.9で利用)
と、比較的新しいバージョンを使っております。

バッチの実行件数は多く、2,3分おきに2つから5つのバッチが同時起動している状態です。

以前のチケットを拝見しても、処理が集中するときに稀に発生するということはわかりましたが、
どのようにすればよいのか、改善方法はわかりませんでした。

稀とはいうものの月に1,2回は発生しております・
バッチが起動しないと非情に困る事態になりますので、何とか改善したいと思っております。

改善方法があればご教授頂きたく、どうぞよろしくお願い致します。

Updated by 保守サポート 担当 about 1 year ago

  • Status changed from 新規登録 to 回答中

ジョブアレンジャーのご利用ありがとうございます。

error [database disk image is malformed]
このエラーは、ジョブAgentの処理で使用するSQLiteDB上でのエラーです。

そのAgentの実行環境や実行ジョブの処理内容によるものと推察しております。
「実行環境による」とは、例えば、
disk image is malformed から、その環境のDiskに何らかの問題があるとか、
発生事例は概ね処理が集中するときであることから、性能にかかわる問題などです。

弊社で再現を試みても、なかなか再現せず特定の事由は図りかねるところではあります。

ご利用の環境で一定ペースでの発生があるということですから、できれば同一の実行内容で
少々性能の高いマシン(Diskの性能等も)で実行するなどを試みて頂く価値はあるかと思います。

バッチの実行件数は多く、2,3分おきに2つから5つのバッチが同時起動している状態です。

この程度のジョブ数、頻度であればこちらの検証では問題はありませんが、ジョブの実行内容は気になるところです。
これが「実行ジョブの処理内容による」の意味するところです。

一例として、ジョブAgentの処理で使用するSQLiteDBに対する負荷があります。
実行ジョブの標準出力、エラー出力が大量ですとSQLiteDBへの負荷は高くなり得ます。
そういったところを調査頂けると、何らかのヒントがあるのではと思います。

速やかな返信・対応のためにサポート契約をご検討頂ければ幸甚です。
宜しくお願い致します。

Updated by Anonymous about 1 year ago

お世話になっております。

御社にても、再現試験をしても再現できずに原因・改善策を見出せていない状況であるという理解を致しました。
丁寧に回答頂き、有難うございます。

であれば、私どもの動作環境はクラウドでCPU/メモリの性能アップは比較的容易ですので、早速それを試してみます。
ディスクの性能アップは、少々面倒ですので検討致します。

処理内容についても、標準出力やエラー出力についても調査するようにします。

あとは、エージェントが落ちたことを検知し、自動復旧するような仕組みの検討も始めております。

どうぞ、よろしくお願い致します。

Also available in: Atom PDF