11. トラブルシューティング
11.5 WFT 使用時の不具合
11.5.1 ユーザGUIに表示されるメッセージ(その1)
ユーザ GUI(ポップアップウィンドウ)に表示されるメッセージや対処方法については、
「利用者ガイドNAREGI-WFT(GUI Workflow Tool)」の「第20章 メッセージ一覧」を参照く ださい。
11.5.2 ユーザGUIに表示されるメッセージ(その2)
ユーザGUI(ジョブ一覧画面のログ表示領域)に表示されるメッセージのうち、SSに起因 するものは次のものがあります。
"failed to convert wfml to bpel"
SSのWWM(Wfml Workflow Manager)サービスが出力するエラーです。WFTなどから 投入されるWFML中に制限を超えるようなActivitiy (アクティビティ)数指定があった 場合など、WFMLをBPEL形式に変換する際に問題を検出したことを意味します。ア クティビティ数の設定については「管理者ガイドNAREGI-SS」の「3.12. アクティビ ティ数によるジョブ受付け制限のための設定」を参照ください。
"CSG : No Candidate Containers"
SSのCSG(Candidate Set Generator)サービスが出力するエラーです。実行可能な資源が 見つからなかったことを意味します。
"gridss.rcs.badComputationResource"
SSのRCS(Reservation Cache Service) サービスが出力するエラーです。GridVMが停止 している場合など、計算資源の予約に失敗したことを意味します。
"gridss.rcs.noReservationSpace"
資源の予約ができる時間がないことを意味します。
NAREGI Middleware使用手引書(管理者編)
100 11.5.3 GridMPIジョブ実行時の不具合(その1)
現象
ジョブが正常終了しない。
対応/回避方法
GridMPIジョブを複数のクラスタで同時実行する場合、IMPIDを実行するノード分だ
けGridVM計算ノードが必要となります。ノード数をご確認ください。
11.5.4 GridMPIジョブ実行時の不具合(その2)
現象
WFTのジョブリスト(JobList)がQueuedのままになり、ジョブが正常終了しない。
対応/回避方法
環境変数PATHにimpi-serverが適切に設定されていない可能性があります。NAREGIミ
ドルウェアをrpmパッケージから導入された場合、PATHに $MPIROOT/bin が設定され ていることをご確認ください。
11.5.5 GridMPIジョブ実行時の不具合(その3)
現象
短時間で大量ジョブ(あるいは長時間で少量ジョブ)を実行した場合、正常終了しな いことがある。
対応/回避方法
GridVM管理ノードとGridVM計算ノードが兼用になっている環境でGridMPIジョブ
を実行した場合、GridVM 計算ノードが過負荷となりジョブが正常に終了しないこと があります。このような場合は WallTimeLimit を調整するか、GridVM 管理ノードと
GridVM計算ノードを分離し GridVM計算ノードの負荷を軽減させた環境においてジ
ョブを実行してください。
11.5.6 ノードが表示されない不具合(その1)
現象
NAREGIミドルウェアの起動を「1.2.2 サービスの個別起動」で行った後、WFTのFile
ChooserダイアログでGridVM管理ノードが表示されない。
対応/回避方法
NAREGI サービス群の再起動(一括停止 → 一括起動)を行ってください。手順は
「NAREGIミドルウェア導入手引書2.11 NAREGIサービスの起動と停止」を参照くだ
さい。なお一括停止の操作後、ISノードおよびGridVM管理ノードにおいて、psコマ ンド等を用いて tomcat プロセスの停止を確認されることをお勧めします。停止して いない場合は、killコマンド等で停止ください。
NAREGI Middleware使用手引書(管理者編)
101
11.5.7 ノードが表示されない不具合(その2)
現象
Uploadボタンを押した時、またはProgram Iconプロパティ画面においてCandidateHosts
選択時のBrowseボタンを押した時に、計算ノード(ホスト)名が表示されないことがあ
る。
対応/回避方法
以下の状態が考えられます。
1) ISノードにおいて不要スキーマが多い場合、計算ノード(ホスト名)が表示されな くなる場合があります。この場合、不要なスキーマを削除ください。削除の方法
は「8.7.2 ISハンドル作成時の不要スキーマの削除方法」を参照ください。
2) ジョブ実行用アプリケーションを置いているディレクトリ内にファイル数が多
い場合、GridFTP のタイムアウトによりWFT上から計算ノードのホストが表示
されなくなることがあります。この場合、ディレクトリ内のファイルを整理して ください。
11.5.8 ジョブ実行時の不具合(その1)
現象
NAREGIミドルウェアの各サービスおよび前提となるサービスがすべて正常に起動さ
れているにも関わらず、WFTからジョブが正常に終了しないことがある。
対応/回避方法
IS ノードで不要スキーマが多い場合、IS ノード上のtomcat がメモリ不足によるエラ ーを起こし、ジョブが正常に終了しない場合があります。この場合、不要なスキーマ を削除ください。削除の方法は「8.7.2 ISハンドル作成時の不要スキーマの削除方 法」を参照ください。
11.5.9 ジョブ実行時の不具合(その2)
現象
WFTのCalculateIconにおいて、SSサーバの性能を超えるジョブを実行させると正常
に終了しない。
対応/回避方法
SSサーバの性能に依存し、Calculate Iconのサブジョブ数に上限があります。
11.5.10 ジョブ実行時の不具合(その3)
現象
WFT のジョブリスト(JobList)において missingが表示され、ジョブ実行結果が不明と
NAREGI Middleware使用手引書(管理者編)
102 なる。
対応/回避方法
当該ジョブの結果をWFTが独自に保持(Done,Exceptionの状態)するまえに、SSが 再起動されてジョブ情報がなくなった場合に Missing となります。通信が不安定な場 合など一時的に発生することもありますが、その場合は右クリックでジョブを選択し、
MissingRetryメニューを選ぶと復旧します。
11.5.11 ジョブ実行時の不具合(その4)
現象
WFTのCo-Allocation内のProgram Iconにおいて、プロパティ画面のWorkinigDirectory 入力欄でディレクトリを指定した時、ジョブが正常に終了しない。
対応/回避方法
WorkingDirectory 入力欄に指定するディレクトリはジョブ実行前に存在している必要
があります。なおWorkingDirectory入力欄を指定しない場合は、ユーザアカウントの ホームディレクトリで実行されます。
11.5.12 ジョブ実行時の不具合(その5)
現象
ジョブ実行時に exception が発生し、WFT の job list で status を確認したときに、
exception 内容の記述がない。
対応/回避方法
以下の状態が考えられます。
1) 優先度の高いジョブの投入により当該ジョブがキャンセルされた 2) プロキシ証明書の有効期限が切れた
3) NAREGI サービス群で問題が発生しジョブがキャンセルされた
計算資源のプロパティが「予約可」であり、当該ジョブがコアロケーションジョブもしく
はGridMPI ジョブ以外の場合、1) である可能性が高く、ジョブの再投入で解決される可能
性があります。2) の場合、プロキシ証明書の有効期限近くまでジョブが流れ続けたかでおお よその判定ができます。プロキシ証明書の有効期限はシステムの運用・管理ポリシーにより 決定されます。ユーザはシステム管理者にプロキシ証明書有効期限の延長を相談するか、有 効期限の時間内で流れるようにジョブを分割するなどしてください。
1)、2) で解決しない場合、3) である可能性があります。システム管理者に NAREGI のサ ービス群が正常に動作しているか確認を依頼してください。
ジョブの種類、計算資源のプロパティ等は「NAREGIミドルウェア機能説明書1.2.4 ジョ ブの種類」を参照ください。
NAREGI Middleware使用手引書(管理者編)
103 11.5.13 ジョブ実行時の不具合(その6)
現象
ISノードのみ再起動(停止→起動)すると、それ以降ジョブが実行できない。
対応/回避方法
ISノード再起動時に、必要な環境変数が設定されていないと上位のコンポーネントの 動作に必要な情報(環境変数など)が不足し、それ以降ジョブが実行できなくなる場合 があります。ISの再起動手順は「1.3 停止方法」および「1.2 起動方法」を参照くだ さい。