分散計算機環境における
ジョブ実行支援システムに関する研究
電気電子工学専攻 川田研究室
MT043225 藤生英昭
発表内容
: 修士論文目次
第1章
序論
第2章
ジョブ実行支援システム
第3章
動的システム管理とシステム構築支援
第4章
適用例
第5章
まとめ
研究の背景
•
分散環境での計算機利用
–
資源の状態把握や有効活用が困難
•
グリッドシステム
–
一般ユーザにとって,インストール・セキュリティ
設定が非常に難しい
–
特別なミドルウェアが必要な場合が多い
•
ロバスト性
–
分散システムにおいて,システム管理とデータス
トレージなどはロバスト性が要求される
研究の目的
•
ジョブ実行支援システム
–
ローカルな分散計算機環境で構築
–
動的かつロバストなシステム管理
–
MPIジョブをサポート
–
ロバストなデータストレージシステム
•
結果データの2重化
–
システム構築支援
•
ユーザによる容易な構築
•
利用可能な計算機の把握
–
ジョブ投入可能サーバ・リソース要件
•
ジョブ設定
–
利用する全サーバで実行前処理などが必要
分散環境の問題
利用可能でリソース条件が
合うサーバを探す必要
利用者
サーバ群
利用可能でリソース条件が
合うサーバを探す必要
利用者
サーバ群
管理サーバにアクセスする
のみで資源把握可能
•
分散資源を把握
–
Webページにアクセスするのみで把握可能
•
ジョブ設定
–
各サーバへ投入するジョブの設定をWebベースで
可能
ジョブ実行支援システム
本システムの導入
ジョブ実行概念図
DSMサーバ
(管理サーバ)
計算
サーバ
データ格納場所通知
データサーバ
圧縮
結果ファイル
結果データ
格納
ユーザ
ジョブ実行指示
ジョブ転送
Linux
Perl
Apache
CGI program
Html
DSMサーバ
HTTPS or HTTP
ユーザ
計算サーバ群
HTTPS or HTTP
OS
Web browser
システム環境
Linux
Perl
Apache
CGI program
Html
JavaScript
•
ジョブ投入ファイル
ソース
ファイル
ジョブ設定(1)
アーカイブ
(
zip, tar, tar.gz)
ソース
ファイル
ソース
ファイル
Makefile
Script
file
Script
file
ユーザがシステム
上で作成し投入
Script
file
•
ジョブ投入ファイル
ソース
ファイル
ジョブ設定(1)
アーカイブ
(
zip, tar, tar.gz)
ソース
ファイル
ソース
ファイル
Makefile
Script
file
Script
file
ユーザがシステム
上で作成し投入
Script
file
実行コマンド
実行前処理選択
•
ジョブ投入ファイル
ソース
ファイル
ジョブ設定(1)
アーカイブ
(
zip, tar, tar.gz)
ソース
ファイル
ソース
ファイル
Makefile
Script
file
Script
file
ユーザがシステム
上で作成し投入
Script
file
実行コマンド
実行前処理選択
スクリプト記述可能
ジョブ設定(2)
結果データ保存方法の選択
投入対象サーバの選択
MPIジョブ設定
MasterとSlaveを選択
ジョブ管理
詳細参照リンク
ジョブ管理
詳細参照リンク
プロジェクト削除リンク
ジョブ実行中の場合
ジョブ実行ディレクトリ参照
ジョブキル
ジョブ管理
詳細参照リンク
プロジェクト削除リンク
ジョブ終了後の場合
ジョブ実行ディレクトリ参照
ジョブキル
結果データ保存先リンク
ユーザ
データサーバ
ダウン
!
結果
データ
結果
データ
アクセス
DSMサーバ
圧縮済
結果
データ
解凍&参照
参照
結果データ2重化
•
DSMサーバを通じて結果データを取得
–
データの場所を気にする必要がない
•
結果データの2重化は,データ取得において
ロバスト性を高める
システム機能
•
動的システム管理
•
システム構築支援
•
ジョブスケジューリング
•
ジョブエラー通知機能
–
コンパイルエラーなど
•
ジョブキル機能
•
ジョブリトライ機能
–
内容をWeb上で編集
•
システムアップデート機能
–
システム更新ファイルを全サーバへ波及
動的システム管理
•
DSMサーバはシステム全体を管理
–
DAサーバによって管理は2重化
–
DSMサーバでトラブルが発生した場合,DAサーバが
システム管理を再構築
•
2サーバは自立的かつ動的にその機能を移動
する
管理サーバの
2重化は
システムに対しロバスト性をもたらす
動的システムコントロール(1)
DSMサーバが
ビジー状態
ジョブから開放されたよりハイパフォーマンスなサー
バを見つけた時
現在の
DSMサーバ
New DSMサーバ
計算サーバ群
DSMサーバ
定期的に情報を収集
空きメモリ,ロードアベレージなど
動的システムコントロール(2)
他の
計算サーバ
DSMサーバ
New
DSMサーバ
仮変更リクエスト
決定リクエスト
確認リクエスト
管理ファイル
取得リクエスト
管理機能
開始
管理機能
停止
リダイレクト
•
DSMサーバへユーザを誘導
–
CGIによるHTTPリダイレクトを利用
•
容易なアクセス
–
ユーザは,システム内のどれかのサーバのみを
知っていればよい
ユーザ
システム内のサーバ
アクセス
DSMサーバ
リダイレクト
システム構築支援
ユーザ
DSMサーバ
Webページで
情報入力
インストール
スクリプト
新規サーバ
既存システムへサーバを追加する場合
自動的にシステム追加
既存システム
転送&実行
システムのインストール
不足
RPMパッケージを取得
MPI実行環境のインストール
システム構築支援
ユーザ
DSMサーバ
新規サーバ
自動的にシステム追加
既存システム
転送&実行
インストール
CD
新規環境構築も可能
システムのインストール
不足
RPMパッケージを取得
MPI実行環境のインストール
システム構築支援(2)
システム構築支援(2)
インストール
CDを用いたインストール
yum, apt-getを利用
したインストール
まとめ
•
ジョブ実行支援システムの開発
–
ジョブの投入から結果データの取得までを支援
–
動的システム管理,結果データ2重化によりロバ
スト性を高めた
–
システム構築支援により一般ユーザでも比較的
容易に構築可能
•
今後の課題
–
結果データのインテリジェンスな格納と整理
研究業績
• Hideaki FUJU, Hideaki SUGIURA, Yuichi SAITOH, Yoshikazu HAYASE, Hitohide USAMI, Motohiro YAMADA, Yutaka MIYAHARA, Hiroyuki KANAZAWA, Takashi KIKUCHI, Shigeo KAWATA : Job Execution Service System in a distributed computer environment,第8回問題解決環境ワークショップ/第3回グリッドセミナー論文集, pp.52-57, 2005
• 杉浦秀明, 藤生英昭, 斉藤祐一, 早勢欣和, 菊池崇志, 川田重夫 : 分散型問題解決環境 “D-NCAS” の構築, 第8
回問題解決環境ワークショップ/第3回グリッドセミナー論文集, pp.12-15, 2005
• Shigeo KAWATA, Masumi INABA, Hideaki FUJU, Hideaki SUGIURA, Yuichi SAITOH, Takashi KIKUCHI : Computer-Assisted Liaison among Modules in a Distributed Problem Solving Environment (PSE) for Partial Differential Equation Based Problems, Trans. of the Japan Society for Computational Engineering and Science, Paper No.20050029, 2005 • 杉浦秀明, 藤生英昭, 稲葉真純, 早勢欣和, 宇佐見仁英, 菊池崇志, 川田重夫 : 分散計算機環境におけるジョブマ ネージメントシステムの開発, 計算工学講演会論文集 第10巻 第2号, pp.739-742, 2005 • 藤生英昭, 稲葉真純, 斉藤祐一, 杉浦秀明,早勢欣和, 菊池崇志, 川田重夫 : 分散型問題解決環境 “D-NCAS” に おけるモジュール連携, 計算工学講演会論文集 第10巻 第2号, pp.735-738, 2005 • 稲葉真純, 藤生英昭, 斉藤祐一, 早勢欣和, 菊池崇志, 川田重夫 : 分散型PSE "D-NCAS" におけるモジュール連 携支援, 第7回問題解決環境ワークショップ/第2回グリッドセミナー論文集, pp.13-18, 2004 • 杉浦秀明, 藤生英昭, 稲葉真純, 早勢欣和, 宇佐見仁英, 菊池崇志, 川田重夫 : 分散環境におけるデータの分散 処理システムの構築, 第7回問題解決環境ワークショップ/第2回グリッドセミナー論文集, pp.99-104, 2004 • 藤生英昭, 稲葉真純, 杉浦秀明, 早勢欣和, 宇佐見仁英, 菊池崇志, 川田重夫 : 分散コンピュータ環境におけるジョ ブ実行支援システムに関する研究, 第7回問題解決環境ワークショップ/第2回グリッドセミナー論文集, pp.117-122, 2004
• Inaba, M., Fuju, H., Kitamuki, R., Kawata, S., Kikuchi, T. : "Computer-Assisted Documentation in a Problem Solving Environment (PSE) for Partial Differential Equation Based Problems", Trans. of the Japan Society for Computational Engineering and Science, Paper No.20040025, 2004
• 稲葉真純, 藤生英昭, 北向亮治, 早勢欣和, 菊池崇志, 川田重夫 : 分散型問題解決環境“D-NCAS”の開発, 計算
工学会講演会論文集 第9巻 第2号, pp.689-692, 2004
• 藤生英昭, 稲葉真純, 北向亮治, 早勢欣和, 宇佐見仁英, 菊池崇志, 川田重夫 : 分散コンピュータ環境におけるジョ
ブ実行支援PSEの構築, 計算工学会講演会論文集 第9巻 第2号, pp.693-696, 2004
• Kawata, S., Usami, H., Hayase, Y., Miyahara, Y., Yamada, M., Fujisaki, M., Numata, Y., Nakamura, S., Ohi, N., Matsumoto, M., Teramoto, T., Inaba, M., Kitamuki, R., Fuju, H., Senda, Y., Tago, Y. and Umetani, Y. : "A Problem Solving Environment (PSE) for Distributed Computing", accepted by Int. J. High Performance Computing and Network, 2004