62
63
5.2 グリッドシステム
飯田好美、岩井剛、河井裕、佐々木節、鈴木聡、渡瀬芳行、八代茂夫
5.2.1 概要
計算科学センターではグリッドコンピューティングの仕組みを利用し、本機構と共同研 究を行う研究機関との間で、データ及び計算資源を共有するためにグリッドシステムを構 築し、運用を行っている。 混乱を避けるため、先に本節で用いられるグリッドシステムという用語に対する解釈を 与える。図 1 は実際にインストールされた計算科学センターに於いて運用中の要素をサー ビスに着目し、まとめたものである。図 1 に示されるように多くの場合、グリッドに於け るサービスとは一つ以上の小サービスがお互いに作用することにより形成され、複数のサ ービスにより、グリッドに於ける管理単位に相当する「サイト」が形成される。これはグ リッドの「複数機関に跨った計算基盤を利用する」という設計思想に基づく。このサイト を形成・構築するためのソフトウェアを特に区別してミドルウェアと呼ぶが、計算科学セ ンターでは複数のミドルウェア(gLite、NAREGI、iRODS、SRB 等)を使用し、複数サイトを 運用している。本節では計算科学センターで運用される、これら複数のサイトを全て含め 「グリッドシステム」として扱うこととする。 次節以降でグリッドシステムを構成しているサイトの利用状況と、これらにより提供さ れる計算基盤上での昨年度活動内容について報告する。5.2.2 KEK Grid CA (Certificate Authority)
KEK Grid CA は世界に 80 程度ある IGTF1の策定する規格に準拠・承認された認証局の一 つである。2006 年 2 月に正式運用を開始して以来、主に国内のグリッド利用者、及びサー
1 The International Grid Trust Federation: http://www.gridpma.org/
図 1 計算科学センターにて実運用中の Grid 計算基盤の構成。実際には複数のミドル ウェア(NAREGI, SRB, iRODS, gLite 等)により複数のサイトが構成されているが、混 乱を避けるため、図中には gLite ミドルウェアにより構成された LCG (LHC Computing Grid) 計算基盤のみを示した。
ビス提供ホストに対して電子証明書を発行して いる。 図 2 に KEK Grid CA が 2009 年度に発行した 個人証明書とホスト証明書の発行部数を示す。 2009 年度は 232 部の個人証明書と 308 部のホス ト証明書が発行され、認証局運用開始以来の累 計発行部数はそれぞれ 640 部、1195 部に達した。
5.2.3 LCG 計算基盤
JP-KEK-CRC-01 及び JP-KEK-CRC-02(以降 KEK-1 及び KEK-2 と表記)は EGEE2が開発を推 進する gLite ミドルウェアにより構築された計算資源を提供するサイトである。約 50 カ 国・200 機関から 300 程度のサイトが参加することによって、LCG と呼ばれる全世界規模の 計算基盤が展開され、当センターはそのうちの 2 サイトである KEK-1 及び KEK-2 が運用中 である。
KEK-1 は研究開発用途に、KEK-2 は KEK-1 で培われた経験に基づき、より安定したサー ビスを提供するために分離して運用がなされている。2009 年度中は KEK-1 に対して大きな 変更や障害が発生しなかったため、以降は特に注釈のない限り、KEK-2 のみに関する報告で ある。 サービス稼働率 図 3 に 2009 年度中に発生したダウンタイム とサービス稼働率を示す。2009 年度は 300 時間 程度のダウンタイムが発生し、システムの年間 稼働率は 96.5%であった。図 3(上)からわかる ように、2009 年 4 月に 160 時間以上のダウンタ イムが発生しているが、これは 2009 年 3 月に導 入された現行の共通情報システムへの移行に於 いて、逐次、段階的に計算資源を供し 1 ヶ月ほ どの間、縮退運転していたことが原因である。 したがってサービスの全停止を意味していない。 LCG に於いて定められた月間最小サービス稼働 率は 70%に設定されており3、これは図 3(下) に見ることが出来るように 2009 年 4 月以外の月 次は年度を通じて満足した。
2 Enabling Grids for E-sciencE: http://public.eu-egee.org/
3 算出式を含む完全な資料は https://edms.cern.ch/document/860386/ から取得可能。
図 2 2009 年度の電子証明書発行部数
図 3 2009 年度に発生したダウンタイム (上)とサービス稼働率(下)
64
65
利用状況
図 4 に 2009 年度中に投入されたジョブ数と CPU 消費時間4を示した。投入ジョブの総数は 23,790 でそのうち 56%は Belle VO で 33%は ILC VO で一方、CPU 消費時間は Belle VO が 31%で ILC VO が 64%であった。2009 年度は段階的に計算資 源を増量したため、月次毎に全体の資源量が異 なる。そのため正確な CPU 使用率の算出は難し いが、図 4(下)に於けるピーク月(2009 年 12 月次)は全体の 20%程度に相当する。 ストレージサービスは共通情報システム HPSS をバックエンドに VFS マウントした領域を GridFTP 及び SRM プロトコルでサービスを提供 している。記憶領域の増設については、グルー プ毎にテープカートリッヂを購入してもらう方 針で運用している。2009 年後期までは現行の共 通情報システム導入に割り当てた初期状態の領 域を各 VO で共有していたが、この領域が Belle と ILC の要求には見合わないため、テープを購 入してもらい、それぞれ 12TB、30TB の独立した 領域を割り当てた。年間を通じて 2TB の読み出 しと 4TB の書き込みが行われた。(図 5) B ファクトリー計算機システムとの統合 2009 年 12 月に B ファクトリー計算機シス テムの一部の計算資源(192 ノード・1536 コア) をグリッド環境から利活用するための統合作業 を処した。これにより、LCG 全体に対して KEK が提供するCPU リソースは 420M SI2K 中 6M SI2K に達した。
4 SPEC (Standard Performance Evaluation Corporation) が策定したシステムの性能
評価を行うベンチマークスコアにより規格化したCPU 消費時間。高エネルギー実験分 野で使用されるプログラムはSPEC Int にスケールすることが多いため、ここでは 1000 Spec Int 2000 で CPU 消費時間を規格化している。
図 4 2009 年度のジョブ処理数(上)と CPU 消費時間(下)いずれも運用・開発目 的の dteam および ops 仮想組織は含まな い。
発表等
[1] Yutaka Kawai and Adil Hasan, “High Availability iRODS System (HAIRS)”, iRODS User Meeting, Chapel Hill, US, Mar 2010
[2] Takashi Sasaki, “Grid related activities at KEK”, ISGC2010, Taipei, Mar 2010 [3] Yutaka Kawai and Yoshimi Iida, “Data Management @KEK”, ISGC2010 Taipei, Mar
2010
[4] Yoshiyuki Watase, Go Iwai, Yutaka Kawai, and Takashi Sasaki, “Prototype of Universal Grid File Catalog based on RNS1.1 and SAGA”, OGF28, Munich, Germany, Mar 2010
[5] Go Iwai, Yutaka Kawai, Takashi Sasaki, and Yoshiyuki Watase, “Updates on SAGA related activities since OGF27 on October 2009”, OGF28, Munich, Germany, Mar 2010
[6] Go Iwai, “gLite deployment and operation toward the KEK Super B factory”, FJPPL Workshop, Lyon, France, Feb 2010
[7] 岩井剛, “電子認証を使った安全で内容が正確なウェブ構築”, TX テクノロジーシ ョーケース, 筑波大, 2010 年 1 月
[8] Go Iwai et al., “Updates related on Grid since last meeting in December 2008: Service, resource, and recent achievements to utilize distributed computing infrastructures”, ILC Detector Workshop, Tsukuba, Japan, Dec 2009
[9] Yutaka Kawai and Adil Hasan, “High Availability iRODS System (HAIRS)”, Interoperability of Digital Repositories Workshop, London, UK, Dec 2009 [10] Go Iwai, Yutaka Kawai, Takashi Sasaki, and Yoshiyuki Watase, “Recent updates
related on SAGA Belle2 Computing Workshop”, Tsukuba, Japan, Nov 2009 [11] Go Iwai et al., “Updates related on Grid since last meeting in March 2009:
Service and Resource Scale for Belle VO”, Belle2 Computing Workshop, Tsukuba, Japan, Nov 2009
[12] Yoshiyuki Watase et al., “Demo: Universal Grid API for Multi-Grid”, at booth #359 SC09, Portland, Oregon, Nov 2009
[13] Go Iwai et al., “Grid infrastructure in Japan and the development of applications in Physics and Biophysics”, ACGrid-II, Kuala Lumpur, Malaysia, Nov 2009
[14] Go Iwai, Yutaka Kawai, Takashi Sasaki, and Yoshiyuki Watase, “Job execution and Application example in KEK with SAGA Adaptor”, OGF27, Banff, Alberta, Canada, Oct 2009
[15] Go Iwai, Yutaka Kawai, Takashi Sasaki, and Yoshiyuki Watase, “Recent Update on SAGA-related Activities at KEK”, OGF27, Banff, Alberta, Canada, Oct 2009
中核サービスの変更 VOMS とは仮想組織(VO)に所属する利用者の情報を管理するサービスで 2006 年 8 月よ り voms.kek.jp にて、Belle を含むいくつかの VO の中核サービスとして稼働中のサービス である。2009 年度は OS の更新と併せてミドルウェアの更新を行い、現在はvoms.cc.kek.jp 及びvomrs.cc.kek.jp にてサービスを提供している。
5.2.4 ユーザー対応・他
グリッドの運転維持には多くの計算資源と 人的資源が必要とされるため、大学研究室の規 模で継続的に運用をまかなうことは困難である。 当センターでは 2007 年 3 月に国内の共同研究機 関(東北大・筑波大・名古屋大・神戸大・広工 大)にシステム一式を構築し、拠点間を遠隔相 互診断するための計算基盤として KEK を含む 6 拠点間で科学的目標に依存しない加速器科学仮 想組織を整備した。 各拠点のソフトウェア・アップデート、QA 対応といった運用支援も継続的に行われている。 2009 年度は 184 人・時間の運用支援が各拠点に 対して行われ、うち 9 割は KEK 以外の拠点に対 する支援に費やされた。(図 6) 機構内の研究グループ(ILC と BELLE)への 支援も継続的に行われている。定期的にミーティングを開催し、性能向上・環境改善に役 立てられた。 図 6 加速器科学仮想組織の運用支援66
67
発表等
[1] Yutaka Kawai and Adil Hasan, “High Availability iRODS System (HAIRS)”, iRODS User Meeting, Chapel Hill, US, Mar 2010
[2] Takashi Sasaki, “Grid related activities at KEK”, ISGC2010, Taipei, Mar 2010 [3] Yutaka Kawai and Yoshimi Iida, “Data Management @KEK”, ISGC2010 Taipei, Mar
2010
[4] Yoshiyuki Watase, Go Iwai, Yutaka Kawai, and Takashi Sasaki, “Prototype of Universal Grid File Catalog based on RNS1.1 and SAGA”, OGF28, Munich, Germany, Mar 2010
[5] Go Iwai, Yutaka Kawai, Takashi Sasaki, and Yoshiyuki Watase, “Updates on SAGA related activities since OGF27 on October 2009”, OGF28, Munich, Germany, Mar 2010
[6] Go Iwai, “gLite deployment and operation toward the KEK Super B factory”, FJPPL Workshop, Lyon, France, Feb 2010
[7] 岩井剛, “電子認証を使った安全で内容が正確なウェブ構築”, TX テクノロジーシ ョーケース, 筑波大, 2010 年 1 月
[8] Go Iwai et al., “Updates related on Grid since last meeting in December 2008: Service, resource, and recent achievements to utilize distributed computing infrastructures”, ILC Detector Workshop, Tsukuba, Japan, Dec 2009
[9] Yutaka Kawai and Adil Hasan, “High Availability iRODS System (HAIRS)”, Interoperability of Digital Repositories Workshop, London, UK, Dec 2009 [10] Go Iwai, Yutaka Kawai, Takashi Sasaki, and Yoshiyuki Watase, “Recent updates
related on SAGA Belle2 Computing Workshop”, Tsukuba, Japan, Nov 2009 [11] Go Iwai et al., “Updates related on Grid since last meeting in March 2009:
Service and Resource Scale for Belle VO”, Belle2 Computing Workshop, Tsukuba, Japan, Nov 2009
[12] Yoshiyuki Watase et al., “Demo: Universal Grid API for Multi-Grid”, at booth #359 SC09, Portland, Oregon, Nov 2009
[13] Go Iwai et al., “Grid infrastructure in Japan and the development of applications in Physics and Biophysics”, ACGrid-II, Kuala Lumpur, Malaysia, Nov 2009
[14] Go Iwai, Yutaka Kawai, Takashi Sasaki, and Yoshiyuki Watase, “Job execution and Application example in KEK with SAGA Adaptor”, OGF27, Banff, Alberta, Canada, Oct 2009
[15] Go Iwai, Yutaka Kawai, Takashi Sasaki, and Yoshiyuki Watase, “Recent Update on SAGA-related Activities at KEK”, OGF27, Banff, Alberta, Canada, Oct 2009
[16] Go Iwai, Yutaka Kawai, Takashi Sasaki, and Yoshiyuki Watase, “A Prototyping of Web Interface for Treatment Planning in Radiotherapy in the Multi Grid Infrastructure”, Asia Simulation Conference 2009, Ritsumeikan University, Shiga, Japan, Oct 2009
[17] Go Iwai, “Current Status and Recent Activities on Grid at KEK”, TILC09 - Joint ACFA Physics and Detector Workshop and GDE, Tsukuba, Japan, Apr 2009