5.2 グリッドシステム
飯田好美、岩井剛、川端節彌、佐々木節、鈴木聡、渡瀬芳行、八代茂夫
5.2.1 概要
計算科学センターではGRID コンピューティングの仕組みを利用し、本機構と共同研究 を行う研究機関との間で、データ及び計算資源を共有するためにグリッドシステムを構築 し、運用を行っている。 図 1 に本システムの概要を示す。グリッドシステムの構成はサービスを基本単位とし、 複数のサービスがお互いに作用することでシステムを形成している。次節以降で各サービ スの現状について述べる。 図 1 グリッドシステム概念図:下位層にシステムのセキュリティ基盤である認証局が 配置され、上位層に計算資源を提供するサービス群が展開されている。仮想組織内の利用 者情報はVOMS により管理される。5.2.2 KEK Grid CA
KEK Grid CA は世界に 80 程度ある IGTF1の策定する規格に準拠・承認された認証局の
一つである。2006 年 2 月より正式運用を開始して以来、国内外のグリッド利用者、及びサ ービスに対して電子証明書の配付を行っている。 図 2 に 2006・2007 年度に発行された個人証明書(図 2-A)とホスト証明書(図 2-B) の推移を示した。運用開始以来、249 の個人証明書と 515 のホスト証明書が KEK Grid CA により発行され、このうち昨年度発行数はそれぞれ個人証明書が154、ホスト証明書が 297 であった。 また昨年度は他機関の認証局を監査し APGridPMA2の活動にも貢献した。なお、KEK Grid CA 自身も外部監査を受け、これに合格している。
1 The International Grid Trust Federation: http://www.gridpma.org/
2 Asia Pacific Grid Policy Management Authority: http://www.apgridpma.org/
VO M em be rs hi p Se rv ic e
KEK Grid CA Service
JP-KEK-CRC-02 Production Service JP-KEK-CRC-01
図 2 A) 2006・2007 年度に発行された個人証明書(累積 249); B) 2006・2007 年度に
発行されたホスト証明書(累積515)
5.2.3 JP-KEK-CRC-01/02
JP-KEK-CRC-01(KEK-1)及び JP-KEK-CRC-02(KEK-2)は EGEE3が開発を推進
するgLite と呼ばれる GRID ミドルウェアにより構築された計算資源を提供するサービス 群である。LCG4ではこのサービス群を「サイト」という単位でカウントする。50 カ国・200 機関から300 程度のサイトが参加することによって、LCG という巨大な計算基盤が構築さ れ、当センターではそのうちの2 サイトが運用中である。KEK-1 は研究開発用途に、KEK-2 ではKEK-1 で培われた経験に基づき、より安定したサービスを提供するために分離して運 用がなされている。図 3 に両サイトの運用状況を示す。KEK-1 は年度を通じて 90%程度の 稼動率で運用を行うことが出来た。
図 3 A) 2007 年度の KEK-1/KEK-2 Site Availability(~コアサービスの稼動率); B)
2007 年度の KEK-1/KEK-2 Site Reliability(A に計画停止によるメンテナンス時間等を加 味して算出)
両サイトに投入されたジョブ数とCPU 利用率を図 4 に示す。KEK-1/KEK-2 共にジョ
ブの8 割が運用監視目的のジョブであった。一方、消費された CPU 時間のほぼ 100%が
3 Enabling Grids for E-sciencE: http://public.eu-egee.org/
4 LHC Computing Grid: http://lcg.web.cern.ch/
0 50 100 150 200 250 発行数 累積 0 100 200 300 400 500 600 発行数 累積
A) Issued user certificates since April 2006 B) Issued host certificates since April 2006
0 0.2 0.4 0.6 0.8 1 1.2 JP-KEK-CRC-01 JP-KEK-CRC-02 0 0.2 0.4 0.6 0.8 1 1.2 JP-KEK-CRC-01 JP-KEK-CRC-02
A) Site Availavility as a function of Month in JFY2007
BELLE 実験の解析に因るものであった。
図 4 A-1/2) 2007 年度の KEK-1/KEK-2 に投入されたジョブ数(両サイト合計 86,863);
B-1/2) 2007 年度の KEK-1/KEK-2 に於ける CPU 利用状況(両サイト合計 254,140 時間)
表 1 2007 年度 KEK-1 及び KEK-2 運用状況まとめ
5.2.4 Virtual Organization (VO) Membership Service
VOMS とは仮想組織(VO)に所属する利用者の情報を管理するサービスで 2006 年 8 月よりvoms.kek.jp にて稼働している。昨年度はホスト証明書の DN に変更があった以外、 大きな変更や障害はなく、順調に運用がなされた。
5.2.5 仮想組織に特化した活動
BELLE 実験仮想組織 BELLE 実験は周知のとおり稼働中の実験で、既にペタバイトスケールのデータを持つ ことから、BELLE VO に於けるグリッドシステムにとっての最重要課題は物理的にデータ を移動することなく既存の内部データへアクセスすることであった。そこで、当センター 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 ppj ops naokek ilc g4med dteam calice belle atlas 0 5000 10000 15000 20000 25000 30000 35000 40000 ppj ops naokek ilc g4med dteam calice belle atlas 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 ppj ops ilc naokek g4med dteam calice belle atlas 0 5000 10000 15000 20000 25000 30000 35000 40000 ppj ops ilc naokek g4med dteam calice belle atlasA1) Ops Stats of JP-KEK-CRC-01 in JFY2007 # of submitted jobs
A2) Ops Stats of JP-KEK-CRC-02 in JFY2007 # of submitted jobs
B1) Ops Stats of JP-KEK-CRC-01 in JFY2007
Normalized CPU time (hrs x kSI2K) B2) Ops Stats of JP-KEK-CRC-01 in JFY2007Normalized CPU time (hrs x kSI2K)
Site name SDi GGUSii
Ticket
Average Jobs CPU time
hrs # Avail. Reliab. hrs*kSI2K %
KEK-1 306 16 17 0.89 0.90 51,836 61,166 53
KEK-2 134 6 17 0.79 0.79 35,027 192,974 19
ではGridFTP プロトコルによる既存データへのアクセスサービスを 2007 年 4 月より提供 し、これにより、データの移動をせずに既存のストレージ領域にアクセスすることに成功 した。現在、11TB が使用中である。 KEK-1/KEK-2 が提供する資源のうち、246,118 CPU 時間が消費され、583GB の記憶 領域(2008 年 3 月末の瞬間値)が使用中である。 リニアコライダー実験仮想組織 KEK-1/KEK-2 が受け入れるリニアコライダー実験のための仮想組織は ILC VO 及び Calice VO であるが、本節では両 VO を合せて ILC VO と表記する。ILC VO に於ける当面 の重要課題は欧州→KEK 向きの転送性能の向上と共通計算機上のストレージに蓄積された データへのアクセスである。 2007 年度は転送性能向上のために、定常的に転送状況をモニタリングする環境の構築を 行い、関係機関との議論を重ねた。今後も改善のための努力を続ける。共通計算機上のス トレージに対するアクセスは議論の末、GridFTP プロトコルによるアクセスサービスを 2008 年度夏頃から提供を開始することとした。 表 2 VO 毎の資源利用統計 @ KEK-1/KEK-2
VO 名 Job CPU time Storage
# % hrs*kSI2K % GB % BELLE 17,676 20 246,118 97 583 17 ILC 4,567 5.3 7,698 3.0 85.8 2.4 加速器科学仮想組織 グリッドシステムの運用には多くの計算資源と人的資源が必要とされるため、大学研究 室の規模で継続的に運用をまかなうことは困難である。そこで当センターでは2007 年 3 月 に国内の共同研究機関(東北大・筑波大・名古屋大・神戸大・広島工大)にシステム一式 の構築を各拠点にて行い、拠点間を遠隔相互診断するための計算基盤としてKEK を含む 6 拠点間で科学的目標に依存しない加速器科学仮想組織(PPJ VO)を整備した。 2007 年度は自動監視・診断システム[3] の開発に注力し、業務効率の向上に努めた。ま た、各拠点のソフトウェア・アップデート、QA 対応といった運用支援も継続的に行われて おり、2007 年度は 350 人・時間のサポートが各拠点に対して行われた。
発表等
[1] “Site Report from KEK, Japan”, Grid Operations Workshop 2007, Jun 2007
[2] “The Status of Grid for Belle Experiment”, CHEP 2007, Sep 2007
[3] “加速器科学仮想組織におけるグリッド環境自動監視・診断システム”, FIT 2007 第
[4] “KEK での加速器科学データグリッドの開発と展開”, 日本物理学会 第 62 回年次大 会, 2007 年 9 月
[5] “WLCG Activities in Japan”, Grid Camp 2007/WLCG T2 Workshop, Oct 2007
i Scheduled Downtime