国際共同実験ALICEのための
LCG Tier 2センター及び
Grid解析環境の構築
クォーク物理学研究室
M060609 成田拓人
2
LHC加速器
衝突型円型加速器
{
地下~100m
{
周長~27km
Pb+Pb 5.5TeV
p+p 14TeV
4実験
{
ALICE, ATLAS,
CMS, LHCb
ALICE実験
~1000人、~30カ国、~80機関
データ量 (Pb+Pb)
{
1.25GB/s(100Hz)
データ形式
{
RAW ESD AOD
Standard data taking year
{
p+p 7ヶ月、Pb+Pb 1ヶ月、シャットダウン
4
Grid
多量のデータ (Pb+Pbで~2PB)
世界中に分散した情報資源を使う
プロジェクト
{
LCG(LHC Computing Grid)
VO (Virtual Organization)
{
ALICE VO
サイト
{
基本的に大学、研究所単位
ALICEのコンピューティングモデル
サイトが階層構造
{
Tier 0
リコンストラクション
RAW、ESDの保存
{
Tier 1
リコンストラクション、アナリシス
RAW、ESD、AODの保存
{
Tier 2
シミュレーション、エンドユーザーアナリシス
ESD、AODの保存
6
目的
大量のデータ処理能力が必要
{
約40,000CPU
ひとつの研究所では無理
LCG Tier 2センターの構築
その機能、パフォーマンスの確認
そこで
Grid
マシンごとに役割を与える
VO-BOX
{ALICEのサイトには必要
CE (Computing Element)
{WNを統括
WN (Worker Node)
{計算を行う
SE (Storage Element)
{ストレージ
MON (Monitoring)
{モニター
UI (User Interface)
{ユーザーがログインしてGridにアクセス
RB (Resource Broker)
{ジョブを適切に割り当てる
BDII
{Gridに関する情報
Tier 2サイトに必要
8
構築の流れ
OSのインストール
Gridミドルウェアのインストール、コンフィグレーション
{OSとアプリケーションの中間層としてのミドルウェアを用いて
実現
YAIMのインストール
コンフィギュレーションファイルの配置
ホスト証明書の配置
実験ソフトウェアのインストール(+NFS)
ファイアウォールの設定
動作確認
{ジョブが実行できるか、ストレージが使えるか、モニタリングが
できているか、などなど
認証(1/3)
PKI(鍵対を用いる)
{
本人特定
CA(Certification Authority)による署名
{
信頼できる第三者機関
プロキシ認証
{
一時的な証明書を作成(シングルサインオン)
ジョブ実行時などはローカルアカウントにマッピ
ング
10
認証(2/3)
プロキシ認証
プロキシ認証
情報の表示
認証の破棄
[grid04] /home/narita > grid-proxy-init
Your identity: /C=JP/O=KEK/OU=CRC/CN=Takuto Narita
Enter GRID pass phrase for this identity:
Creating proxy ... Done
Your proxy is valid until: Tue Feb 12 17:44:27 2008
[grid04] /home/narita > grid-proxy-info
subject : /C=JP/O=KEK/OU=CRC/CN=Takuto Narita/CN=1681861795 issuer : /C=JP/O=KEK/OU=CRC/CN=Takuto Narita
identity : /C=JP/O=KEK/OU=CRC/CN=Takuto Narita
type : Proxy draft (pre-RFC) compliant impersonation proxy strength : 512 bits
path : /tmp/x509up_u504 timeleft : 11:58:14
[grid04] /home/narita > grid-proxy-destroy
DN (Distinguished Name)
パスフレーズの入力
有効期限
証明書の場所
残り時間
認証(3/3)
アカウントマッピング
プールアカウントの作成
{
alice001, alice002, …
マップファイル
{
ALICEのプールアカウントに動的にマップ
"/C=JP/O=KEK/OU=CRC/CN=Takuto Narita" .alice
12
情報サービス(1/3)
Grid上で利用できる
資源の検索
GRIS
LDAP
{
GLUEスキーマ
サイトBDII
トップBDII
情報サービス(2/3)
lcg-infosites
ALICEのCE
ALICEのSE
[grid04] /home/narita > lcg-infosites --vo alice ce valor del bdii: lcg00126.grid.sinica.edu.tw:2170
#CPU Free Total Jobs Running Waiting ComputingElement
---80 58 0 0 0 ce1.egee.fr.cgg.com:2119/jobmanager-lcgpbs-alice 4 1 7 0 7 gridce.ilc.cnr.it:2119/jobmanager-lcgpbs-alice 683 499 189 185 4 gridgate.cs.tcd.ie:2119/jobmanager-pbs-egee
[grid04] /home/narita > lcg-infosites --vo alice se Avail Space(Kb) Used Space(Kb) Type SEs ---4378660000 301320000 n.a se1.egee.man.poznan.pl 93075900 523659180 n.a clrauvergridse01.in2p3.fr 888143872 84934656 n.a se001.ipp.acad.bg
CPU数
CEのサーバー名/ジョブマネージャー名
ストレージ容量
SEのサーバー名
14
情報サービス(3/3)
lcg-info
属性のリストを表示
ALICEのCEでMemoryが1024のものの、Memoryと
CINT2000の値を表示
[grid04] /home/narita > lcg-info --list-attrs
Newline in left-justified string for printf at /opt/lcg/bin/lcg-info line 308, <DATA> line 225.
Attribute name Glue object class Glue attribute name
WorstRespTime
GlueCE
GlueCEStateWorstResponseTime
CEAppDir
GlueCE
GlueCEInfoApplicationDir
TotalCPUs
GlueCE
GlueCEInfoTotalCPUs
[grid04] /home/narita > lcg-info --list-ce --vo alice --query 'Memory=1024' -attrs 'Memory,CINT2000'
- CE: a01-004-128.gridka.de:2119/jobmanager-pbspro-aliceL
- Memory 1024
- CINT2000 1286
- CE: a01-004-128.gridka.de:2119/jobmanager-pbspro-aliceS
- Memory 1024
- CINT2000 1286
データ管理
DPM(Disk Pool Manager)
{
ディスクを管理
GridFTP
{
データ転送
16
ジョブ制御(1/2)
JDL(ジョブ記述言語)
{
共通の言語で書かれたジョブリクエストをそ
れぞれのサイトの固有の制御情報に変換し
てジョブを実行
[grid04] /home/narita > cat testJob.jdl
Executable= "testJob.sh";
StdOutput = "testJob.out";
StdError = "testJob.err";
InputSandBox = {"./testJob.sh"};
OutputSandBox = {"testJob.out","testJob.err"};
VirtualOrganisation = "alice";
実行するコマンド名
出力ファイル名
エラー出力ファイル名
VOの指定
ジョブ制御(2/2)
ジョブの流れ
18
バンド幅測定
研究室内
{
~940Mbps
KEKー広島大学
{
KEK→広島大学 ~240Mbps (required 10Mbps)
{
広島大学→KEK ~750Mbps (required 600bps)
{
パケットロスがある
ほぼ同条件の大学で~900Mbpsでているので、パケットロ
スの原因を特定できればさらに速度が上がる可能性は十
分あり。
結論
LCG Tier 2センターの構築完了
{
現在は正式な認証待ち
計算ノード
{
16台
CPU : Xeon5160 3.0GHz(2 core)×2cpu
~50kSI2k
ストレージ
{
300GB (16TB)
KEKまではバンド幅が十分であることを確認
20
研究室内解析環境
サーバー
{
ALICEソフトウェア
{
Condorによるバッチシステム
計算ノード
{
15台
22
ユーザーとしてやるべきこと
証明書の取得
{
KEK GRID CA
証明書の配置
VOへの登録
PKI(公開鍵基盤)
平文
暗号文
平文
24