2010/3/19 1/27 KEK 技術研究会
JPARC実験データの共通計算
機システムへの転送
KEK 共通基盤研究施設 計算科学センター八代 茂夫
高エネルギー加速器研究機構 技術研究会 2010年3月19日 2010/3/19 KEK 技術研究会 2/27 報告集の修正が入っています
– HPSSサーバ計算機の仕様の修正 – 「使用例」に認証のコマンドを追加 – 再測定した転送速度 NICの変更後の測定 Webに報告集、本スライドを掲載済み
– http://research.kek.jp/people/yashiro/html/report.html2010/3/19 KEK 技術研究会 3/27
共通計算機システム
データ解析システム
(KEKCC)
– KEKのプロジェクト(jparcを含む)のデー
タの保管および解析ためのシステム
– ストレージシステム、計算サーバ、並列
サーバ、
GRIDサーバで構成
2009/3に新システム稼動開始
Central Computing System
(Mar. 2009–)Tokai campus J-PARC GPFS/API/VFS Computing Server 84 IBM System x3550 Intel Xeon-QX 5460 x2 MEM:16GB SSH GPFS API/VFS Work Server 4 x3550 Xeon-QX 5460 x2 MEM:16GB/node API/VFS HPSS IBM TS3500(3PB) IBM 3592 Tape Drive IBM DS4800(10TB) API/FTP CIFS/NFSv4 FW FW Storages Disk Storage IBM DS4800(205TB) LTO4 Tape Drive GPFS CIFS/NFSv4 KEK intra GRID Systems LCG System Naregi System iRODS/SRB System Parallel Server 4 x3550 Xeon-QX 5460 x2 MEM:32GB/node GPFS SSH
2010/3/19 KEK 技術研究会 5/27
KEKCCのストレージ
磁気ディスクシステム
205TB
– ホーム – データ解析の作業領域 大容量ストレージシステム
3PB
– 実験データの保管 – 階層型ストレージシステムHPSSによる管理 2010/3/19 KEK 技術研究会 6/27HPSS
(High Performance Storage System)
HPSSとは – アメリカエネルギー省研究所とIBM Houstonとで開発され、IBM Houston がサポートを行なっている階層型ストレージシステム – データの保管先として磁気テープを利用 大容量 省電力 KEKCCでの構成 – 磁気ディスクのキャッシュ領域 10TB、3000巻の磁気テープによ る最大3PBの領域 – ユーザは、C/C++の関数、ftp、scpなどにより、キャッシュ領域と のIOをおこなう – キャッシュ領域と磁気テープとの間のデータの移動はHPSSが行 なう
5 movers 5 movers Cache disk Cache disk 10TB 10TB Tape library: TS3500 Tape library: TS3500 3000vols, 3000vols, max. 3PetaBytes max. 3PetaBytes
Tape drives: 10 3592E06
Tape drives: 10 3592E06
1TB/vol, 160MB/s
1TB/vol, 160MB/s
Core server
Core server 2 VFS servers2 VFS servers 2 SMB/NFS2 SMB/NFSserversservers
API, pftp kftp CIFS Work servers Work servers (VFS server) (VFS server) SCP iRODS
iRODSserverserver
(VFS server) (VFS server) iput/iget
HPSSの概略図
アクセスのインターフェイス
可 良 VFS経由 CIFS 可 良 VFS経由 gridftp 可 良 VFS経由 iRODS 可 良 VFS経由 SSH ファイルシステム VFS 可 良 ファイル転送 Kerberos ftp (kftp) 不可 難あり ファイル転送 Parallel FTP (pftp) 不可 難あり ファイル転送 hssput/hpsscat 不可 難あり Cの関数 POSIX準拠I/O関数 NAT経由 FW相性 特徴 インターフェイス2010/3/19 KEK 技術研究会 9/27
各インターフェイスの概要
1
POSIX準拠I/O関数 – C/C++プログラムによるIO hssput/hpsscat – HPSSパッケージとして提供 Parallel FTP(pftp) – HPSSパッケージとして提供 Kerberos ftp(kftp) – ftp を kerberos認証で利用。 kerberosの設定により 使用可 2010/3/19 KEK 技術研究会 10/27各インターフェイスの概要
2
VFS – ユーザのマシンに入れて利用するのは一般的でない SSH – VFSを導入してある SSHサーバを通じてファイル転送 iRODS – iRODSクライアントを導入して、 VFSを導入してある iRODS サーバを通じてファイル転送 Gridftp – VFSを導入してある Gridサーバを通じてファイル転送 CIFS – VFSを導入してある CIFSサーバを通じてファイル転送2010/3/19 KEK 技術研究会 11/27
使用例
1
Hpsscat/hpssputによるファイル転送
$ kinit
$ hpssput /hpss/ce_g/cc/yashiro/test/outfile local_file $ hpsscat /hpss/ce_g/cc/yashiro/test/remote_file > outfile
Parallel FTPによるファイル転送 $ kinit $ /opt/hpss/bin/pftp_client -v hco01.cc.kek.jp 4021 cd /hpss/ce_g/cc/yashiro/test/ ftp> put local_file ftp> get remote_file bye Kerberos ftpによるファイル転送 $ kinit $ kftp ftp> put local_file ftp> get remote_file bye
使用例
2
Scpによるファイル転送 $ kinit ― 省略可$ scp local_file hpss.cc.kek.jp: /hpss/ce_g/cc/yashiro/test/outfile $ scp hpss.cc.kek.jp: /hpss/ce_g/cc/yashiro/test/remote_file outfile
Sftpによるファイル転送 $ kinit ― 省略可 $ /usr/bin/sftp -v hpss.cc.kek.jp cd /hpss/ce_g/cc/yashiro/test/ ftp> put local_file ftp> get remote_file bye iRODSによるファイル転送 $ iinit
$ iput -f local_file outfile $ iget -f remote_file
2010/3/19 KEK 技術研究会 13/27
性能測定の条件
実験グループがHPSSにデータを転送するにあ たって、インターフェイスを選択するための参考と なる資料を目指す HPSSのキャッシュディスクとクライアント計算機 との間の転送性能 実際の利用環境での性能を測定 – チューニングを行わない – 約1GBのファイルの転送 運用システムで、運用中に測定 – その時点での利用状況の影響が出ている 5 movers 5 movers POWER5+ 1.65GHz 4Core 2CPU, 2GB Cache disk Cache disk 10TB 10TB Core server Core server POWER6 3.5GHz 4Core 2CPU, 8GB 2 VFS servers 2 VFS servers Xeon-QX5460 3.16GHz 4Core 2CPU, 8GB 2 SMB/NFS 2 SMB/NFS servers servers Work servers Work servers (VFS server) (VFS server) Xeon-QX5460 3.16GHz 4Core 2CPU, 16GB iRODSiRODSserverserver (VFS server) (VFS server) Xeon-QX5460 3.16GHz 4Core 2CPU, 8GB
測定環境
HPSS6.2.2 KEK LANクライアント XEON-X5450 2CPU、4GB CentOS5.3, kernel 2.6.1 router XEON-X5450 2CPU、4GB CentOS5.3, kernel 2.6.1 JLANクラ イアント SINET L2VPN 経由 RTT=10ms RTT=0.9ms SCP API, pftp iput/iget kftp2010/3/19 KEK 技術研究会 15/27
KEK内での転送性能
31.3 32.4 scp 16.1 23.5 iRODS 85.2 89.5 hpssput/cat 86.7 97.3 pftp 83.0 64.0 kftp 読み出し(MB/s) 書き込み(MB/s) インターフェイスKEK内での転送
HPSSの提供するインターフェイスは高性
能
scp, iRODS も、一定の性能
2010/3/19 KEK 技術研究会 17/27
JPARCとの間の転送性能
30.2 33.6 scp 17.6 23.2 iRODS 16.9 19.7 hpssput/cat 17.2 26.6 pftp 25.0 12.0 kftp 読み出し(MB/s) 書き込み(MB/s) インターフェイス 2010/3/19 KEK 技術研究会 18/27JPARCとの間の転送
Scp と iRODS はKEK内からのアクセスの場合 と同じ性能 HPSSへの書き込みは scp, pftp, iRODS が高 速。ただしNAT経由の場合には pftp は使えな い。 HPSSからの読み出しは scp, kftp が高速。 iRODSについては、第5分科会 5-007 も参照の こと。2010/3/19 KEK 技術研究会 19/27
Tc の有効性
30.2 16.5 scp-k2j 17.6 21.1 iget 16.9 14.1 hpsscat 17.2 14.6 pftp-get 25.0 18.0 kftp-get HPSSからの読み出し 33.6 30.2 scp-j2k 23.2 24.0 iput 19.7 16.0 hpssput 26.6 18.1 pftp-put 12.0 10.0 kftp-put HPSSへの書き込み JPARC(MB/s) KEK内で RTT=10msに 設定 インターフェイスTc の有効性
動機
– RTT=10ms の東海で測定する代わりに、つく ばの計算機で tc コマンドにより 10ms の遅 延を入れて測定することができないか? 結果
– おおよその状況を見るには使える2010/3/19 KEK 技術研究会 21/27
異なる
GbEカードでの転送性能
30.2 3.8 31.3 22.7 scp-k2j 10.4 17.6 16.1 18.3 iget 16.9 16.6 85.2 24.5 hpsscat 17.2 17.0 86.5 38.7 pftp-get 25.0 20.0 83.0 26.0 kftp-get HPSSからの読 み出し 33.6 31.3 32.4 28.4 scp-j2k 22.5 23.2 23.5 23.0 iput 18.1 19.7 89.5 61.3 hpssput 20.0 26.6 97.3 64.3 pftp-put 12.0 11.0 64.0 63.0 kftp-put HPSSへの書き 込み intel planex intel planex JPARC KEK内 インターフェ イス 2010/3/19 KEK 技術研究会 22/27GbEカードによる差異
Planex をつくばのクライアントで使用 – Put では 60MB/s台で頭打ち。 – Get ではさらに悲惨 – 高速な転送には使えない Planex を東海のクライアントで使用 – ほぼ intel と同性能。 – Scp の get は悲惨 – 一部 Planex の方が高速。測定時の混み具合か? GbEカードの選択は重要2010/3/19 KEK 技術研究会 23/27
Sshfsの性能
10.5 38.9 sshfs 27.5 41.2 sftp 30.2 31.3 scp HPSSからの読 み出し 29.9 29.7 sshfs 31.3 32.4 sftp 33.6 32.4 scp HPSSへの書き 込み 東海 つくば インターフェイスSshfsの利用
動機
– 遠隔地からの利用に有利な SSH を利用して ファイルシステムのインターフェイスを実現で きないか? テスト結果
– KEK内での利用では、Scp, sftp, sshfs の性 能がほぼ同一 – JPARCからの書き込みは良好な性能。 – JPARCからの読み出しでは性能が出ない。2010/3/19 KEK 技術研究会 25/27
まとめ
データによって性能が変わること、チューニングにより性 能向上の可能性があることに留意すること サイト内での利用には、HPSSの提供するインターフェイ スが高性能 遠距離からの利用には、scp, kftp, iRODS が性能面、 およびNATやFWとの相性の面でよい 性能確保にNICの選択は重要 遠距離からの利用の性能調査にtc コマンドの利用は有 効 ファイルシステムのインターフェイスの実現のために sshfs 利用は手軽で有効。しかし遠隔地からの書き込み は性能が出るが、読み出しでは性能が出ない。 2010/3/19 KEK 技術研究会 26/27さいごに
謝辞
– KEK計算科学センターの佐々木節氏、飯田好 美氏、真鍋篤氏、鈴木聡氏、鈴木次郎氏 – 日本アイ・ビー・エム㈱の伊藤義彦氏、玉井千 恵子氏、山本智実氏 – 日本原子力研究開発機構J-PARCセンターの 石川弘之氏2010/3/19 KEK 技術研究会 27/27
参考資料
– 共通計算機システム(KEKCC), http://kekcc.kek.jp/ – HPSS(High Performance Storage System),
http://www.hpss-collaboration.org/hpss/index.jsp – iRODS, https://www.irods.org/ – SSHfs, http://fuse.sourceforge.net/sshfs.html – 飯田好美、iRODSを用いたデータ管理システムの導 入、第5分科会5-007