HPCI共用ストレージ利用者説明会資料
2015/5/28
HPCI運用事務局
ストレージSub-WG
- 筑波大学 建部 修見
- 理研AICS/東工大/東大
目次
1. 説明会開催の主旨
2. 共用ストレージの割当/使用容量の推移
3. 資源割当方針
4. 大規模障害報告
5. 使用量管理
6. 依頼事項
21.説明会開催の主旨
HPCI共用ストレージに関する
新しい利用制度のご紹介
提供可能なストレージ資源
理研計算科学研究機構 • W1 storage • Gfarm • DDN SFA10000(Total10PB) • メタデータサーバ2台 • データサーバ16台 • 10GbE ネットワーク • 60 PB tape archive西拠点
東京大学情報基盤センター • E1 storage • Gfarm • DDN SFA10000 9 セット(Total 8PB) • メタデータサーバ8台 • データサーバ36台 • ログイン4台 • 10GbE ネットワーク • E2 storage • Gfarm • DDN SFA10000(Total 5.5PB) • メタデータサーバ2台 • データサーバ8台 • 10GbE ネットワーク • 20 PB tape archive (内部バックアップ利用)東拠点
• Tokyo Tech storage • Gfarm • DDN SFA10000(Total 400TB) • データサーバ4台 • 10GbE ネットワーク 東京工業大学情報基盤センター
東工大
4新しい利用制度
• 共用ストレージ利用規約を2015年度から正式適用
HPCI 情報共有CMS,HPCIポータルにて公開
https://www.hpci-office.jp/info/pages/viewpage.action?pageId=28246203
• 2015年度からディスク容量管理が、ファイルスペース使用量か
らディスクスペース使用量に変更
ファイルスペース使用量: ファイルの使用量
ディスクスペース使用量: ディスクの実使用量(ファイル複製を含む)
HPCI共用ストレージ利用規約(抜粋)
利用目的(第3条)
• 学術研究、および社会貢献に供する禁止事項(第11条)
• 運用の妨げになる行為 • 利用目的に反する • 課題に関係ないデータの保存 • 知財の侵害、その他法令・公序良俗に反する etc.ストレージアカウントの有効期間(第7条)
• 採択された実施期間(成果報告期限)終了後1ヶ月+ 運営者が承認した期限終了後のデータの扱い(第9条)
• データ保存期間中:削除時期は運営者と協議 • 終了後:削除時期については運営者が自由に決定ユーザデータのバックアップ(第10条)
• 利用者が責任を持つ保証範囲(第12条)
以下はベストエフォートであり保障しない • エラーや不具合改善 • サービス品質 • 正常動作 • etc.免責(第13条)
• 過失、システム故障等によるデータ損失に関わる損害 等について、賠償等の責任を負わない • データ保存利用容量が申請時容量を下回って追 加保存ができない場合の責任を負わない 62.共用ストレージの割当/使用容量の推移
年度 希望割当容量 (ファイルスペース) 実際の割当容量 (ディスクスペース/ファイルスペース) 年度末使用容量 (ディスクスペース/ファイルスペース) 年度末達成度 (実績/希望) 平均複製数2013年度 13.9PB
-(※1)/13.9PB
(希望通り)9.91PB/4.18PB
30%
2.37
2014年度 15.6PB
20.8PB/10.4PB
14.64PB/7.25PB
47%
2.02
2015年度 20.9PB
21.3PB/-(※2)
21PB/14PB
(予測)67%
(算出)1.5
(算出) 総容量:22.5PB• 2013年度/2014年度は、複製数2以上での格納を維持
• 2015年度は、現状の複製数2での格納が困難と予測
※1 2012年、2013年度当初は、二重化無し ※2 2015年度から、割当量をディスクスペースに変更共用ストレージ利用量予測(~2018/10)
8
4PB
7PB
3.資源割当方針
• ディスクストレージだけでは割当量が不足するため、ディスクとテープ
の併用を前提にストレージ資源を割当
• ディスクストレージへの割当方針
希望容量が小さく、平均容量以下の課題
⇒従来通り、希望容量(ファイルスペース)の2倍のディスク容量(ディスクスペース)を割当
昨年度の利用率が高い課題は、ディスクスペースを多く割当
• テープストレージへの割当方針
共用ストレージの希望容量と同等の容量を割当
全課題を西拠点のテープアーカイブ装置に割当
3.資源割当方針:資源割当表
昨年度の利用状況 希望容量 (ファイルスペース) ディスク割当容量 (ディスクスペース) テープ割当容量※ (ファイルスペース) 平均複製数(合算) 昨年度利用率高 ~20TB 希望容量 × 2.0 希望容量 3.0 20TB~33.3TB 一律40TB 希望容量 2.2~3.0 33.3TB~3000TB 希望容量 × 1.2 希望容量 2.2 3000TB~ 一律3600TB(最大) 希望容量 2.2以下 昨年度利用率低 ~20TB 希望容量 × 2.0 希望容量 3.0 20TB~50TB 一律40TB 希望容量 1.8~3.0 50TB~875TB 希望容量 × 0.8 希望容量 1.8 875TB~ 一律700TB(最大) 希望容量 1.8以下 昨年度割当済 (利用無) - 希望容量 × 1.0 希望容量 2.0 10 ※共用ストレージの希望容量(ファイルスペース)と同等の容量を割り当て テープストレージ装置内では、2個のカートリッジに同時に格納しており二重化しているが、装置レベルでの 二重化のため、ディスクのRAID構成と同様に複製数にはカウントせず (備考) 2015年度の資源割当ポリシー確定前に応募のあった、随時募集の産業利用課題については、希望資源量をそのままディスク スペースとして割当て4. 大規模障害報告
• 概要
• 全1,071個のファイル(4課題4ユーザ)が消失
• 平成26年8月20日~10月29日に、東工大拠点へ
最初に作成・変更されたファイル
が破損
• 被害ユーザに、5月13日に連絡済み
• 3月末のユーザからの問い合わせにより、4月20日に大規模ファイル破損を確認
• 破損ファイルは読み込み時にI/Oエラーとなり、読み込みが失敗します
• 原因
• 東工大拠点設置のストレージサーバの不具合により、ディスクへの書き込み時にファイルが
破損
• 発見が遅れた原因
• ファイル検査はユーザによるファイル読み込み時に行われるが、3月末まで、ユーザのファ
イル読み込みが無かったため
4. 大規模障害報告:今後の対策
• 対策
• ハードウェア障害等によるファイル破損は避けられないため、被害拡大防止のため
に、
早期の障害検出
が重要
• 対策内容
• ファイルが複製される段階での障害検出 (対策済: 平成27年4月~)
• 4週間毎に変更ファイルを実際に読み込み整合性を確認 (実施予定)
• お願い
• HPCI共用ストレージにファイルコピー後、1ヶ月程度
はオリジナルの保持に努めてく
ださい (可能であれば)
• 特に重要なファイルは、テープ装置等へのバックアップも併せて検討してください
125.使用量管理
① 月末に課題代表者あてに、利用率を含む、利用実績メールを送信
② 四半期ごとに、利用計画ヒアリング後に再割当実施
③ 既にディスク使用量が割当容量を上回っている課題は、上期中に割当容量以下に削減頂く
④ 9月から、割当容量超過警告メールの送付開始
⑤ 下期(10月)から、課題(グループ)単位でHard Quota設定(
③達成次第で早期実施可能性)
13 0 1 2 3 4 5 6 7 8 9 10 11 12 ⑤使用量制限実施 ④割当量超過警告メイル ③使用量削減 ②利用計画ヒアリング・再… ①使用量通知メイル 系列 1 系列 2 系列 3 系列 4 系列 5 系列 6 系列 7 系列 8 系列 9 系列 105.使用量管理:使用量通知メイル
14 10 11 12 ①使用量通知メイル 系列 1 系列 2 系列 3 系列 4 系列 5 系列 6 系列 7 系列 8 系列 9 系列 10 Apr15 Jun15 Sep15 Dec15 Jan16 Mar16• 毎月末に課題代表者あてに使用量をメイルで通知
• 通知内容は下記の通り
① 課題使用量(ファイルスペース容量:ファイル複製分抜き)
② 課題使用量(ディスクスペース容量:ファイル複製分込み)
③ 課題割当容量(ディスクスペース容量:ファイル複製分込み)
④ 課題利用率(②/③)
⑤ 全課題使用量(ファイルスペース容量:ファイル複製分抜き)
⑥ 全課題使用量(ディスクスペース容量:ファイル複製分込み)
⑦ HPCI共用ストレージ総容量
• 計画的利用の参考にお役立てください
5.使用量管理:利用計画ヒアリング・再割当
0 1 2 3 4 5 6 7 8 9 10 11 12 ②利用計画ヒアリング・再割当 系列 1 系列 2 系列 3 系列 4 系列 5 系列 6 系列 7 系列 8 系列 9 系列 10Apr15 Jun15 Sep15 Dec15 Jan16 Mar16
• 4半期ごとに利用計画のヒアリングを実施します
• ヒアリング時点での利用実績を考慮した現実的な、利用計画・使用容量見込
みをお教えください
• ヒアリング結果に応じて、割当容量の再割当を行います
• 利用見込みが課題申請時の利用計画を下回る課題に対しては、資源の解放
をお願いします
• 利用見込みが課題申請時の利用計画を上回る課題に対しては、できる限りご
要望に応じる所存です
• HPCI共用ストレージ資源の有効活用のため、ご協力をお願いいたします
参考)
今年度希望割当量:20.9PB(ファイルスペース)
HPCI共用ストレージ総容量:22.5PB
5.使用量管理:使用量削減
• 9月末までに割当容量以下に使用量を削減してください • 10月から課題ごとの使用量を割当量に制限します • 利用者による複製数管理 • ファイルの重要度に応じた複製数設定 • 現在HPCI共用ストレージは複製数:2で運用しています • テープアーカイブの活用 • 低アクセス頻度ファイルをテープアーカイブに退避 • 削減推奨方法 ① 計算機資源ローカルディスクにコピーがあるファイルは複製を削除 ② テープアーカイブにデータをコピーして、複製を削除 ③ アクセス頻度の低いファイルはテープアーカイブに退避してHPCI共
用ストレージから削除(右グラフ参照)
16 0 1 2 3 4 5 6 7 8 9 10 11 12 ③使用量削減 系列 1 系列 2 系列 3 系列 4 系列 5 系列 6 系列 7 系列 8 系列 9 系列 10 Apr15 Jun15 Sep15 Dec15 Jan16 Mar1652% 4% 8% 6% 4% 5% 3% 2% 2% 1% 3% 5% 5% アクセスタイムごとのファイル分布 (総容量) 2014年3月以前 2014年4月 5月 6月 7月 8月 9月 10月 11月 12月 2015/1月 2月 3月