Japan Advanced Institute of Science and Technology
JAIST Repository
https://dspace.jaist.ac.jp/Title
信頼性を考慮したグリッド向け自律分散ストレージシ
ステム(グリッドシステム)
Author(s)
井口, 寧; 渡辺, 浩二; 松澤, 照男
Citation
情報処理学会論文誌: コンピューティングシステム,
47(SIG 7 (ACS 14)): 219-230
Issue Date
2006-05-15
Type
Journal Article
Text version
publisher
URL
http://hdl.handle.net/10119/4555
Rights
社団法人 情報処理学会, 井口 寧, 渡辺 浩二, 松澤
照男, 情報処理学会論文誌: コンピューティングシス
テム, 47(SIG 7 (ACS 14)), 2006, 219-230. ここに
掲載した著作物の利用に関する注意: 本著作物の著作
権は(社)情報処理学会に帰属します。本著作物は著
作権者である情報処理学会の許可のもとに掲載するも
のです。ご利用に当たっては「著作権法」ならびに「
情報処理学会倫理綱領」に従うことをお願いいたしま
す。 Notice for the use of this material: The
copyright of this material is retained by the
Information Processing Society of Japan (IPSJ).
This material is published on this web site with
the agreement of the author (s) and the IPSJ.
Please be complied with Copyright Law of Japan
and the Code of Ethics of the IPSJ if any users
wish to reproduce, make derivative work,
distribute or make available to the public any
part or whole thereof. All Rights Reserved,
Copyright (C) Information Processing Society of
Japan.
0 60 May 2 7 No G 7ACS1
信頼性 を考慮 したグ リッ ド向 け自律分散 ス トレージシステム
( I S I V l4o, 4) 情報処理学会論文誌 :コンピューティングシステム井
口
寧 川 渡 辺 浩 二 I廿 ☆松 揮 照 男 I 本論文では,企業や大学の組織内にある一般のユーザが利用する計算機の余剰ディスク領域を統合 し,仮想的な大規模ス トレージを提供する手法を提案する.一般のユーザが使用する計算機 を記憶 ノー ドとして用いる場合,ユ-ザの不用意なシャットダウンやネッ トワーク断線などによる,稼働率 の低 さや不均一さが問題 となる.本研究では,可用率の低 さに対 しリ- ドソロモン符号を用いた冗長 性の高い符号化を用い,データとしての信頼性を確保する,また,可用性の不均一さに対 し,動的な データの再配置を行 う手法によって,保存されたデータの信頼性を確保する.分散ス トレージを構築 する際に,個々のコンピュータの稼働率を測定 し,この数値をもとに冗長データの多重度 と,データ の分散先を動的に変化させる.冗長データにはリー ドソロモン符号 を用い,従来のレプリカ方式 より もディスクの使用効率向上を囲った.これらの手法によって,信頼性が不均一な環境においても,十 分なレスポンスタイムを保ちなが ら,システムの信頼性の確保 とディスク領域の利用効率化が達成で きた.IK oJIW ATANABEI什
集 まってい る. は じ め に 組織 内 グ リ ッ ドの ノー ドとなる個 々の ワー クステー 近 年 ,高 エ れ レギ ー物 理 や ヒ トゲ ノ ム解 析 な どの シ ョンな どの多 くは,近年の デ ィス クの急速 な大容量 大 規模 デ ー タ解 析 を必 要 とす る分 野 で は グ リッ ド技 化 を受 けて,数百 GB 以上の デ ィス ク容量 を有 してい るが ,実際 に必 要 な容量 はたいてい の場合 それ ほ ど多 プベ ースの システムは,専用 のシステムを必 要 とし,導 ff†北陸先端科学技術大学 院大学情報科学研究科 vance i J cence apa, io t Cenetrornorf lf )4, 術 3 )が キーテ クロノジー となってい る. また,一般 的 な使用 にはオーバ スペ ック ともい える
PC
の性 能向 くな く, これ らの容量 の半分 以上が遊休領 域 となって 上 を受 け,地球規模 での グ リッ ドだ けで な く,企 莱 や い る シス テムが少 な くない. これ らの遊休 領域 を組織 学校 単位 での グ リッ ド (組織 内 グ リッ ド) に も注 目が 全体 で統合す る ことがで きれば,仮想 的 に数 TI∋以上 もの巨大 なデ ィス ク領域 を構 成す るこ とが可能 となる, †北陸先端科学技術大学 院大学情報科学 セ ンター ma nS nAd dl 大容量 ス トレージ システム と しては,テープ ライブ n Sicenc f ttueo eadT ラ リか らオ ンデマ ン ドでデー タを読み出す pe H 科学技術振興機構 さきがけ研 究 21(機能 と構成) や AM SS2)な どが実用化 されているが,これ らのテー ) l te i S tad
i
o
t
yse
t
or
ag
Au
mo sDi
b t
ue
dS
eS
m frGr
ib
a
tCo
sRel
i
t
sr
der
u
i
ns
t
ono
h
ta
i
l
i
t
y
d nuse hese Wep eana mosd ds es m t tc is d ta C 用・ ts ea au et nr ame dt tu dbyo rr .Usngt h s nb me m a et respons uc i ・P ds Ree wo m u c iinn ka .Thep ds m o sav ll es ea acmb gs hu re t yse h esearces der o i ons re he t nd
n
ha ser torag t yse se arg ha torag itrua ho t b tue f fer li ep c i isrt d o☆a
u t yse ses t a ha sag t uono du sadmo ropose t yse l eve an ig ropos rea ropose adynamiall d d eun anc torag h d ho , dr yl dd an k rs ien d an e t -i t b tues i isrt d -TERUO M ATSUZAWAI n t i l i iba l e sr ya du d nuse av he ft o t s m h eu t e ro dt h r eace e o hu d len d u ar sers n se d verno e,karea.Howe su dbye du es ys td wndo df m n is d igae td -t nves r d o t a feac t i l i lba i a yo hd an eaei re eo鮎 rsmo e d d eun ancy an, ig etokeephh r dr d o S loo - monc h noug t ieve h ac e dwihe d dde . i ec r se etobeu daed Ree a io i tza l i t nc n se r t yse i r f de No so ag ds m aeu dbye ikss. d f d o S loo -d monc ty i l i lba i va ・Av torageare ig n t i l i lba i va ya dhh S au t n. on nv imeinaGRID eir me
i t ns-YASUSHIINOGUC
H
I,H l ihg ytokeeph ya y h l ecnoog ency h l ecnoog n i cenc JapaPRESTO, nS eadT yAg no io i tza 1 1. 入後 もテー プ寿 命 の管理 な どを行 う必 要が あ る,テー プベ ースの手法 に対 し,グ リッ ド内の分 散 ス トレー ジ
)
2
であれ ば,(
1
)
専 用 シス テム を導入せ ず に遊 休 資源 を 利 用 で きる こ と,お よび(
テー プ管理 な どの運用 コ i h tac ii vson, t yse a s t l Present d. t LywihDikArryS msDi Hi ,
9 1 2 -apa i cence io t f nor h coo d t raua G eS lofI ma nS ,J n Ad dI vance ☆ 現在 ,株式会社 日立製作所 RAID システム事業部 y h l ecnoog n i cenc ttu i t ns eofS eadT
0 0 22 情報処理学会論文誌 コンピューティングシステム May2 60 ス トの軽減で きること,の 2つの利 点がある. ク領域 を 1つの統合化 されたス トレージ領域 として利 グ リッ ド上の分散 ファイルシステムに関す る先行研 用 す ることを目的 としてい る. これ らの システムは, 究では,大量 のデー タが扱 われるために,広域 に分散 た とえば
L
-
PC
な どを想定 し,基本 的 に2
4
時間 したデー タを高速 に転送が可能で,数千 キロ離 れた場 運転 を仮定するが,システムのバージ ョンア ップやセ 所へ少 ない遅延 で転送 す るシステムな どが提案 され キュ リテ ィパ ッチ当てな どの作業 によ り,不定期 なシi
nux
てい る5ト 8 ). しか し,研 究 の主 な対象 がデー タの保 ステム ダウ ンを許容 す る必 要が あ る. これ らのデー 存,転送能力の向上であ り,デー タの保存性や信頼性 についての議論 はほ とん どされていない.これは,先 行研究でのグ リッ ド構成 に使用 しているコンピュー タ が, もともと信頼性が高 く,常時稼働 を前提 に運用 さ れているため に,詳 しく信頼性 を知 る必要がないため と考 え られる.また,それぞれの要素 システムの信頼 性が十分高い ことを仮定 しているため,データの信頼 性保全のための手段 は もっぱ らレプ リカであ り,オー バヘ ッ ド,冗長性の確保 ,負荷分散 には有利 になるが, 物理 的な総記憶容量 に対す る利用効率 は高 くない. それ らに対 し,本研究の ターゲ ッ トとなるキ ャンパ スな どの組織内 グリッ ドでは,一般ユ ーザの使用 して タの断片 を格納 す るノー ドは,一般 のユ ーザが利 用 しているワークステーシ ョンを想定 してい る.計算セ ンターな どの ワークステー シ ョンでは,ある程度以上 の稼働率が期待 で きるが,エ ン ドユーザ用 のワークス テーションの場合,システムの機種が まちまちであ り, システムその ものの信頼性が一定でないばか りか,個 人の都合 によるシステムの停止や リブー トが頻繁 に発 生す る可能性 を考慮する必要がある. 本研 究では,複数の研究室や部署 に配置 されている ワー クステーシ ョンにデー タ断片 を格納 す る.研究室 や部署 が異 なる と,アカウ ン ト体 系 や管理 ポ リシが 異 なる場合が多いので,で きるだけ広範囲のシステム いるコンピュータや ワークグループサーバ,お よびネッ トワークをグ リッ ドの要素計算機 として構築す る. し か し,この ようなノー ドは,管理者や運用方針が異 な り,個 々のデ ィス ク領域 に保全 されたデータは必ず し も安全 ではな く, またノー ドが不意 にシャッ トダウ ン された りネッ トワークか ら切 り離 された りす ることが あるため,統計的なデー タの保全 に関す る対策が必要 である. そ こで本研究では,個 々の計算機要素の信頼性 を統 計的に管理 し,それぞれの計算機要素 の信頼性 に応 じ たデー タの冗長性 を持 たせ たグリッ ド向けス トレージ システムを提案す る.グリッ ド上 にデー タを分散配置 する際 に,あ らか じめ算出 しておいた稼働率 に応 じて, データの配布先 とデー タの冗長度 を動 的に変化 させ るk
b T l
ousoo
をノー ドに加 えることを狙 い,Gl
GTK)
を用 いて システム構築 を行 った. 格納す るデー タサイズは,数百 MB~数 GBの比較 的大 きなデー タを想定 している.この ような仮想 ファ イルシステムは,ローカルデ ィスクに比べ てデータの 入出力 に時間がかかるため,アーカイブ的 な使 われ方 が多 い と考 え られるか らである. デー タ入出力 は,データの書 き込みお よび読み出 し のための専用 コマ ン ドによって行 う.元 データの ファ イル名や取 り出 したいファイル名 を引数 と して呼び出 す.た とえば,システムへ の ファイル書 き込みは,吹 の コマ ン ドで行い,指定 されたファイルを断片化 LRS 符号 による冗長 を行 った うえで グリッ ドノー ドへの書 き込み を完了す る.i
t
(以下 分散 アー カイブ システムの構築,性能評価 を行 った."
so
t
r
ep
.
l
(jile_ na
m
e)" デー タの信頼性 は, リー ドソロモ ン符号9) (以 下 RS また,読み込みの場合 は,次 の よって, グ リッ ドノー ドか らのく _jilena )d l
r
e
a p
.
d t sore コマ ン ドに meで 符号)で生成 した冗長 デー タを利用 し,単 なる レプ リ _ i wr カを用 いた場合 よ りも,デー タの信頼性やデ ィスク領 指定 された ファイル断片の収集 と,欠落 断片があれば 域の利用効率 を高め ることがで きる. ファイルを修復 し,コマ ン ド発行 ノー ド上 の ファイル ( 本論文 の構成 は,次 の とお りである.2
章で システ te_jile_ name)としてユ ーザ に返す. ムの構成 と実装 について述べ,3章では実験 的に構築"
r
e
a p
d l
.
(sort ed_jile_name)(
wr eit_jile_ na
m
e)" したシステムの性能 を評価 す る.4章で他の研究事例 22. システムの構成 について紹介 し,最後 にまとめ を示 す. 提案す るシステムでは,最終的に統合 されたデータ2.
21. の信頼性 を保証す るため,ノー ド計算機 ごとに算 出さ 提 案 シス テ ム の構 成 と実 装 れたシステム信頼度 に応 じて リー ドソロモ ン符号 (RS 想定する利用環境 符号)9)に基づ いて,多重パ リテ ィの冗長度 を変化 さ 本 システムは,大学や企業内 にある,一般ユ ーザの せ る.RS符号 は,誤 り訂正符号 の 1つで,データに 利用す る端末やや ワー クグループサーバの遊休 デ イス 冗長度 を持 たせ ,ある程度 のデー タの欠落 な らば,坐Vol.47 No・SIG7(ACS14) 信頼性を考慮 したグリッド向け自律分散ス トレージシステム 221 分割れさた77イとストー / ド分 さ fル レジ- は 割 れ= パリティを即許し配布フ7イルを保存し Lて-おノくド スト Iジ-ストレージノード ウライ7ントー復元されたデータ データ配布用 ・ マスタサーバ 資刃管理サーJiからストレージ/-ド全体の、_ ステータスを取得して状況判断する 図 1 システムの概念 図 Fig.1 0utllneOfthesystem.
存 デー タか らオリジナルのデータを復元することが可 能である.デ イクア レイなどで多用 される RAID4や RAID510)は,冗長度 が 1の誤 り訂正符号 だ とい え る.本 システムで は,誤 り訂正能力 を RS符号 によっ て拡張 し,信頼性が低い ノー ドにデー タを格納す る場 合 は,冗長性 を高 くしてデー タを保全 し,信頼性が高 い ノー ドの場合 は冗長性 を低 くしてデ ィスクの利用効 率 を高 める. 図 1 に,各サー ビスが独立 した状態 の概念図 を示 す.アーカイブシステムは,ファイルの分割や RS符 号 の計算 を行 うマスタサーバ,データを格納す るス ト レージノー ド,各 ノー ドのデ ィスク空 き容量や空 きメ モ リ状況 を把握す る資源管理サーバか ら構成 される. マスタサーバ マス タサーバは,入力 ファイルの分割 と RS符号 の 生成,配布先 ス トレージノー ドの決定 と格納 したファ イルに関するメタデータの管理 を行 う.マスタサーバ は,主 に次の ような役割 をす る. ◎ ス トレージ /- ドの生存確認 各 ノー ドが健全な状態であるか どうかの確認 を行 う.まず pillgでの生存確認 を行い,応答がなけれ ばス トレージノー ドの候補 の配列 か ら削除す る. 次 に GTKで必要 とな る GRAM (GlobusRe
-sourceAllocationManager,GRAM は Globus
上で資源管理を行 うサー ビス)とGriFd TPの tpc のポー トが開いているか を確認す る. ◎ 資源情報問合せ マス タサーバは処理 を始める前 に各 ノー ドのメモ リの空 き状況 と,ファイルシステムの状況 を確認 す る. ◎ RS符号 のエ ンコー ドとデ コー ド RS冗長符号 を含 む書 き込みデー タを生成す る. また,読み出 し時には,集めたファイル断片か ら 元 の ファイルを復元す る. ◎ ファイル断片の配布 お よび回収 書 き込み時 には,分割 されたファイル断片お よび 冗長化 されたファイルを GridFTPを用いてス ト レージノー ドに配布す る.読み込み時 には,ス ト レージノー ドに保存 されているファイル断片お よ び冗長 デー タを回収す る. ◎ メタデー タの管理 保存す るファイル名 (論理 ファイル名)と,実際に 各ス トレージノー ドに配布 される名前 (物理 ファ イル名)の対応付 けを行 う. 資源管理サーバ 資源管理サーバでは,信頼性計算 と資脚 育報情報の 登録 を行 う.GTKの MDS(GlobusMetacomputing DirectoryService,グリッ ドにおけるマシン情報 を提 供 す るサー ビス) を使用 して得 られた情報 をもとに, RS符号化 の計算 を行 うノー ドや,ス トレージホス ト のデ ィスク空 き容量 を監視 す る. ス トレージノー ド ス トレー ジノー ドで は,GridFTPのサーバが待機 してお り,マス タサーバか らの転送要求 を待つ. ス トレージノー ドは,一般 のユ ーザが利用 している ワークステーションを想定 してい る. これ らのノー ド で は,不意 の リブー トや夜 間の電源 断 な どが発 生 し うる.ディスク故障ではないが,結果的にス トレージ ノー ドに格納 したデー タが利用で きない.そこで,障 害以外 の場合 も含めて,格納 デー タにアクセスで きな い状態 を非稼働状態 とす る. さらに,ス トレージノー ドはグ リッ ド上 の計算 ノー ドで もあるため,RS符号 の計算 ホス トになる場合 も あ る. 2.3 システムの動作 本 システムでは,大別 して,書 き込 み,読み出 し, お よび信頼性 の管理が行 われ る. デー タの書 き込みは,次 の手順 で行 う. (1) デー タを一定のブロックご とに分割す る・分割 したブロックを Ⅳ 個 のグループにす る. (2) RS符号 に従 って,冗長 ブロックを生成する・こ の冗長 ブロ ックのグループ数 を M とお く. (3) GridFTPを使用 して,(〟+〟 )個 のス トレー ジノー ドにデー タを送 り,書 き込 む.処理時間 短縮 のため,ス トレージノー ド- の転送は並行 して行 われる. (4) 論理 ファイル名お よび物理 ファイル名 の情報 を, マスタサーバのメタデータとして保存す る. 処理の流れを図 2に示す.また,信頼度の計算 (M, Ⅳ の決定)は,2.5節 に示す手順 によって決定 される. デー タの読み出 し時 には,ス トレージノー ドに分散 しているファイルを収集 し,元のファイルに結合す る. 読 み出 しは,以下の手順 で行 われ る.
222 情報処理学会論文誌 :コンピューティングシステム May 2006
図 2 デー タ書 き込み時の動作
Fig2 A fo h r owrt aa. l wcatt ied t.
(1) マス タサーバの メタデー タか ら,物理 ファイル 名お よび論理 ファイル名 を検索する.この結果, ファイルを保持 しているホス トお よびファイル 断片が分かる. (2) GridFTP によって, ファイル を保持 してい る ホス トか らファイル断片 を収集す る.ファイル の収集 は,複数 のス トレージノー ドか ら並行 し て行 われる. (3) 収集後 ,デ コー ド処理 を開始す る. デコー ド処理では,正常 でない ファイルや消失 した ファイルがあれば,冗長データを用いて元 の ファイル に復元 をす る.図 3 に,デ コー ド部分 の動作 を示す. 信頼性管理 は,ス トレージノー ドの可用率の変動 に 対 して も,デー タの信頼性 を確保するために行 われる. 本 システムでは ,RS冗長符号 を用 いてデー タの保護 を行 っているが,冗長度以上のス トレージノー ドの障 害 には対応 で きない.そこで,定期 的 に7 ,アイル断片 を配布 したス トレージノー ドの状況 を監視す る.シス テムに保有 されてい るデー タの状態 を確認す るには, メタデー タファイル を参照 し,論理 ファイル よ りフ ァ イル断片 が保有 されてい るス トレージノー ドを求め, 保有 されているファイル断片が以下のいずれかに該 当 すれば,配布 したファイル断片が読み取 り不可能 と判 断 し, ファイルの復 旧動作 が開始 される. ・ ス トレージノー ドが pingに応答 しない. ◎ GTK のサー ビスが開始 されてい ない. o 保存 されたファイル断片がス トレージノー ド内で 読み出せ ない. 図 3 デー タ読み出 し時の動作
Fig3 A fo catt edd t.. l w h r ora aa
/′〒〒こ
く\
Pl- Ae B eC(》D P2- EOF⑳G⑳H P3- I⑳J◎K ⑳L P4-M ⑬N◎OeP ファイルを分割する ことで小さいスペース にもデータを詰める事 が可能になる それぞれ異なった ノー ドで構成可能 図 4 冗長 データの生成 と格納Fig.4 R d n atd t y tei,toe u d n aasnhs2aina dsoen tr. ファイルの復 旧を行 う場合 は,一度 問題 の論理 ファ イルを読 み込み,再度書 き込み を行 う.読 み込み時 に はファイル断片 の一部が消失 してい るので ,RS符号 による復元が行 われ,再書 き込み時 には新 しい RS符 号 の生成が行 われる. 2.4 データのス トライプ配置 本 システムでは,デー タを分割 しス トレージノー ド -配布す る (ス トライビング).この とき ,RS符号 に 基づいて,分割 したファイルの冗長性 を確保する.図 4 に冗長データの生成 とデー タ格納 の概念 図 を示す. RAID4/5で は,デー タを Ⅳ 個 の ブロ ックに分割
Vol,47 No.SIG7(ACS14) 信頼性を考慮 したグリッド向け自律分散ス トレージシステム 223 し,このブロックのパ リテ ィを計算す ることによって, 1つの冗長デー タを生成す る. この方式では,冗長度 が 1つなので,デ ィス ク故障の際デー タを復 旧で きる のは 1台 までの故障 に限 られている (図 4上段). 本 システムでは,RS符号 を使用 し,複数の冗長ブ ロックを生成す ることによって,複数台のデ ィス ク障 害 に も対応す る.RS符号 は巡 回符号 の 1つで,バー ス ト誤 りに強い ことで知 られている.RS符号 はガロ ア体の元 を基準 に した多項式の加減乗除でエ ンコー ド, デ コ- ドされ る9). 組織内グリッ ドを構成す るス トレージノー ドは,資 源管理サーバ によって利用可能デ ィス ク容量 を管理 さ れるが,個 々のノー ドの利用可能デ ィス ク領域 はバ ラ バ ラである.そ こで,各デ ィス クを等容量のチ ャンク に分割 し,等容量のチ ャンクを集めてデータ格納領域 とす る.た とえば,図 4下段の例では,色別 にそれぞ れ 4台,3台,2台,1台のディスクか らなるデー タ格 納領域 となる.p台のデ ィス クか らなるデー タ格納領 域 は,分割数 N お よび冗長度 M の合計が p以下で ある場合 に利用 で きる.つ ま り,N +M ≦ pを満 た すチ ャンク群 を利用す る.利用可能容量 は,ファイル の格納結果や端末 を利用 しているユ ーザの状態 によっ てつねに変化す るので,チ ャンクの生成 はデー タの保 存のたびに行 われ る. 2.5 冗長度の決定 本 システムでは,システムの信頼性 に応 じて RS符 号の冗長度 を変化 させ る.ス トレージノー ドの信頼性 が高ければ,冗長度 を低 くし,冗長データを減 らし冗 長デー タ生成お よび保存のオーバヘ ッ ドを少な くす る. ス トレージノー ドの信頼性が低 い場合 には,冗長度 を 上げてデータの保護 を優先す る.この システムの信頼 性算出の もととなるのが,使用す るス トレージノー ド の稼働率である.個 々のス トレージの稼働率 は,資源 管理サーバが測定 し算 出す る.資源管理サーバが,ス トレージノー ドの生存確認 を行 うプログラムを一定時 間ご とに実行 し,順番 にチ ェックする. この際 に,令 ノー ドの uptimeとdowntimeの積算状況 を更新す る. この情 報 よ り各 ス トレー ジノー ドの MTBF (Mean
TimeBetweenFailure)と MTTR (MeanTimeTo
Repair)を算 出 し, シス テムの信頼性 Rsystem を以 下の式 によって求め る. MTBF Rsystem - (1) MTBF+MTT
R
また,システムの信頼性 モデルは簡単 に表現で きる ように m-out10f-nの並列 システム として計算 した. ここで問題 となるのが,それぞれ異 なる稼働率のサ ブシステムか ら構成 され る並列 システムの場合,故障 の起 きるパ ターンをすべて計算す る必要があるために, 構成す るサブシステムが多数 になった場合 (数百台の 規模 であって も)に,計算量が非常 に大 き くなって し まうことである.この間題 の解決方法 として,ある程 度の稼働率で クラス分 けを し,その代表値 に統一 して システム信頼性 を計算 をす る.各サブシステムの稼働 率 を a とす る とき,n 台 のサ ブシステムの うち i個 が故障す る確率は,n
an_1・
a
n-
七・
(
1-a
)
t
である. し たが って,生存台数 を m とす ると, システム信頼性 R system は, n-帆Ry
t
m
∑
乞
=
n
- ・n 1
(l )) 2s
s
e-0
(C
一℃a-
・ laも () と簡素 な式 で計算す ることが可能 となる. 本 システムでは, クラス分けには稼働率 に応 じて 3 つのクラス と,使用不可の クラスに分 ける.クラス分 けはノー ドの稼働率 R nodeを もとに行 う. ◎ R rO e Ld>
9 .999% ( g s roiyHih etpirt として使用) 。 999% .9>
R no ed ≧9 .% ( g r roiy99 Hih e pirt とし て使用) .%>
R no e≧9% ( r l o yとして ◎ 999 d 9 Noma pririt 使用) ◎ R node<
99% (容量が不足す るまで使用 しない) この クラス分 けの フローチ ャー トを図 5に示 す. 99.99%の稼働 率 は,年 間 1時間弱 の シス テム ダウン であ り,た とえば情報セ ンターな どのシステム をノー ドとして利用 することを想定 している.99.9%の稼働 率 は,数 カ月に数時間のシステムダウンであ り,た と えば研 究室内のサーバ な どが この稼働率であることを 想定 した.99%の稼働率 は,月間 7時間 (1週 間 2時 間)程度の システムダウンであ り,一般 の個 人用 ワー クステーシ ョンを想定 している.この稼働率 について は,筆者 らの所属す る北 陸先端科学技術 大学 院大学 の ワー クステーシ ョンの稼働率か ら仮定 した.343台 のシステムの稼働状況 を 2006年のある 4日間につい て調べ た ところ,18 ,104 5回の pnigに対 して 100】1 回の不応答が観測 された.つ ま り,この間平均 して約 0.65%の利用不可能状態が出現 したので,稼働率 とし ては 99%以上が期待 で きる. デー タの書 き込み時 に,マス タサーバは, クラス分 け され たス トレ- ジノー ドを,信頼性 の高 い クラス か ら順番 に使用す る.使用ス トレージノー ドの偏 りを 防 ぐために,プログラムの開始時 にクラス内の順番 を シャッフル して利用する.そ して,使用す るノー ドの 分 だけ配列 か ら 1つずつチェック しなが ら取 り出す.0 情報処理学会論文誌 :コンピューティングシステム M ay 2 4 2 2 06 した.ジ ョブ生成用のス クリプ ト書 き出 し,ファイル この とき,デー タの分割サ イズは 40MBずつ に分割 し,冗長度 を 2と設定 して信頼性計算 を行 う. もし, の分散配置の準備,システム信頼性計算 などの制御 は, 0 要求す る信頼性 を満 たせ ない場合 には,冗長度 を 1上 rlによって記述 された. げてシステムの信頼性計算 を再実行する.使用する予 マスタサーバが 1台だけでは,故障 した場合や負荷 定であったクラスで,ス トレージノー ドが不足 した場 の集中が起 きることが予想 される.このため,本 シス 合 には,次の信頼性 クラス を使用 して,再度 ス トレー テムでは 2つの動作 モー ドを使 い分 けるこ とに した. ジノー ドの選択お よびシステム信頼性計算 を実行する. マス タサーバが 自分 自身でパ リティ生成 な どをすべ て pe システム全体のデータ信頼性 は 9 には,式 ()2を用 いて , R sys et ≧ 9 %とした.表 1 9 9 99. 行 う 『自己処理モー ド』 と,マスタサーバが グリッ ド 内の他 のマ シンにパ リテ ィ生成な どを依頼 し,そこか % を達成す 9 9 9 ・ 9 ら
Gi
r TP
d
F
の第三者転送で分散配置 を行 う,
『外部処 るため に必要な冗長度 を示 した.26
.
システムの実装 理モー ド』である.外部処理モー ドは,マス タサーバ lを使用 した. RS 符号や組合せ計算の処理部 は ,C言語で記述 されてい し,マスタサーバのメモ リが不足する場合には,グリッ Per 実装 に使用 した言語 は Cと が扱 う元 ファイルサ イズ と空 き物理 メモ リ容量 を比較 る. RS符号 を生成す るライブラリ 1 )をもとに,コー ドの一部 (ファイル入出力部分 など) を改変 して使用 依頼す る.この手法 をとることで,冗長度計算 のオー バヘ ッ ドを背負 うホス トが分散 される, しか し, どの ホス トか らもアクセスで きるデ ィレク トリに元 ファイ ル を置 いてお く必要があ り,現状 では NFSでマ ウン トされたデ ィレク トリにファイルを格納 し,それ を処 理担 当 になったホス トが読 み出す. 1 ドの中を検索 し,メモ リに余裕のあるホス トに処理 を 稼働率チェックのフローチ ャー ト (30分 ごとに監視す る場合 ) Fig・5 A flowcharttocheckavailability(Checkevery303.
31.システムの性能評価
実験 システムの構成 システムの性能 を評価す るため に,表 2に示す機 器か ら構成 される実験環境 を構築 した.各端末 は学内LAN
を通 じてGi
また, これ らの コンピュー タ,ネ ッ トワークは通常 の ユーザ環境で行 われ,各端末のユ ーザは通常 どお りに ネッ トワークや コンピュー タを使用 している状況で実 験 を行 った. 提案 システムの 目標要件 としては ,(1)RS符号 によ る信頼性が確保 で き,符号生成や障害時のデータ復 旧h
e
r
ne
t
t
E
bt
g
ai
で接続 されてい る.2
の際 に実用上十分 な速度 で処理で きること,()
テー プベースの大容量 ス トレージシステムに劣 らないアク セス性能 を達成す ること,の 2つである. 32. システムの基本性能 321.. ス トライ ピンクによる性能 まず予備実験 として,データのス トライビング転送 図 . 5 表 2 実験環境 に用いた機器の仕様 ), tes nu mi a T ble2 S f chine o xperi d a io B tca su i pec no ma sfre me nBl e1 ・ ions tt na 0 0 5 自作 t ysem
tem
t ys e n , , , , f l au m , 0 m, 0 m, l t sysem t yse a 9 9 9 9 9 Ta ・ 99 d o e . 9%. L L 表 1 9 %の R ble1 A smpev eo n a dm tos Rs An - 9 %, 10 - 9Rsm
- 9 RT - 9 n- 1 - 8RsJS - 9 RT - 9 n- 1 - 7Rs - 9 .を達成す るのに必要な n と m の例 tra. Ul lGHzx ICPU SPARC HIi Opteron 2GH2一× 2CPU ifsy t a ro , herne t nu 2. S Su E Li x90P GbEt 9 m.>9・999%. S l ioar 1 52MB s8 8GB n- 9・99996% % 99. de O 9・99999% GbEthernet 8台 1台 de O 9・99980%情報処理学会論文誌 :コンピューティングシステム
Ma
y2
0
0
6
100 90 80 [怠 ]匪 普 酎 或 70 60 250 500 00 図 11 自己処理モー ドにおける縮退運転時の読み出 し時間 10 元ファイル の 大 きさ[MB] 垂 50 臣 墓 室 毒壁 ] lz;7lh・濃 緑 臣 # 40 3 0 2 0 10 0 5 図 10 自己処理モー ドにおける読み出 し時間 lfp cesro s se 12Fig.10 Readtimeof ingmode.
によって行 っている
が,
終了検 出 をg bu
ポー リングによって検 出 しているため,ジ ョブ終了 を 検出す る時間に誤差があるためだ と考 えられる.ジ ョ ブ検 出時間自体 の誤差 と,コマ ン ド実行 タイ ミングに よって1
0
秒 か ら2
0
秒程度 の遅 れが発生す る場合が ある. デー タ転送 は,データ量 に対 して比例 して長 くなる. ファイルサ イズ に対 して転送時間の増加 の割合が鈍いl
o
s
-
j
o
b
-
s
t
a
t
u
s
re il is in ro Fig l Re・l cess kfa u ・md5
s
um
コマ ン ドでハ ッシュ値 を計算 し確認 した.2
3.
.
3
.
2
縮退運転時 次 に,ス トレージノー ドに異常が発生 した場合 につ いて実験 を行 った.ファイルの大 きさは同様 に5
種類 の ファイルを使用 した.まず,これ らの ファイルを使 用 して,復元可能な故障数 まで ファイル断片 を消去 し, 読み出 しの コマ ン ドを実行 した.実験結果 を図 11に 示す. ファイル断片 には,デー タ本体 の一部が含 まれ る断片 と,RS符号 による冗長 デー タを含 む断片があadtimeforselfp gmodeatd
id のは,転送 ファイルサ イズが小 さい と,Gr FTPの 転送速度が上が りきる前 に転送が終了す るか らだ と考 した.ファイルの読み出 し時 にデー タ本体の一部が読 えられる. み出せ ない と,RS符号 によるデー タの修復 が開始 さ る.ここではデータ本体 の一部が含 まれる断片 を消去
3
.
ドに異常がある場合 について実験 を行 った. i 先 の実験 で gr(1中のス トレージノー ド- と分散配3 2
.
デー タ読み出 し i r 二王 置 したファイルを ( dFTPで コピー し,元 のファイ ルを復元す る実験 を行った.読み出 し時 には,分散配 ては故 障が存在 しない ときと同 じになる (別途,RS 置 したファイルが揃 っている場 合 と, ス トレー ジノー 符号 の再生成 は必要である). ファイルの転送順序 には,(
a)
一度 に冗長 デー タも れ る.一方,デー タ本体が含 まれる断片が揃 っていて 冗長 デー タの断片 のみが読 み出せ ない場合 は,RS符 号 によるデー タの修復が行 われず,読み出 し時間 とし2
.
3
.
3
.
1
故障が存在 しない とき まず,実験では故障が な く, システムが健全 な場合 デー タ本体 を含 むファイル断片 のみ を転送 し,ファイ の読み出 しについて実験 を行 った.ファイルサ イズは ル断片 の欠落や異常があった ときに初 めて冗長 ファイ 含 めて仝 フ ァイル断片 を転送す る方法 と,(b)最初 に1
2
5MB,2
5
0MB,5
0
0MB,
1
, MB,2,
O
r
)
O
0
0
0MB
の ル を転送す る方法 ,の 2つが考 え られ る. この うち, 5つであ る. これ らのフ ァイルのデー タブロ ック,冗 本論文 では,(
a)
の方法 を採用 した.(b)の方法では, 長ブロ ックをス トレージノー ドか ら回収 し,元の ファ ファイル断片の欠落や異常時 に,Gr FTPid によって並 イル を復元 した.故障が ない場合 には,すべ てのファ 行 に行 われる正常 ファイル断片 の転送 の後 に冗長 ファ イル断片 を並列 に転送す る ものの,転送後 の処理 とし イルの転送が開始 され,ペナルティが大 きくなるI''射出 ては RS符号 による復元 は必要 ないため,単純 に回収 が予測 され るか らである. したデー タブロックを結合す るだけで よい.実験結果 本実装で は,消失 ファイル断片がある と,総量 とし・!: を図10
に示す.凡例 の 『結合処理』 は, ファイル断 て転送 ファイル容量が少 な くなるため,消失 ファイル 片 の結合お よび書 き出 し時間である. 数が多 ければ転送時 間が短 くなる.一方や RS符引 こ よる復元が必 要 にな るが,5
0
0MB
お よび1
,
デー タ転送時間に比べ ,復元 ・結合時間が長時間要0
0
(
)
MB
してい るが , これ はデー タ転送 の場合 は複数 のス ト で は,復元処理時間はファイル消失 の数 にはほとんど レージノー ドか ら並列 に転送が行 われるのに対 し,結 影響 されない ことが分か る.2,
0
0
0MB
で は消 失ファ 合後 のデ ー タは単 一 の書 き込 み動作 になるためだ と イルが 2個の とき,復元処理の時間が増加 しているが, 考 え られ る.デー タが正 しく復元 されているこ とは, これは後述す るメモ リ容量 の不足 によってス ワップが2
2
6
信頼性を考慮 したグリッド向け自律分散ス トレージシステム 227 0 0 47 No・SIG 7(ACS14) 30 25 ー 20 呑 Vol・ 〔怠 】匡蟹
野草
0 萱 、50 0 10 蛋 盟 50 500 1000 1500 2000 0 元ファイルのサ イズ[MB] 1500 Fig 2 Wr cess 10 B] 元ファイルのサ イズ[M 12 外部処理モー ドにおける書 き込み時間 図 ・1 500 00 2000 図 13 外部処理モ- ドにおける読み出 し時間 etimeofglo it bal pro ingmodel loFig.13 Readtimeofg balp croessingmode一 多発 しているため と考 えられる.転送時間 と復元時間 の合計 を考える と,消失 ファイルが多い方が全体の処 理速度 は向上す る結果 となった.
1
つのファイルをRS
符号 を使用 して復元す る時間 は,5
秒か ら1
0
秒程度 と短い. しか しなが ら,GTK
のジ ョブ終了判定の制約 によって,実行時間が 30秒 以下の場合 には,約 30秒 と検出されて しまっている. 2 2 [ 呑 ]LE ]J 皆尉 蛍 E3 E? E) フ 処理ホストァイル転送 決定 結合・復元処理 1 1 ス トレージノー ドに分散配置 しておいた ファイルが 治等 細 聯 ] 1個消失2倍 消失1個消失2償消失1価消失2倍消失 1O 1個 50 消失 消失 れるために,転送時間は短 くなる. しか し,消失 ファ 図 14 外部処理モー ドにおける縮退運転時の読み出 し時間 2償 0MB COMB 1500MB 2000MB 消失 している場合,存在 しているファイルだけ転送 さFlg.14 R dtimeforg bloalp croessingmodeatd k is re e il fa a u . イルが多 ければ
RS
符号 によって再生成すべ き演算量 が増 えるため,全体の処理時間は増加する.ここで もmd um
コマ ン ドによるハ ッシュ値の確認 を行い,正 しいデータが再生で きていることを確認 した. モー ドで行 った.5
s
夕を収集 し,元 のデー タを復元す る処理 を外部処理 3 この節では外部処理モー ドでの性能 を計測 した.自 分散配布 したファイルが完全 に揃っている状況でテ 己処理モー ドでは,マスタノー ドでファイル分割お よ ス トを行 った.結果 を図 13 に示す. 4 . 外部処理 モー ドでの性能 3.4.2.1 故障が存在 しない とき びRS
符号生成 を行 ったのに対 し,外部処理モー ドで グラフより,G
は,ファイル分割お よびRS
符号生成 を行 うジ ョブをd
F
i
r TP
によるデータ収集の時間 と, ファイルの結合復元処理 は,ファイルサイズに比例 しb
o
Gl u
ノー ドでファイル分割お よびRS
符号生成が行 われる. されたファイルの転送 ・書 き込みが 1つのノー ドに集 自己処理モー ドに比べて,応答性 は低いが,よ り高い 中す るため, この時間が大 きくなっている.s
を通 じて投入 し,Gl
o
bus
によって選択 された て長 くなることが分かる.書 き込み時 と同様 に,復元 2 . 2 . 4 . 3 縮退運転時 自己処理モー ドと同様 に,縮退運転では,分散配置 性能のホス トが選択 される可能性が高 く,容量の大 き なファイルの処理 に適す る. 4 . 3 .1 データ書 き込み データの書 き込み時 には,書 き込むファイルサイズ とグリッド内のプログラム実行可能マ シンの空 きメモ りを比較 し,どのホス トでRS
符号 を生成す るか を決 める.結果 を図 12に示す. 結果のグラフをみると,分割処理が 自己処理モー ド をしたファイルを意図的に消去 して,ファイル復元 にか かる時間について測定 を行った.結果 を図 14 に示す. 自己処理モー ドと同様 に,縮退運転では転送 ファイ ルの総容量が少な くなるため,消失 ファイル数が多 け れば転送時間が短 くなること,一方で復元時間が大 き くなることが確認で きた.ここでも,ファイルサイズ J、 が′ さい場合 には,RS
符号 による復元時間は5
秒 ~ に比べて大幅 に増 えていることが分かる.これは,元 ファイルをRS
符号処理 を行 うノー ドに転送す るため1
0
秒程度 と短い.この程度の処理時間の差 は,GTK
の時間が大幅 に増 えているか らだ と考 え られる. が ジョブ終了 を検 出す る際のタイムラグによって吸収 2 . 4 . データ読み出 し されて しまう.したがって 500MB,1,000MBのファ 次 に,ス トレージノー ドへ分散配置 されているデー イルを復元する際 に同 じような処理時間の結果 となっ 32
2
8
情報処理学会論文誌 :コンビュ-ティングシステム May2
0
0
6
ている箇所 があ るが,正常 な結果 だ と考 え られる. 3.5 考 察 冗長 デー タ生成 にかか るオーバヘ ッ ドは,図 8 と 図 9を比較す るこ とによって推測で きる.GTKの使 用の有無 な ど測定条件が異 なるので厳密 には正確では ないが,図 9の "データ処理"部分が図 8に相当す る といえる.図 9にお けるデー タサ イズが小 さい場合 は,グリッ ドを使 った ことによる誤 差が大 きいことは 前述 の とお りである.図 9か ら (1)ス トレージノー ド の決定 はわずか,図 8か ら (2)RS符号生成時間は全 体のお よそ 4割程度 ,であることが分かる.また,ス トレージノ\- ドの決定 は, どの ファイルサ イズで も数 秒以内であ る. ファイル復元の場合,図 10は,断片 ファイルの単純 な結合 に相 当す る.RS符号 によるデー タ復元のオー バヘ ッ ドは,図 10と図 11を比較す ることによって 推測で きる.特 に2,
0
0
0MB
の場合 を比べ ると,1
個 消失の場合 は RS符号 による復元の時間よりも,転送 ファイル量が減 ったことによる効果が大 きい,2個消 失の場合 で も,復元 のために要す る時間の増加 は 1割 程度 であ る. グラフには現れていないが,RS符号 の生成/復元 に 必要 なメモ リ量 は,扱 うファイルサ イズ に比例す る. 今回の実装 では,元 データを N 分割 した後,M
冗長 の RS符号 を生成 しているので,RSエ ンコーダのワー クセ ッ トが ファイルサ イズに比例 するためである.本 実験 では, グ リッ ド内の最大のメモ リサ イズが 8GB だったので,2GB
までのデータしか評価することがで きなかった (そjl以上 のファイルサ イズだ と,スワッ プが極端 に多 くな り,評価の正当性が失 なわれる).秤 価結果 よ り,本手法 は明 らかにファイルサ イズが大 き い領域で有効であるが,そのためには,グリッ ド内 に 大容量 メモ リを持つ ノー ドを設けるか,あ らか じめ元 ファイルを一定の大 きさのサ ブファイルに分割 した後, RS符号 を生成す る必要がある. 外部処理モー ドでは,メモ リの問題 があるため,結 果 として 8GBの メモ リを持つ 自作 Opteronの ノー ドで RS符号生成/復元処理が行 われている. しか し, 8GBのメモ リを持 つ ホス トで ダ ミーのメモ リ消費 プ ログラムを実行す るな どの有効 メモ リ量 を減 らす措置 を行 うと,スワップにより処理効率が大幅 に低下す る ちのの,RS符号化処理が他 のノー ドに移 ることを確 認 した. 提案 システムでは,最短実行時 間が約 30秒 となっ てお り,決 して短か くはないが,テープベースの大容 量ス トレージシステムでキ ャッシュな どの助 けを借 り 表 3 デ ィスク利用効率 の比較 Table3 Comparisonofdiskutilization,レプ リカ 冗長度 1 冗長度 2 4-15台 使用時 に 50(%) 75-93(%) 50-87(%) 利用可能な% 二重化 N+1 N+2 ない場合 に必要な,テープか らの アクセス時間 ( 2-3分) よりは高速 なアクセスが可能 となっている.揺 案 システムを用いて ファイル システムな どを構築す る 場合,PeaietStl)で用い られたようなデ ィス クキャッ シュと組み合 わせ ることも可能であ る. 今 回の実装 では外郭処理モー ドで復元 ファイルを書 き込む ときに NFSを用 いているが,これ を GridFTP にす ることに よって, さらなる高速化 が期待 で きる. 予備的な実験ではお よそ 4割前後の転送時 間の削減が 確認 されている. 3.6 データの保守 ,再生成 い くつか ファイルをス トレージノー ドへ分散配置 し, その ファイルたちの健全性 を検証す るプログラムを作 成 した.ファイル断片が な くなっていた り,データを 保存 しているス トレージノー ドが保存時 と異なる信頼 度 クラス に属 している場合な どにデー タを復元 し,再 度分散配置 し直す. データの確認 に要する時間は,元 ファイル 1つにつ き 15秒 か ら
2
0
秒程度の時間である. ファイルに異常 がある場合 には,これ に引 き続 いて,デー タのデコー ドか ら再エ ンコー ドして分散配置す るための時間が必 要 になる. 3.7 記憶領域利用効率 本 システムでは,ス トライ ビングとRS符号 による 冗長データを使用することによ り,耐障害性確保 と負 荷分散 を行 っている.耐障害性 とデ ィス ク利用効率 を 考 えた場合 ,1つの レプリカデー タを作成す ると,元 データと同 じだけのデ ィス ク容量が必婁 となる.使用 可能 なデ ィス ク容量 を基準 に して考 えた場合 の比較 を 表 3に示す. この表 には計算例 の一部 だけを掲載 したが, レプリ カ方式 に比べ て RS符号 による冗長方式 を採用 したほ うが,デ ィス ク使用効率が良いことが分 か る.使用す るデ ィス ク台数が多 ければ,デ ィス ク利用効率 をさら に向上 させ る ことが可能である.4. 関 連 研 究
GridDatafarm 5)は産業技術総 合研 究所 が 中心 と なって研究 開発 を進めているシステムで, ファイルの信碩性を考慮 したグリッド向け自律分散ス トレージシステム 229 7 N ・ V lo o・SIG 7ACS1)( 4 複製生成が負荷分散 ,バ ン ド幅,耐故障性 に確保す る 搭載デ ィス クの物理 的な信頼性 も均一で はない.また, こ とに成功 してい る.GrdDa 所性 を考慮 したスケー ラブルな IOバ ン ド幅 と, フ ァ イル と同 じだけの ファイルサイズが必要 となるために, f taarm i はデー タの局 レプ リカに よる構成 で は, レプ リカ 1つ につ き元 ファ デ ィス ク容量 の利用効率が低 い. イルの複 製生成手法1 )に特徴 があ り,全 体 と してみ た ときにファイルアクセスバ ン ド幅 を大 き くとること 複 数 の デ ィス クに よる信頼性 確保 に関す る研 究 と 3 がで きる.GrdDa 性確保 のため に, レプ リカでデータで冗良性 を確保 し RAID 14)が あ る. この RAID 機構 は,デ ィス ク間で f taarm i は,負荷分散 とデー タ保全 して,市 川 らに よって提 案 され た連 鎖 ネ ッ トワー ク てお り, レスポ ンス とスループ ッ トに優 れた ファイル システム となっている. n DaaGrdP DG))は, CERN (欧州合 同素粒子原子核研究機構 )によって研 究が 開始 され た研 究 で,CERNの高 エ ネルギ ー物 理 実験 で生成 され る大容量 デー タを処理すべ く設計 され ている.特 に,デー タマ ネージメ ン ト技術 に重点 を置 いた設計 となってお り,ファイルの複製生成サ ー ビス, デー タアクセスの最適化 ,キ ャッシュ技術 , ファイル 6 11 i t Europai roj tec (以下 連鎖 的 に
X R
を とる ことによって,デー タの信頼性 を保持す るこ とを狙 ってい る. この研 究で は,冗長度 とシステム全体 の信頼性 について詳 しい議論 が な されO
てお り,冗長度 を自由 に設定で きる利 点が あ る.手法 は異 なる ものの本研 究の 目的に利用可能であ るが ,ス トレージノー ドの可用性 の 自動管理 にまで踏み込 んだ 議論 はな され てい ない. 本研 究で は,(
1
)
ス トレー ジノー ドの可用性 を 自動 管理 し,一定 の信頼性 のあ るボ リュームグループ を作 の移動 といった機 能 に重点が置かれてい る. ファイル る こと,()2 ボ リューム グループの信頼性 に応 じた冗 の保全性 の確保 のため には,複数のサ イ ト間での フ ァ 長度 でデー タを格納 し,システム全体 と しての保全性 イルの レプ リケー シ ョンで対応 してい る. を確保す る点,の 2点 において,先行研 究 と異 なる試 み を行 った,5.
あ わ り に GrdF eS ファイル システムで,ユ ーザの利便性 とセキュ リテ ィ t ysem l i i 7)は,グ リッ ド上 に月即日した分 散 f t nrasruc t i ecur を両立 させ た ものである.基盤 となる技術は Cl I(GrdSi yI -b o us 本論文 で は,一般ユ ーザ環境 で組織 内 グ リッ ドを構 tに含 まれ る GS i k T loo -築す る際の信頼性 に着 目 し,構成 ノー ドの稼働率 に応 ,SFS ( ) ture se-lfcertifiyngfeSi1 ysetm)であ る.過 信 のセキュ リテ ィを確保す るため,SFSは NFSの転 じて動 的 にパ リテ ィの多重度 とデー タ分散先 を変化 さ 送 を暗号化 し,認証 デー タを付加 して転 送す るが,過 せ る分散 ス トレージシステムについて提案 した.本 シ 信 を暗号化す るためにオーバヘ ッ ドが大 き く, 通信路 ステムで は,い くつかのデー タを消去 した後 ,デー タ の再生か可能 な こ とを確 かめた.また,実際の運用 で ps 場合 との差 が大 きい. は偶発的 な障害 も起 きたが ,デー タの再生成 プログラ に 1Gb の LANを用 いた場合 には,暗号化 な しの )は東京大学 と (秩 )冨二
日削 こよっ 8 i eservor DaaRt て開発 されている,巨大 データの共有 システムである. ムに よって再生 されたデー タが,異 なるノー ドへ と再 配置 され無事 であ った.動作速度 に関す る評価 を行 っ この システムの基本 アーキテ クチ ャは,近 距離 と長距 た ところ,RS符号 に よるオーバ ヘ ッ ドは,書 き込み 離 の通信 を分 ける方式 であ る.特徴 として,デー タア 時で約 4割 の増加 ,読 み出 し時 は消失 ファイル数 に も S クセ ス時 に i リームに よる並列転送 をす る点が あげ られ る. 今後 の課題 としては,一時 ファイルを使用せず に,処 CSIの プ ロ トコル を使 用 し,
複 数 ス ト よるが ,おお よそ 1割程度 であ るこ とが分 か った. これ らの先行研 究で は,非常 に高 い性 能 とスケー ラ 理の高速化 を行 うことや,デー タ自体の保全性 (Mean t ビリテ ィを確保 している といえるが
,システムの信頼 TimetoDaaLoss)を算 出 し, よ り詳細 なモデル を 性 に関 しての細 かい議論が されていない. これ は,棉 構築 して システム全体 の信頼性 を上 げるための改 良 に 成要素 となる端末 の使 われ方 の差が大 きい と考 え られ 取 り組 みたい.. る.研 究機 関 な どで使用 され る大型 シス テムの場合 ,参
考
文
献
動作が非常 に安定 してい るうえに常時電源 を投入す る n fo p ta t oser it ueprn 2 3 1)htt Da )htt )F ,Ⅰ・a Bl / b i J i 乱t s / d t pro ucs / ive h c ソ/www. Ar P fro / d t pro ucs / j ・ sony p essi lona/ 使 い方が一般 的であ り,い くつかの レプ リカを設 ける ことに よって,デー タの信頼性が十分確保 で きる.こ d a / / : p www・ ic m/ms・co a s/ れ に対 し, よ り小規模 でユーザ 自身が管理権 限 を持つ f t t nrasrucure in n l e o d Kess ma raNew C mput gI,
,C∴ The GIRD コンピュー タをグ リッ ドの構成要素 として利用す る場 合 には,ユ ーザ 自身が 自由 に電源 を切 る こ ともで き, 40 / bonnei 情報処理学会論文誌 :コンピューティングシステム May 2
)(
2
0
0
)Bonnei.httソ/ w・p ww 6 0 m/ ・ tyco i l t texua・
)
3
3
0
0
2
6 1e GRI
DB
gI
n
fr
a
s
i
t
pu n
-・ ,Inc ihsers l b uI
) 9 9 9 1 ( ・ ihsers nc,I l b u Mo nKa manP ,Ⅰ.ad kessm a ,C・‥T
RD Bl
raN w C
h
o
m
ne
l ef
o
n f u nit
ue
prn
rga t oserI
G
ture,Mo n Ka man Prga uf n