早稲田大学

(1)

博士学位論文

分散ストレージ符号化の一般化に関する研究

A Study on Generalization of Coding for Distributed Storage System

2018 _年 2 _月

鎌塚明

Akira KAMATSUKA

(2)

博士学位論文

分散ストレージ符号化の一般化に関する研究

A Study on Generalization of Coding for Distributed Storage System

2018 _年 2 _月

早稲田大学大学院基幹理工学研究科数学応用数理専攻情報理論研究

鎌塚明

Akira KAMATSUKA

(3)

図目次

1.1 冗長性を加える写像（分散ストレージ符号化） . . . . 2

2.1 (k,n)-秘密分散法(k =3) . . . . 11

2.2 Repair-by-Transferの概要図[5] . . . . 25

3.1 n= 4, ℓ =9,t =3,r =4の例 . . . . 27

3.2 n= 4, ℓ =9,t =3,r =4の例 . . . . 28

3.3 複数割当法における元データ復元(n= 4, ℓ= 9,t = 3). . . . 29

3.4 ストレージノード4が故障した場合 . . . . 29

3.5 ノード4の修復(n=4, ℓ =9,r =4) . . . . 30

3.6 複数割当法における元データ復元(n= 4, ℓ= 9,t = 3). . . . 30

4.1 ストレージノード4が故障した場合 . . . . 46

4.2 ノード4の修復（従来法）(n=4, ℓ =9,r =4) . . . . 46

4.3 複数割当法による効率的な故障ノードの修復(n= 4, ℓ= 9,r = 4, f = 4) . . . . 47

4.4 複数割当法による効率的な故障ノードの修復(n= 4, ℓ= 9,r = 4, f = 4) . . . . 47

(6)

表目次

5.1 数値例の比較 . . . . 56

(7)

第 ¹ 章

序論

1.1

研究背景

近年，記録ストレージの大容量化や，各種クラウドサービスの発展に伴い，企業および個人が保有する大量のデータを安全かつ効率的に管理する必要性が高まっている．実際，頻繁にアクセスされるデータを保有するストレージについては，故障によるデータ消失のリスクが無視できない頻度で生じ得る．データ消失に対する最も単純な対策としては，保存すべきデータ（元データと呼び m ∈ F^B

q で表す．ここで，F^B

q は位数 q_の有限体F_q _上の B次元ベクトル空間を表す．）を複数個（n_個）のストレージに複製することだが，これは元データの n 倍のデータサイズを必要とするため効率が悪い．そこで，元データ m に対して冗長性を付加する写像（符号化と呼ぶ） m 7→ (c₁, . . . ,c_n) ∈ (F^α

q)ⁿ を施し，写像されたデータの一部（分散情報と呼ぶ）c_i, i =1, . . . ,nを各ストレージに保存するシステム（分散ストレージステム）で元データ mを管理することを考える．ここで，α ∈Nを分散情報のサイズと呼ぶ．

分散ストレージステムが備えるべき主機能は元データの復元機能である．これまで復元機能を持つ符号化として，Reed-Solomon_{符号化を始めとする}MDS_符号化に関する研究がなされてきた．この符号化により，分散ストレージシステムは

(1) n 個のストレージの内，任意の k 個のストレージが持つ分散情報から元データを復元可能

（⇐⇒^def. _任意の i₁, . . . ,i_k ∈ {1, . . . ,n} _{に対して，ある写像} (c_i

1, . . . ,c_i

k) 7→ m _が

存在）

(8)

という機能を実現できる．すなわち，任意のn−k 個のストレージが故障したとしても，残りの k 個のストレージから元データを復元できる．その後，元データの復元機能に加えて，以下のような付加機能を持つ分散ストレージ符号化に関する研究がなされてきた．

(2) 元データの情報漏えい耐性機能 (3) 故障ストレージの効率的な修復機能



^





分散管理









冗⻑性を付加する変換

（符号化）

⽬的に応じて異なる変換を施す

図1.1 冗長性を加える写像（分散ストレージ符号化）

(2) を実現する符号化としては，(k,n)-秘密分散法に関する研究がなされてきた．

代表的な符号化に Shamir _による(k,n)-しきい値法がある．これは，元データと一様乱数をもとに生成した多項式上の n 点を分散情報として各ストレージが保存する方式である．この符号化を用いると，主機能 (1)_に加え，

• ^任意の k −1 個以下のストレージが持つ分散情報からは元データに関する情報を得られない

（⇐⇒^def. _任意のi₁, . . . ,i_k _{に対して，}H(m | c_i

1, . . . ,c_i

k−1) = H(m)_）,

（ここで H(· | ·) _やH(·) は情報理論における情報エントロピー関数を表す）という機

能を分散ストレージステムに持たせることができる．Shamir _は(k,n)-_{秘密分散法を}

(9)

用いた際の各ストレージが保存すべき分散情報のサイズの限界を示し，(k,n)-_しきい値法がこの限界を達成する方式であることを示した．

(3) を実現する符号化としては，近年，Dimakis_{らによって} [n,k,d]-_{再生成符号化} が提案されている．従来，故障ストレージの修復は，復元した元データに再度符号化を施すことによってなされてきた（これを自明な修復法と呼ぶ）．分散情報のサイズが αであるため，自明な修復法には kαだけの通信量が必要になる．[n, k,d]-_再生成符号化された分散ストレージステムにおいては，j 番目の故障ストレージの修復の際にはまず，d(≤ n−1) 個の修復用ストレージが選ばれる．選ばれた各ストレージは，各々の分散情報 c_i _{から修復用データ} p_i→_j ∈ F_q^β _を生成（c_i 7→ p_i→_j_{）し，故障ス} トレージに送信する．故障ストレージは d 個の修復用データを用いて分散情報を再生成することにより修復を行う．修復用データのサイズは β ∈ N _{であるので，この} ときの通信量（修復バンドワイズと呼ぶ）は dβ(≤ kα)となり，自明な修復法よりも効率的に修復ができる．Dimakis_らは，[n, k,d]-再生成符号における分散情報のサイズ α_{と修復バンドワイズ} dβの間のトレードオフ不等式を示した：

∑k−1 i=0

min{α,(d −i)β} ≥ B,

ここで，B は元データのサイズを表す．このトレードオフ不等式において，分散情報のサイズ α を最小にしたもとで修復バンドワイズ dβ _{を最小にする} [n,k,d]- 再生成符号化を MSR (minimum-storage regenerating) 符号化と呼ぶ．一方，修復バンドワイズを最小にしたもとでストレージを最小にする [n,k,d]-再生成符号化を MBR (minimum-bandwidth regenerating) 符号化と呼ぶ．具体的な MSR/MBR _符号化の構成法としては，Rashmi _らによる Product Matrix _法や，Shah _らによる Repair by Transfer 法等が提案されている．

1.2

研究の目的と位置付け

前節で説明した従来の分散ストレージステムの機能 (1)(2)(3) _{はいずれも，スト} レージ数が一定のしきい値（k _や d）以上あるいは以下になったときに発揮されるしきい値型の分散ストレージシステムである．しかしながら，実際の分散ストレージシステムの構築および運用においては，すべてのストレージが全く同じ能力（スト

(10)

レージ容量，耐久性，計算能力等）を持っているわけではないため，ストレージ毎の役割を考慮した分散ストレージを設計することが必要になる．すなわち，(1)(2)(3) の条件を一般化した機能をもつ分散ストレージステムの構築が必要である．

(1) _および(2)の条件の一般化に関する研究としては，伊東らによって Γ-_秘密分散法が提案されている．ここで，Γ は (1) _および (2) に関して一般化された条件を表す．具体的には，n個のストレージのインデックスを表す集合を{1, . . . ,n}_とするとき，元データを復元可能なストレージのインデックスの集合族 A と，元データに関する情報を一切得られないストレージのインデックスの集合族 B _の組 Γ = (A,B) として定義される．Γ-秘密分散法の構成法としては，各ストレージに対して，しきい値法によって生成される分散情報を複数個割り当てる方式（ ^{ふくすうわりあてほう}複数割当法）が提案されている．ここで，与えられた条件 Γを満たすためには，ストレージ集合 A ∈ A に対しては，ある (t,m)-しきい値法で復元するのに十分な個数（t 個以上）の分散情報を割り当て，B ∈ B _{に対しては，}(t,m)-しきい値法で元データに関する情報が得られなくなるような個数（t −1個以下）の分散情報を割り当てればよい．その後，各ストレージが保存する分散情報サイズの平均 ρ を最小化する構成法が岩本らによって提案されている．この構成法は A,B に対する割当の仕方を制約として，ρ_を最小化する整数計画問題を繰り返し解くことで最適なパラメータ (t,m) _{を探索している．}

本研究では，(1) _および(3) に関する条件を一般化したΩ-再生成符号およびその構成法を提案する．この一般化の動機づけとしては例えば，修復に関して，

• 耐久性の高いストレージを，故障ノード修復に多く参加させたい場合

• 修復の際には，距離が近いノード同士で修復をさせたい場合

が挙げられる．本研究では (1) _および (3) _{に関する一般化条件}Ω を Γ-_{秘密分散法と} 同様に，ストレージのインデックスの集合族の組 Ω =

(

A,(B_j)ⁿ_j

=1

) として定義し，

Ω が従来の[n,k,d]-再生成符号における条件 (1)_および (3)を含むことを示す．ここで，A は元データを復元可能なストレージのインデックスの集合族を表し，B_j _は故障ストレージ j を修復可能なストレージのインデックスの集合族を表す．

Ω-再生成符号においては，各ストレージ i _{が保存する分散情報} c_i ∈ F^α_qⁱ _のサイズ α_i ∈ N _{や，故障ストレージ} j へ送信する修復用データ p_i→_j ∈ F_q^β^i→j _のサイズ

(11)

β_i→_j ∈ Nが，ストレージごとに異なる．そこで本研究では，Ω-_{再生成符号の評価基} 準として，各ストレージが保存する分散情報のサイズの平均 ρ_S _{および修復バンドワ} イズの平均 ρ_R を提案し，従来のMBR/MSR _{符号に相当する}Ω-MSR _{再生成符号お} よび Ω-MBR再生成符号を定義する．

Ω-再生成符号の具体的な構成法としては，従来の再生成符号の分散情報を用いた複数割当法を提案する．このとき，与えられた条件 Ω を満たすための条件として，

A ∈ A に対しては，ある [ℓ,t,r] 再生成符号で元データを復元するのに十分な個数

（t 個以上）の分散情報を割り当て，B ∈ B_j _{に対しては，}[ℓ,t,r]-_{再生成符号において} 故障ストレージ j を修復するのに十分な個数（r 個以上）の分散情報を割り当てればよいことを示す．

本研究ではさらに，複数割当法による符号クラスの中で「ρ_S を最小にしたもとで ρ_R _{を最小にする符号（}Ω-MSR-map_{符号）」および「}ρ_R_{を最小にしたもとで} ρ_S _を最小にする符号（Ω-MBR-map符号）」を定義し，その整数計画法を用いた探索による構成アルゴリズムを導出する．この構成アルゴリズムではまず，A,(B_j)ⁿ_j

=1 に対する割当の仕方を制約とした，ρ_S _あるいは ρ_R のいずれか一方を最小化する整数計画問題を繰り返し解き，最小値を与えるパラメータ [ℓ,t,r] を探索する．次に，探索したパラメータの中でもう一方を最小化する [ℓ,t,r]_{を求める．ここで，}Ω-MSR/MBR-map_符号を構成する際には，Γ-秘密分散法の場合と異なり，[ℓ,t,r]-再生成符号におけるパラ

メータ (α, β) をも最適化する必要がある．本提案においては，それぞれ MSR/MBR

符号のパラメータを用いれば良いことを示す．

Ω-_{再生成符号は} Γ-_{秘密分散法と異なり}(3) の修復条件を一般化しているため，故障ストレージの修復法に関して工夫の余地がある．そこで本研究ではさらに，複数割当法を用いた場合の，通信量の意味でより効率的な修復法を提案し，その効率性について解析を行う．また，その修復法を用いた場合のΩ-MSR/MBR-map_符号の構成法についても考え，Ω-MSR-map 符号については上述と同様の構成法が導出できることを示す．一方，Ω-MBR-map 符号については，割り当てる再生成符号における最適なパラメータ (α, β) が決定できないため，準最適な構成法を提案する．

(12)

1.3

本論文の構成

本論文の構成は以下の通りである．第 2 _{章では，準備として} [n,k,d]-_{再生成符号} および (k,n)-秘密分散法について概観する．第 3 章では，復元および再生成に関する条件を一般化した Ω-再生成符号とその評価基準を提案する．構成法としては複数割当法を提案し，複数割当法を用いた符号クラスの中での最適な符号として，

Ω-MSR/MBR-map 符号の構成アルゴリズムを導出する．第 4 章では複数割当法を

用いた場合の故障ストレージの修復法に関して，通信量の意味でより効率的な修復法を提案し，修復にかかる通信量について解析を行う．そのうえで，効率的な修復法を用いた場合の Ω-MSR/MBR-map符号の構成アルゴリズムについて考察する．第5 章では，提案した各アルゴリズムに関して，具体的な数値例を構成し，効率性について考察する．最後に，第 6章で本論文の結論と今後の展望を述べる．

(13)

第 ² 章

準備

本章では，分散ストレージの主機能である (1)復元機能の付加機能である

(2) 元データの情報漏えい耐性機能 (3) 故障ストレージの効率的な修復機能を実現する符号化に関する従来研究として，

1. [n,k,d]-再生成符号

2. (k,n)-秘密分散法およびその一般化である Γ-_{秘密分散法}

に関して述べる．

まずは，情報理論の基礎事項について述べ，その後，各符号の定義および性質と，

具体的な構成法について述べる．

2.1

情報理論における基礎事項

本節では，情報理論で用いられる情報エントロピーおよび条件付きエントロピーの定義と性質について述べる．

定義2.1 (_確率空間). Ω^{を任意の集合とし，}Ω ^のσ-_加法族をA とする．また，A 上の確率測度を µ: A → [0,1] とする．このとき，これらの 3_つ組 (Ω,A, µ)_を_確率空間と呼ぶ．

(14)

以降，確率空間 (Ω,A, µ) _は1つ固定されているものする．

定義2.2(_確率変数). X: Ω → Rが以下の条件を満たすとき，X _をΩ上の確率変数と呼ぶ：

任意の B ∈ B _{に対して，}

X⁻¹(B) ∈ A, (2.1)

ここで，B _は実数体 R 上のボレル集合族を表す．特に，X _の値域 X(Ω) _{が高々可算} 集合のとき，すなわち，ある可算無限集合 X が存在して µ(X⁻¹(X)) = 1 _のとき，X を離散確率変数と呼ぶ．

定義 2.3 (_確率分布). _確率変数 X に対して，以下で定義される関数 P^X: B → [0,1]

を X _の_確率分布_と呼ぶ：

P^X(B) := µ(

X⁻¹(B))

, B ∈ B. (2.2)

定義2.4(_{確率質量関数}). _{離散確率変数}X に対して，以下で定義される関数p_X: X → [0,1] を X の確率質量関数と呼ぶ：

p_X(x) = µ(X⁻¹({x})), x ∈ X. (2.3) 特に，値域 X(Ω) = X が有限である確率変数 X の確率質量関数が以下で与えられるとき，X _は_一様分布_{に従うと呼ぶ：}

p_X(x) = 1

|X|, x ∈ X. (2.4)

定義2.5 (同時確率関数，条件付き確率関数). _{離散確率変数} X,Y _{に対し，以下で定義} される関数 p_X,Y: X × Y → [0,1] _を X _とY _の_{同時確率関数}_と呼ぶ：

p_X,Y(x, y) := µ⁻¹({x},{y}), x ∈ X, y ∈ Y. (2.5) また，以下で定義される関数 p_X|Y: X × Y → [0,1] _をY _{が与えられたもとでの} X _に関する条件付き確率関数と呼ぶ：

(15)

p_X|Y(x | y) := p_X,Y(x,y)

p_Y(y) . (2.6)

以降，X,Y, . . . , _{は離散確率変数とし，}X _{は有限集合とする．}

定義 2.6(_{エントロピー}). _確率変数 X _{とその確率質量関数} p_X _{に対し，以下で定義さ} れる量 H(X) を X _の_{情報エントロピー}_と呼ぶ：

H(X) := −∑

x∈X

p_X(x)logp_X(x). (2.7) 定義 2.7 (_{条件付きエントロピー}). _確率変数 X,Y に対して，以下で定義される量を H(X | Y)Y _{が与えられたもとでの} X _に関する_{条件付きエントロピー}_と呼ぶ：

H(X | Y) :=−∑

x∈X

∑

y∈Y

p_X,Y(x,y)logp_X|Y(x | y). (2.8) 定理 2.8([3]). _{任意の確率変数} X,Y に対して以下が成り立つ：

H(X | Y) ≤ H(X), (2.9)

ここで，等号成立条件は X とY が互いに独立であるときである．

注意 2.9. この定理は，任意の条件付けは，片方の確率変数に関する平均的な情報量を増加させないことを示している．

2.2

秘密分散法

本節では，(2) 元データの情報漏えい耐性機能をもつ符号化として，(k,n)-_秘密分散法およびその一般化である Γ-秘密分散法の定義と性質および具体的な符号の構成法について述べる．

以降，元データを m ∈ F_q _とおき，F_q 上の一様分布に従うとする．

(16)

2.2.1 (k,n)-DSS と(k,n)-SSS の定義

本節では(k,n)-DSS_および(k,n)-_{秘密分散法} (SSS; Secret Sharing Scheme)_を定義する．

定義 2.10. _次の2つのフェーズから構成される方式を (k,n)-DSSと呼ぶ．

＜符号化フェーズ＞管理者は，関数 F: F_q → (

F_q)n を用いて元データm ∈ F_q _に対する n _{個の分散情報} F(m) = (w₁, . . . ,w_n), w_i ∈ F_q,i ∈ [n] _{を生成する．次に，}

安全な通信路を用いて各w_i をノードi に送信する．ノードi は受信した分散情報 w_i _{をそれぞれ保管する．}

＜元データ復元フェーズ＞データコレクタ DC は n 個のノード集合から任意の k 個のノード i₁, . . . ,i_k を選択し，各ノードが保管している分散情報を受信する．

DC は，関数 G: (F_q)k

→ F_q _{を用いて，元データ} mˆ = G(w_i₁, . . . ,w_i_k) ∈ F_q _を推定する．

注意 2.11. (k,n)-DSS_は[n,k,d]-DSS_{と比較したときに，}

• B =1, α = 1_である

• ＜修復フェーズ＞を持たない

ことに注意せよ．

定義 2.12. (k,n)-DSS において，以下の条件を満たす関数の組 (F,G) を (k,n)-SSS

（秘密分散法）と呼ぶ．

任意のi₁, . . . ,i_k ∈ [n] に対して，以下が成り立つ：

H (

m | w_i₁, . . . ,w_i_k)

= 0, (2.10)

ここで，H(X | Y) _は Y _{が与えられたもとでの} X の条件付きエントロピーである．

任意のi₁, . . . ,i_k−1 ∈ [n] に対して，以下が成り立つ：

(17)

H (

m | w_i₁, . . . ,w_i_k−1)

= H(m). (2.11)

注意 2.13. _ここで，

• 条件 (2.10) _{は，任意の} k 個のストレージの分散情報から，元データ m _を復元

可能であることを示している

• ^条件 (2.11) _{は，任意の} k −1個以下のストレージの分散情報からは，元データ

m に関する情報が一切得られないことを示している

ことに注意せよ．











盗聴

個の盗聴データからは

に関する情報が⼀切得られない盗聴者

図2.1 (k,n)-秘密分散法(k =3)

2.2.1.1 (k,n)-SSSの分散情報サイズの限界式

本節では，Shamir _{によって示された，}(k,n)-SSS の分散情報の限界式について述べる．

定理 2.14. _任意の(k,n)-SSS_{は以下を満たす：}

H(w_j) ≥ H(m), j = 1, . . . ,n. (2.12)

(18)

この定理は，(k,n)-SSS _{においては分散情報}w_j _{のサイズが，元データ} m _のサイズ以上でなければならないことを示している．

2.2.2 Shamir による(k,n)-SSSの構成法（(k,n)-しきい値法）

本節では，(k,n)-SSSの具体的な構成法として，(k,n)-しきい値法を説明する．

＜符号化フェーズ＞

1. k −1 _個の乱数a₁, . . . ,a_k−1 を一様分布に従って独立に生成する

2. (k −1) 次多項式 f(x) を以下で定義する：

f(x) := m+a₁x+a₂x² +· · · +a_k−1x^k−1 (2.13) 3. ストレージ i に保管する分散情報 w_i は，以下で生成：

w_i = f(i) (2.14)

= s +a₁i +a₂i²+· · ·+a_k−1i^k−1, i = 1, . . . ,n. (2.15) 例 2.1. k = 3,n = 4,m= 5 ∈ F₂₅₆ _{の場合の例を示す：}

＜符号化フェーズ 1,2,3＞

1. a₁ = 1,a₂ = 2_{が得られたとする．}

2. _{このときの} f _は，

f(x) = 5+x +2x². (2.16) 3. _{各ストレージ}i _{への分散情報} w_i _{は以下で与えられる：}

v₁ =5+1×1+2×1² =8, (2.17) v₂ =5+1×2+2×2² =15, (2.18) v₃ =5+1×3+2×3² =26, (2.19) v₄ =5+1×4+2×4² =41. (2.20)

(19)

＜元データ復元フェーズ＞

1. _{ストレージ} i₁, . . . ,i_k の復元する場合，以下の連立方程式を解けば良い：

（k _{個の未知変数} m,a₁, . . . ,a_k₋₁_）：













v_i₁ =m+i₁a₁+i₁²a₂ +· · ·+i₁^k−1a_k−1 v_i₂ =m+i₂a₁+i₂²a₂ +· · ·+i₂^k−1a_k−1

...

vi_k =m+i_ka₁+i²_ka₂ +· · ·+i_k^k−1a_k₋₁

(2.21)

2. 上記方程式を書き換えると，





 vi₁

v_i₁ ... v_i_k







=







1 i₁ i²₁ · · · i₁^k−1 1 i₂ i²₂ · · · i₂^k−1

... ... . . . ...

1 i_k i²_k · · · i^k−1_k











 s a₁

... a_k−1







. (2.22)

となり，係数行列がVandermonde 行列であるから，正則であり，解が一意に定まる．

例 2.2. k = 3,n = 4,m= 5 ∈ F₂₅₆ _{の場合の例を示す：}

ストレージ 1,2,3 _{の分散情報} v₁ = 8,v₂ =15,v₃ = 26_{を用いて，}m_{を復元する：}

以下の連立方程式を解く：











8 =m+a₁×1+a₂×1², 15 =m+a₁×2+a₂×2², 26 =m+a₁×3+a₂×3²

. (2.23)

これを解くと，s = m,a₁ = 1,a₂ =2_{が得られる．}

注意 2.15. (k,n)-_{しきい値法は，不等式}(2.12)の等号を達成するという意味で，最適な構成法であることが知られている [13]_．

(20)

2.2.3 Γ^-DSSと Γ^-SSS の定義

本節では Γ-DSS_および Γ-_{秘密分散法} (SSS; Secret Sharing Scheme) _{を定義する．}

ストレージノード集合の族 A₁ ⊆ 2^[n] が与えられているとし，これを有資格集合 (qualified set) と呼ぶ．また，ノード集合の族 A₀ = 2^[n] \ A₁ とおき，禁止集合 (forbidden set) _と呼ぶ．A₀,A₁ _{はそれぞれ，}m を復元できるノード集合の族および mに関する情報を一切得られないノード集合の族を意味する．さらに，A₀ _とA₁ _の組を Γ とおき，アクセス構造と呼ぶ．また，ノード集合 A = {i1, . . . ,i_|A|} の分散情報を要素としてもつベクトルを w_A :=(w_i₁, . . . ,w_i_|_A_|)_と記す．

定義 2.16. _次の2つのフェーズから構成される方式を Γ-DSS_と呼ぶ．

＜分散情報生成フェーズ＞管理者は，符号化関数 F: F_q → ∏n

i=1F^α_qⁱ _{を用いて元} データ m ∈ F_q _に対する n 個の分散情報 F(m) = (w₁, . . . ,w_n), w_i ∈ F^α_qⁱ,i ∈ [n]

を生成する．次に，安全な通信路を用いて各w_i _をノードi_{に送信する．ノード} i _{は受信した分散情報} w_i _{をそれぞれ保管する．}

＜元データ復元フェーズ＞データコレクタ DC は n 個のノード集合から任意のノード集合 A ∈ A₁ を選択し，各ノードが保管している分散情報を受信する．

DC は，復号関数 G: ∏|A|

j=1F^α_q^ij → F_q _{を用いて，元データ} m = G(wA) ∈ F_q _を復元する．

定義 2.17. Γ-DSSにおいて，以下の条件を満たす関数の組 (F,G) _を Γ-SSS_と呼ぶ．

任意の A ∈ A₁ に対して，以下が成り立つ：

H(m | wA) = 0, (2.24)

ここで，H(X | Y)はY が与えられた下での X の条件付きエントロピーである．

任意の A ∈ A0 に対して，以下が成り立つ：

H(m | wA) = H(m). (2.25)

(21)

アクセス構造 Γ = (A₀,A₁) _{は以下の単調性条件} (monotonicity condition) _を満たす：

A ⊆ A^′ and A ∈ A₁ =⇒ A^′ ∈ A₁, (2.26) A^′ ⊆ A and A ∈ A₀ =⇒ A^′ ∈ A₀. (2.27) したがって，極小有資格集合 A₁⁻ _{および極大禁止集合} A₀⁺ _{が定義される．}

例 2.3. _{以下のアクセス構造} Γ = (A₀,A₁)_を持つ Γ-SSS _は(k,n)-SSS_を表す：

A1 = {

A ∈ 2^[n] : |A| ≥ k}

, (2.28)

A₀ = {

A ∈ 2^[n] : |A| ≤ k −1}

. (2.29)

定義 2.18. Γ-SSS の効率性は，次の平均符号化レートで定義される[14]_：

ρ˜ := 1 n

∑n i=1

ρ_i, (2.30)

ここで，

ρ_i := H(wi)

H(m) ≥ 1, i ∈ [n] (2.31)

であり，H(X) は X のエントロピーを表す．

2.2.4 複数割当写像および整数計画法を用いた Γ^-SSS の構成法

本節では，文献 [14] で提案されている複数割当写像(multiple-assignment map)_および整数計画法 (integer programming) を用いたΓ-SSSの構成法を概説する．

定義 2.19 (複数割当写像 [14]). Γ = (A₀,A₁) をアクセス構造とし，W^(t,m) := {

w₁^(t⁾, . . . ,w_m^(t⁾

} を Shamir _の (t, ℓ)-しきい値法による分散情報の集合とする．この

とき，以下の条件を満たす写像 µ_Γ: [n] → 2^W^(t,m) を複数割当写像と呼ぶ：

(22)

|µ_Γ(A)| ≥ t, A ∈ A1, (2.32)

|µ_Γ(A)| ≤ t −1, A ∈ A0, (2.33)

µ_Γ([n])=W_(t,m). (2.34)

ここで，µ_Γ(A) := ∪

i∈A µ_Γ(i), A ⊆ [n]_である. _{なお，文献}[14]_{においては，}A_は分散情報の部分集合として定義されているが，本論文では再生成符号におけるノーテーションとの対応を明確にするため A を分散情報の部分集合と一対一に対応するノード集合の部分集合として定義している．よって，本論文では [14] _{における複数割当} 写像の条件をノード集合 A _{を用いた同値な条件式} (2.32),(2.33),(2.34) _{で書き換えて} いる．

複数割当写像を用いて以下のように Γ-SSS を構成できる．この構成法を Γ-SSS_の複数割当法と呼ぶ．

＜分散情報生成フェーズ＞

まず，元データ m _をShamir _の (t, ℓ)-しきい値法で符号化する(n ≤ ℓ)_{．次に，複} 数割当写像 µ_Γ _{を用いて，符号化関数}F(m) = (µ_Γ(1), . . . , µ_Γ(n)) _{で元データ} m _を符号化する．

復号関数 G _を Shamir _の (t, ℓ)-しきい値法における復号関数とすると，データコ

レクタ DC は以下のようにしてノード集合 A ∈ A1 によって元データ m _を復元できる：

1. DCは，ノード i_j ∈ A, j =1, . . . ,|A| _に接続

2. DCは，各ノード i_j から総計t 個の(t, ℓ)-しきい値法の分散情報を受信 3. DCは，t _{個の分散情報と} (t, ℓ)-_{しきい値法の復号関数}G_から m _を復元

よって，式 (2.24) が成り立つ．また，この構成法が式 (2.25)_{を満たすことは，複数} 割当写像の式 (2.33) _{から直ちに分かる．}

複数割当写像 µ_Γ による構成法における平均符号化レートは以下で与えられる：

(23)

˜ ρ = 1

n

∑

i=1

|µ_Γ(i)|. (2.35)

岩本らは，式 (2.35) を目的関数に設定し，不等式(2.32),(2.33) _{を制約式に設定した} 整数計画問題（最小化問題）を解くことにより，複数割当写像による符号クラスの中で最適な構成法（平均符号化レートを最小にする構成法）を提案した [14]_．

注意 2.20. 岩本らの構成法によって構成される符号が，アクセス構造 Γ を実現する

すべての符号クラスの中で最適な符号であるとは限らない．

2.3

[n , k, d]

-

再生成符号

[1]

本節では，(3) 元データの情報漏えい耐性機能をもつ分散ストレージシステムおよびその符号化として， [n,k,d]-分散ストレージシステム (DSS; Distributed Storage

System)_および [n,k,d]-再生成符号を定義し，その性質と構成法について述べる．

以降，n 個のノードのなす集合を [n] := {1, . . . ,n} とおく．また，元データを m ∈ F^B

q, B ∈ N とおき，一様分布に従うとする．ここで，F_q _は位数が q _{の有限体を} 表す．

定義 2.21. _次の3つのフェーズから構成される方式を [n, k,d]-DSS_と呼ぶ．

＜分散情報生成フェーズ＞管理者は，関数 F: F^B

q → (

F^α

q

)n

を用いて元データ m ∈ F^B

q に対する n 個の分散情報 F(m) = (w₁, . . . ,w_n), w_i ∈ F^α

q,i ∈ [n] を生成する．次に，安全な通信路を用いて各w_i _をノードi _{に送信する．ノード}i _は受信した分散情報 w_i をそれぞれ保管する．ここで，α ∈ N_{は各ノードの分散情} 報のサイズを表し，ストレージと呼ぶ．

＜元データ復元フェーズ＞データコレクタ DC は n 個のノード集合から任意の k 個のノード i₁, . . . ,i_k を選択し，各ノードが保管している分散情報を受信する．

DCは，関数G: ( F^α

q

)k

→ F^B

q を用いて，元データ mˆ = G(w_i₁, . . . ,w_i_k) ∈ F^B

q を

推定する．

＜再生成フェーズ＞故障ノード i の分散情報を再生成する際にはまず，新規ノード i を用意する．その新規ノードは n −1 _{個のノード集合} [n] \ {i} _から任意の d _{個のノード}i₁, . . . ,i_d を選択する．次に，選択されたノードi_j, j = 1, . . . ,d

(24)

は，保管している分散情報と関数 f_i: F^α_q → F_q^β _{を用いて，再生成情報} v_i,i_j = f_i(w_i_j), j =1, . . . ,d をそれぞれ生成する．ここで，β(≤ α) ∈ N_{は再生成情報の} サイズを表す．これらd個の再生成情報は，新規ノードi_{に送信され，新規ノー} ドは関数 g_i:

( F_q^β

)d

→ F^α_q _{を用いて，分散情報} wˆ_i = g_i(v_i,i₁, . . . ,v_i,i_d) ∈ F^α_q _を生成する．このときの通信量 dβ を修復バンドワイズと呼ぶ．このとき，wˆ_i , w_i であってもよいが，再生成後の wˆ_i を用いたノード i _を含む k _{個のノードによ} る元データ復元およびノードi _を含む d 個のノードによるノード j ∈ [n] \ {i} の分散情報の再生成は可能でなければならない．

定義 2.22. [n,k,d]-DSS _{における関数の組} (F,G,(f_i,g_i)_iⁿ

=1) _を [n,k,d]-_{再生成符号と} 呼ぶ．

注意 2.23. _以降，k は復元に必要な最小のノード数，d(≤ n−1) _{は分散情報の再生}

成に必要な最小のノード数とする．このとき，d < k _{とすると，}d _{個のノードから他} のノードの分散情報を再生成するプロセスを繰り返すことで，k _{個分の分散情報を} 得ることができる．よって d 個のノードから元の元データを復元できるが，これは k が復元に必要な最小のノード数であることに反する．したがって，k ≤ d _である．

2.3.1 ストレージと修復バンドワイズのトレードオフ

Dimakis _らは[n,k,d]-再生成符号において，ストレージα と修復バンドワイズ dβ の間のトレードオフ関係が成り立つことを，グラフ理論における最大フロー・最小カット定理に相当する Network Information Flow _理論 [4] を用いることによって示した [1]_．

定理 2.24. [n,k,d]-再生成符号におけるパラメータ(α,dβ), B_{は以下を満たす：}

∑k−1 i=0

min{α,(d −i)β} ≥ B. (2.36)

なお，情報エントロピーの関係式からも同様のトレードオフ不等式が示せる[5]_．したがって，再生成符号においてはストレージ α と修復バンドワイズ dβ はともに小さいほうが望ましいが，これらを同時に最小化するのは不可能である．

(25)

2.3.2 MSR符号

定義 2.25(MSR _点／ MSR _符号). [n,k,d]-再生成符号に対して，ストレージ α _を最小にした下で修復バンドワイズ dβ _{を最小にする点を} MSR 点と呼び，対応する符号を MSR 符号と呼ぶ．このときの(α, β) = (α_MSR, β_MSR)の値は以下で与えられる：

(α_MSR, β_MSR) = (B

k, B

k(d −k +1) )

. (2.37)

2.3.3 MBR符号

定義 2.26(MBR 点／ MBR 符号). [n,k,d]-再生成符号に対して，修復バンドワイズ dβ を最小にした下でストレージα _{を最小にする点を}MBR点と呼び，対応する符号を MBR符号と呼ぶ．このときの(α, β) =(α_MBR, β_MBR) の値は以下で与えられる：

(αMBR, β_MBR) =

( 2dB

k(2d− k +1), 2B k(2d −k +1)

)

. (2.38)

2.3.4 MSR符号および MBR 符号の構成法

MSR _{符号および} MBR 符号の具体的な構成法については，Rashami _らによる Product Matrix _法 (PM _法)[6] を始めとして多くの研究がある [7–12]_．また，MBR 符号の構成法については，Shah_らによる Repair-by-Transfer_法がある[5]_{．特に後者} は，修復の際に演算操作が不要であり，シンボルのやりとりだけを用いて符号語シンボルを修復することができるため，Uncoded-Repair_{とも呼ばれる．}

2.3.5 PM法

本節ではPM _{法を用いた}MBR符号の構成法について説明する．特に，β =1, α = d,B = k(2d −k +1)/2_{の場合を説明する．}

＜符号化フェーズ＞

(26)

1. _{まず，元データ} m = (m₁, . . . ,m_B)を用いて，以下の形をした行列 M ∈ F^d×d_q _を構成する：

M =







M₁ M₂ M₂^⊤ O







∈ F^d×d

q , (2.39)

ここで，M₁ ∈ F^k×k_q ,M₂ ∈ F_q^k×(d−k),O : (d− k) 次零行列とおいて，以下の成分

に B 個の元データシンボルを配置する：

• M₁ _{の上三角成分の} k(k +1)/2個の部分

• M₂ _の k(d −k) _個の成分

2. _残りは M が対称行列になるように定める．

3. _次に，Ψ = [Φ ∆] (Φ ∈ F^n×k

q ,∆ ∈ F^n×(d−k)_q ) _{とおいて，}Φ,∆ を次を満たすよう

に定める：

（a_）Φの任意の k _{行は線型独立}

（b_）Ψの任意の d _{行は線型独立}

これら条件を満たす行列としては例えば，γ₁, . . . , γ_n ∈ F_q\ {0}を相異なる元としたときの

Ψ =







1 γ1 γ₁² · · · γ₁^d−1 1 γ₂ γ₂² · · · γ₂^d−1

... ... . . . ...

1 γ_n γ_n² · · · γ_n^d−1







(2.40)

（Vandermonde _行列）やCauchy_{行列がある．}

4. 以下で符号化する：

C =





 c^⊤

1

... c^⊤

n







=





 ψ₁^⊤

... ψ_n^⊤







M = ΨM (2.41)

例 2.4. (n,k,d) = (6,3,4),B =9 _{の例を示す：}

＜符号化フェーズ 1,2_＞

(27)

M =







m₁ m₂ m₃ m₇ m₂ m₄ m₅ m₈ m₃ m₅ m₆ m₉ m₇ m₈ m₉ 0







. (2.42)

＜符号化フェーズ 3,4_＞

Ψ =







1 γ₁ γ₁² γ₁³ 1 γ₂ γ₂² γ₂³ ... ... ... ... 1 γ₉ γ₉² γ₉³







（Vandermonde 行列）で符号化する（ここで，γ₁, . . . , γ_n _は

F_q \ {0} _{の相異なる元）：}





 c₁

... c₉







=







c₁₁ c₁₂ c₁₃ c₁₄ ... ... ... ... c₉₁ c₉₂ c₉₃ c₉₄







=







1 γ₁ γ₁² γ₁³ 1 γ₂ γ₂² γ₂³ ... ... ... ... 1 γ₉ γ₉² γ₉³



















(2.43)

1. _ノード i₁, . . . ,i_k _{で復元する場合，}DC は以下の M に関する連立方程式を解け

ばよい：（c_i

j, ψ_i_j, j =1, . . . ,k _は既知，M _が未知）





 c^⊤

i₁

... c^⊤

i_k







=





 ψ_i^⊤

..1

. ψ_i^⊤

k







M = ΨDCM =[ΦDC ∆DC]M (2.44)

=[ΦDCM₁ +∆DCM₂^⊤ ΦDCM₂], (2.45)

ここで，ΦDC は Ψのi₁, . . . ,i_k _{列からなる} k _次行列．

∆DC は ΨDC からΦDC を除いた k × (d − k) _行列．Ψ の条件 1. _{からこの方程式} は解ける．

例 2.5. (n,k,d) = (6,3,4),B =9 _{の例を示す：}

(28)

＜元データ復元フェーズ 1_＞

ストレージ 1, . . . ,k で復元する場合を考える．このとき，以下の連立方程式を解けばよい（c₁,c₂, c₃, γ₁, γ₂, γ₃ _は既知，m₁, . . . ,m₉ _{が未知）：}





 c₁

c₂

c₃







=







c₁₁ c₁₂ c₁₃ c₁₄ c₂₁ c₂₂ c₂₃ c₂₄ c₃₁ c₃₂ c₃₃ c₃₄







=







1 γ₁ γ₁² γ₁³ 1 γ₂ γ₂² γ₂³ 1 γ₃ γ₃² γ₃³



















(2.46)

• まず，次の方程式の右辺の係数行列が正則なので，m₇,m₈,m₉ が解ける：





 c₁₄ c₂₄ c₃₄







=







1 γ₁ γ₁² 1 γ₂ γ₂² 1 γ₃ γ₃²











 m₇ m₈ m₉







(2.47)

• したがって，残りの成分は以下の方程式を解くことで求める：







c₁₁ c₁₂ c₁₃ c₂₁ c₂₂ c₂₃ c₃₁ c₃₂ c₃₃







=







1 γ₁ γ₁² 1 γ₂ γ₂² 1 γ₃ γ₃²













m₁ m₂ m₃ m₂ m₄ m₅ m₃ m₅ m₆





 +





 γ³₁ γ³₂ γ³₃





 [

m₇ m₈ m₉ ]

(2.48)

一般に，ストレージ i₁, . . . ,i_k で復元する場合も同様にして元データの復元が可能である．

＜修復フェーズ＞

1. 以下が成り立つことに注意する：

mu_f =ψ_f. (2.49)

このとき，M _{は対称行列なので，}Mµ_f = (ψ^⊤_f M)^⊤ = c_f_．

故障ノード f _をi₁, . . . ,i_d で修復する場合，以下の M に関する連立方程式を解けば良い：（p_i_j_,_f,mu_f = ψ_f, ψ_i_j は既知，M が未知）

早稲田大学

博士学位論文

分散ストレージ符号化の一般化に関する研究

2018 年 2 月

鎌塚 明

Akira KAMATSUKA

博士学位論文

分散ストレージ符号化の一般化に関する研究

2018 年 2 月

早稲田大学大学院 基幹理工学研究科 数学応用数理専攻 情報理論研究

鎌塚 明

Akira KAMATSUKA

目次

図目次

表目次

第 1 章

序論

研究背景



研究の目的と位置付け

本論文の構成

第 2 章

準備

情報理論における基礎事項

秘密分散法





[n , k, d]

再生成符号

2018 _年 2 _月

鎌塚明

2018 _年 2 _月

早稲田大学大学院基幹理工学研究科数学応用数理専攻情報理論研究

鎌塚明

第 ¹ 章

第 ² 章