第 5 章 結論 39
A.1 Fisher の線形判別分析
付録 A
線形判別分析
[22]唇輪郭抽出の際に使用している線形判別分析について補足する.
ルを用いて,クラス内変動行列SW とクラス間変動行列SRをそれぞれ SW =S1+S2 = ∑
i=1,2
∑
x∈X
(x−mi)(x−mi)t (A.2)
SR = ∑
i=1,2
ni(mi−m)(mi−m)t = nin2
n (m1−m2)(m1−m2)t (A.3) と定義する.mは全パターンの平均,ni はパターン数,nは全パターン数を表す.式A.3から,
クラス平均間の距離によって決まる量である.ここで,d次元特徴空間から1次元空間への変換 を表す(d,1)行列をωとする.このとき,パターンxをωによって変換したパターンはスカラー 量であり,これをyとすると
y=ωtx (A.4)
と書ける.変換された空間でのクラス平均m˜i は
˜ mi = 1
ni
∑
y∈Yi
y= 1 ni
∑
x∈X
ωtx=ωtmi (A.5)
となる.Yi は変換後の空間でのωi に属するパターン集合を表す.変換後の空間上でのクラス内 変動行列S˜W,クラス間変動行列S˜Rも同様に求めることができ,式A.4および式A.5を用いて
S˜W = ˜S1+ ˜S2 = ∑
i=1,2
∑
y∈Y
(y−m˜i)2 =ωtSwω (A.6)
となる.ここで,S˜i(i = 1,2)はクラスωiに属するパターンの変換後におけるクラス内変動であ り,S˜i(式A.1)と同様にして
S˜i = ∑
y∈Y
(y−m˜i)2 (A.7)
で定義される.このとき,ωは(d,1)行列であるから,S˜W およびS˜Rはスカラー量であり,変換 後の1次元空間におけるクラス平均と分散をそれぞれm˜i,σ˜2とおくと
S˜W =n1σ˜12+n2σ˜22 (A.8)
S˜R=n1( ˜m1−m)˜ 2+n2( ˜m2−m)˜ 2 = n1n2
n ( ˜m1−m˜2)2 (A.9) となる.
フィッシャーの判別手法の基本的な考え方は,クラス間変動のクラス内変動に対する比,クラス 内変動・クラス間変動比を最大にする1次元軸を求めることにある.すなわち,変換後の空間にお いて2つのクラスがよく分離するためには,S˜W がなるべく小さく,そしてS˜Rがなるべく大きく なるように変換ωを定めるわけである.このクラス内変動・クラス間変動比をJS(ω)と表すと,
JS(ω) = S˜R
S˜W
= n1n2
n
( ˜m1−m˜2)2
n1σ˜2+n2σ˜2 = ωtSRω
ωtSWω (A.10)
A.1 Fisherの線形判別分析
となる.この評価基準JS(ω)をフィッシャーの評価基準(Fisher’s criterion)と呼ぶ.このJS を 最大にするω を求める問題は,
S˜W =ωtSWω =I (A.11)
という制約条件の下で
S˜B =ωtSBω (A.12)
を最大にする変分問題に帰着する.ただしI は,d˜次元単位行列である.λをラグランジュ乗数 とし,
J(ω) =ωtSBω−λ(ωtSWω−I) (A.13) をωで変微分して0とおくと,SB,SW は対称行列であるから
SBω =λSWω (A.14)
を得る.したがって,SW が正則であるならば
(SW−1SB −λI)ω = 0 (A.15)
となるので,SW−1SB の最大値をλ1 とすると
maxJS(A) =λ1 (A.16)
が得られる.またJS を最大にするωは,最大固有値λ1 に対する固有ベクトルとして定まる.さ らに式A.14より
λSWω =SBω= n1n2
n (m1−m2)(m1−m2)tω (A.17) となり,(m1−m2)tωがスカラー量であることに注意すると,
ω ∝SW−1(m1−m2) (A.18)
となる.こうして求まる変換行列ω によって変換された特徴空間は,クラス内変動・クラス間変 動比を最大にする1次元空間となる.線形判別法における変動比最大という基準は変換後の識別 を考慮した基準であり,この点がKL展開の場合とは異なる.この線形判別法で特に注意が必要 な点は,線形判別法によって決まるのが空間(軸)のみであって,軸上に設けるべき識別のための 境界は定まらないという点である.このように決定境界の法線ベクトルは求まるが,境界の位置 が決まらない場合には別の方法によって決定しなければならない.その方法としては,例えば次 のようなものが考えられる.
• 変換後のクラス平均の中点を境界とする方法
• 変換後の各クラス毎の分散で内分する方法,
あるいは変換後の各クラス毎の標準偏差で内分する方法
• 事前確率も考慮して内分を行う方法
付録 B
CCC Dataset について
今回実験で使用したCCCDataset[4]について補足する.
B.1 データの概要
CCC Datasetは,Cyber Clean Center(CCC)によって収集されたマルウェア対策研究を対象 とした研究用データセットである.マルウェアの対策研究をする上で「共通なデータセットがな い」という課題があり,提案手法の評価に用いるマルウェアのサンプルや,感染前後の通信デー タといった研究用データセットとして提供されている.これによりマルウェア研究の成果の比較 が容易になり,新たに研究を始める人にとっても参入が容易になったため,研究の裾野が広がっ たといえる.
研究成果を共有する場・切磋琢磨する環境として開催された「マルウェア対策研究人材育成ワー クショップ(MWS)」において使用された.MWSは2008年から現在まで毎年開催され,その都 度CCCDataSet2008,2009,2010と用意されている.これにより過去のデータとの傾向を比較 分析が可能になっている.