• 検索結果がありません。

Fisher の線形判別分析

ドキュメント内 2010 Boosting B085-1 (ページ 51-55)

第 5 章 結論 39

A.1 Fisher の線形判別分析

付録 A

線形判別分析

[22]

唇輪郭抽出の際に使用している線形判別分析について補足する.

ルを用いて,クラス内変動行列SW とクラス間変動行列SRをそれぞれ SW =S1+S2 = ∑

i=1,2

x∈X

(x−mi)(x−mi)t (A.2)

SR = ∑

i=1,2

ni(mi−m)(mi−m)t = nin2

n (m1−m2)(m1−m2)t (A.3) と定義する.mは全パターンの平均,ni はパターン数,nは全パターン数を表す.式A.3から,

クラス平均間の距離によって決まる量である.ここで,d次元特徴空間から1次元空間への変換 を表す(d,1)行列をωとする.このとき,パターンxωによって変換したパターンはスカラー 量であり,これをyとすると

y=ωtx (A.4)

と書ける.変換された空間でのクラス平均m˜i

˜ mi = 1

ni

y∈Yi

y= 1 ni

x∈X

ωtx=ωtmi (A.5)

となる.Yi は変換後の空間でのωi に属するパターン集合を表す.変換後の空間上でのクラス内 変動行列S˜W,クラス間変動行列S˜Rも同様に求めることができ,式A.4および式A.5を用いて

S˜W = ˜S1+ ˜S2 = ∑

i=1,2

yY

(y−m˜i)2 =ωtSwω (A.6)

となる.ここで,S˜i(i = 1,2)はクラスωiに属するパターンの変換後におけるクラス内変動であ り,S˜i(式A.1)と同様にして

S˜i = ∑

yY

(y−m˜i)2 (A.7)

で定義される.このとき,ωは(d,1)行列であるから,S˜W およびS˜Rはスカラー量であり,変換 後の1次元空間におけるクラス平均と分散をそれぞれm˜iσ˜2とおくと

S˜W =n1σ˜12+n2σ˜22 (A.8)

S˜R=n1( ˜m1−m)˜ 2+n2( ˜m2−m)˜ 2 = n1n2

n ( ˜m1−m˜2)2 (A.9) となる.

 フィッシャーの判別手法の基本的な考え方は,クラス間変動のクラス内変動に対する比,クラス 内変動・クラス間変動比を最大にする1次元軸を求めることにある.すなわち,変換後の空間にお いて2つのクラスがよく分離するためには,S˜W がなるべく小さく,そしてS˜Rがなるべく大きく なるように変換ωを定めるわけである.このクラス内変動・クラス間変動比をJS(ω)と表すと,

JS(ω) = S˜R

S˜W

= n1n2

n

( ˜m1−m˜2)2

n1σ˜2+n2σ˜2 = ωtSRω

ωtSWω (A.10)

A.1 Fisherの線形判別分析

となる.この評価基準JS(ω)をフィッシャーの評価基準(Fisher’s criterion)と呼ぶ.このJS を 最大にするω を求める問題は,

S˜W =ωtSWω =I (A.11)

という制約条件の下で

S˜B =ωtSBω (A.12)

を最大にする変分問題に帰着する.ただしI は,d˜次元単位行列である.λをラグランジュ乗数 とし,

J(ω) =ωtSBω−λ(ωtSWω−I) (A.13) をωで変微分して0とおくと,SBSW は対称行列であるから

SBω =λSWω (A.14)

を得る.したがって,SW が正則であるならば

(SW1SB −λI)ω = 0 (A.15)

となるので,SW−1SB の最大値をλ1 とすると

maxJS(A) =λ1 (A.16)

が得られる.またJS を最大にするωは,最大固有値λ1 に対する固有ベクトルとして定まる.さ らに式A.14より

λSWω =SBω= n1n2

n (m1−m2)(m1−m2)tω (A.17) となり,(m1−m2)tωがスカラー量であることに注意すると,

ω ∝SW1(m1−m2) (A.18)

となる.こうして求まる変換行列ω によって変換された特徴空間は,クラス内変動・クラス間変 動比を最大にする1次元空間となる.線形判別法における変動比最大という基準は変換後の識別 を考慮した基準であり,この点がKL展開の場合とは異なる.この線形判別法で特に注意が必要 な点は,線形判別法によって決まるのが空間(軸)のみであって,軸上に設けるべき識別のための 境界は定まらないという点である.このように決定境界の法線ベクトルは求まるが,境界の位置 が決まらない場合には別の方法によって決定しなければならない.その方法としては,例えば次 のようなものが考えられる.

変換後のクラス平均の中点を境界とする方法

変換後の各クラス毎の分散で内分する方法,

あるいは変換後の各クラス毎の標準偏差で内分する方法

事前確率も考慮して内分を行う方法

付録 B

CCC Dataset について

今回実験で使用したCCCDataset[4]について補足する.

B.1 データの概要

CCC Datasetは,Cyber Clean Center(CCC)によって収集されたマルウェア対策研究を対象 とした研究用データセットである.マルウェアの対策研究をする上で「共通なデータセットがな い」という課題があり,提案手法の評価に用いるマルウェアのサンプルや,感染前後の通信デー タといった研究用データセットとして提供されている.これによりマルウェア研究の成果の比較 が容易になり,新たに研究を始める人にとっても参入が容易になったため,研究の裾野が広がっ たといえる.

研究成果を共有する場・切磋琢磨する環境として開催された「マルウェア対策研究人材育成ワー クショップ(MWS)」において使用された.MWSは2008年から現在まで毎年開催され,その都 度CCCDataSet2008,2009,2010と用意されている.これにより過去のデータとの傾向を比較 分析が可能になっている.

ドキュメント内 2010 Boosting B085-1 (ページ 51-55)

関連したドキュメント