• 検索結果がありません。

講義内容

N/A
N/A
Protected

Academic year: 2021

シェア "講義内容"

Copied!
9
0
0

読み込み中.... (全文を見る)

全文

(1)

判別分析

2つ以上の群(クラスとも呼ぶ)が存在し,それぞれの

判別分析とは?

群の観測値の統計的性質(平均や共分散)がわかってい

るとする.

この条件のもとで,あるテストサンプルの観測値から,

この条件のもとで,あるテストサンプルの観測値から,

そのサンプルがどちらの群に属するか,判別したい.

例)男子学生の身長 体重 女子学生の身長 体重の統計的分布が 例)男子学生の身長,体重,女子学生の身長,体重の統計的分布が わかっているとする.このとき,あるテスト学生の身長,体重から その学生の性別を推定したい.

男子

体重

男子

身長

女子

2

講義内容

マハラノビス距離

1変数の場合

1.1変数の場合

2.相関のない2変数の場合

3.相関のある2変数の場合

4.一般的な表現

判別分析

判別分析

1.1変数の場合

2変数の場合

2.2変数の場合

(2)

マハラノビス距離

-1変数の場合-

p x

( )

確率密度関数 平均m,分散σ2の正規母集団 N(m,σ2)からサンプルを1つ取り出し, その値がxであったとする その値がxであったとする. このとき,このサンプルと,母集団 平均mとの“基準化した距離”は, 基準化後の変数, x

m

196

基準化後の変数,

v

(

x

m

) /

の絶対値,

m

 196

x

m

x

x

m

m

 196

.

d

M

   /

u

x

m

で与えられる また 平方距離は

m

 196

.

x

m

σで基準化した距離

x

d

M2

(

x

m

) /

2

2 で与えられる.また,平方距離は 0 1.96 -1.96

v で定義される. このように,標準偏差σで補正した中心からの距離dMをマハラノビス距離という Mahalanobis:インドの数学者 4

マハラノビス距離と正規分布

1次元正規分布: 1次元正規分布: 確率密度関数

p x

( )

)

(

1

1

2

m

x

2 M

d

)]

(

)

)(

(

2

1

exp[

)

(

)

2

(

]

)

(

2

1

exp[

2

1

)

(

1 2 2 / 1 2 2 / 1 2

m

x

m

x

m

x

x

p

  

)

(

x

1

p

)

(

x

2

p

2 M

d

2次元正規分布: 2次元正規分布: x

m

)]

(

)

)(

(

2

p[

)

(

)

(

1

x

2

x

M

)]

(

)

(

2

1

exp[

)

2

(

)

(

1 21 1

m

x

C

m

x

C

x

 

T

p

等確率楕円:マハラノビス距離 が等しい

2

x 2 m2 2 M

d

2 M

d

が等しい 多次元正規分布: 多次元正規分布:

1

1 d m2

)]

(

)

(

2

1

exp[

)

2

(

)

(

x

2

C

2

x

m

T

C

1

x

m

p

m 1 x1 2 M

d

(3)

1変数による判別

群 を考 確率密度関数 2群の判別を考える. 仮定:分散σ2の値は同じ

)}

(

)

(

2

{

1

}

)

(

)

{(

1

2 2 2 2 2 1 2 2 2 2 1

D

x

m

x

m

D

確率密度関数 G1 G2

)

2

)(

(

2

)}

(

)

(

2

{

1

2 1 2 1 2 2 2 2 1 2 1 2

m

m

x

m

m

m

m

m

m

D1 D2

2

0

x

定数

によらない

x

x

m

1 x

m

2

x

m

2

(

)

(

x

m

)

2

m

m

の場合 であるから,たとえば x0

定数

母平均からの距離によって判別を行う

D

12

(

x

m

21

)

D

x

m

2 2 2 2

(

)

m

1

m

2

if x

x

0

m

1

m

2

then x

G

2

2

,

の場合 母平均からの距離によって判別を行う. すなわち,

if x

x

0

m

1

m

2

then x

G

1

2

2

,

2 2 2 1 2

if

D

D

G

x

すなわち,2つの母平均の中点のどちら側に xがあるかで,属する群が決まる.

2 2 2 1 1 2 1 2

if

D

D

G

x

6

1変数による判別(分散が異なる場合)

平均と分散の異なる2つのグループ の判別を考える. 確率密度関数 G1

2

,

0

1

,

2

4

1 2 2 2 1

m

m

平均:

分散:

G2 1

m

m

2

x

課題1:マハラノビス距離を用いて,グループ分けの境界となる点(x座標) を求めなさい. 課題2:データの母集団は与えられた平均,分散をもつ正規確率分布に 従うものとする.確率密度関数の大小によって,判別の境界を求めた場 従うものとする.確率密度関数の大小によって,判別の境界を求めた場 合,マハラノビス距離を用いた場合と比べて,どのようになるか考えなさい.

(4)

2変数による判別

共分散行列が等しく,平均ベクトルが異なる 2つの群,G1,G2を判別する式を求めたい.

x

2

p

2

( )

x

:群G2のサンプルに対する 観測ベクトルxの生起確率 G1 G2

m

21

m

22 G 21

p

1

( )

x

:群G1のサンプルに対する 観測ベクトルxの生起確率

x

1

m

11

m

12 観測ベクトルxの生起確率 添え字 約束 12 11

x

1 「2番目のグル プの 1番目の変数についての平均」の意

m

variable group, 添え字の約束: 「2番目のグループの,1番目の変数についての平均」の意 変数番号 群番号 8

2変数による判別

-1変数のみによる判別での問題点- 仮にいずれか一方の変数のみで判別すると... x1を使うとG1に分類され,

x

2 どちらの変数でも G2に分類される領域 x2を使うとG2に分類される領域. G1 G2

m

21

m

22 どちらの変数でも G1に分類される領域 G 21

x

1 類 領 x1を使うとG2に分類され, x2を使うとG1に分類される領域.

m

11

m

12

x

1 の領域では分類に矛盾が生じる 11 12

(5)

2変数による判別

-単純なユークリッド距離では?- 単純なユークリッド距離で判別することにすると... 母平均を結ぶ線分の 図において 観測値ベクトル の点は

x

2 母平均を結ぶ線分の 垂直2等分線 図において,観測値ベクトルxの点はユークリッド距離では

D

D

D

E 1

D

E 2

D

E1

D

E2 となり,より近いG1に分類される. しかし,実際の生起確率は

x

p

2

( )

x

p

1

( )

x

であり G2に分類すべきである

x

であり,G2に分類すべきである. このように,単純なユークリッド距離 では望ましい判別ができない.

x

1 10

2変数による判別

-マハラノビス距離による判別- そこで,等生起確率を与えるマハラノビス距離で判別する 直線の方程式は

x

2 マハラノビス距離で等距離になる 軌跡は直線を描く

1 11 21 2 12 22

m

m

m

m

x

m

1

m

11

m

12

2

として

m

2

m

21

m

22

2

として,

f x x

( , ) (

1 2

 

11 1

 

12 2

)(

x

1

m

1

)

x

1

(

 

21 1

 

22 2

)(

x

2

m

2

)

0

と書ける.

)]

(

)

(

2

1

exp[

)

2

(

)

(

1 1 1 2 1 1 1

x

C

x

m

C

x

m

   T

p

2

)]

(

)

(

2

1

exp[

)

2

(

)

(

1 2 2 2 1 1 2

x

C

x

m

C

x

m

   T

p

(6)

生起確率の大小とマハラノビス距離の関係

2つの群を仮定したときの確率の大小を比較する

y

2つの群を仮定したときの確率の大小を比較する.

)]

(

)

(

2

1

exp[

)

2

(

)

(

1 1 1 2 1 1 1

x

C

x

m

C

x

m

   T

p

1

1 a b '

x

y

)]

(

)

(

2

1

exp[

)

2

(

)

(

1 2 2 2 1 1 2

x

C

x

m

C

x

m

   T

p

1

1 比をとって比較 a' b' a  b a' b'

x

)]

(

)

(

1

exp[

)

2

(

)]

(

)

(

2

1

exp[

)

2

(

)

(

)

(

1 2 1 1 1 1 1 2 1 1 2 1

m

x

C

m

x

C

m

x

C

m

x

C

x

x

      T T

p

p

1 1 2 1

1

)

(

1

)

(

)

(

G

p

G

p

p

x

x

x

x

 

)}]

(

)

(

)

(

)

{(

2

1

exp[

)]

(

)

(

2

exp[

)

2

(

)

(

2 1 2 1 1 1 2 2 2 2

m

x

C

m

x

m

x

C

m

x

m

x

C

m

x

C

  T T

p

2 2 1

1

)

(

)

(

G

p

p

x

x

x

2

)

(

)

{(

2

1

)

(

)

(

log

1 1 1 1 T

p

m

x

C

m

x

x

2 2 1

(

)

1

(

)

0

l

p

x

D

D

G

対数をとって比較

)

(

1

)}

(

)

(

)

(

)

{(

2

)

(

g

2 2 2 1 2 1 1 2 T

D

D

p

m

x

C

m

x

x

2 2 2 , 2 1 , 1 1 2 2 , 2 1 , 2 1

0

)

(

2

1

)

(

)

(

log

0

)

(

2

)

(

)

(

log

G

D

D

p

G

D

D

p

p

M M M M

x

x

x

x

 

 

)

(

2

D

M,1

D

M,2

, , 2

(

)

2

p x

生起確率の大小がマハラノビス距離の大小に対応づけられた. 12

判別関数の表現

判別関数を2つの群の平均までのマハラノビス距離の差で定義する

D

12

( ) (

x

x

m

1

)

T

C

1

(

x

m

1

)

T 2 1

f

( )

x

D

22

( )

x

D

12

( )

x

判別関数を2つの群の平均までのマハラノビス距離の差で定義する. ただし

D

22

( ) (

x

x

m

2

)

T

C

1

(

x

m

2

)

f

( ) (

x

x

m

)

T

C

1

(

x

m

) (

x

m

)

T

C

1

(

x

m

)

f(x)をC,m1,m2を使って表すと

f

T T T T T T T T

( ) (

)

(

) (

)

(

)

{

}

x

x

m

C

x

m

x

m

C

x

m

x C x

x C m

m C x

m C m

x C x

x C m

m C x

m C m

        2 2 1 1 1 1 2 2 1 2 1 2 1 1 1 1 すべて展開 線部消える T T T T

{

}

(

) (

)

(

)

x C x

x C m

m C x

m C m

x C

m

m

m

m

C x

C

C

   1 1 1 1 1 1 2 1 2 1 1 1

・下線部消える ・xでくくる T T T T

(

)

(

)

m C m

m C m

x C

m

m

1 1 1 2 1 2 1 1 2 1

2

1 T 第1項:Cが対称行列のとき aTCb=bTCa を利用 第2項:テクニック T

{(

m

m

)

C m

 1 2 1 1

 

(

)

}

(

)

m

m

C m

x C

m

m

1 2 1 2 1 1 2

2

T T 第2項:テクニック

 

(

)

(

)

(

)

(

)

m

m

C

m

m

x

m

C

m

m

1 2 1 1 2 1 1 2

2

T T

ただし,

m

m

1

m

2

2

(7)

判別関数の表現

)

(

)

(

2

)

(

1 1 2

m

m

C

m

x

x

T

f

  11 12 12 22 1 1 22 12 12 11

C

C

C

 とおくと,

)

(

)

(

2

)

(

1 1

2

f

x

x

m

T

C

m

m

)

(

)

(

2 , 2 1 , 2 2 , 1 1 , 1 11 12 12 22 1 2 1 2 1

m

m

m

m

m

m

x

x

T

C

)

(

1 2 1 11 12 12 22 1 2 1 2 1

m

m

x

x

T

C

)]

)(

(

)

)(

[(

1 1 22 1 12 2 2 2 12 1 11 2 1

C

x

m

x

m

14

マハラノビス距離

-2変数の場合-

(I) 2変数が互いに無相関の場合 右図のような無相関な2次元正規母集団 からサンプルが発生する場合を考える. x2 (I) 2変数が互いに無相関の場合 m2 A B からサンプルが発生する場合を考える. 平均: 共分散 行列: x1 m1 等確率楕円

12 2

0

0

C

m

1

m

このサンプルの観測値x=[x1,x2]Tを 以下のように基準化する

v

2 1 A B 行列:

v

0

22

m

2 以下のように基準化する.

v

x

m

v

x

m

1

1

1 1

(

) /

(

) /

v

1

v

1

v

2

v

2

(

x

2

m

2

) /

2 このとき,平方距離は

D

2 2 2

x

1

m

1

x

m

2 2 2 2

(

)

(

)

(注)もとの観測値空間での単純なユークリッド(Euclid)距離では

D

2

v

12

v

22 1 1 1 2 2 2 2 2

(

)

(

)

Dをマハラノビス距離とよぶ. ユ クリッド(Euclid)距離では このとき,図から明らかなように

D

E2

(

x

1

m

1

)

2

(

x

2

m

2

)

2 特徴:マハラノビス距離が等しい2点は 同じ生起確率をもつ

D

E A2,

D

E B2,

(8)

マハラノビス距離

-2変数の場合(つづき)-

(II) 2変数に相関がある場合 右図のような相関のある2次元正規母集団 からサンプルが発生する場合を考える. (II) 2変数に相関がある場合 x2 k1 k2

2

2 発 す 場 . 統計量: m2

1

1 2

12 2 1 1

C

m

m

m1 分布の主成分分析を行い,第1主成分 および第2主成分を求める x1

1

2 2 12 2

,

C

m

m

および第2主成分を求める. 次に,各主成分方向を新しい座標系に とる.このとき平方距離は k1 k2

2

12 2

0

0

k

C

u

1 2 2 2 2 2 1 2 1 2 2 2 1 2

k

k

u

u

D

0

2

v

1

k

1

/

1 Dをマハラノビス距離とよぶ. u2

v

2

k

2

/

2 u1 16

マハラノビス距離

-一般的表現-

x ’ 一般に,2変数のマハラノビス距離は 以下のステップで変換した座標系に おけるユークリッド距離で与えられる. x2 m2 x1’ x2 1.平均を0にする. x1 m1 2 1

x' x

 

m

2.座標系を回転して(Hotelling変換) 主成分の方向を新しい軸とする x2 k1 k2

x

x

m

u

主成分の方向を新しい軸とする. 1 m2 k1

k

Ux'

u

1 2

u

T

]

[

u

1

u

2

U

3.各主成分を,それぞれの標準偏差 で割って正規化する(白色化:whitening). x1 m1 x2 v2 4 新しい座標系でのユークリッド距離を m2 v1

v

C

k1 2/

k

4.新しい座標系でのユークリッド距離を 算出する. x1 m1

D

2

v

2

v v

T

(9)

マハラノビス距離

-一般的表現(つづき)-

D2を書き すと 目標:D2を母集団の平均ベクトルと共分

'

1.平均を0にする. D2を書き下すと

D

T T 2 1 2 1 2

 v v

/ / 目標:D2を母集団の平均ベクトルと共分 散行列で表す. 2.回転する.

x' x

 

m

k

Ux'

ただし

C

UCU

k T

k T k k T k 1 2 1 2 1 2 1 2

   

C

k

C

k

C

U x

m

C

U x

m

(

)

(

(

))

(

)

/ / / /

k

Ux

T T k T k T T k 1 2 1 2 1

  

x

m

U

C

C

U x

m

x

m

U C U x

m

(

)

(

)

(

)

(

)

(

)

/ /

2 2 2 1

0

0

k

C

3.各主成分を正規化する. T T T T 1 1

 

x

m

U

UC U

U x

m

x

m

C

x

m

(

)

(

) (

)

(

)

(

)

1/2 1/2 1

/

1

0

0

/

1

k k

k

C

C

v

ただし

(

)

(

)

ただし,以下を用いた.

U

T

U

1

0

1

/

2 k k

1

/

1

0

k

1

k

1

/

1

要素で書けば

4.新しい座標系でのユークリッド距離を 算

C

UCU

U

C U

k T T     

1 1 1 1 1

(

)

(

)

U

T

U

1

0

1

/

2

k

2

k

2

/

2 算出する.

D

2

v

2

v v

T

U

C U

UC U

T

1

(

)

18

参照

関連したドキュメント

られてきている力:,その距離としての性質につ

ƒ ƒ (2) (2) 内在的性質< 内在的性質< KCN KCN である>は、他の である>は、他の

詳細情報: 発がん物質, 「第 1 群」はヒトに対して発がん性があ ると判断できる物質である.この群に分類される物質は,疫学研 究からの十分な証拠がある.. TWA

そのほか,2つのそれをもつ州が1つあった。そして,6都市がそれぞれ造

に関して言 えば, は つのリー群の組 によって等質空間として表すこと はできないが, つのリー群の組 を用いればクリフォード・クラ イン形

2813 論文の潜在意味解析とトピック分析により、 8 つの異なったトピックスが得られ

世界的流行である以上、何をもって感染終息と判断するのか、現時点では予測がつかないと思われます。時限的、特例的措置とされても、かなりの長期間にわたり

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o