統計的な特徴選択の基準

(1)

Lec11

統計的な特徴選択の基準

(2)

特徴選択

▶ 線形モデル

f (x

₁

, . . . , x

_d

) = w

₀

+ w

₁

x

₁

+ . . . + w

_d

x

_d のうち、w_j

̸ = 0

となる変数のサブセット

J := { j ∈ { 1, . . . , d }| w

j

̸ = 0 }

を選択したい

▶ 特徴選択は、モデルの正則化の一種であるが、

▶ モデルの解釈が容易

,

▶ モデルの評価が高速

,

という利点を持つ

(3)

特徴選択のアプローチ

▶ フィルター（

filter

）法

▶ 個々の特徴を独立に選択すべきかどうか判定する

▶ ラッパー（wrapper）法

▶ 特徴サブセットごとにモデルを学習して評価する

▶ スパース正則化に基づく方法

▶ 特徴選択とモデルの学習を同時に行う

(4)

特徴選択の例

▶ 遺伝子発現マイクロアレイの例

▶

x

_ij

:

患者

i

の遺伝子

j

の活動量、y_i

:

薬剤代謝酵素量

ˆ

y

_i

= f (x

_i

) = w

₀

+ w

₁

x

_i1

+ . . . + w

₁₀₀₀₀

x

_i10000

(5)

フィルター法

▶ フィルター法では、個々の変数ごとに独立に選択する:

遺伝子

1 { (x

i1

, y

i

}

ⁿi=1の相関係数

= 0.24 p = 0.15 not select

遺伝子

2 { (x

_i2

, y

_i

}

= -0.75 p = 0.03 select

遺伝子

3 { (x

i3

, y

i

}

= -0.15 p = 0.24 not select

遺伝子

4 { (x

_i4

, y

_i

}

= 0.92 p = 0.01 select

.. . .. . .. . .. .

▶ 選ばれた変数（遺伝子）のみで予測モデルを作成

f (x

_i

) = w

₀

+ w

₂

x

_i2

+ w

₄

x

_i4

+ w

₂₂

x

_i22

+ . . .

(6)

2

変数の関連度

▶

x

も

y

も連続変数の場合

▶ 相関係数

▶

x

が二値変数，

y

が連続変数の場合

▶

t

検定

▶ マン・ホイットーニーの

U

検定

▶

x

も

y

も二値変数の場合

▶ ピアソンの

χ

²検定

▶

Fisher

の正確検定

(7)

相関係数

▶ 母相関係数

ρ = (x − E [x])(y − E [y])

√ (x − E [x])

²

√

(y − E [y])

²

▶ 標本相関係数

r :=

∑

n

i=1

(x

i

− x)(y ¯

i

− y) ¯

√∑

n

i=1

(x

_i

− x) ¯

²

√∑

n

i=1

(y

_i

− y) ¯

²

(8)

相関係数の例

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

y

(a) r = 0.80 (b) r = − 0.92 (c) r = 0.07

(9)

相関係数の統計的仮説検定

▶ 統計的仮説検定

H

0

: ρ = 0 v.s. H

1

: ρ ̸ = 0

▶ 検定統計量

s := r √ n − 2

√ 1 − r

²

▶ 帰無分布

s ∼ t(n − 2) t(n − 2)

は自由度

n − 2

の

t

分布

(10)

相関係数の統計的検定の例

以下の

2

変数

x, y

のデータが与えられている

x 1 3 3 5 5 7

y 2 3 1 4 3 5

▶ 相関係数を計算せよ．

▶ 検定統計量

s := r √ n − 2

√ 1 − r

² を計算せよ．

▶ 自由度

n − 2 = 4

の

t

分布の分位点は以下の表のようになっている．有意水準

α = 0.05

において，xと

y

の相関が統計的に有意であるかどうかを理由とともに答えよ．

確率点 0.010 0.025 0.050 0.950 0.975 0.990 分位点 −3.747 −2.776 −2.132 +2.132 +2.776 +3.747

(11)

相関係数の統計的検定の例の解答

▶ 相関係数の計算

¯

x = 4, y ¯ = 3,

∑

n

i=1

(x

_i

− x) ¯

²

= 3.67,

∑

n

i=1

(y

_i

− y) ¯

²

= 1.67, r = 0.809

▶ 検定統計量の計算

s = r √ n − 2

√ 1 − r

²

= 2.75

▶ 統計的有意性検定

s < t

₁₋_α/2,n₋₂

= t

0.975,n−2

⇒

帰無仮説は棄却されない

(12)

二標本検定

▶ （例）

x

：晴天

(x = 0) or

雨天

(x = 1), y

：燃費

−4 −2 0 2 4

0.00.10.20.30.40.50.6

Data

Probability

−4 −2 0 2 4

0.00.10.20.30.40.50.6

−4 −2 0 2 4

0.00.10.20.30.40.50.6

−4 −2 0 2 4

0.00.10.20.30.40.50.6

Data

Probability

−4 −2 0 2 4

0.00.10.20.30.40.50.6

−4 −2 0 2 4

0.00.10.20.30.40.50.6

−4 −2 0 2 4

0.00.10.20.30.40.50.6

帰無仮説対立仮説

(13)

二標本検定の定式化

▶

2

群

(=2

標本)

X

0

:= { i | y

_i

= 0 } , X

1

:= { i | y

_i

= 1 }

▶ 帰無仮説

{ x

_i

}

i∈X0 と

{ x

_i

}

i∈X1 が同一の分布に従う

▶ 対立仮説

{ x

i

}

i∈X0 と

{ x

i

}

i∈X1 が異なる分布に従う

▶

t

検定（正規分布を仮定）

▶ マン・ホイットーニーの

U

検定（ノンパラメトリック検定）

(14)

t

検定

▶ 正規性を仮定

x

i

∼ N (µ

0

, σ

²

), i ∈ X

0

, x

i

∼ N(µ

1

, σ

²

), i ∈ X

1

.

▶ 平均と分散

¯

x

0

= ∑

i∈X0

x

i

, s

²₀

:= 1 n

0

− 1

∑

i∈X0

(x

i

− x ¯

0

)

²

¯

x

₁

= ∑

i∈X1

x

_i

, s

²₁

:= 1 n

1

− 1

∑

i∈X1

(x

_i

− x ¯

₁

)

²

▶

Pooled Variance ˆ

σ

²

= (n

0

− 1)s

²₀

+ (n

1

− 1)s

²₁

n

₀

+ n

₁

− 2

(15)

t

検定

▶ 帰無仮説と対立仮説

H

0

: µ

0

= µ

1

v.s. H

1

: µ

0

̸ = µ

1

.

▶ 検定統計量

s := x ¯

₀

− x ¯

₁

ˆ

σ

√

1 n0

+

_n¹

1

▶ 帰無分布

s ∼ t(n − 2) t(n − 2)

は自由度

n − 2

の

t

分布

(16)

演習問題１

▶ 以下の

2

変数

x, y

のデータが与えられている．

x 2 4 4 6 6 8 1 2 0 3 2 4

y 0 0 0 0 0 0 1 1 1 1 1 1

上の表より，

¯

x

0

= 5, x ¯

1

= 2, s

0

= 2.098, s

1

= 1.414

▶ 自由度

12 − 2 = 10

の

t

分布の分位点は以下の表の通りである．有意水準

α = 0.05

において，2群

{ x

_i

}

i|y_i=0

, { x

_i

}

i|y_i=1の

t

検定を行い，統計的に有意な違いがあるかどうかを理由とともに答えよ．

確率点 0.010 0.025 0.050 0.950 0.975 0.990

分位点 −2.764 −2.228 −1.812 +1.812 +2.228 +2.764

(17)

演習問題１の解答

(18)

マン・ホイットーニーの

U

検定

▶ 順序に基づくノンパラメトリック検定

{ x

i

}

i∈X0

= { 1.2, 2.5, 4.3, 6.8, 7.9 } , { x

i

}

i∈X1

= { 0.8, 1.6, 2.2, 3.4, 5.3 }

▶ ソート

▶ 順序

(19)

マン・ホイットーニーの

U

検定の例題

▶ 検定統計量

U

0

:= R

0

− n

0

(n

0

+ 1)

2 , U

1

:= R

1

− n

1

(n

1

+ 1) 2

ただし，

R

0

, R

1は

{ x

i

}

i∈X0と

{ x

i

}

i∈X1の順位和

▶ 検定統計量の期待値

E

H₀

[U

0

] = E

H₀

[U

1

] = n

0

n

1

2

▶ 例題

U

₀

= R

₀

− n

₀

(n

₀

+ 1)

2 = 33 − 5 × 6 2 = 18, U

1

= R

1

− n

1

(n

1

+ 1)

2 = 22 − 5 × 6 2 = 7, E [U

0

] = E [U

1

] = n

0

n

1

2 = 12.5

(20)

マン・ホイットニーの

U

検定（省略）

2

群

{ x

i

}

i|y_i=0

, { x

i

}

i|y_i=1の

U

検定を考える．

2

群の順位和をそれぞれ

R

0

, R

1

,

サイズをそれぞれ

n

0

, n

1とし，

U

統計量を

U

0

:= R

0

− n

₀

(n

₀

+ 1)

2 , U

1

:= R

1

− n

₁

(n

₁

+ 1) 2

と定義すると，2群が同一分布に従うという帰無仮説のもと，

E [U

0

] = E [U

1

] = n

0

n

1

2

となる．

(21)

独立性の検定

▶ 例題：ダイレクトメールは有効な販売戦略であったか出力

y

非購入購入計送っていない

50 20 70

特徴

x

送った

30 15 45

計

80 35 115

▶ 分割表

出力

y

0 1

計

0 n

_y=0_|_x=0

n

_y=1_|_x=0

n

x=0

特徴

x 1 n

_y=0_|_x=1

n

_y=1_|_x=1

n

x=1

計

n

y=0

n

y=1

n

▶

2

つの方法

ピアソンの

χ

²検定,

Fisher

の正確検定

(22)

ピアソンの

χ ²

検定

▶ 観測された分割表

出力

y

0 1

計

0 n

_y=0_|_x=0

n

_y=1_|_x=0

n

_x=0 特徴

x 1 n

_y=0_|_x=1

n

_y=1_|_x=1

n

_x=1 計

n

_y=0

n

_y=1

n

▶ 独立を仮定した場合の分割表

出力

y

0 1

計

0

ⁿ^y=0^×_nⁿ^x=0 ⁿ^y=1^×_nⁿ^x=0

n

x=0

特徴

x 1

ⁿ^y=0^×_nⁿ^x=1 ⁿ^y=1^×_nⁿ^x=1

n

_x=1 計

n

y=0

n

y=1

n

(23)

ピアソンの

χ ²

検定

▶ 検定統計量（=観測値と理論値の違い）

s = (n

y=0|x=0

− n

_y=0

× n

_x=0

n )

²

+ (n

y=1|x=0

− n

_y=1

× n

_x=0

n )

²

+ (n

y=0|x=1

− n

y=0

× n

x=1

n )

²

+ (n

y=1|x=1

− n

y=1

× n

x=1

n )

²

▶ 帰無分布

s ∼ χ

²

(n − 1) χ

²

(n − 1)

は自由度

n − 1

の

χ

²分布

(24)

Fisher

の正確検定

▶ 観測された分割表

出力

y

0 1

計

0 n

_y=0_|_x=0

n

_y=1_|_x=0

n

x=0

特徴

x 1 n

_y=0_|_x=1

n

_y=1_|_x=1

n

x=1

計

n

y=0

n

y=1

n

▶ 独立性の仮定のもとで分割表が観測される確率

P

T

=

(

_n_x=0

n_y=1|x=0

)(

_n_x=1

n_y=1|x=1

) (

_n

n_y=1

)

▶

p

値

p = 2 min

{

n_y=1|x=0

∑

k=0

(

_n_x=1

ny=1−k

)(

_n_x=0

k

) (

_n

n_y=1

) ,

n_y=1|x=1

∑

k=0

(

_n_x=0

ny=1−k

)(

_n_x=1

k

) (

_n

n_y=1

)

}

(25)

Fisher

の正確検定の例

▶ 例題

y= 0 y= 1 計

x= 0 8 3 11

x= 1 6 1 7

計 14 4 18

▶ 累積確率

1

y= 0 y= 1 計

x= 0 11 0 11

x= 1 3 4 7

計 14 4 18 ,

y= 0 y= 1 計

x= 0 10 1 11

x= 1 4 3 7

計 14 4 18 ,

y= 0 y= 1 計

x= 0 9 2 11

x= 1 5 2 7

計 14 4 18 ,

y= 0 y= 1 計

x= 0 8 3 11

x= 1 6 1 7

計 14 4 18 .

(26)

Fisher

の正確検定の例

▶ 例題

y= 0 y= 1 計

x= 0 8 3 11

x= 1 6 1 7

計 14 4 18

▶ 累積確率

2

y= 0 y= 1 計

x= 0 8 3 11

x= 1 6 1 7

計 14 4 18 ,

y= 0 y= 1 計

x= 0 7 4 11

x= 1 7 0 7

計 14 4 18 .

(27)

演習問題２

以下のような分割表が与えられているとする：

y= 0 y= 1 計

x= 0 3 8 11

x= 1 7 2 9

計 10 10 20

x

と

y

の関連度を調べるため，この分割表に対して

Fisher

の正確検定を行うことを考える．観測された分割表よりも極端な場合として，

x

と

y

が独立であるという帰無仮説のもと，以下の

3

つの分割表が得られる確率を計算せよ．

y= 0 y= 1 計

x= 0 3 8 11

x= 1 7 2 9

計 10 10 20 ,

y= 0 y= 1 計

x= 0 2 9 11

x= 1 8 1 9

計 10 10 20 ,

y= 0 y= 1 計

x= 0 1 10 11

x= 1 9 0 9

計 10 10 20

ただし，

(

₂₀

10

) = 184756

であることを利用してよい．なお，Fisherの正確検定の

p

値は，これら

3

つの分割表が観測される確率の和を

2

倍した

(28)

演習問題２の解答

(29)

多重検定

(30)

とある（架空の）調査

▶ 名古屋市昭和区の

AB

型の男性

50

人にパートナーの血液型を質問したところ以下のようになった

A

型

O

型

B

型

AB

型今回の調査

30% 50% 10% 10%

日本人分布

40% 30% 20% 10%

（

Fisher

の正確検定による

p

値は

0.03

）

AB

型の人は

O

型のパートナーを好むのか？

(31)

種明かし：多重検定バイアス

東区西区南区北区

· · ·

昭和区

· · ·

p= 0.62 p= 0.38 p= 0.25 p= 0.42 · · · p= 0.03 · · ·

多重検定バイアス：複数の

p

値から最小のものを選ぶ

(32)

多重検定バイアス

遺伝子A 遺伝子B 遺伝子C 遺伝子D

· · ·

^遺伝子^K

· · ·

p= 0.28 p= 0.31 p= 0.42 p= 0.76 · · · p= 0.04 · · ·

多重検定バイアス：複数の

p

値から最小のものを選ぶ

(33)

p

値とは（復習）

p

値

=

無意味な遺伝子に対してその実験結果が偶然に得られる確率

遺伝子A 遺伝子B 遺伝子C 遺伝子D

· · ·

^遺伝子^K

· · ·

p= 0.28 p= 0.31 p= 0.42 p= 0.76 · · · p= 0.04 · · ·

有意水準

0.05

で

10000

個の帰無仮説を検定すると約

500

個の誤検出

(34)

多重検定結果のまとめの表

真に関連のない特徴真に関連のある特徴関連なしと判定

#(TN) #(FN)

#(FP) #(TP)

▶ 真陰性：

True Negative (TN)

▶ 偽陰性：False Negative (FN)

▶ 偽陽性：False Positive (FP)

▶ 真陽性：True Positive (TP)

(35)

多重検定補正の種類

▶

d = 10000

（

9900

個が関連なし，

100

個が関連あり）

▶ 補正なし（通常の

p

値）：9900

× 0.05 = 495

9405

個

3

個

495

個

97

個

▶

FDR：2/(2 + 38) = 0.05

9898

個

62

個関連ありと判定

2

個

38

個

▶

FWER：FP

が

1

つでもある確率が

0.05 9900

個

99

個関連ありと判定

0

個

1

個

(36)

Family-wise Error Rate (FWER)

▶ 問題設定

▶

d

個の特徴のうち，d₀個が関連なし，d₁個が関連あり

▶ 個別の検定を有意水準

α ¯

で行う

▶

Family-wise Error Rate (FWER):

FWER := P (

d₀

j=1

∪ (p

_j

< α) ¯ )

▶

FWER

の上限

FWER := P (

d0

j=1

∪ (p

j

< α) ¯ )

≤

d₀

∑

j=1

P(p

j

< α) = ¯

d₀

∑

j=1

¯ α ≤

∑

d j=1

¯ α = d¯ α

▶

FWER

の制御（ボンフェローニ補正）

FWER ≤ d α ¯ ≤ α ⇔ α ¯ ≤ α

d

(37)

False Discovery Rate (FDR)

▶

False Discovery Rate (FDR) FDR := E

[ #(FP)

#(TP) + #(FP) ]

▶

BH

法

▶ 前処理：

p

値を昇順のソート

p

₍₁₎

≤ . . . ≤ p

_(d)

▶

step1 k = d

とする

▶

step2

p

_(k)

≤

^k_d

α

であれば，特徴

x

₍₁₎

, . . . , x

_(k)を選択してアルゴリズムを終了する

▶

step3

k > 1

ならば

k ← k − 1

として

step2

へ戻る．k

= 1

ならばすべての特徴を選択せずアルゴリズムを終了する

(38)

BH

法の解釈

▶

BH

法の終了時

p

_(k)

≤ k

d α ⇔ p

_(k)

d k ≤ α

▶

d ≥ d

0より

p

_(k)

d

0

k ≤ p

_(k)

d k ≤ α

▶

j = 1, . . . , k

において

p

(j)

≤ p

(k)より

FDR ≤ p

_(k)

d

0

k ≤ p

_(k)

d

k ≤ α

(39)

演習問題３

d = 8

個の特徴の関連度に関する統計的仮説検定を行って以下のような

p

値を得たとする：

p

1

= 0.015, p

2

= 0.125, p

3

= 0.010, p

4

= 0.450, p

5

= 0.220, p

6

= 0.140, p

7

= 0.005, p

8

= 0.040.

BH

法を用いて，有意水準

α = 0.05

で

FDR

を制御できるように特徴を選択したとき，どの特徴が選択されるか答えよ．

(40)

演習問題３の解答