• 検索結果がありません。

統計的な特徴選択の基準

N/A
N/A
Protected

Academic year: 2021

シェア "統計的な特徴選択の基準"

Copied!
40
0
0

読み込み中.... (全文を見る)

全文

(1)

Lec11

統計的な特徴選択の基準

(2)

特徴選択

線形モデル

f (x

1

, . . . , x

d

) = w

0

+ w

1

x

1

+ . . . + w

d

x

d のうち、wj

̸ = 0

となる変数のサブセット

J := { j ∈ { 1, . . . , d }| w

j

̸ = 0 }

を選択したい

特徴選択は、モデルの正則化の一種であるが、

モデルの解釈が容易

,

モデルの評価が高速

,

という利点を持つ

(3)

特徴選択のアプローチ

フィルター(

filter

)法

個々の特徴を独立に選択すべきかどうか判定する

ラッパー(wrapper)法

特徴サブセットごとにモデルを学習して評価する

スパース正則化に基づく方法

特徴選択とモデルの学習を同時に行う

(4)

特徴選択の例

遺伝子発現マイクロアレイの例

x

ij

:

患者

i

の遺伝子

j

の活動量、yi

:

薬剤代謝酵素量

ˆ

y

i

= f (x

i

) = w

0

+ w

1

x

i1

+ . . . + w

10000

x

i10000

(5)

フィルター法

フィルター法では、個々の変数ごとに独立に選択する:

遺伝子

1 { (x

i1

, y

i

}

ni=1の相関係数

= 0.24 p = 0.15 not select

遺伝子

2 { (x

i2

, y

i

}

ni=1の相関係数

= -0.75 p = 0.03 select

遺伝子

3 { (x

i3

, y

i

}

ni=1の相関係数

= -0.15 p = 0.24 not select

遺伝子

4 { (x

i4

, y

i

}

ni=1の相関係数

= 0.92 p = 0.01 select

.. . .. . .. . .. .

選ばれた変数(遺伝子)のみで予測モデルを作成

f (x

i

) = w

0

+ w

2

x

i2

+ w

4

x

i4

+ w

22

x

i22

+ . . .

(6)

2

変数の関連度

x

y

も連続変数の場合

相関係数

x

が二値変数,

y

が連続変数の場合

t

検定

マン・ホイットーニーの

U

検定

x

y

も二値変数の場合

ピアソンの

χ

2検定

Fisher

の正確検定

(7)

相関係数

母相関係数

ρ = (x E [x])(y E [y])

√ (x E [x])

2

(y E [y])

2

標本相関係数

r :=

n

i=1

(x

i

x)(y ¯

i

y) ¯

√∑

n

i=1

(x

i

x) ¯

2

√∑

n

i=1

(y

i

y) ¯

2

(8)

相関係数の例

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

y

(a) r = 0.80 (b) r = 0.92 (c) r = 0.07

(9)

相関係数の統計的仮説検定

統計的仮説検定

H

0

: ρ = 0 v.s. H

1

: ρ ̸ = 0

検定統計量

s := r n 2

1 r

2

帰無分布

s t(n 2) t(n 2)

は自由度

n 2

t

分布

(10)

相関係数の統計的検定の例

以下の

2

変数

x, y

のデータが与えられている

x 1 3 3 5 5 7

y 2 3 1 4 3 5

相関係数を計算せよ.

検定統計量

s := r n 2

1 r

2 を計算せよ.

自由度

n 2 = 4

t

分布の分位点は以下の表のようになってい る.有意水準

α = 0.05

において,x

y

の相関が統計的に有意で あるかどうかを理由とともに答えよ.

確率点 0.010 0.025 0.050 0.950 0.975 0.990 分位点 3.747 2.776 2.132 +2.132 +2.776 +3.747

(11)

相関係数の統計的検定の例の解答

相関係数の計算

¯

x = 4, y ¯ = 3,

n

i=1

(x

i

x) ¯

2

= 3.67,

n

i=1

(y

i

y) ¯

2

= 1.67, r = 0.809

検定統計量の計算

s = r n 2

1 r

2

= 2.75

統計的有意性検定

s < t

1α/2,n2

= t

0.975,n2

帰無仮説は棄却されない

(12)

二標本検定

(例)

x

:晴天

(x = 0) or

雨天

(x = 1), y

:燃費

−4 −2 0 2 4

0.00.10.20.30.40.50.6

Data

Probability

−4 −2 0 2 4

0.00.10.20.30.40.50.6

−4 −2 0 2 4

0.00.10.20.30.40.50.6

−4 −2 0 2 4

0.00.10.20.30.40.50.6

Data

Probability

−4 −2 0 2 4

0.00.10.20.30.40.50.6

−4 −2 0 2 4

0.00.10.20.30.40.50.6

−4 −2 0 2 4

0.00.10.20.30.40.50.6

帰無仮説 対立仮説

(13)

二標本検定の定式化

2

(=2

標本)

X

0

:= { i | y

i

= 0 } , X

1

:= { i | y

i

= 1 }

帰無仮説

{ x

i

}

i∈X0

{ x

i

}

i∈X1 が同一の分布に従う

対立仮説

{ x

i

}

i∈X0

{ x

i

}

i∈X1 が異なる分布に従う

t

検定(正規分布を仮定)

マン・ホイットーニーの

U

検定(ノンパラメトリック検定)

(14)

t

検定

正規性を仮定

x

i

N

0

, σ

2

), i ∈ X

0

, x

i

N(µ

1

, σ

2

), i ∈ X

1

.

平均と分散

¯

x

0

= ∑

i∈X0

x

i

, s

20

:= 1 n

0

1

i∈X0

(x

i

x ¯

0

)

2

¯

x

1

= ∑

i∈X1

x

i

, s

21

:= 1 n

1

1

i∈X1

(x

i

x ¯

1

)

2

Pooled Variance ˆ

σ

2

= (n

0

1)s

20

+ (n

1

1)s

21

n

0

+ n

1

2

(15)

t

検定

帰無仮説と対立仮説

H

0

: µ

0

= µ

1

v.s. H

1

: µ

0

̸ = µ

1

.

検定統計量

s := x ¯

0

x ¯

1

ˆ

σ

1 n0

+

n1

1

帰無分布

s t(n 2) t(n 2)

は自由度

n 2

t

分布

(16)

演習問題1

以下の

2

変数

x, y

のデータが与えられている.

x 2 4 4 6 6 8 1 2 0 3 2 4

y 0 0 0 0 0 0 1 1 1 1 1 1

上の表より,

¯

x

0

= 5, x ¯

1

= 2, s

0

= 2.098, s

1

= 1.414

自由度

12 2 = 10

t

分布の分位点は以下の表の通りである.有 意水準

α = 0.05

において,2

{ x

i

}

i|yi=0

, { x

i

}

i|yi=1

t

検定を 行い,統計的に有意な違いがあるかどうかを理由とともに答えよ.

確率点 0.010 0.025 0.050 0.950 0.975 0.990

分位点 −2.764 −2.228 −1.812 +1.812 +2.228 +2.764

(17)

演習問題1の解答

(18)

マン・ホイットーニーの

U

検定

順序に基づくノンパラメトリック検定

{ x

i

}

i∈X0

= { 1.2, 2.5, 4.3, 6.8, 7.9 } , { x

i

}

i∈X1

= { 0.8, 1.6, 2.2, 3.4, 5.3 }

ソート

順序

(19)

マン・ホイットーニーの

U

検定の例題

検定統計量

U

0

:= R

0

n

0

(n

0

+ 1)

2 , U

1

:= R

1

n

1

(n

1

+ 1) 2

ただし,

R

0

, R

1

{ x

i

}

i∈X0

{ x

i

}

i∈X1の順位和

検定統計量の期待値

E

H0

[U

0

] = E

H0

[U

1

] = n

0

n

1

2

例題

U

0

= R

0

n

0

(n

0

+ 1)

2 = 33 5 × 6 2 = 18, U

1

= R

1

n

1

(n

1

+ 1)

2 = 22 5 × 6 2 = 7, E [U

0

] = E [U

1

] = n

0

n

1

2 = 12.5

(20)

マン・ホイットニーの

U

検定(省略)

2

{ x

i

}

i|yi=0

, { x

i

}

i|yi=1

U

検定を考える.

2

群の順位和をそれぞれ

R

0

, R

1

,

サイズをそれぞれ

n

0

, n

1とし,

U

統計量を

U

0

:= R

0

n

0

(n

0

+ 1)

2 , U

1

:= R

1

n

1

(n

1

+ 1) 2

と定義すると,2群が同一分布に従うという帰無仮説のもと,

E [U

0

] = E [U

1

] = n

0

n

1

2

となる.

(21)

独立性の検定

例題:ダイレクトメールは有効な販売戦略であったか 出力

y

非購入 購入 送っていない

50 20 70

特徴

x

送った

30 15 45

80 35 115

分割表

出力

y

0 1

0 n

y=0|x=0

n

y=1|x=0

n

x=0

特徴

x 1 n

y=0|x=1

n

y=1|x=1

n

x=1

n

y=0

n

y=1

n

2

つの方法

ピアソンの

χ

2検定,

Fisher

の正確検定

(22)

ピアソンの

χ 2

検定

観測された分割表

出力

y

0 1

0 n

y=0|x=0

n

y=1|x=0

n

x=0 特徴

x 1 n

y=0|x=1

n

y=1|x=1

n

x=1

n

y=0

n

y=1

n

独立を仮定した場合の分割表

出力

y

0 1

0

ny=0×nnx=0 ny=1×nnx=0

n

x=0

特徴

x 1

ny=0×nnx=1 ny=1×nnx=1

n

x=1

n

y=0

n

y=1

n

(23)

ピアソンの

χ 2

検定

検定統計量(=観測値と理論値の違い)

s = (n

y=0|x=0

n

y=0

× n

x=0

n )

2

+ (n

y=1|x=0

n

y=1

× n

x=0

n )

2

+ (n

y=0|x=1

n

y=0

× n

x=1

n )

2

+ (n

y=1|x=1

n

y=1

× n

x=1

n )

2

帰無分布

s χ

2

(n 1) χ

2

(n 1)

は自由度

n 1

χ

2分布

(24)

Fisher

の正確検定

観測された分割表

出力

y

0 1

0 n

y=0|x=0

n

y=1|x=0

n

x=0

特徴

x 1 n

y=0|x=1

n

y=1|x=1

n

x=1

n

y=0

n

y=1

n

独立性の仮定のもとで分割表が観測される確率

P

T

=

(

nx=0

ny=1|x=0

)(

nx=1

ny=1|x=1

) (

n

ny=1

)

p

p = 2 min

{

ny=1|x=0

k=0

(

nx=1

ny=1−k

)(

nx=0

k

) (

n

ny=1

) ,

ny=1|x=1

k=0

(

nx=0

ny=1−k

)(

nx=1

k

) (

n

ny=1

)

}

(25)

Fisher

の正確検定の例

例題

y= 0 y= 1

x= 0 8 3 11

x= 1 6 1 7

14 4 18

累積確率

1

y= 0 y= 1

x= 0 11 0 11

x= 1 3 4 7

14 4 18 ,

y= 0 y= 1

x= 0 10 1 11

x= 1 4 3 7

14 4 18 ,

y= 0 y= 1

x= 0 9 2 11

x= 1 5 2 7

14 4 18 ,

y= 0 y= 1

x= 0 8 3 11

x= 1 6 1 7

14 4 18 .

(26)

Fisher

の正確検定の例

例題

y= 0 y= 1

x= 0 8 3 11

x= 1 6 1 7

14 4 18

累積確率

2

y= 0 y= 1

x= 0 8 3 11

x= 1 6 1 7

14 4 18 ,

y= 0 y= 1

x= 0 7 4 11

x= 1 7 0 7

14 4 18 .

(27)

演習問題2

以下のような分割表が与えられているとする:

y= 0 y= 1

x= 0 3 8 11

x= 1 7 2 9

10 10 20

x

y

の関連度を調べるため,この分割表に対して

Fisher

の正確検定を 行うことを考える.観測された分割表よりも極端な場合として,

x

y

が独立であるという帰無仮説のもと,以下の

3

つの分割表が得られる確 率を計算せよ.

y= 0 y= 1

x= 0 3 8 11

x= 1 7 2 9

10 10 20 ,

y= 0 y= 1

x= 0 2 9 11

x= 1 8 1 9

10 10 20 ,

y= 0 y= 1

x= 0 1 10 11

x= 1 9 0 9

10 10 20

ただし,

(

20

10

) = 184756

であることを利用してよい.なお,Fisherの正 確検定の

p

値は,これら

3

つの分割表が観測される確率の和を

2

倍した

(28)

演習問題2の解答

(29)

多重検定

(30)

とある(架空の)調査

名古屋市昭和区の

AB

型の男性

50

人にパートナーの血液型を質問 したところ以下のようになった

A

O

B

AB

今回の調査

30% 50% 10% 10%

日本人分布

40% 30% 20% 10%

Fisher

の正確検定による

p

値は

0.03

AB

型の人は

O

型のパートナーを好むのか?

(31)

種明かし:多重検定バイアス

東区 西区 南区 北区

· · ·

昭和区

· · ·

p= 0.62 p= 0.38 p= 0.25 p= 0.42 · · · p= 0.03 · · ·

多重検定バイアス:複数の

p

値から最小のものを選ぶ

(32)

多重検定バイアス

遺伝子A 遺伝子B 遺伝子C 遺伝子D

· · ·

遺伝子K

· · ·

p= 0.28 p= 0.31 p= 0.42 p= 0.76 · · · p= 0.04 · · ·

多重検定バイアス:複数の

p

値から最小のものを選ぶ

(33)

p

値とは(復習)

p

=

無意味な遺伝子に対してその実験結果が偶然に得られる確率

遺伝子A 遺伝子B 遺伝子C 遺伝子D

· · ·

遺伝子K

· · ·

p= 0.28 p= 0.31 p= 0.42 p= 0.76 · · · p= 0.04 · · ·

有意水準

0.05

10000

個の帰無仮説を検定すると約

500

個の誤検出

(34)

多重検定結果のまとめの表

真に関連のない特徴 真に関連のある特徴 関連なしと判定

#(TN) #(FN)

関連ありと判定

#(FP) #(TP)

真陰性:

True Negative (TN)

偽陰性:False Negative (FN)

偽陽性:False Positive (FP)

真陽性:True Positive (TP)

(35)

多重検定補正の種類

d = 10000

9900

個が関連なし,

100

個が関連あり)

補正なし(通常の

p

値):9900

× 0.05 = 495

真に関連のない特徴 真に関連のある特徴 関連なしと判定

9405

3

関連ありと判定

495

97

FDR:2/(2 + 38) = 0.05

真に関連のない特徴 真に関連のある特徴 関連なしと判定

9898

62

関連ありと判定

2

38

FWER:FP

1

つでもある確率が

0.05

真に関連のない特徴 真に関連のある特徴 関連なしと判定

9900

99

関連ありと判定

0

1

(36)

Family-wise Error Rate (FWER)

問題設定

d

個の特徴のうち,d0個が関連なし,d1個が関連あり

個別の検定を有意水準

α ¯

で行う

Family-wise Error Rate (FWER):

FWER := P (

d0

j=1

(p

j

< α) ¯ )

FWER

の上限

FWER := P (

d0

j=1

(p

j

< α) ¯ )

d0

j=1

P(p

j

< α) = ¯

d0

j=1

¯ α

d j=1

¯ α = α

FWER

の制御(ボンフェローニ補正)

FWER d α ¯ α α ¯ α

d

(37)

False Discovery Rate (FDR)

False Discovery Rate (FDR) FDR := E

[ #(FP)

#(TP) + #(FP) ]

BH

前処理:

p

値を昇順のソート

p

(1)

. . . p

(d)

step1 k = d

とする

step2

p

(k)

kd

α

であれば,特徴

x

(1)

, . . . , x

(k)を選択してアルゴリ ズムを終了する

step3

k > 1

ならば

k k 1

として

step2

へ戻る.k

= 1

ならばす べての特徴を選択せずアルゴリズムを終了する

(38)

BH

法の解釈

BH

法の終了時

p

(k)

k

d α p

(k)

d k α

d d

0より

p

(k)

d

0

k p

(k)

d k α

j = 1, . . . , k

において

p

(j)

p

(k)より

FDR p

(k)

d

0

k p

(k)

d

k α

(39)

演習問題3

d = 8

個の特徴の関連度に関する統計的仮説検定を行って以下のような

p

値を得たとする:

p

1

= 0.015, p

2

= 0.125, p

3

= 0.010, p

4

= 0.450, p

5

= 0.220, p

6

= 0.140, p

7

= 0.005, p

8

= 0.040.

BH

法を用いて,有意水準

α = 0.05

FDR

を制御できるように特徴を 選択したとき,どの特徴が選択されるか答えよ.

(40)

演習問題3の解答

参照

関連したドキュメント

種類 市民サービス 特性 選択的事業 区分 一般事務事業.

種類 市民サービス 特性 非選択的事業 区分 非選択的事務事業..

種類 市民サービス 特性 選択的事業 区分 一般事務事業.

種類 市民サービス 特性 選択的事業 区分 一般事務事業..

種類 市民サービス 特性 選択的事業 区分 一般事務事業..

以上のような背景の中で、本研究は計画に基づく戦

A(会計士):条件付取得対価の会計処理は、日本基準と国際会計基準で異なります。まず、日本基準からご説明し

(出所:総務省 統一的な基準による地方公会計マニュアルに一部追記 平成 27