Lec11
統計的な特徴選択の基準
特徴選択
▶ 線形モデル
f (x
1, . . . , x
d) = w
0+ w
1x
1+ . . . + w
dx
d のうち、wj̸ = 0
となる変数のサブセットJ := { j ∈ { 1, . . . , d }| w
j̸ = 0 }
を選択したい▶ 特徴選択は、モデルの正則化の一種であるが、
▶ モデルの解釈が容易
,
▶ モデルの評価が高速
,
という利点を持つ特徴選択のアプローチ
▶ フィルター(
filter
)法▶ 個々の特徴を独立に選択すべきかどうか判定する
▶ ラッパー(wrapper)法
▶ 特徴サブセットごとにモデルを学習して評価する
▶ スパース正則化に基づく方法
▶ 特徴選択とモデルの学習を同時に行う
特徴選択の例
▶ 遺伝子発現マイクロアレイの例
▶
x
ij:
患者i
の遺伝子j
の活動量、yi:
薬剤代謝酵素量ˆ
y
i= f (x
i) = w
0+ w
1x
i1+ . . . + w
10000x
i10000フィルター法
▶ フィルター法では、個々の変数ごとに独立に選択する:
遺伝子
1 { (x
i1, y
i}
ni=1の相関係数= 0.24 p = 0.15 not select
遺伝子2 { (x
i2, y
i}
ni=1の相関係数= -0.75 p = 0.03 select
遺伝子3 { (x
i3, y
i}
ni=1の相関係数= -0.15 p = 0.24 not select
遺伝子4 { (x
i4, y
i}
ni=1の相関係数= 0.92 p = 0.01 select
.. . .. . .. . .. .
▶ 選ばれた変数(遺伝子)のみで予測モデルを作成
f (x
i) = w
0+ w
2x
i2+ w
4x
i4+ w
22x
i22+ . . .
2
変数の関連度▶
x
もy
も連続変数の場合▶ 相関係数
▶
x
が二値変数,y
が連続変数の場合▶
t
検定▶ マン・ホイットーニーの
U
検定▶
x
もy
も二値変数の場合▶ ピアソンの
χ
2検定▶
Fisher
の正確検定相関係数
▶ 母相関係数
ρ = (x − E [x])(y − E [y])
√ (x − E [x])
2√
(y − E [y])
2▶ 標本相関係数
r :=
∑
ni=1
(x
i− x)(y ¯
i− y) ¯
√∑
ni=1
(x
i− x) ¯
2√∑
ni=1
(y
i− y) ¯
2相関係数の例
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
x
y
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
x
y
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
x
y
(a) r = 0.80 (b) r = − 0.92 (c) r = 0.07
相関係数の統計的仮説検定
▶ 統計的仮説検定
H
0: ρ = 0 v.s. H
1: ρ ̸ = 0
▶ 検定統計量
s := r √ n − 2
√ 1 − r
2▶ 帰無分布
s ∼ t(n − 2) t(n − 2)
は自由度n − 2
のt
分布相関係数の統計的検定の例
以下の
2
変数x, y
のデータが与えられているx 1 3 3 5 5 7
y 2 3 1 4 3 5
▶ 相関係数を計算せよ.
▶ 検定統計量
s := r √ n − 2
√ 1 − r
2 を計算せよ.▶ 自由度
n − 2 = 4
のt
分布の分位点は以下の表のようになってい る.有意水準α = 0.05
において,xとy
の相関が統計的に有意で あるかどうかを理由とともに答えよ.確率点 0.010 0.025 0.050 0.950 0.975 0.990 分位点 −3.747 −2.776 −2.132 +2.132 +2.776 +3.747
相関係数の統計的検定の例の解答
▶ 相関係数の計算
¯
x = 4, y ¯ = 3,
∑
ni=1
(x
i− x) ¯
2= 3.67,
∑
ni=1
(y
i− y) ¯
2= 1.67, r = 0.809
▶ 検定統計量の計算
s = r √ n − 2
√ 1 − r
2= 2.75
▶ 統計的有意性検定
s < t
1−α/2,n−2= t
0.975,n−2⇒
帰無仮説は棄却されない二標本検定
▶ (例)
x
:晴天(x = 0) or
雨天(x = 1), y
:燃費−4 −2 0 2 4
0.00.10.20.30.40.50.6
Data
Probability
−4 −2 0 2 4
0.00.10.20.30.40.50.6
−4 −2 0 2 4
0.00.10.20.30.40.50.6
−4 −2 0 2 4
0.00.10.20.30.40.50.6
Data
Probability
−4 −2 0 2 4
0.00.10.20.30.40.50.6
−4 −2 0 2 4
0.00.10.20.30.40.50.6
−4 −2 0 2 4
0.00.10.20.30.40.50.6
帰無仮説 対立仮説
二標本検定の定式化
▶
2
群(=2
標本)X
0:= { i | y
i= 0 } , X
1:= { i | y
i= 1 }
▶ 帰無仮説
{ x
i}
i∈X0 と{ x
i}
i∈X1 が同一の分布に従う▶ 対立仮説
{ x
i}
i∈X0 と{ x
i}
i∈X1 が異なる分布に従う▶
t
検定(正規分布を仮定)▶ マン・ホイットーニーの
U
検定(ノンパラメトリック検定)t
検定▶ 正規性を仮定
x
i∼ N (µ
0, σ
2), i ∈ X
0, x
i∼ N(µ
1, σ
2), i ∈ X
1.
▶ 平均と分散
¯
x
0= ∑
i∈X0
x
i, s
20:= 1 n
0− 1
∑
i∈X0
(x
i− x ¯
0)
2¯
x
1= ∑
i∈X1
x
i, s
21:= 1 n
1− 1
∑
i∈X1
(x
i− x ¯
1)
2▶
Pooled Variance ˆ
σ
2= (n
0− 1)s
20+ (n
1− 1)s
21n
0+ n
1− 2
t
検定▶ 帰無仮説と対立仮説
H
0: µ
0= µ
1v.s. H
1: µ
0̸ = µ
1.
▶ 検定統計量
s := x ¯
0− x ¯
1ˆ
σ
√
1 n0+
n11
▶ 帰無分布
s ∼ t(n − 2) t(n − 2)
は自由度n − 2
のt
分布演習問題1
▶ 以下の
2
変数x, y
のデータが与えられている.x 2 4 4 6 6 8 1 2 0 3 2 4
y 0 0 0 0 0 0 1 1 1 1 1 1
上の表より,
¯
x
0= 5, x ¯
1= 2, s
0= 2.098, s
1= 1.414
▶ 自由度
12 − 2 = 10
のt
分布の分位点は以下の表の通りである.有 意水準α = 0.05
において,2群{ x
i}
i|yi=0, { x
i}
i|yi=1のt
検定を 行い,統計的に有意な違いがあるかどうかを理由とともに答えよ.確率点 0.010 0.025 0.050 0.950 0.975 0.990
分位点 −2.764 −2.228 −1.812 +1.812 +2.228 +2.764
演習問題1の解答
マン・ホイットーニーの
U
検定▶ 順序に基づくノンパラメトリック検定
{ x
i}
i∈X0= { 1.2, 2.5, 4.3, 6.8, 7.9 } , { x
i}
i∈X1= { 0.8, 1.6, 2.2, 3.4, 5.3 }
▶ ソート
▶ 順序
マン・ホイットーニーの
U
検定の例題▶ 検定統計量
U
0:= R
0− n
0(n
0+ 1)
2 , U
1:= R
1− n
1(n
1+ 1) 2
ただし,R
0, R
1は{ x
i}
i∈X0と{ x
i}
i∈X1の順位和▶ 検定統計量の期待値
E
H0[U
0] = E
H0[U
1] = n
0n
12
▶ 例題
U
0= R
0− n
0(n
0+ 1)
2 = 33 − 5 × 6 2 = 18, U
1= R
1− n
1(n
1+ 1)
2 = 22 − 5 × 6 2 = 7, E [U
0] = E [U
1] = n
0n
12 = 12.5
マン・ホイットニーの
U
検定(省略)2
群{ x
i}
i|yi=0, { x
i}
i|yi=1のU
検定を考える.2
群の順位和をそれぞれR
0, R
1,
サイズをそれぞれn
0, n
1とし,U
統計量をU
0:= R
0− n
0(n
0+ 1)
2 , U
1:= R
1− n
1(n
1+ 1) 2
と定義すると,2群が同一分布に従うという帰無仮説のもと,E [U
0] = E [U
1] = n
0n
12
となる.独立性の検定
▶ 例題:ダイレクトメールは有効な販売戦略であったか 出力
y
非購入 購入 計 送っていない50 20 70
特徴x
送った30 15 45
計80 35 115
▶ 分割表
出力
y
0 1
計0 n
y=0|x=0n
y=1|x=0n
x=0特徴
x 1 n
y=0|x=1n
y=1|x=1n
x=1計
n
y=0n
y=1n
▶
2
つの方法ピアソンの
χ
2検定,Fisher
の正確検定ピアソンの
χ 2検定
▶ 観測された分割表
出力
y
0 1
計0 n
y=0|x=0n
y=1|x=0n
x=0 特徴x 1 n
y=0|x=1n
y=1|x=1n
x=1 計n
y=0n
y=1n
▶ 独立を仮定した場合の分割表
出力
y
0 1
計0
ny=0×nnx=0 ny=1×nnx=0n
x=0特徴
x 1
ny=0×nnx=1 ny=1×nnx=1n
x=1 計n
y=0n
y=1n
ピアソンの
χ 2検定
▶ 検定統計量(=観測値と理論値の違い)
s = (n
y=0|x=0− n
y=0× n
x=0n )
2+ (n
y=1|x=0− n
y=1× n
x=0n )
2+ (n
y=0|x=1− n
y=0× n
x=1n )
2+ (n
y=1|x=1− n
y=1× n
x=1n )
2▶ 帰無分布
s ∼ χ
2(n − 1) χ
2(n − 1)
は自由度n − 1
のχ
2分布Fisher
の正確検定▶ 観測された分割表
出力
y
0 1
計0 n
y=0|x=0n
y=1|x=0n
x=0特徴
x 1 n
y=0|x=1n
y=1|x=1n
x=1計
n
y=0n
y=1n
▶ 独立性の仮定のもとで分割表が観測される確率
P
T=
(
nx=0ny=1|x=0
)(
nx=1ny=1|x=1
) (
nny=1
)
▶
p
値p = 2 min
{
ny=1|x=0∑
k=0
(
nx=1ny=1−k
)(
nx=0k
) (
nny=1
) ,
ny=1|x=1
∑
k=0
(
nx=0ny=1−k
)(
nx=1k
) (
nny=1
)
}
Fisher
の正確検定の例▶ 例題
y= 0 y= 1 計
x= 0 8 3 11
x= 1 6 1 7
計 14 4 18
▶ 累積確率
1
y= 0 y= 1 計
x= 0 11 0 11
x= 1 3 4 7
計 14 4 18 ,
y= 0 y= 1 計
x= 0 10 1 11
x= 1 4 3 7
計 14 4 18 ,
y= 0 y= 1 計
x= 0 9 2 11
x= 1 5 2 7
計 14 4 18 ,
y= 0 y= 1 計
x= 0 8 3 11
x= 1 6 1 7
計 14 4 18 .
Fisher
の正確検定の例▶ 例題
y= 0 y= 1 計
x= 0 8 3 11
x= 1 6 1 7
計 14 4 18
▶ 累積確率
2
y= 0 y= 1 計
x= 0 8 3 11
x= 1 6 1 7
計 14 4 18 ,
y= 0 y= 1 計
x= 0 7 4 11
x= 1 7 0 7
計 14 4 18 .
演習問題2
以下のような分割表が与えられているとする:
y= 0 y= 1 計
x= 0 3 8 11
x= 1 7 2 9
計 10 10 20
x
とy
の関連度を調べるため,この分割表に対してFisher
の正確検定を 行うことを考える.観測された分割表よりも極端な場合として,x
とy
が独立であるという帰無仮説のもと,以下の3
つの分割表が得られる確 率を計算せよ.y= 0 y= 1 計
x= 0 3 8 11
x= 1 7 2 9
計 10 10 20 ,
y= 0 y= 1 計
x= 0 2 9 11
x= 1 8 1 9
計 10 10 20 ,
y= 0 y= 1 計
x= 0 1 10 11
x= 1 9 0 9
計 10 10 20
ただし,
(
2010
) = 184756
であることを利用してよい.なお,Fisherの正 確検定のp
値は,これら3
つの分割表が観測される確率の和を2
倍した演習問題2の解答
多重検定
とある(架空の)調査
▶ 名古屋市昭和区の
AB
型の男性50
人にパートナーの血液型を質問 したところ以下のようになったA
型O
型B
型AB
型 今回の調査30% 50% 10% 10%
日本人分布
40% 30% 20% 10%
(
Fisher
の正確検定によるp
値は0.03
)AB
型の人はO
型のパートナーを好むのか?種明かし:多重検定バイアス
東区 西区 南区 北区
· · ·
昭和区· · ·
p= 0.62 p= 0.38 p= 0.25 p= 0.42 · · · p= 0.03 · · ·
多重検定バイアス:複数の
p
値から最小のものを選ぶ多重検定バイアス
遺伝子A 遺伝子B 遺伝子C 遺伝子D
· · ·
遺伝子K· · ·
p= 0.28 p= 0.31 p= 0.42 p= 0.76 · · · p= 0.04 · · ·
多重検定バイアス:複数の
p
値から最小のものを選ぶp
値とは(復習)p
値=
無意味な遺伝子に対してその実験結果が偶然に得られる確率遺伝子A 遺伝子B 遺伝子C 遺伝子D
· · ·
遺伝子K· · ·
p= 0.28 p= 0.31 p= 0.42 p= 0.76 · · · p= 0.04 · · ·
有意水準
0.05
で10000
個の帰無仮説を検定すると約500
個の誤検出多重検定結果のまとめの表
真に関連のない特徴 真に関連のある特徴 関連なしと判定
#(TN) #(FN)
関連ありと判定#(FP) #(TP)
▶ 真陰性:
True Negative (TN)
▶ 偽陰性:False Negative (FN)
▶ 偽陽性:False Positive (FP)
▶ 真陽性:True Positive (TP)
多重検定補正の種類
▶
d = 10000
(9900
個が関連なし,100
個が関連あり)▶ 補正なし(通常の
p
値):9900× 0.05 = 495
真に関連のない特徴 真に関連のある特徴 関連なしと判定
9405
個3
個関連ありと判定
495
個97
個▶
FDR:2/(2 + 38) = 0.05
真に関連のない特徴 真に関連のある特徴 関連なしと判定
9898
個62
個 関連ありと判定2
個38
個▶
FWER:FP
が1
つでもある確率が0.05
真に関連のない特徴 真に関連のある特徴 関連なしと判定
9900
個99
個 関連ありと判定0
個1
個Family-wise Error Rate (FWER)
▶ 問題設定
▶
d
個の特徴のうち,d0個が関連なし,d1個が関連あり▶ 個別の検定を有意水準
α ¯
で行う▶
Family-wise Error Rate (FWER):
FWER := P (
d0j=1
∪ (p
j< α) ¯ )
▶
FWER
の上限FWER := P (
d0j=1
∪ (p
j< α) ¯ )
≤
d0
∑
j=1
P(p
j< α) = ¯
d0
∑
j=1
¯ α ≤
∑
d j=1¯ α = d¯ α
▶
FWER
の制御(ボンフェローニ補正)FWER ≤ d α ¯ ≤ α ⇔ α ¯ ≤ α
d
False Discovery Rate (FDR)
▶
False Discovery Rate (FDR) FDR := E
[ #(FP)
#(TP) + #(FP) ]
▶
BH
法▶ 前処理:
p
値を昇順のソートp
(1)≤ . . . ≤ p
(d)▶
step1 k = d
とする▶
step2
p
(k)≤
kdα
であれば,特徴x
(1), . . . , x
(k)を選択してアルゴリ ズムを終了する▶
step3
k > 1
ならばk ← k − 1
としてstep2
へ戻る.k= 1
ならばす べての特徴を選択せずアルゴリズムを終了するBH
法の解釈▶
BH
法の終了時p
(k)≤ k
d α ⇔ p
(k)d k ≤ α
▶
d ≥ d
0よりp
(k)d
0k ≤ p
(k)d k ≤ α
▶
j = 1, . . . , k
においてp
(j)≤ p
(k)よりFDR ≤ p
(k)d
0k ≤ p
(k)d
k ≤ α
演習問題3
d = 8
個の特徴の関連度に関する統計的仮説検定を行って以下のようなp
値を得たとする:p
1= 0.015, p
2= 0.125, p
3= 0.010, p
4= 0.450, p
5= 0.220, p
6= 0.140, p
7= 0.005, p
8= 0.040.
BH
法を用いて,有意水準α = 0.05
でFDR
を制御できるように特徴を 選択したとき,どの特徴が選択されるか答えよ.演習問題3の解答