経験ベイズ検定による
偽陽性制御の方法
大羽 成征 ((
おおばしげゆき
)@@京大
数理デザイン道場
22001144年0077月2244日1155::0055--1155::4400
Email: [email protected]‐u.ac.jp
Twi6er: @shigepong
神経細胞間の
解剖学的結合と機能的結合
i
1
http://medcell.med.yale.edu/histology/nervous_system_lab/ Wikipedia commons 軸索末端 シナプス 小胞 シナプス後細胞
カルシウムイメージングによる
神経活動解析
Material
n
Calcium imaging movie of mouse hippocampus
n
( 84 * 194 ) [pixel] * 60000 [frame] (10min, 100Hz)
n
60 ROIs (with high S/N raUo) are selected from
Observed Ume series and
detected spikes
グレンジャー因果とは?
Granger causality
n
観測点 A, B で時系列データを観測する
p
例: 脳波、 神経スパイク、 各種銘柄の株価
p
時系列データ
n
観測値履歴による予測を行う
n
定義:もしも A
ßA よりも AßAB のほうが予測誤差が(有意
に)小さいならば、B
àA のグレンジャー因果がある!とする
€
x
A(1),.x
A(2),..., x
A(T)
x
B(1),.x
B(2),..., x
B(T)
€
ˆ
x
A ← A(t) = f
A ← A(x
A(t −1),..., x
A(t − p))
€
ˆ
x
A ← AB(t) = f
A ← AB(x
A(t −1),..., x
A(t − p), x
B(t −1),..., x
B(t − p))
Time tA
B
一般化線�形モデル
(GLM)
に基づく
スパイク応答モデル
第 i ニューロンの時間フレーム t における発火確率 (非定常ポアソン過程) ポアソン強度は、複数ニューロンの発火履歴の線形和で決まる 時刻 t 過去Mフレーム分の履歴 7 Time t€
N
i(t)
€
f (x) =
1
1+ exp(−x)
[Stevenson et al. 2008]ほか一般化線�形モデル
(GLM)に基づく
スパイク応答モデル
Ne u ro n c Time t€
R
i1(s)
€
s
€
R
i2(s)
€
s
€
R
i3(s)
€
s
€
N
c(t)
… [Stevenson et al. 2008]ほか ポアソン強度は、複数ニューロンの発火履歴の線形和で決まる ニューロンペア毎の応答関数を見ると、機能的結合が分かる応答関数と機能的結合
€
R
i1(s)
€
s
€
R
i2(s)
€
s
€
R
i3(s)
€
s
i
1
2
3
Excitatory None
機能的結合の(古典的)可視化法
Cross-‐correlogram
Neuron i Neuron c Spontaneous activity of neuron i Response of neuron i to activity of neuron cCross-‐correlogram vs. GLM
-‐-‐GLM が動力学的因果モデリングと呼ばれる理由-‐-‐
n
Truth
1
2
3
4
n
Data
n
EsUmaUon
1
2
n
Result
1
2
1
3
2
1
2
3
1
3
1
3
問題点
n
J
高フレームレートイメージングでは、
多数ニューロンを高い時間解像度で調べることができる
n
L
しかし、ニューロンあたり観測スパイク点数が減る
-- パラメータあたりに換算するとさらに減る
à 推定結果の統計的ゆらぎが大きい
à 検定キッチリやって偽陽性リスクを見積もらねば!
多点電極
低速
イメージング
高速
イメージング
ニューロン数
少
L
多
J
多
J
時間解像度
高J
低L
中J
ピクセルあたりノイズ
低
J
中
J
高
L
連続撮像時間
長
J
中
短
L
機能的結合推定の偽陽性制御
i c€
R
ic(s)
€
s
帰無仮説 を棄却するときの
偽陽性リスクをどのように制御する?
€
H
0(i,c ): R
ic(s) = 0
Granger causality test
[Kim et al. 2009]
L 正則化されていないため、
データが小さい(観測が短い)とき
不安定かつ検出力が低い
スパース推定
[Stevenson et al. 2008, などなど…]L 調整がうまければ検出力は高
いが、適当な検定統計量が無い
経験ベイズ検定
J
経験ベイズによる偽陽性制御を両立
正則化による検出力と、
推定結果として得られた この小さな応答関数は 統計的に有意?False Discovery Rate (FDR)制御
(全検定対象の P値が得られる場合)
n
目的
p
FDRとは の期待値
p
FDR<α (たとえばα=0.1)となるようにしたい
陽性判定 [ 陽性判定例の個数 ] [ 偽陽性の個数 ] 1 0
H
0
H
1
P値 FDR 陽性判定のしきい値 1 0 偽陽性 1 D en si ty * r ati o
π
0
真である 帰無仮説 の比率
p値のヒストグラム (例)
n
10000遺伝子それぞれ t 検定したとき
p<0.01 であるものは 354個
15
FDR推定の手順
16π
0
(1)真である 帰無仮説 の比率を 推定 (2)任意に しきい値を 決める (3) 偽陽性数 の推定値が 分かる。 (5) 全遺伝子 i =1,…,M について、 pi をしきい値にし た場合のFDR 推定値を計算。
これを
Q値 と呼ぶ。
(4)FDR =
+
p値のヒストグラム (例2/2)
n
10000遺伝子中 p<0.01 であるものは 98個
17
Bonferroni補正とFDR制御で
検出数を比較
18 N=10000, α=0.01無補正生
P
p<0.01
354個
98個
44個
FDR
FDR<0.1
0個
J
J
p<1e-6
Bonferroni
1個
0個
FWER<0.01
J
L
L
L
FDR のコントロール
(任意統計量を直接叩く場合)
n
目的
p
FDRとは の期待値
p
FDR<α (たとえばα=0.1)となるように
陽性判定のしきい値を決めたい
統計量の値
H
0
H
1
陽性判定 偽陽性 [ 陽性判定例の個数 ] [ 偽陽性の個数 ] FDR 陽性判定のしきい値 1 0 D en si ty * r ati o
経験ベイズ検定の方法
n
方法
p
帰無分布(帰無仮説 H
0下の統計量の分布)の代わりに
帰無標本(帰無仮説下シミュレーション観測値)を用いて、
観測分布との密度比を推定する。
p
密度比が分かれば、FDRも得られる。
p
帰無分布の理論値が分からない状況
でも使える!
統計量の値H
0
H
1
観測標本
帰無標本
[用語確認]ベイズ・経験ベイズ・検定
p
帰無仮説 H_0 /対立仮説 H_1
p
観測される確率変数 X とその
帰無分布 P( X | H_0 )
対立分布 P( X | H_1 )
p
事前確率 P( H_0 ) = 1 – P( H_1 ) = π0
p
事後確率 P( H_0 | X ) = π0 P( X | H_0 ) / P(X)
エビデンス P(X) = π0 P(X | H_0) + (1-π0) P(X | H_1)
n
ベイズ推定
とは事前確率π0で重み付けた推定のこと
n
経験ベイズ
とは観測に基いて事前確率π0を決めること
n
検定
とは帰無仮説棄却の可否を決める手続きのこと
n
経験ベイズ検定
とは経験ベイズに基づく検定のこと
さきがけ領域会議 2010年6月 22
超多重検定に対する
経験ベイズ検定のメリット
帰無分布 対立分布 合計分布[Efron, 2001]
「対立分布形状」が使える
通常の検定では推定方法がないため
無視されるが、
超多重検定の経験ベイズなら得られる!
D
en
si
ty
*
r
ati
o
23
非対称棄�却域による検出力向�上
n
対立分布の偏りによって正・負のしきい値が異なる
n
FDRのための統計量 「局所fdr 」 を用いると、
検出力が上がる
古典的 t 統計量による ROC 局所fdrによる ROC 第一種エラー率 検出力 D en si ty * r ati o24
s
x
n
t
=
Δ
01
群内平均の差 群内標準偏差2次元統計量に基づく経験ベイズ検定
)
log
,
(
t
s
z =
[Ploner et al. 2006 Bioinformatics]