• 検索結果がありません。

図 6 7 はそれぞれ発現量データを正規分布から生成の場合のシナリオの結果,t 分布から生成した場合の結果として,前項で考えた内容で作成している.それぞれの曲線

は,提案法統計量,MOST統計量,ORT統計量,OS統計量,COPA統計量,t統計量と それぞれ順番に赤色,青色,緑色,黒色,水色,黒色(破線)となっている.9つのグラフ はそれぞれのシナリオの結果となっている.上段中段下段の順で全体のサンプルの大きさ がそれぞれ40,80,200としている.また,左からそれぞれφ= 0.1,0.3,0.5となっている.

6 正規分布からの乱数を用いたシナリオのROC曲線

7 t分布からの乱数を用いたシナリオのROC曲線

こ の 曲 線 は 算 出 さ れ た そ れ ぞ れ の 統 計 量 を 用 い て ,い く つ の 遺 伝 子 を 関 連 あ り と す る か に 関 し て の カ ッ ト オ フ 値 を 動 か し そ れ ぞ れ の 偽 発 見 率 に 対 し て 得 ら れ た 検 出 力 を 用 い て作成されている.まずは図6 と図7を比べる.同じシナリオ同士で比べれば,正規乱 数 か ら 生 成 し た デ ー タ の 結 果 の ほ う が 任 意 の 偽 発 見 率 で 高 い 検 出 力 を 示 し て い る .た だ し ,ほ と ん ど の 場 合 で 性 能 の 順 序 は 変 わ る こ と は な い .こ こ で の 性 能 と は 任 意 の 偽 発 見 率を考えたときに大きな検出力をとっているかどうかである.提案した統計量Sg に基づ く 遺 伝 子 が ,従 来 法 よ り も ,任 意 の 与 え ら れ た 偽 発 見 率 に 対 し て 一 番 大 き な 検 出 力 値 を とっている.また,この結果から,提案の統計量Sg に基づいての遺伝子選抜はφが大き な と き ,大 き な 検 出 力 を 提 供 す る こ と が 期 待 さ れ る .t 統 計 量 に 基 づ く 遺 伝 子 発 現 の 場 合はφ=0.1のようなとき,つまり,がんサンプル内のCancer Outlierの割合が小さいと きに一番小さな検出力を提供する.しかし,φ=0.5のときのようながんサンプル内での

Cancer Outlierの割合が大きな値のとき,検出力は大きな値に改善する.これは前述し ているようにt統計量が一様な差を検出することを得意とする統計量であるからと考えら れる.COPA統計量やOS統計量はφ=0.5のときのような特にφの値が大きな傾向にあ るとき,検出力が低い.特に,φ = 0.5のときを見ると任意の偽発見率で,OS統計量の 検出力が悪いことから,徐々に悪化していく傾向にあることが示唆されている.これは統 計量の構成に分位点やIQRという恣意的な値を用いてたり,標準化の際にがんサンプル を用いていることにより,本来検出したいの正常サンプルからの乖離がマスクされている ためと考えられる.ORT統計量とMOST 統計量はシナリオ全般を通してよい検出力を 示すことが確認できる.しかし,提案法のSg に基づく方法には及ばない.t分布から遺 伝子発現量が発生していると考えたとき(7)も同様の傾向が観察されている.ただし 特記すべきこととして,Sg に基づいた提案法はn= 40φ=0.1のときを除いていつも任 意の偽発見率おいて検出力が一番大きな値を示している.n= 40φ=0.1のときはORT 統計量やMOST統計量の方がよい傾向を示している.

6 実データへの適用

関連したドキュメント