位置情報を考慮したエピジェネティクス関連領域の予測
と属性部分集合選択に関する研究
東原 正智
††法政大学理工学部経営システム工学科 〒 184-8584東京都小金井市梶野町3-7-2
E-mail: † [email protected]
あらまし あらまし あらまし あらまし 本研究では、エピジェネティクス現象を解析した配列データを対象として、位置情報の特徴ベクトル を用い その化学反応に対して機械学習による判別分析を行った。その際、属性選択の評価指標にrandomForestで生 成されるMean Decrease Gini indexを用い、そのランキングに従い属性部分集合探索を行った。また、DEWS2008で の頻度データでの実験との比較も行った。実験結果からモチーフ抽出した配列の組合せによる位置をカウントした 特徴ベクトルが高い予測率を示すことがわかった。 キーワード キーワード キーワード キーワード エピジェネティクス、randomForest、属性部分集合選択1.
1.
1.
1. はじめに
は じ め に
は じ め に
は じ め に
1.1.
1.1.
1.1.
1.1. エピジェネティクス
エ ピ ジ ェ ネ テ ィ ク ス
エ ピ ジ ェ ネ テ ィ ク ス 関 連 領 域
エ ピ ジ ェ ネ テ ィ ク ス
関 連 領 域
関 連 領 域
関 連 領 域
エ ピ ジ ェ ネ テ ィ ク ス と は 、遺 伝 子 発 現 に お い て セ ン ト ラ ル ド グ マ に 従 っ た DNA か ら の 発 現 ば か り で は な く 化 学 的 な 制 御 に よ っ て も 発 現 が 制 御 さ れ る と い う 現 象 で あ る 。細 胞 核 内 で は 、遺 伝 情 報 が 書 き 込 ま れ た DNA 鎖 で あ る DNA が す べ て 収 ま っ て い る 。 た と え ば 、 人 間 の 全 DNA 配 列 は 、23 本 の DNA 鎖 、染 色 体 で 構 成 さ れ 、2 倍 体 で あ る 体 細 胞 に は 46 本 の 染 色 体 が あ り 、全 体 で 約 6000Mb、直 線 に す る と 2m に 及 び 、そ の 長 さ の DNA が 10μ 程 度 の 細 胞 核 内 に 高 圧 縮 に 折 畳 ま れ て い る 。 真 核 生 物 の 染 色 体 DNA は 、 ク ロ マ チ ン と い う 構 造 を と っ て い る 。 ク ロ マ チ ン は 、 ヌ ク レ オ ソ ー ム の 繰 り 返 し 構 造 が ら せ ん 状 に つ な が っ た も の で ヌ ク レ オ ソ ー ム は 、H2A、H2B、H3、H4 ヒ ス ト ン タ ン パ ク 質 が 2 分 子 か ら な る ヒ ス ト ン オ ク タ マ ー に 、 146 塩 基 対 の DNA が 約 2 回 転 巻 付 い て い る 構 造 を と っ て い る 。ヒ ス ト ン は リ ジ ン な ど の 塩 基 対 ア ミ ノ 酸 を も つ タ ン パ ク 質 で 、 酸 性 で あ る DNA と 堅 く 結 合 し て お り 、 ヒ ス ト ン の N 末 端 は 、ヒ ス ト ン テ ー ル と 呼 ば れ 、こ の 部 位 は い ろ い ろ な 化 学 的 な 修 飾 を 受 け る 。 近 年 、 転 写 誘 導 の 際 に ヒ ス ト ン 修 飾 に よ る ク ロ マ チ ン 構 造 変 換 が 重 要 な 働 き を す る こ と が わ か っ て き て い る 。 さ ら に ヒ ス ト ン は 、 ア セ チ ル 化 、 メ チ ル 化 、 リ ン 酸 化 な ど の 修 飾 を う け 、転 写 の 制 御・サ イ レ ン シ ン グ・ ク ロ マ チ 凝 縮 な ど を 引 き 起 こ す こ と が 知 ら れ て い る 。 そ の 他 DNA の メ チ ル 化 、 ク ロ マ チ ン 構 造 の 形 成 と モ デ リ ン グ 、 転 写 因 子 の ネ ッ ト ワ ー ク も エ ピ ジ ェ ネ テ ィ ク ス を 担 う 役 割 と 考 え ら れ て お り 、 活 発 に 研 究 さ れ て い る 分 野 で あ る 。
1.2.
1.2.
1.2.
1.2. 先行研究
先 行 研 究
先 行 研 究
先 行 研 究
機 械 学 習 に よ る エ ピ ジ ェ ネ テ ィ ク ス 関 連 領 域 の 予 測 の 先 行 研 究 と し て は 、Pham ら に よ る SVM を 用 い た 研 究 が あ る [2]。 彼 ら は RBF カ ー ネ ル を 用 い て 予 測 を 行 う 一 方 で 、別 途 polynomial kernel で 学 習 し た 際 の 重 み を 用 い て 特 徴 の ラ ン キ ン グ を 行 う こ と に よ り 、特 徴 ベ ク ト ル の 属 性 の 重 要 性 を 解 析 し て い る 。 さ ら に 、 Tran ら に よ る 研 究 で は 、Conditional Random Field を 用 い て 予 測 を 行 い 、 SVM と の 比 較 を 行 っ て い る [3]。 多 変 量 解 析 の 主 成 分 分 析 と SVM を 組 合 せ 、 マ イ ク ロ ア レ イ 解 析 か ら 癌 の 判 別 を す る 研 究 [10]も 行 わ れ て い る 。 ま た 、 先 の よ う な 研 究 で は 、 し ば し ば 高 次 元 デ ー タ に な る た め 属 性 選 択 に 関 す る 研 究 も 活 発 に 行 わ れ て い る 。新 島 ら [9]は 、化 合 物 と タ ン パ ク 質 の 相 互 作 用 や 活 性 の 予 測 ば か り で は な く 、 そ れ ら に 関 与 す る 属 性 を 抽 出 す る 数 理 的 手 法 と し て カ ー ネ ル 空 間 で の 化 合 物 ・ タ ン パ ク 質 の 活 性 空 間 を 表 現 し 、 そ の 空 間 で 特 徴 抽 出 す る 手 法 を 提 案 し て い る 。 本 研 究 で 用 い る 学 習 ア ル ゴ リ ズ ム の randomForest が 、複 雑 な 相 関 性 や 高 い 相 関 の あ る 属 性 の 処 理 に 適 し て い る こ と を 示 す 研 究 [8]も あ る 。
2. 手 法
手 法
手 法
手 法
本 研 究 で は 、Pokholok ら の デ ー タ を 用 い 位 置 情 報 に 着 目 し た 特 徴 ベ ク ト ル を 用 い る 。 こ の 特 徴 ベ ク ト ル を randomForest と い う ア ン サ ン ブ ル 学 習 を 用 い て Mean Decrease Gini index を 用 い て 判 別 に 重 要 な 属 性 を 求 める 。 次 に 全 属 性 か ら 属 性 選 択 を し 、 機 械 学 習 を 行 う 。 機 械 学 習 に は 、 support vector machine を 用 い る 。 先 の
研 究 [5,6]で は お こ な っ た 頻 度 デ ー タ と の 結 果 と の 比 較 も 行 う 。
図 1.正 例 (H3)の 塩 基 の 位 置 毎 の 頻 度 (Weblogo に よ る 出 力 )横 軸 は 塩 基 の 位 置 縦 軸 は 頻 度 の パ ー セ ン ト 表 示
図 2.負 例 (H3)の 塩 基 の 位 置 毎 の 頻 度 (Weblogo に よ る 出 力 )横 軸 は 塩 基 の 位 置 縦 軸 は 頻 度 の パ ー セ ン ト 表 示
2.1. Randomforest
Random Forest[11,12]は 、 Breiman に よ り 提 案 さ れ た ア ン サ ン ブ ル 学 習 の 1 つ で あ る 。RandomForest は 、リ サ ン プ リ ン グ に bootstrap を 用 い 、サ ブ デ ー タ を 作 成 し 、 そ れ ぞ れ の サ ブ デ ー タ セ ッ ト の 決 定 木 を 組 み 合 わ せ る 方 法 で あ る 。 RandomForest の ア ル ゴ リ ズ ム は 、 1)与 え ら れ た デ ー タ セ ッ ト か ら 数 組 の ブ ー ト ス ト ラ ッ プ デ ー タ を 作 成 す る 。 2)各 々 の ブ ー ト ス ト ラ ッ プ サ ン プ ル デ ー タ を 用 い て 枝 刈 り さ れ て い な い 最 大 の 決 定 ・ 回 帰 木 を 作 成 す る 。 分 岐 の ノ ー ド と し て は 、 ラ ン ダ ム サ ン プ リ ン グ さ れ た 変 数 の 中 で 最 も 良 い も の を 選 択 す る 。 3) す べ て の 結 果 を 組 み 合 わ せ て ( 回 帰 の 問 題 で は 平 均 、分 類 は 多 数 決 )、新 し い 予 測・分 類 器 を 構 築 す る 。 本 研 究 で は 、R の パ ッ ケ ー ジ で あ る randomForest を 用 い た 。
2.2. support vector machine
support vector machine は 、 R の パ ッ ケ ー ジ で あ る kernlab を 用 い た 。カ ー ネ ル は 、RBF カ ー ネ ル で パ ラ メ ー タ μ =0.01 で あ る 。
2.3.
2.3.
2.3.
2.3. 属性選択
属 性 選 択
属 性 選 択
属 性 選 択 、
、
、
、 属 性 部 分 集 合 選 択
属 性 部 分 集 合 選 択
属 性 部 分 集 合 選 択
属 性 部 分 集 合 選 択
属 性 選 択 の ア ル ゴ リ ズ ム は 次 の よ う に 行 っ た 。 1)randomForest の 学 習 で 、 Mean Dcrease Gini index を
計 算 す る 。 2) 1) で 得 ら れ た ranking に 従 っ て 属 性 数 を 減 ら し SVM に よ っ て 学 習 を 行 う 。 探 索 の 方 向 は 、後 ろ 向 き 探 索 で 、探 索 の 戦 略 と し て は 、 全 属 性 で 最 高 の 予 測 率 を 出 し た 属 性 の 近 傍 の 組 合 せ を 考 え 、 再 度 学 習 を 行 う 。
3. 計 算 機 実 験
計 算 機 実 験
計 算 機 実 験
計 算 機 実 験
計 算 機 は 、 大 学 内 の PC ク ラ ス タ ー を 用 い た 。 CPU は AMD Opteron Dual Processor Model 250(2.4GHz) × 32、 メ モ リ :4GB、 OS は 、 SuSE Linux Enterprise Server 8, SCore 5.8 で あ る 。3.1.
3.1.
3.1.
3.1. データセット
デ ー タ セ ッ ト
デ ー タ セ ッ ト
デ ー タ セ ッ ト
Pokholok[1] が 発 表 し て い る ク ロ マ チ ン デ ー タ は 、 出 芽 酵 母 の ゲ ノ ム DNA 上 の 異 な る 部 分 領 域 (41282 箇 所 )に 対 し て 14 種 類 の 実 験 デ ー タ を 提 供 し て い る 。デ ー タ は DNA 上 の 1 点 と い う 形 で( 染 色 体 の 先 頭 か ら の 位 置 ) と い う 形 式 で 表 現 さ れ て い る 。 Pham ら は 、 こ の 14 種 類 の デ ー タ の う ち 10 種 類( 表 1 で は 5 種 類 の み 表 示 ) に 対 し て 、 指 定 さ れ た 1 点 を 中 心 と し て 200, 500, 1000 と い う 長 さ の 部 分 配 列 を と り 、 固 定 長 k=3~ 11( 塩 基 )の k-gram の 出 現 頻 度 を sliding window で カ ウ ン ト し た も の を 特 徴 ベ ク ト ル と し 、こ れ を 用 い て 予 測 実 験 を 行 っ て い る [6]。 実 験 結 果 は 、 公 開 さ れ て い る [13]。本 研 究 で は 、こ の 提 供 さ れ て い る 長 さ 500 の 部 分 配 列 を 実 験 に 用 い た 。ラ ベ ル は 、連 続 量 で 表 現 さ れ て い る Pokholok ら の デ ー タ を 正 規 化 し 、1.2 以 上 の 場 合 は 正 例 の ラ ベ ル 、 0.8 以 下 の 場 合 は 負 例 の ラ ベ ル を 付 与 し た 。
3.2.
3.2.
3.2.
3.2. 位置
位 置 を
位 置
位 置
を
を 考 慮
を
考 慮
考 慮
考 慮 し た
し た 特 徴
し た
し た
特 徴
特 徴
特 徴 ベ ク ト ル
ベ ク ト ル
ベ ク ト ル
ベ ク ト ル
本 研 究 で は 、長 さ 500 の ク ロ マ チ ン デ ー タ を 次 の よ う に 、 そ の 位 置 で カ ウ ン ト し た 。 特 徴 ベ ク ト ル 1: 1 塩 基 { A,T,G,C} を そ れ ぞ れ の 位 置 で カ ウ ン ト 特 徴 ベ ク ト ル 2: 3 つ の 塩 基 の 組 合 せ { AAA,AAT,…,CCC} の 64 種 類 の 組 合 せ を そ れ ぞ れ の 位 置 で カ ウ ン ト 特 徴 ベ ク ト ル 3: Gini 係 数 で ranking し た 上 位 か ら の 組 合 せ を 位 置 で カ ウ ン ト (例 )AAA,TTT…が 上 位 で あ れ ば {AAA}or{TTT}で 位 置 を カ ウ ン ト 位 置 毎 の 塩 基 の 頻 度 を 図 1 ,図 2 で は Weblogo[7]を 用 い て 表 示 し た 。 特 徴 ベ ク ト ル 2 は 、 3 塩 基 の 先 頭 の 位 置 で 1 と カ ウ ン ト し た た め 最 後 の 499,500 の 位 置 は 0 と な る 。 特 徴 ベ ク ト ル 3 で は 、 上 位 の 3 塩 基 の 組 合 せ を 用 い た 。 図 3 で 具 体 的 な 特 徴 ベ ク ト ル の 例 を 示 す 。 ( 配 列 デ ー タ ) ATCTTTATCTAT……….ATCGGGGAG (位 置 ) 123456789……….500 (特 徴 ベ ク ト ル 1) (A の 位 置 で カ ウ ン ト し た 場 合 ) (1,0,0,0,0,0,0,1,0,0,0,……….1,0) (特 徴 ベ ク ト ル 2) (ATC の 位 置 で カ ウ ン ト し た 場 合 ) (1,0,0,0,0,0,1,0,...0,0) (特 徴 ベ ク ト ル 3) (ATC ま た は CTT の 位 置 で カ ウ ン ト し た 場 合 ) (1,0,1,0,0,0,1,0,…………..………..0,0,0) 図 3 特 徴 ベ ク ト ル の 作 成
3.3.
3.3.
3.3.
3.3. 実験結果
実 験 結 果
実 験 結 果
実 験 結 果 (
(
(
( feature ranking
feature ranking
feature ranking)
feature ranking
)
)
)
randomForest で の Gini index の 値 に よ っ て 位 置 デ ー タ を ラ ン キ ン グ し た 。 図 4 で は 、 特 徴 ベ ク ト ル 1 の 1 塩 基 の 属 性 の ラ ン キ ン グ を 表 し 、 図 5 で は 、 特 徴 ベ ク ト ル 2 の 先 の 研 究 で 行 っ た 頻 度 デ ー タ で H3 の 場 合 の 順 位 の 高 い 属 性 を 選 び 、そ の 位 置 を 示 し た 。図 6 で は 、 特 徴 ベ ク ト ル 3 の 実 験 結 果 で あ る 。
3.4.
3.4.
3.4.
3.4. 実験結果
実 験 結 果
実 験 結 果
実 験 結 果 (
((
(属 性 部 分 集 合 選 択
属 性 部 分 集 合 選 択
属 性 部 分 集 合 選 択
属 性 部 分 集 合 選 択 )
))
)
属 性 部 分 集 合 選 択 の 計 算 機 実 験 で は 、 ・ 頻 度 デ ー タ ・ 位 置 デ ー タ を 用 い て 比 較 す る 。 表 3 で は 、 H3 の 位 置 デ ー タ の randomForest で の 予 測 率 の 上 位 10 属 性 を あ げ て お り 、 頻 度 デ ー タ は 、Gini index の 上 位 10 属 性 を あ げ て い る 。 表 4 は 、 1 塩 基 で の randomForest で の 予 測 率 で あ る 。 デ ー タ セ ッ ト 説 明 H3 H3 ヒ ス ト ン の 存 在 確 率 H4 H4 ヒ ス ト ン の 存 在 確 率 H3K9ac H3 ヒ ス ト ン の ア ミ ノ 酸 配 列 上 で 先 頭 か ら 9 番 目 の リ ジ ン (K9)が ア セ チ ル 化 さ れ て い る 確 率 H3K14ac H3K14 が ア セ チ ル 化 さ れ て い る 確 率 H4ac ア セ チ ル 化 H4 の 確 率 表 1 . デ ー タ セ ッ ト デ ー タ セ ッ ト 正 例 負 例 H3 7667 7298 H4 6480 8121 H3K9ac 15415 12367 H3K14ac 18771 14277 H4ac 18410 15685 表 2. デ ー タ セ ッ ト の 正 例 と 負 例 の 数
実 験 で は 5 つ の ク ロ マ チ ン デ ー タ を 用 い た が 、 最 も 予 測 率 の 高 い 結 果 を 示 す H3 の 場 合 の み 詳 述 す る 。
4. ま と め
ま と め
ま と め
ま と め
図 4 は 、 1 塩 基 で 位 置 毎 に カ ウ ン ト し た 特 徴 ベ ク ト ル で の Gini index で あ り 判 別 分 析 に 対 す る 寄 与 を 表 し て い る 。 表 5 は 、 各 1 塩 基 で 判 別 に 寄 与 し て い る 位 置 を 表 し て い る 。 図 5 は 、 先 の 頻 度 デ ー タ で 判 別 の 寄 与 が 高 い 3 塩 基 TTT、 AAA、 TAA、 TTA、 ATA の 位 置 毎 の Gini index を 表 し て い る 。表 6 は 、そ の 5 つ の 塩 基 が 、 位 置 で の 学 習 で の 判 別 で の 寄 与 の 順 位 を 表 し て い る 。 表 4,5 で は 、 頻 度 デ ー タ で 上 位 の 予 測 率 を 示 す 属 性 の と 位 置 デ ー タ で の 上 位 の 予 測 率 の デ ー タ は 、 同 じ も の が 多 い こ と を 示 し て い る 。 今 後 の 課 題 と し て は 、 ・ 頻 度 デ ー タ で の 判 別 分 析 で の 寄 与 率 の 高 い 属 性 の 組 合 せ の 位 置 で の 特 徴 ベ ク ト ル が 高 い 予 測 率 を 示 し た 。 よ り 精 度 の 高 い モ チ ー フ 抽 出 の 手 法 の 利 用 が あ げ ら れ る 。 今 回 塩 基 の 長 さ が 長 さ 1 と 長 さ 3 の 場 合 の み 考 え て い る が 、 モ チ ー フ 抽 出 に よ り 長 さ を 固 定 し て な い 塩 基 の 抽 出 を 行 う 予 定 で あ る 。 配 列 の 曖 昧 さ は モ チ ー フ 抽 出 の 過 程 で 解 消 さ れ る と 考 え て い る 。 ・ 複 数 の 塩 基 の 共 起 が 考 慮 さ れ て い な い 。 今 後 の 課 題 と す る 。謝 辞
謝 辞
謝 辞
謝 辞
コ メ ン テ ー タ の 先 生 方 か ら 共 起 解 析 、 ま た は 配 列 デ ー タ の 曖 昧 さ に つ い て の コ メ ン ト を 頂 き ま し た 。 と も に 大 き な テ ー マ で あ り 、 今 回 の 論 文 に は 追 加 で き ま せ ん で し た が 、 次 回 の 研 究 に は 反 映 さ せ る 予 定 で す 。 貴 重 な コ メ ン ト を 頂 き あ り が と う ご ざ い ま し た 。
文
文
文
文 献
献
献
献
[1] D.K. Pokholok et al., Genome-wide Map of Nucleosome Acetylation and Methylation, Cell, Vol.122, pp.517-527.
[2] T.H. Pham, D.H. Tran, T.B. Ho, K. Satou and G. Valiente, Qualitatively Predicting Acetylation and Methylation Areas in DNA sequences, Genome
Informatics, Vol.16, No.2, 2005, pp.3-11.
[3] D.H. Tran, T.H. Pham, K. Satou and T.B. Ho, Conditional Random Fields for Predicting and Analyzing Histone Occupancy, Acetylation and Methylation Areas in DNA Sequences, Applications
of Evolutionary Computing, Lecture Notes in Computer Science, Vol.3907, 2006, pp.221-230.
[4] 元 田 浩 、 津 本 周 作 、 山 口 高 平 、 沼 尾 正 行 、 ”デ ー タ マ イ ニ ン グ の 基 礎 “ 、 オ ー ム 社 . [5] 東 原 正 智 ,佐 藤 賢 二 , RandomForest を 用 い た エ ピ ジ ェ ネ テ ィ ク ス 関 連 領 域 の 予 測 と 属 性 選 択 , 電 子 情 報 通 信 学 会 第 19 回 デ ー タ 工 学 ワ ー ク シ ョ ッ プ ,第 6 回 日 本 デ ー タ ベ ー ス 学 会 年 次 大 会 (DEWS '08), 電 子 情 報 通 信 学 会 第 19 回 デ ー タ 工 学 ワ ー ク シ ョ ッ プ (DEWS 2008) 論 文 集 .
[6] Higashihara,M., Rebolledo-Mendez,J.D., Yamada,Y., Satou,K.Application of a Feature Selection Method t
順 位 位 置 デ ー タ で (3 塩 基 ) 予 測 率 ( r f ) 頻 度 デ ー タ 1 TTT 66.59% TTT 2 AAA 65.72% AAA 3 ATA 58.45% TAA 4 TAT 58.37% TTA 5 GCC 58.21% ATA 6 CTG 57.41% TAT 7 ATT 57.15% AAT 8 TGG 56.87% CCA 9 GGC 56.87% ATT 10 TAA 56.70% TCG 表 3 . H3 の 位 置 デ ー タ と 頻 度 デ ー タ の 比 較 ( 3 塩 基 ) 位 置 デ ー タ (1 塩 基 ) 予 測 率 ( r f ) A 61.86% T 60.75% G 65.56% C 65.66% 表 4 . H3 の 位 置 デ ー タ と 頻 度 デ ー タ の 比 較 ( 1 塩 基 ) 特 徴 ベ ク ト ル 3 予 測 率 Top7 属 性 79.19% 頻 度 ベ ク ト ル (rf) H3(64) 79.56% H3(31) 80.59% 頻 度 ベ ク ト ル (SVM) H3(64) 84.93% H3(59) 86.21% 表 5 .H3 の 頻 度 ベ ク ト ル と 位 置 情 報 の ベ ク ト ル の 判 別 分 析 で の 予 測 率
[7] o Nucleosome Data: Accuracy Improvement and Comparison with Other Methods,WSEAS Transactions on Biology and Biomedicine, Vol.5, Issue 5, pp.95-104,2008.5.
[8] http://weblogo.berkeley.edu/
[9] C. Strobl, A.-L. Boulesteix, T. Kneib, T. Augustin, and A. Zeileis, Conditional variable importance for random forests. BMC Bioinformatics, 2008.
[10] 新 島 聡 , 奥 野 恭 史 , 化 合 物 -タ ン パ ク 質 活 性 空 間 に お け る 特 徴 選 択 ,IBIS2009.
[11] Fabian Model , Péter Adorján , Alexander Olek et al,Feature selection for DNA methylation based cancer classification,Bioinformatics Vol. 17 no. 90001 2001,Pages p.157-p.164.
[12] Breiman.L, Random Forests, Machine Learning, vol.45, pp.5-23, 2001.
[13] Trevor Hastie,Robert Tibshirani,Jerome Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition,Springer.
図 4 位 置 ご と に 1 塩 基 を カ ウ ン ト し た 属 性 の 正 規 化 し た Gini index A AA A TT TT GG GG CCCC 順 位 位 置 順 位 位 置 順 位 位 置 順 位 位 置 1 245 1 286 1 309 1 286 0.982065 209 0.944559 340 0.949009 242 0.959978 245 0.970615 266 0.937709 312 0.931382 241 0.955079 290 0.960901 232 0.935196 244 0.857159 322 0.946513 310 0.959826 237 0.933726 314 0.84852 248 0.924445 267 表 5 . 位 置 ご と の 属 性 の 順 位 ( Gini 係 数 ) 図 5. 位 置 ご と に 3 塩 基 を カ ウ ン ト し た 属 性 の 正 規 化 し た Gini index TTT TTTTTT
TTT AAAAAAAAAAAA TAA TAATAATAA TTATTATTATTA ATAATAATAATA 順 位 位 置 順 位 位 置 順 位 位 置 順 位 位 置 順 位 位 置 1 328 1 241 1 281 1 270 1 270 0.932129 145 0.973186 114 0.918874 272 0.885142 271 0.927609 271 0.899915 313 0.935867 313 0.828508 260 0.852877 174 0.90029 278 0.874886 300 0.909056 245 0.792661 261 0.825822 287 0.832291 329 0.855109 318 0.88551 225 0.78813 163 0.8109 286 0.81059 243 表 6 . 頻 度 デ ー タ で 上 位 か ら 3 塩 基 の 属 性 の 位 置 で の
図 6. H3 の 属 性 部 分 集 合 で 最 も 高 い 予 測 率 の 位 置 毎 の 正 規 化 し た Gini index {TTT,AAA,TAA,TTA,ATA,TAT,ATT}