• 検索結果がありません。

Microsoft Word - deim2010_epijene-fss_.doc

N/A
N/A
Protected

Academic year: 2021

シェア "Microsoft Word - deim2010_epijene-fss_.doc"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

位置情報を考慮したエピジェネティクス関連領域の予測

と属性部分集合選択に関する研究

東原 正智

†法政大学理工学部経営システム工学科 〒 184-8584東京都小金井市梶野町3-7-2

E-mail: † [email protected]

あらまし あらまし あらまし あらまし 本研究では、エピジェネティクス現象を解析した配列データを対象として、位置情報の特徴ベクトル を用い その化学反応に対して機械学習による判別分析を行った。その際、属性選択の評価指標にrandomForestで生 成されるMean Decrease Gini indexを用い、そのランキングに従い属性部分集合探索を行った。また、DEWS2008で の頻度データでの実験との比較も行った。実験結果からモチーフ抽出した配列の組合せによる位置をカウントした 特徴ベクトルが高い予測率を示すことがわかった。 キーワード キーワード キーワード キーワード エピジェネティクス、randomForest、属性部分集合選択

1.

1.

1.

1. はじめに

は じ め に

は じ め に

は じ め に

1.1.

1.1.

1.1.

1.1. エピジェネティクス

エ ピ ジ ェ ネ テ ィ ク ス

エ ピ ジ ェ ネ テ ィ ク ス 関 連 領 域

エ ピ ジ ェ ネ テ ィ ク ス

関 連 領 域

関 連 領 域

関 連 領 域

エ ピ ジ ェ ネ テ ィ ク ス と は 、遺 伝 子 発 現 に お い て セ ン ト ラ ル ド グ マ に 従 っ た DNA か ら の 発 現 ば か り で は な く 化 学 的 な 制 御 に よ っ て も 発 現 が 制 御 さ れ る と い う 現 象 で あ る 。細 胞 核 内 で は 、遺 伝 情 報 が 書 き 込 ま れ た DNA 鎖 で あ る DNA が す べ て 収 ま っ て い る 。 た と え ば 、 人 間 の 全 DNA 配 列 は 、23 本 の DNA 鎖 、染 色 体 で 構 成 さ れ 、2 倍 体 で あ る 体 細 胞 に は 46 本 の 染 色 体 が あ り 、全 体 で 約 6000Mb、直 線 に す る と 2m に 及 び 、そ の 長 さ の DNA が 10μ 程 度 の 細 胞 核 内 に 高 圧 縮 に 折 畳 ま れ て い る 。 真 核 生 物 の 染 色 体 DNA は 、 ク ロ マ チ ン と い う 構 造 を と っ て い る 。 ク ロ マ チ ン は 、 ヌ ク レ オ ソ ー ム の 繰 り 返 し 構 造 が ら せ ん 状 に つ な が っ た も の で ヌ ク レ オ ソ ー ム は 、H2A、H2B、H3、H4 ヒ ス ト ン タ ン パ ク 質 が 2 分 子 か ら な る ヒ ス ト ン オ ク タ マ ー に 、 146 塩 基 対 の DNA が 約 2 回 転 巻 付 い て い る 構 造 を と っ て い る 。ヒ ス ト ン は リ ジ ン な ど の 塩 基 対 ア ミ ノ 酸 を も つ タ ン パ ク 質 で 、 酸 性 で あ る DNA と 堅 く 結 合 し て お り 、 ヒ ス ト ン の N 末 端 は 、ヒ ス ト ン テ ー ル と 呼 ば れ 、こ の 部 位 は い ろ い ろ な 化 学 的 な 修 飾 を 受 け る 。 近 年 、 転 写 誘 導 の 際 に ヒ ス ト ン 修 飾 に よ る ク ロ マ チ ン 構 造 変 換 が 重 要 な 働 き を す る こ と が わ か っ て き て い る 。 さ ら に ヒ ス ト ン は 、 ア セ チ ル 化 、 メ チ ル 化 、 リ ン 酸 化 な ど の 修 飾 を う け 、転 写 の 制 御・サ イ レ ン シ ン グ・ ク ロ マ チ 凝 縮 な ど を 引 き 起 こ す こ と が 知 ら れ て い る 。 そ の 他 DNA の メ チ ル 化 、 ク ロ マ チ ン 構 造 の 形 成 と モ デ リ ン グ 、 転 写 因 子 の ネ ッ ト ワ ー ク も エ ピ ジ ェ ネ テ ィ ク ス を 担 う 役 割 と 考 え ら れ て お り 、 活 発 に 研 究 さ れ て い る 分 野 で あ る 。

1.2.

1.2.

1.2.

1.2. 先行研究

先 行 研 究

先 行 研 究

先 行 研 究

機 械 学 習 に よ る エ ピ ジ ェ ネ テ ィ ク ス 関 連 領 域 の 予 測 の 先 行 研 究 と し て は 、Pham ら に よ る SVM を 用 い た 研 究 が あ る [2]。 彼 ら は RBF カ ー ネ ル を 用 い て 予 測 を 行 う 一 方 で 、別 途 polynomial kernel で 学 習 し た 際 の 重 み を 用 い て 特 徴 の ラ ン キ ン グ を 行 う こ と に よ り 、特 徴 ベ ク ト ル の 属 性 の 重 要 性 を 解 析 し て い る 。 さ ら に 、 Tran ら に よ る 研 究 で は 、Conditional Random Field を 用 い て 予 測 を 行 い 、 SVM と の 比 較 を 行 っ て い る [3]。 多 変 量 解 析 の 主 成 分 分 析 と SVM を 組 合 せ 、 マ イ ク ロ ア レ イ 解 析 か ら 癌 の 判 別 を す る 研 究 [10]も 行 わ れ て い る 。 ま た 、 先 の よ う な 研 究 で は 、 し ば し ば 高 次 元 デ ー タ に な る た め 属 性 選 択 に 関 す る 研 究 も 活 発 に 行 わ れ て い る 。新 島 ら [9]は 、化 合 物 と タ ン パ ク 質 の 相 互 作 用 や 活 性 の 予 測 ば か り で は な く 、 そ れ ら に 関 与 す る 属 性 を 抽 出 す る 数 理 的 手 法 と し て カ ー ネ ル 空 間 で の 化 合 物 ・ タ ン パ ク 質 の 活 性 空 間 を 表 現 し 、 そ の 空 間 で 特 徴 抽 出 す る 手 法 を 提 案 し て い る 。 本 研 究 で 用 い る 学 習 ア ル ゴ リ ズ ム の randomForest が 、複 雑 な 相 関 性 や 高 い 相 関 の あ る 属 性 の 処 理 に 適 し て い る こ と を 示 す 研 究 [8]も あ る 。

2. 手 法

手 法

手 法

手 法

本 研 究 で は 、Pokholok ら の デ ー タ を 用 い 位 置 情 報 に 着 目 し た 特 徴 ベ ク ト ル を 用 い る 。 こ の 特 徴 ベ ク ト ル を randomForest と い う ア ン サ ン ブ ル 学 習 を 用 い て Mean Decrease Gini index を 用 い て 判 別 に 重 要 な 属 性 を 求 め

(2)

る 。 次 に 全 属 性 か ら 属 性 選 択 を し 、 機 械 学 習 を 行 う 。 機 械 学 習 に は 、 support vector machine を 用 い る 。 先 の

研 究 [5,6]で は お こ な っ た 頻 度 デ ー タ と の 結 果 と の 比 較 も 行 う 。

図 1.正 例 (H3)の 塩 基 の 位 置 毎 の 頻 度 (Weblogo に よ る 出 力 )横 軸 は 塩 基 の 位 置 縦 軸 は 頻 度 の パ ー セ ン ト 表 示

図 2.負 例 (H3)の 塩 基 の 位 置 毎 の 頻 度 (Weblogo に よ る 出 力 )横 軸 は 塩 基 の 位 置 縦 軸 は 頻 度 の パ ー セ ン ト 表 示

2.1. Randomforest

Random Forest[11,12]は 、 Breiman に よ り 提 案 さ れ た ア ン サ ン ブ ル 学 習 の 1 つ で あ る 。RandomForest は 、リ サ ン プ リ ン グ に bootstrap を 用 い 、サ ブ デ ー タ を 作 成 し 、 そ れ ぞ れ の サ ブ デ ー タ セ ッ ト の 決 定 木 を 組 み 合 わ せ る 方 法 で あ る 。 RandomForest の ア ル ゴ リ ズ ム は 、 1)与 え ら れ た デ ー タ セ ッ ト か ら 数 組 の ブ ー ト ス ト ラ ッ プ デ ー タ を 作 成 す る 。 2)各 々 の ブ ー ト ス ト ラ ッ プ サ ン プ ル デ ー タ を 用 い て 枝 刈 り さ れ て い な い 最 大 の 決 定 ・ 回 帰 木 を 作 成 す る 。 分 岐 の ノ ー ド と し て は 、 ラ ン ダ ム サ ン プ リ ン グ さ れ た 変 数 の 中 で 最 も 良 い も の を 選 択 す る 。 3) す べ て の 結 果 を 組 み 合 わ せ て ( 回 帰 の 問 題 で は 平 均 、分 類 は 多 数 決 )、新 し い 予 測・分 類 器 を 構 築 す る 。 本 研 究 で は 、R の パ ッ ケ ー ジ で あ る randomForest を 用 い た 。

2.2. support vector machine

support vector machine は 、 R の パ ッ ケ ー ジ で あ る kernlab を 用 い た 。カ ー ネ ル は 、RBF カ ー ネ ル で パ ラ メ ー タ μ =0.01 で あ る 。

2.3.

2.3.

2.3.

2.3. 属性選択

属 性 選 択

属 性 選 択

属 性 選 択 、

、 属 性 部 分 集 合 選 択

属 性 部 分 集 合 選 択

属 性 部 分 集 合 選 択

属 性 部 分 集 合 選 択

属 性 選 択 の ア ル ゴ リ ズ ム は 次 の よ う に 行 っ た 。 1)randomForest の 学 習 で 、 Mean Dcrease Gini index を

(3)

計 算 す る 。 2) 1) で 得 ら れ た ranking に 従 っ て 属 性 数 を 減 ら し SVM に よ っ て 学 習 を 行 う 。 探 索 の 方 向 は 、後 ろ 向 き 探 索 で 、探 索 の 戦 略 と し て は 、 全 属 性 で 最 高 の 予 測 率 を 出 し た 属 性 の 近 傍 の 組 合 せ を 考 え 、 再 度 学 習 を 行 う 。

3. 計 算 機 実 験

計 算 機 実 験

計 算 機 実 験

計 算 機 実 験

計 算 機 は 、 大 学 内 の PC ク ラ ス タ ー を 用 い た 。 CPU は AMD Opteron Dual Processor Model 250(2.4GHz) × 32、 メ モ リ :4GB、 OS は 、 SuSE Linux Enterprise Server 8, SCore 5.8 で あ る 。

3.1.

3.1.

3.1.

3.1. データセット

デ ー タ セ ッ ト

デ ー タ セ ッ ト

デ ー タ セ ッ ト

Pokholok[1] が 発 表 し て い る ク ロ マ チ ン デ ー タ は 、 出 芽 酵 母 の ゲ ノ ム DNA 上 の 異 な る 部 分 領 域 (41282 箇 所 )に 対 し て 14 種 類 の 実 験 デ ー タ を 提 供 し て い る 。デ ー タ は DNA 上 の 1 点 と い う 形 で( 染 色 体 の 先 頭 か ら の 位 置 ) と い う 形 式 で 表 現 さ れ て い る 。 Pham ら は 、 こ の 14 種 類 の デ ー タ の う ち 10 種 類( 表 1 で は 5 種 類 の み 表 示 ) に 対 し て 、 指 定 さ れ た 1 点 を 中 心 と し て 200, 500, 1000 と い う 長 さ の 部 分 配 列 を と り 、 固 定 長 k=3~ 11( 塩 基 )の k-gram の 出 現 頻 度 を sliding window で カ ウ ン ト し た も の を 特 徴 ベ ク ト ル と し 、こ れ を 用 い て 予 測 実 験 を 行 っ て い る [6]。 実 験 結 果 は 、 公 開 さ れ て い る [13]。本 研 究 で は 、こ の 提 供 さ れ て い る 長 さ 500 の 部 分 配 列 を 実 験 に 用 い た 。ラ ベ ル は 、連 続 量 で 表 現 さ れ て い る Pokholok ら の デ ー タ を 正 規 化 し 、1.2 以 上 の 場 合 は 正 例 の ラ ベ ル 、 0.8 以 下 の 場 合 は 負 例 の ラ ベ ル を 付 与 し た 。

3.2.

3.2.

3.2.

3.2. 位置

位 置 を

位 置

位 置

を 考 慮

考 慮

考 慮

考 慮 し た

し た 特 徴

し た

し た

特 徴

特 徴

特 徴 ベ ク ト ル

ベ ク ト ル

ベ ク ト ル

ベ ク ト ル

本 研 究 で は 、長 さ 500 の ク ロ マ チ ン デ ー タ を 次 の よ う に 、 そ の 位 置 で カ ウ ン ト し た 。 特 徴 ベ ク ト ル 1: 1 塩 基 { A,T,G,C} を そ れ ぞ れ の 位 置 で カ ウ ン ト 特 徴 ベ ク ト ル 2: 3 つ の 塩 基 の 組 合 せ { AAA,AAT,…,CCC} の 64 種 類 の 組 合 せ を そ れ ぞ れ の 位 置 で カ ウ ン ト 特 徴 ベ ク ト ル 3: Gini 係 数 で ranking し た 上 位 か ら の 組 合 せ を 位 置 で カ ウ ン ト (例 )AAA,TTT…が 上 位 で あ れ ば {AAA}or{TTT}で 位 置 を カ ウ ン ト 位 置 毎 の 塩 基 の 頻 度 を 図 1 ,図 2 で は Weblogo[7]を 用 い て 表 示 し た 。 特 徴 ベ ク ト ル 2 は 、 3 塩 基 の 先 頭 の 位 置 で 1 と カ ウ ン ト し た た め 最 後 の 499,500 の 位 置 は 0 と な る 。 特 徴 ベ ク ト ル 3 で は 、 上 位 の 3 塩 基 の 組 合 せ を 用 い た 。 図 3 で 具 体 的 な 特 徴 ベ ク ト ル の 例 を 示 す 。 ( 配 列 デ ー タ ) ATCTTTATCTAT……….ATCGGGGAG (位 置 ) 123456789……….500 (特 徴 ベ ク ト ル 1) (A の 位 置 で カ ウ ン ト し た 場 合 ) (1,0,0,0,0,0,0,1,0,0,0,……….1,0) (特 徴 ベ ク ト ル 2) (ATC の 位 置 で カ ウ ン ト し た 場 合 ) (1,0,0,0,0,0,1,0,...0,0) (特 徴 ベ ク ト ル 3) (ATC ま た は CTT の 位 置 で カ ウ ン ト し た 場 合 ) (1,0,1,0,0,0,1,0,…………..………..0,0,0) 図 3 特 徴 ベ ク ト ル の 作 成

3.3.

3.3.

3.3.

3.3. 実験結果

実 験 結 果

実 験 結 果

実 験 結 果 (

( feature ranking

feature ranking

feature ranking)

feature ranking

randomForest で の Gini index の 値 に よ っ て 位 置 デ ー タ を ラ ン キ ン グ し た 。 図 4 で は 、 特 徴 ベ ク ト ル 1 の 1 塩 基 の 属 性 の ラ ン キ ン グ を 表 し 、 図 5 で は 、 特 徴 ベ ク ト ル 2 の 先 の 研 究 で 行 っ た 頻 度 デ ー タ で H3 の 場 合 の 順 位 の 高 い 属 性 を 選 び 、そ の 位 置 を 示 し た 。図 6 で は 、 特 徴 ベ ク ト ル 3 の 実 験 結 果 で あ る 。

3.4.

3.4.

3.4.

3.4. 実験結果

実 験 結 果

実 験 結 果

実 験 結 果 (

((

(属 性 部 分 集 合 選 択

属 性 部 分 集 合 選 択

属 性 部 分 集 合 選 択

属 性 部 分 集 合 選 択 )

))

)

属 性 部 分 集 合 選 択 の 計 算 機 実 験 で は 、 ・ 頻 度 デ ー タ ・ 位 置 デ ー タ を 用 い て 比 較 す る 。 表 3 で は 、 H3 の 位 置 デ ー タ の randomForest で の 予 測 率 の 上 位 10 属 性 を あ げ て お り 、 頻 度 デ ー タ は 、Gini index の 上 位 10 属 性 を あ げ て い る 。 表 4 は 、 1 塩 基 で の randomForest で の 予 測 率 で あ る 。 デ ー タ セ ッ ト 説 明 H3 H3 ヒ ス ト ン の 存 在 確 率 H4 H4 ヒ ス ト ン の 存 在 確 率 H3K9ac H3 ヒ ス ト ン の ア ミ ノ 酸 配 列 上 で 先 頭 か ら 9 番 目 の リ ジ ン (K9)が ア セ チ ル 化 さ れ て い る 確 率 H3K14ac H3K14 が ア セ チ ル 化 さ れ て い る 確 率 H4ac ア セ チ ル 化 H4 の 確 率 表 1 . デ ー タ セ ッ ト デ ー タ セ ッ ト 正 例 負 例 H3 7667 7298 H4 6480 8121 H3K9ac 15415 12367 H3K14ac 18771 14277 H4ac 18410 15685 表 2. デ ー タ セ ッ ト の 正 例 と 負 例 の 数

(4)

実 験 で は 5 つ の ク ロ マ チ ン デ ー タ を 用 い た が 、 最 も 予 測 率 の 高 い 結 果 を 示 す H3 の 場 合 の み 詳 述 す る 。

4. ま と め

ま と め

ま と め

ま と め

図 4 は 、 1 塩 基 で 位 置 毎 に カ ウ ン ト し た 特 徴 ベ ク ト ル で の Gini index で あ り 判 別 分 析 に 対 す る 寄 与 を 表 し て い る 。 表 5 は 、 各 1 塩 基 で 判 別 に 寄 与 し て い る 位 置 を 表 し て い る 。 図 5 は 、 先 の 頻 度 デ ー タ で 判 別 の 寄 与 が 高 い 3 塩 基 TTT、 AAA、 TAA、 TTA、 ATA の 位 置 毎 の Gini index を 表 し て い る 。表 6 は 、そ の 5 つ の 塩 基 が 、 位 置 で の 学 習 で の 判 別 で の 寄 与 の 順 位 を 表 し て い る 。 表 4,5 で は 、 頻 度 デ ー タ で 上 位 の 予 測 率 を 示 す 属 性 の と 位 置 デ ー タ で の 上 位 の 予 測 率 の デ ー タ は 、 同 じ も の が 多 い こ と を 示 し て い る 。 今 後 の 課 題 と し て は 、 ・ 頻 度 デ ー タ で の 判 別 分 析 で の 寄 与 率 の 高 い 属 性 の 組 合 せ の 位 置 で の 特 徴 ベ ク ト ル が 高 い 予 測 率 を 示 し た 。 よ り 精 度 の 高 い モ チ ー フ 抽 出 の 手 法 の 利 用 が あ げ ら れ る 。 今 回 塩 基 の 長 さ が 長 さ 1 と 長 さ 3 の 場 合 の み 考 え て い る が 、 モ チ ー フ 抽 出 に よ り 長 さ を 固 定 し て な い 塩 基 の 抽 出 を 行 う 予 定 で あ る 。 配 列 の 曖 昧 さ は モ チ ー フ 抽 出 の 過 程 で 解 消 さ れ る と 考 え て い る 。 ・ 複 数 の 塩 基 の 共 起 が 考 慮 さ れ て い な い 。 今 後 の 課 題 と す る 。

謝 辞

謝 辞

謝 辞

謝 辞

コ メ ン テ ー タ の 先 生 方 か ら 共 起 解 析 、 ま た は 配 列 デ ー タ の 曖 昧 さ に つ い て の コ メ ン ト を 頂 き ま し た 。 と も に 大 き な テ ー マ で あ り 、 今 回 の 論 文 に は 追 加 で き ま せ ん で し た が 、 次 回 の 研 究 に は 反 映 さ せ る 予 定 で す 。 貴 重 な コ メ ン ト を 頂 き あ り が と う ご ざ い ま し た 。

文 献

[1] D.K. Pokholok et al., Genome-wide Map of Nucleosome Acetylation and Methylation, Cell, Vol.122, pp.517-527.

[2] T.H. Pham, D.H. Tran, T.B. Ho, K. Satou and G. Valiente, Qualitatively Predicting Acetylation and Methylation Areas in DNA sequences, Genome

Informatics, Vol.16, No.2, 2005, pp.3-11.

[3] D.H. Tran, T.H. Pham, K. Satou and T.B. Ho, Conditional Random Fields for Predicting and Analyzing Histone Occupancy, Acetylation and Methylation Areas in DNA Sequences, Applications

of Evolutionary Computing, Lecture Notes in Computer Science, Vol.3907, 2006, pp.221-230.

[4] 元 田 浩 、 津 本 周 作 、 山 口 高 平 、 沼 尾 正 行 、 ”デ ー タ マ イ ニ ン グ の 基 礎 “ 、 オ ー ム 社 . [5] 東 原 正 智 ,佐 藤 賢 二 , RandomForest を 用 い た エ ピ ジ ェ ネ テ ィ ク ス 関 連 領 域 の 予 測 と 属 性 選 択 , 電 子 情 報 通 信 学 会 第 19 回 デ ー タ 工 学 ワ ー ク シ ョ ッ プ ,第 6 回 日 本 デ ー タ ベ ー ス 学 会 年 次 大 会 (DEWS '08), 電 子 情 報 通 信 学 会 第 19 回 デ ー タ 工 学 ワ ー ク シ ョ ッ プ (DEWS 2008) 論 文 集 .

[6] Higashihara,M., Rebolledo-Mendez,J.D., Yamada,Y., Satou,K.Application of a Feature Selection Method t

順 位 位 置 デ ー タ で (3 塩 基 ) 予 測 率 ( r f ) 頻 度 デ ー タ 1 TTT 66.59% TTT 2 AAA 65.72% AAA 3 ATA 58.45% TAA 4 TAT 58.37% TTA 5 GCC 58.21% ATA 6 CTG 57.41% TAT 7 ATT 57.15% AAT 8 TGG 56.87% CCA 9 GGC 56.87% ATT 10 TAA 56.70% TCG 表 3 . H3 の 位 置 デ ー タ と 頻 度 デ ー タ の 比 較 ( 3 塩 基 ) 位 置 デ ー タ (1 塩 基 ) 予 測 率 ( r f ) A 61.86% T 60.75% G 65.56% C 65.66% 表 4 . H3 の 位 置 デ ー タ と 頻 度 デ ー タ の 比 較 ( 1 塩 基 ) 特 徴 ベ ク ト ル 3 予 測 率 Top7 属 性 79.19% 頻 度 ベ ク ト ル (rf) H3(64) 79.56% H3(31) 80.59% 頻 度 ベ ク ト ル (SVM) H3(64) 84.93% H3(59) 86.21% 表 5 .H3 の 頻 度 ベ ク ト ル と 位 置 情 報 の ベ ク ト ル の 判 別 分 析 で の 予 測 率

[7] o Nucleosome Data: Accuracy Improvement and Comparison with Other Methods,WSEAS Transactions on Biology and Biomedicine, Vol.5, Issue 5, pp.95-104,2008.5.

[8] http://weblogo.berkeley.edu/

[9] C. Strobl, A.-L. Boulesteix, T. Kneib, T. Augustin, and A. Zeileis, Conditional variable importance for random forests. BMC Bioinformatics, 2008.

[10] 新 島 聡 , 奥 野 恭 史 , 化 合 物 -タ ン パ ク 質 活 性 空 間 に お け る 特 徴 選 択 ,IBIS2009.

[11] Fabian Model , Péter Adorján , Alexander Olek et al,Feature selection for DNA methylation based cancer classification,Bioinformatics Vol. 17 no. 90001 2001,Pages p.157-p.164.

[12] Breiman.L, Random Forests, Machine Learning, vol.45, pp.5-23, 2001.

[13] Trevor Hastie,Robert Tibshirani,Jerome Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition,Springer.

(5)

図 4 位 置 ご と に 1 塩 基 を カ ウ ン ト し た 属 性 の 正 規 化 し た Gini index A AA A TT TT GG GG CCCC 順 位 位 置 順 位 位 置 順 位 位 置 順 位 位 置 1 245 1 286 1 309 1 286 0.982065 209 0.944559 340 0.949009 242 0.959978 245 0.970615 266 0.937709 312 0.931382 241 0.955079 290 0.960901 232 0.935196 244 0.857159 322 0.946513 310 0.959826 237 0.933726 314 0.84852 248 0.924445 267 表 5 . 位 置 ご と の 属 性 の 順 位 ( Gini 係 数 ) 図 5. 位 置 ご と に 3 塩 基 を カ ウ ン ト し た 属 性 の 正 規 化 し た Gini index TTT TTTTTT

TTT AAAAAAAAAAAA TAA TAATAATAA TTATTATTATTA ATAATAATAATA 順 位 位 置 順 位 位 置 順 位 位 置 順 位 位 置 順 位 位 置 1 328 1 241 1 281 1 270 1 270 0.932129 145 0.973186 114 0.918874 272 0.885142 271 0.927609 271 0.899915 313 0.935867 313 0.828508 260 0.852877 174 0.90029 278 0.874886 300 0.909056 245 0.792661 261 0.825822 287 0.832291 329 0.855109 318 0.88551 225 0.78813 163 0.8109 286 0.81059 243 表 6 . 頻 度 デ ー タ で 上 位 か ら 3 塩 基 の 属 性 の 位 置 で の

(6)

図 6. H3 の 属 性 部 分 集 合 で 最 も 高 い 予 測 率 の 位 置 毎 の 正 規 化 し た Gini index {TTT,AAA,TAA,TTA,ATA,TAT,ATT}

図 1.正 例 (H3)の 塩 基 の 位 置 毎 の 頻 度 (Weblogo に よ る 出 力 )横 軸 は 塩 基 の 位 置   縦 軸 は 頻 度 の パ ー セ ン ト 表 示
図 4   位 置 ご と に 1 塩 基 を カ ウ ン ト し た 属 性 の 正 規 化 し た Gini index  AAA A     T T    TT G G    GG CCC C     順 位   位 置   順 位   位 置   順 位   位 置   順 位   位 置   1  245  1  286  1  309  1  286  0.982065  209  0.944559  340  0.949009  242  0.959978  245  0.970615  26
図 6. H3 の 属 性 部 分 集 合 で 最 も 高 い 予 測 率 の 位 置 毎 の 正 規 化 し た Gini index  {TTT,AAA,TAA,TTA,ATA,TAT,ATT}

参照

関連したドキュメント

情報理工学研究科 情報・通信工学専攻. 2012/7/12

関東総合通信局 東京電機大学 工学部電気電子工学科 電気通信システム 昭和62年3月以降

理工学部・情報理工学部・生命科学部・薬学部 AO 英語基準入学試験【4 月入学】 国際関係学部・グローバル教養学部・情報理工学部 AO

清水 悦郎 国立大学法人東京海洋大学 学術研究院海洋電子機械工学部門 教授 鶴指 眞志 長崎県立大学 地域創造学部実践経済学科 講師 クロサカタツヤ 株式会社企 代表取締役.

学識経験者 小玉 祐一郎 神戸芸術工科大学 教授 学識経験者 小玉 祐 郎   神戸芸術工科大学  教授. 東京都

講師:首都大学東京 システムデザイン学部 知能機械システムコース 准教授 三好 洋美先生 芝浦工業大学 システム理工学部 生命科学科 助教 中村

入学願書✔票に記載のある金融機関の本・支店から振り込む場合は手数料は不要です。その他の金融機

○経済学部志願者は、TOEIC Ⓡ Listening & Reading Test、英検、TOEFL のいずれかの スコアを提出してください。(TOEIC Ⓡ Listening & Reading Test