• 検索結果がありません。

Database Center for Life Science Online Service Vol.48 No.16 (2003)

N/A
N/A
Protected

Academic year: 2021

シェア "Database Center for Life Science Online Service Vol.48 No.16 (2003)"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

解 説

遺伝子発現プロファイルのデータ解析

加藤菊也 ・石井 信

マイ クロア レイを中心 とす る遺伝 子発現プ ロファイル のデータは,遺 伝子数が数千 に及 ぶき わ めて高次元 のデータであ る.そ の ため通 常の統計学の知識 だけでは十分な解析がで きない こと が多い.本 稿では,デ ー タ正規 化,発 現に差のある遺伝 子の同定,教 師な し特徴抽 出(クラス タ ー分析 と主成分分析),教 師 あ りパ ター ン分類の4つ の項 目について,解 析の概略 とよ くみ られ る誤 りについて述べ た. Key words マイ ク ロア レイ ア ダ プタ ー付 加競 合PCRク ラ ス ター分 析 主 成分 分析 教 師あ り学習 は じめ に マ イ ク ロ ア レイ を 中心 に した 遺 伝 子 発 現 プ ロ フ ァ イ ル は,そ の膨 大 な情 報 量 に大 き な期 待 が か か っ て い た が, 現 在 は一 時 の 熱 狂 が 去 っ た 感 が あ る.原 因 の ひ とつ に, 一 般 の 実 験 研 究 者 に は デ ー タ解 析 が む ず か しす ぎ る こ と が あ げ られ る.論 文 や 解 説 本 に記 載 さ れ て い る 方 法 で 自 分 の デ ー タ を解 析 してみ る と,何 とな くお か しい が,ど こ が お か し い の か よ くわ か らな い,と い う話 を よ く き く.デ ー タ解 析 に 統 計 学 の 知 識 は必 須 で あ る が,発 現 プ ロ フ ァイ ル デ ー タ は次 元 数(遺 伝 子 数)が 数 千 に も及 ぶ 高 次 元 の デ ー タ で あ り,通 常 の 統 計 学 の 知 識 だ け で は対 応 し きれ な い 部 分 が あ る.2003年8月 のNature誌 に マ イ ク ロ ア レイ の 解 析 の 誤 りに つ い て 警 鐘 を 鳴 らす 記 事 が 出 た が1),そ こ で も述 べ ら れ て い る よ う に,こ れ ま で の 論 文 の 解 析 の ほ と ん ど は統 計 学 的 に はsubstandardで あ り,間 違 っ た結 論 を出 して い る も の も多 い. 本 稿 で は筆 者 らの3年 間 の経 験 を基 に,遺 伝 子 発 現 プ ロ フ ァイ ル デ ー タ の 解 析 方 法 の 概 要 と 問 題 点 に つ い て 述 べ る.な お,発 現 デ ー タ は 定 量PCR[ア ダ プ タ ー 付 加 競 合PCR法(adaptor-tagged competitive PCR; ATAC-PCR)]2)で 測 定 し た も の を お も に 使 っ て い る が,正 規 化 の 詳 細 部 分 以 外 は,マ イ ク ロ ア レイ そ の 他 の 技 術 と同様 と考 え て い た だ い て よい. I.

データの正規化

遺 伝 子 発 現 プ ロ フ ァ イ ル 解 析 技 術 に は,マ イ ク ロ ア レ イ3),serial analysis of gene expression(SAGE)4),定 量 PCR(ATAC-PCR)2)な ど が あ る.ど の 技 術 も そ れ ぞ れ の 限 界 が あ り,正 し い デ ー タ 解 析 を 行 な う た め に は,そ れ ぞ れ の 技 術 の 特 徴 を 的 確 に と ら え る 必 要 が あ る. 実 際 に 解 析 を 行 な う場 合 は,生 デ ー タ を 正 規 化 し て か ら い ろ い ろ な 解 析 に 使 う.い っ た ん 正 規 化 し て し ま う と,そ の 由 来 を 気 に す る こ と な く,い ろ い ろ な 解 析 方 法 を 適 用 す る こ と が で き る.マ イ ク ロ ア レ イ とATAC-PCR法 は 相 対 的 発 現 量 を 測 定 す る 技 術 な の で,類 似 の 方 法 で 正 規 化 す る.ATAC-PCR法 は 個 々 のRNA由 来 のcDNAを 制 限 酵 素 で 切 断 後,そ の 切 断 端 に 長 さ の 異 な る ア ダ プ タ ー を 付 加 しPCRの の ち,ア ダ プ タ ー の 長 さ の 違 い に よ り増 幅 断 片 を 分 離,遺 伝 子 の 発 現 量 比 を 測 定 す る 方 法 で あ る(詳 細 はhttp;//love2.aist-nara.ac.jp/ laboratory/ATAC-PCR.htmlを 参 照 さ れ た い).こ の2 つ の 技 術 で の 正 規 化 の 基 本 は 以 下 の3点 で あ る. (1)サ ン プ ル ご と の バ イ ア ス を 除 去 す る.通 常 使 っ て い る サ ン プ ルRNAの 量 は,実 験 的 に は 濃 度 を そ ろ え て 同 じ に す る の が 通 例 で あ る が,実 際 に は い ろ い ろ な 要 因 に よ っ て 変 わ っ て く る.RNA量 の 差 は そ の サ ン プ ル に Kikuya Kato, 奈良先端科学技術大学院大学バ イオサイエ ンス研究科大正製薬ゲノム機能解析講座 E-mail : [email protected].

ac.jp http://love2.aist-nara.ac.jp

Shin Ishii, 奈 良先端科学技術大学院大学情報科 学研究科論理生命学分野 E-mail : [email protected] http://hawaii.aist-nara. ac.jp

Statistical Analysis of Gene Expression Profiles

2300 蛋白質 核酸 酵素 Vol.48 No.16 (2003) Database Center for Life Science Online Service

(2)

関す る 遺 伝 子 の 測 定 値 全 体 にバ イ ア ス と して 影 響 して く る た め,補 正 を行 な う.最 も単 純 に は,サ ンプ ル ご とに 遺 伝 子 発 現 量 の メ デ ィア ン(あ るい は平 均 値)を 差 し引 く (あ る い は割 る)こ とで 補 正 す る,ATAC-PCR法 で は 問 題 に な ら な い が,マ イ ク ロ ア レイ法 で は,測 定 値 の大 き さ に 応 じて 以 下 に述 べ る対 数 発 現 比 の バ イ ア ス が 非 線 形 に 変 化 す る こ と が 知 ら れ て お り,そ の 補 正 も重 要 で あ る5).そ の た め,さ ら に サ ン プ ル に わ た っ て の 補 正 を す る こ と も考 え られ る. (2)測 定 値 を 対 数 変 換 し,対 数 発 現 比 を得 る.測 定 値 に よ りば らつ きが 変 化 す る 場 合,そ の 対 数 値 が 正 規 分 布 を とる こ とが 多 い(こ れ を対 数 正 規 分 布 とい う).遺 伝 子 発 現 デ ー タ も,測 定 値 が 大 き くな る につ れ ば らつ き も大 き くな るた め,だ い た い対 数 正 規 分 布 に な る. な お,SAGEの デ ー タ は 基 本 的 に は ポ ワ ソ ン分 布 だ が,正 規 化 す る 方 法 が あ る の で マ イ ク ロ ア レイ の デ ー タ と 同様 に扱 う こ と も で きる. (3)異 常 値 の取 扱 い 方 を 決 め る.た と え ば 測 定 の ダ イ ナ ミ ッ ク レ ン ジ外 の デ ー タ につ い て は,限 界 値(上 限 値 あ る い は 下 限 値)と す る か,あ る い は 欠 測 値 とす る か を 決 め る必 要 が あ る.異 常 値 の 取 扱 い は,解 析 技 術 に も依 存 す る た め,決 まっ た 基 準 は な い.し か し,欠 測 値 を も つ 遺 伝 子 や サ ンプ ル はそ の後 の 解 析 対 象 か ら外 され る場 合 が 多 く,貴 重 な情 報 の欠 落 に もつ な が る.筆 者 らは, ベ イ ズ推 定 に 基 づ く欠 測 値 補 填 プ ロ グ ラ ム6)を ウ ェ ブ 上 で 公 開 して い る が(http://hawaiiaist-nara.ac.jp/ shige-o/tools/JBPCAFill.html),こ う し た 手 法 を 用 い て 補 填 を行 な う こ とが 望 ま しい. 正 規 化 は 簡 単 の よ う に思 え る が,実 際 は非 常 に む ず か し い.た と え ば,実 際 の 発 現 プ ロ フ ァ イ ル デ ー タ で は, 発 現 量 の 少 ない 遺 伝 子 の デ ー タ は不 正 確 な た め,そ れ ら を含 め る と全 体 の解 析 は通 常 う ま くい か な い.バ イ ア ス 補 正 に そ れ らの デ ー タ を含 め る べ きか否 か,な どの 問題 が あ り,適 切 な 対 応 は ケ ー スバ イ ケ ー ス で あ る.一 方 で, デ ー タの 正 規 化 に よ り以 後 の 解 析 の 成 否 が 決 ま る場 合 が 多 く, 十 分 な 注 意 が 必 要 で あ る. II.

発現に差のある遺伝子

の同定

遺 伝 子 発 現 プ ロ フ ァイ ル の 実 験 デ ー タか ら,ま ず 人 々 が 知 り た い の は,注 目す る2つ の 群 の 間 で発 現 に差 の あ る遺 伝 子 に ど の よ うな もの が あ る の か,と い う こ とで あ ろ う.た とえ ば 癌 の 研 究 に お い て,予 後 が 良 い サ ン プ ル群 と悪 い サ ン プ ル群 との 間 で 発 現 に差 の あ る遺 伝 子 が あ れ ば,そ れ は予 後 予 測 に使 え る可 能 性 が あ る.こ う した 遺伝 子 の こ と をinformative geneと よ ぶ.t統 計 量(t値)を 用 い て, 比 較 し た い2群 間 で 発 現 に 差 の あ る 遺 伝 子(厳 密 に は,発 現 に 差 が な い と い う 帰 無 仮 説 が 棄 却 され る 遺 伝 子)を 選 択 す る の が,最 も簡 単 な方 法 で あ る. t値 は,デ ー タ の 正 規 性 を 前 提 と した 統 計 量 で あ る が,正 規 分 図1 t統 計 量 t統 計 量 は2群 間 の 平 均 を 標 準 偏 差 で 割 っ た も の で あ る.平 均 に差 が あ って も,ば らつ き が 大 き け れ ば,2群 に有 意 な 差 はな い(左). 図2 permutation p-value NsをSx<Sorgの 試 行 数,NLをSx Sorgの 試行 数 とす れ ばp値 はNL/(Ns+NL)に な る. Database Center for Life Science Online Service

(3)

布 で な くて も遺 伝 子 発 現 の差 異 の指 標 に な る の で,実 際 に は あ ま り気 にせ ず 使 っ て よい.注 目す る遺 伝 子 につ い て,t値 は次 の 式 で 表 わ す こ とが で き る. t=Rg/SEg こ こ で,Rgは こ の 遺 伝 子 の 平 均 対 数 発 現 比 に つ い て の2群 間 で の 差 で あ り,SEgは 対 数発 現 比 の標 準 偏 差 で あ る.t値 の概 念 図 を 図1に 示 す.2群 で の 標 準 偏 差 が 異 な る こ と を仮 定 し たWelchの 方 法7)を用 い る こ と も あ る.ま た,分 母 を2群 の 標 準 偏 差 の 和 とす るsignal-to-noise ratio(SNR)も しば し ば用 い られ る. 安 定 した 遺 伝 子 選 択 を行 な う に は,実 験 に よ る 誤 差 や サ ンプ ル 間 の 個 体 差 の 問題 が あ る た め,か な り多 くの サ ン プ ル が 必 要 とな る.し か し なが ら,遺 伝 子 発 現 プ ロ フ ァイ ル実 験 は一 般 に コス トが か か る た め,ど う して も実 験 数 が 限 られ て し ま う.そ の よ う な場 合 は,SEgの 算 出 に十 分 な 数 の サ ンプ ル 測 定 が で き な い た め,全 部 の 遺 伝 子 を使 っ て 標 準 偏 差 を計 算 す る こ とが あ る. t=Rg/SE (SEは,全 遺 伝 子 の デ ー タ を 使 っ て 算 出 した標 準 偏 差) SEは す べ て の 遺 伝 子 で 共 通 で あ る た め,こ のt値(の 絶 対 値)で ラ ン ク付 け す る と,対 数 発 現 比 の2群 間 の 差 が 大 きい順 に ラ ン ク付 けす る こ と に な る.こ れ は,た と え ば 発 現 量2倍 以 上 の も の を 選 択 す る,と い うfold-changeを 指 標 に す る選 択 方 法 と基 本 的 に 同 じで あ る. こ の2つ の 中 間 は,た とえ ば"significant analysis of microarrays(SAM)"8)で 使 わ れ て い るt統 計 量 の 補 正 版 (S統 計 量 と よ ば れ る こ と もあ る)で あ る.マ イ ク ロ ア レ イの 実 験 な ど で は,サ ンプ ル 数 が 少 な い た め,ば らつ き が 小 さ い ケ ー ス で 偽 陽 性 が 出 や す い.そ の た め,次 の式 の よ うに 定 数cで 補 正 を行 な う. S=Rg/(c+SEg) 詳 しい検 討 の 結 果,S統 計 量 が 最 も偽 陽 性 が 少 な い,と す る報 告 が あ る9). 比 較 した い グ ル ー プ が3群 以 上 の 場 合 は,分 散 分 析 い わ ゆ るANOVAを 使 え ば よ い.t統 計 量 やANOVA (F検 定)は 統 計 的 仮 説 検 定 に 基 づ く手 法 で あ り,ふ つ うの 統 計 学 の 本(た と え ば 文 献7)に 書 い て あ る の で,そ ち らを参 照 さ れ た い. 判 別 分 析 は,い くつ か の 変 数 に基 づ い て,各 デ ー タ が どの 群 に所 属 す る か を判 定 す る多 変 量 解 析 の ひ とつ で あ るが,遺 伝 子 選 択 は 判 別 分 析 で の変 数 選 択 法 で 行 な う こ と もで き る.た と え ば上 記 のt統 計 量 は,単 変 量 線 形 判 別 分 析 に お け る判 別 効 率 と等 価 な指 標 で あ る. 判 別 分 析 にお け る変 数 選 択 法 は,判 別 器 お よび 判 別 に 伴 う リ ス ク に 依 存 し,い ろ い ろ あ る.t統 計 量(判 別 効 率)な ど は す べ て 背 後 に 統 計 モ デ ル(2群 と も に 正 規 分 布)を 仮 定 し たパ ラ メ トリ ッ ク法 で あ る.一 方 で,ノ ン パ ラ メ トリ ッ ク 法 と し て 近 年 し ば し ば 用 い ら れ るper-mutation検 定 に よれ ば,サ ン プ ル を2群 間 で 無 作 為 に 入 れ 替 え(グ ル ー プ ラベ ル の付 け 替 え に相 当す る),群 間 の 平 均 値 の差 を得 る.こ れ を多 数 回(た と え ば1万 回)く り返 す.元 の デ ー タ よ りも平 均 値 の 差 が 大 きい 試 行 の 割 合 と して,注 目 して い る 遺 伝 子 に つ い て平 均 対 数 発 現 比 の2群 間 で の 差 の 実 現 値 が 起 こ り う るpermutation p-valueを 計 算 す る.こ う して 得 られ たp値 の 小 さい もの か ら遺 伝 子 を選 択 す る(図2). こ う した遺 伝 子 選 択(教 師 あ り特 徴 抽 出 と もい う)で 最 も注 意 し な け れ ば な らな い の が,偽 陽 性 の 問 題 で あ る.た と え ば,差 が ない の に 差 が あ る と判 断 す る 危 険 率, す な わ ち 仮 説 検 定 に お け る有 意 水 準 を0.05と し よ う. 5,000個 の 遺 伝 子 の発 現 を測 定 し た 場 合,250個 の 遺 伝 子 は 実 際 に は 差 が な い の に誤 っ て差 が あ る と判 断 す る こ とに な る.偽 陽性 の 目安 は,選 択 さ れ た 遺伝 子 の 数 か ら, お お よそ の見 当 をつ け る こ とが で き る.た と え ば,5,000 個 の 遺 伝 子 か ら500個 の 遺 伝 子 が 危 険 率0.05で 差 が あ る 遺伝 子 と して 選 ば れ た とす る と,半 数 は 陽 性,残 りの 半 分 は 偽 陽 性 と い う こ とに な る.統 計 学 で は 多 重 検 定 (multiple test)と して 一 般 的 な 問 題 だ が,初 期 の マ イ ク ロ ア レ イ の論 文 や 癌 の専 門 誌 の論 文 の 多 くは,こ れ を無 視 した 解 析 を行 な っ て い る. 偽 陽 性 を統 計 学 的 に扱 う方 法 は い くつ か あ る.最 も制 限 の 強 い も の がBonferroniの 補 正10)であ る.こ れ は 単 純 な 方 法 で,た と え ばt検 定 の 危 険率 を遺 伝 子 の 数 で 割 っ た 危 険 率 を使 う,と い う も の で あ る.た だ し,こ の 方 法 で は遺 伝 子 発 現 プ ロ フ ァ イ ル の 場 合 は有 意 に遺 伝 子 発 現 に 差 の あ る 遺 伝 子 が 普 通 は な くな っ て し ま う の で,よ りゆ る い基 準 が 使 わ れ る.た と え ば,上 記 の"significant analysis of microarrays(SAM)"で は,false discovery rate(FDR)10)が 用 い られ て い る. 重 要 な の は,こ れ らの 解 析 か ら は個 々 の 遺 伝 子 が 陽 性 な の か 偽 陽 性 な の か は判 断 で き な い,と い う こ と で あ る.確 認 実 験 の と き,デ ー タが 再 現 し な い こ と が あ る. これ は最 初 の 実 験 に 問 題 が あ るせ い か も しれ な い が,こ こで 述 べ た 偽 陽 性 のせ い か も しれ な い. III.

クラスター分析

発 現 に 差 の あ る 遺伝 子 の選 択 は,個 々 の 遺 伝 子 の発 現 2302 蛋白質 核酸 酵素 Vol.48 No.16 (2003) Database Center for Life Science Online Service

(4)

に注 目す る解 析 で あ り,遺 伝 子 発 現 デ ー タ全 体 か ら直 接 何 らか の 発 見 を 試 み る もの で は な い.発 現 デ ー タ全 体 か ら何 らか の 知 識 発 見 を試 み るた め に は,教 師 な し特 徴 抽 出 が 有 効 で あ る.遺 伝 子 発 現 デ ー タで よ く用 い られ て い る教 師 な し特 徴 抽 出 法 は ク ラス タ ー 分析 と主 成 分 分 析 で あ る. ク ラス タ ー分 析 は,遺 伝 子 発 現 パ ター ンの類 似 度 で遺 伝 子 ま た は サ ン プ ル を グ ル ー プ 化 す る 解 析 方 法 で あ る. Eisenら に よる ク ラ ス タ ー分 析 とモ ザ イ ク プ ロ ッ トを組 み 合 わ せ た デ ー タ マ ト リ ッ ク ス の 可 視 化 方 法11)に よ り, 遺 伝 子 発 現 プ ロ フ ァイ ル の 代 表 的 な解 析 方 法 に な っ た. 最 も よ く使 わ れ て い る の が,階 層 的 ク ラス ター 分析 で あ る(図3).N個 の 遺 伝 子 の 分 析 の と き,最 初Nク ラ ス タ ー あ る とす る.こ の な か で,最 も発 現 の 似 た もの を 一 緒 に して,1つ の ク ラ ス タ ー に す る.す る と,ク ラス タ ー の数 は1つ 減 っ てN-1と な る.階 層 的 ク ラス ター分 析 は,こ の 過 程 を1つ の ク ラス タ ー に な る ま で 再 帰 的 に く り返 す.遺 伝 子 の 発 現 パ タ ー ン の 類 似 度(距 離 尺 度) と,ク ラス タ ー の 融 合 方 法,す な わ ち ク ラ ス ター間 の 距 離 の決 め 方,の2つ の 条 件 の 組 合 せ で い ろ い ろ な方 法 が で きる.遺 伝 子 発 現 解 析 の 分 野 で は,距 離 尺 度 と して ピ ア ソ ン積 率 相 関係 数 か ユ ー ク リ ッ ド距 離 が よ く用 い られ る12).ユ ー ク リ ッ ド距 離 は,発 現 パ タ ー ン とそ の 量 的 な 変 動 を総 合 的 に 評 価 す る 指 標 だが,パ タ ー ン抽 出 能 力 が 弱 い.一 方 で,ピ ア ソ ン積 率 相 関係 数 は発 現 パ タ ー ンの み に影 響 さ れ,量 的 な変 動 を無 視 す るた め,発 現 変 化 が 小 さ い デ ー タへ の 信 頼 性 が 低 い.マ イ ク ロ ア レ イ の場 合 は,ピ ア ソ ン積 率 相 関 係 数 が 用 い られ る こ と が 多 い. 融 合 ア ル ゴ リズ ム と して は,群 平 均 法 や ウ ォー ド法 が用 い られ る.階 層 的 ク ラス タ ー分 析 は,微 細 構 造,す な わ ち 樹 状 図 の 先 の ほ う,の 検 出 に優 れ て お り,樹 状 図 の根 元 に近 い 大 き な構 造 に つ い て は信 頼 性 が 低 くな る,と い わ れ て い る. 階 層 的 ク ラ ス ター 分 析 の ほ か に は,ベ ク トル 量 子 化 (k平 均)法 と 自 己 組 織 化 マ ップ13)がよ く用 い られ る.ア ル ゴ リズ ム は異 な る が,と もに最 初 に ク ラス タ ー 数 を 決 め て お い て 分 類 を 行 な う方 法 で あ る.こ の な か で,k平 均 法 は ク ラス タ ー分 析 法 と よ ん で よ い が,階 層 的 ク ラ ス ター 分 析 と 自 己組 織 化 マ ッ プ は ど ち らか とい え ば デ ー タ 可 視 化 手 法 で あ る 点 に 注 意 した い.す な わ ち,高 次 元 の デ ー タ を,階 層 的 ク ラ ス タ ー 分 析 は 直 線 上(1次 元)に, 自己 組 織 化 マ ッ プ は 平 面 上(2次 元)に 図 示 す る. デ ー タ可 視 化 手 法 を ク ラス ター 分 析 に 用 い る の は あ ま り望 ま し くない.可 視 化 の 際 に 元 の デ ー タ空 間 の 情 報 の 多 くを失 うた め に,結 果 と して得 ら れ る ク ラ ス ター の信 頼 度 が 低 くな る た め で あ る.よ り具 体 的 に は,以 下 の よ う な 問題 点 が あ る. (1)デ ー タ の入 力 の 順 序 で解 析 結 果 が 変 わ る.す な わ ち 結 果 が 安 定 しな い. (2)最 適 な ク ラス タ ー数 を決 め る 方 法 が な い. (3)ク ラ ス ター につ い て統 計 的 な評 価 が で き な い. た とえ ば 階 層 的 ク ラス タ ー 分 析 で は,nケ ー ス の ク ラ ス タ ー分 析 の 場 合 樹 状 図 の どの 分 岐 点 で も順 序 を変 え ら れ る の で,ク ラス タ ー の 構 造 に は2n-1通 りの 可 能 性 が あ る.ま た,ど の 分 岐 点 で 区切 っ て ク ラス タ ー にす る の か 決 まっ た 方 法 が な い.し た が っ て,い く らで も研 究 者 の 都 合 の よ い ク ラ ス ター モ デ ル をつ くる こ とが で きる. 例 と して,筆 者 らの 乳 癌 の発 現 デ ー タマ トリ ッ ク ス を 示 す(図4)14).こ の 階 層 的 ク ラ ス ター 分 析 の 場 合,左 の 解 析 結 果 で は遺 伝 子 発 現 と リ ンパ 節 転 移 との間 に は 関 係 が な い よ う に み え る.だ が,樹 状 図 の どの 分 岐 点 で も順 序 を変 え る こ とが で き るの で,適 当 に変 え て や る と 右 図 の よ うな 関 連 性 の み られ る 解 析 結 果 と な っ た.こ の2つ の ど ち らが 正 しい か 決 定 す る 方 法 は な い. 以 上 の こ とか ら明 らか な よ う に,こ れ ら従 来 の ク ラ ス ター 分 析 に よる 結 果 は仮 説 あ る い は可 能 性 と して 扱 うべ き で あ っ て, 図3 階 層的 ク ラス ター分 析 Database Center for Life Science Online Service

(5)

これ らの結 果 か ら断 定 的 な結 論 を導 きだ す こ とは で き な い.論 文 で よ くみ られ る 間違 い は,た とえ ば 細 胞 増 殖 に 関 連 した遺 伝 子 を あ げ て,こ の ク ラス タ ー は 細 胞 増 殖 に 関 連 して い る,と す る 議 論 で あ る.こ の 議 論 は二 重 に 間 違 って い る.ま ず,そ もそ もそ の ク ラ ス ター が あ る,と い う統 計 学 的保 証 が な い.ま た,細 胞 増 殖 に 関 連 して い る 遺 伝 子 が,全 遺 伝 子 に お け る比 率 と比 較 して 多 くな っ て い る か ど うか 統 計 的 に 検 証 し な け れ ば,そ の よ う な 議 論 は で きな い はず で あ る.

現 在,Gene Ontology Consortiumが 医 学 生 物 学 関 連 の 語 彙(gene ontology termと い う)の 分 類 整 理 を行 な っ て お り15),ヒ トを は じめ と して 全 生 物 の 遺 伝 子 に こ の termを 添 付 す る作 業 が 行 な わ れ て い る.も う少 し手 の 込 ん だ 議 論 で は,機 能 との 関 連 をgene ontology term な どの 機 能 を示 す キ ー ワー ドを使 っ て,そ の 出 現 頻 度 か らp値 を 計 算 し て い る16∼18).しか しな が ら キ ー ワ ー ド の 数 が 膨 大 な た め,前 節 で 述 べ た多 重 検 定 の 問 題 を考 慮 す る 必 要 が あ る の だが,こ れ ま で の解 析 で は この 点 を無 視 して い る. 階 層 的 ク ラ ス ター 分 析 を本 格 的 な解 析 に使 え るケ ー ス は あ ま りな い,と い う の が 筆 者 らの結 論 で あ る.本 節 で 述 べ た ク ラ ス ター 分 析 法 は,発 現 デ ー タ全 体 を 鳥 瞰 す る た め の 可 視 化 ツ ー ル と割 り切 っ た ほ うが よ い.と くに, 階 層 的 ク ラ ス タ ー 分 析 は樹 状 図 表 現 を 用 い る こ と に よ り,遺 伝 子 間 お よ びサ ンプ ル 間 の 関係 を わ か りや す く把 握 で き る点 が 優 れ て い る.そ の た め,解 析 途 中 で 発 現 デ ー タ全 体 を 鳥 瞰 す る 目的 で,筆 者 らの 研 究 室 で は常 用 し て い る.し か し先 ほ ど も述 べ た よ う に,信 頼 性 あ る 結 論 を得 る た め に は ほか の 方 法 をつ か わ な け れ ば な らな い.

IV. 主成分分析とパラメ トリッククラスタリング

主 成 分 分 析(principal component analysis)は,ク ラ ス タ ー分 析 と な らん で 発 現 デ ー タマ トリ ッ ク ス全 体 の特 徴 を抽 出 す る,教 師 な し特 徴 抽 出 の 代 表 的 手 法 で あ る.主 成 分 分 析 は,高 次 元 デ ー タの もつ 情 報 を,少 数 個 の 総 合 特 性 値 に 要 約 す る 手 法 で あ る.3次 元 ま で な ら可 視 化 で き る の で,遺 伝 子 プ ロ フ ァイ ル 解 析 の場 合 は通 常2つ な い し3つ の 総 合 特 性 値(第1,第2,第3主 成 分 と い う) に要 約 す る こ とが多 い.こ こ で は,原 理 を簡 単 に 説 明 す る た め,2次 元 の デ ー タ を1次 元 に 要 約 す る場 合 に つ い て 考 え る(図5).ま ず,2次 元 デ ー タ の ば らつ き(分 散) が 最 も大 き い 方 向 に座 標 軸f1を と る.つ ぎ にf1に 直 交 す る 方 向 に 座 標 軸f2を と る(多 次 元 の 場 合 は 直 交 か つf1を 除 い た 部 分 空 間 で 分 散 最 大 の 方 向 に 座 標 軸 を と る こ と に な る).こ の と き,f2方 向 の 分 散 がf1方 向 の 分 散 よ り も は る か に小 さ け れ ば,座 標 軸f1の 値 を使 っ て そ れ ぞ れ の デ ー タの 相 互 関係 を表 わす こ とが で き る. 遺伝 子 発 現 デ ー タ の場 合 は,遺 伝 子 数 あ る い は サ ン プ ル 数 の 次 元 の デ ー タ を低 次 元 化 す る. 実 際 の解 析 で は,主 成 分 が つ くる2次 元 な い し3次 元 空 間 にサ ンプ ル や 遺 伝 子 を プ ロ ッ ト して 表 示 し,個 々 の 乳 癌108例 図4 階 層的 クラス ター分析 の問題点 図は そ れ ぞれ 上 か ら樹 状 図,症 例 の リ ン パ 節 転 移 の 状 態(赤:リ ン パ 節 転 移4個 以 上,薄 赤:1∼3個,緑:転 移 な し,青: 正 常 組 織),遺 伝 子 発 現 プ ロ フ ァ イ ル の モ ザ イ ク プ ロ ッ ト(赤:高 発 現,緑:低 発 現,黒:中 等 度 発 現).モ ザ イ ク プ ロ ッ トで は,縦 に145個 の 遺 伝 子,横 に 108個 の 乳 癌 組 織(10個 の 正 常乳 腺 組 織 を含 む)に つ い て 階 層 的 クラ ス タ ー 分 析 を 行 な っ た結 果 を 示 して いる.左 右 の 図 は,樹 状 図の 分 岐 点 での 反 転 以 外 は ま っ た く同 一 で ある,な お,遺 伝 子 の ク ラス タ ー 分 析の 樹 状 図 は割 愛 した.左 の 図で は リン パ節 転 移 の あ る症 例 は全 体 に均 等 に分 布 して いる が,右 の 図で は 中央 に リ ンパ 節 転移 の あ ま りな い領 域 が あ る よ う にみ え る.実 際 には,リ ンパ 節 転 移 と遺 伝 子 発 現 は 関連 して い る.(文 献14の 図 1の デ ー タ を再 解 析 した もの) 2304 蛋白質 核酸 酵素 Vol.48 No.16 (2003) Database Center for Life Science Online Service

(6)

関 係 や 全 体 構 造 を探 る.主 成 分 分 析 も多 くの 場 合,可 視 化 ツ ー ル と して 用 い られ る(代 表 的 な 可 視 化 手 法 で あ る 多 次 元 尺 度構 成 法 も類 似 の 手 法 で あ る)が,階 層 的 ク ラ ス タ ー分 析 と比 べ る と人 の 恣 意 的 な操 作 の 入 る余 地 が 少 な い た め信 頼 性 は 高 く,筆 者 ら の研 究 室 で は,デ ー タマ ト リ ッ クス を鳥 瞰 す る の に常 用 して い る. 主 成 分 分 析 は本 来,高 次 元 デ ー タ に含 まれ る ノ イ ズ を 除 去 す る こ と を 目的 と して い る.こ の性 質 の 興 味深 い 応 用 例 と し て,パ ラ メ ト リ ッ ク ク ラ ス タ ー 分 析 を 紹 介 す る19).こ れ は,そ れ ぞ れ の 遺 伝 子 の 主 成 分 の と る値(主 成 分 得 点 と い う)が 複 数 の 正 規 分 布 か ら な る 分 布(混 合 正 規 分 布 とい う)に 従 う と仮 定 し,各 ク ラ ス タ ー に 正 規 分 布 を あ て はめ て い く方 法 で あ る.概 念 図 を図6に 示 す. ま ず,大 腸 癌 の 発 現 デ ー タ(1,536遺 伝 子 ×111症 例) か ら,欠 測 値 の少 な い351遺 伝 子 を選 択,主 成 分 分 析 を 行 な っ た.第1∼ 第10主 成 分 の 主 成 分 得 点 の 分 布 を 調 図5 主成分分析の原理 図6 混 合正 規分 布 モデル に よるパ ラメ トリック ク ラス タ リ ング 図7 パ ラ メ トリ ック ク ラ スタ リン グ(ガ ウス 混 合 分布 モ デ ル,ベ イ ズ推 定) 図8 ヒ ト大 腸 癌(1,536遺 伝 子 ×111検 体)発 現 デ ー タ の 階 層 的 ク ラ ス タ ー 分 析 パ ラメ トリ ック クラ ス タ リン グの 結果 を下 に 示 した.GM-Aは 緑GM-Bは 青,GM-Cは 赤 で各 遺 伝 子 を 示 した. Database Center for Life Science Online Service

(7)

べ た と こ ろ,第4以 下 は ほ ぼ正 規 分 布 で あ っ た た め ノ イ ズ 成 分 と考 え,第1∼ 第3主 成 分 に つ い て,ベ イ ズ 推 定 で 混 合 正 規 分 布 へ の フ ィ ッ テ ィ ング を行 な っ た(図7). 3群 に 分 類 され た が,こ の 結 果 を 階 層 的 ク ラ ス タ ー分 析 と対 応 させ た も の が,図8で あ る.2つ の ク ラ ス タ ー (GM-AとGM-B)は,階 層 的 ク ラ ス タ ー 分 析 に よ る2 つ の 大 きな グ ル ー プ と対 応 して い る. この パ ラメ トリ ッ ク ク ラ ス ター 分 析 は,解 析 結 果 が デ ー タ入 力 の 順 序 に依 存 せ ず に安 定 して い る 点,ベ イ ズ 推 定 に よ り統 計 的 に最 適 ク ラ ス ター 数 を 決 定 で きる 点 な ど で,前 節 の ク ラス ター 分 析 法 よ り も優 れ て い る.ま た, そ れ ぞ れ の ク ラ ス タ ー の 統 計 学 的 評 価 もで き そ う で あ る.欠 点 と して は,解 析 結 果 が 控 え め(conservative)に な る傾 向 が あ り,生 物 学 的 に 意 味 の あ る小 さ な ク ラス タ ー を検 出 で き な い 可 能 性 が あ る .し か しなが ら信頼性 の 高 い 結 果 が 得 られ る た め,前 節 の 方 法 と比 べ れ ば結 構 使 え る.た だ し,現 在 の とこ ろ簡 単 に使 え る ソ フ トウ ェ ア ッー ル は な い. V.

教師ありパターン分類

ク ラ ス ター 分 析 も主 成 分 分 析 も,遺 伝 子 発 現 デ ー タマ トリ ック ス の 構 造 を調 べ る解 析 方 法 で あ り,学 習 理 論 で は教 師 な し学 習 に 分 類 さ れ る.こ れ に対 し,教 師 あ り学 習 で は,学 習(す な わ ち 分 類 な どの ル ー ル生 成)の 段 階 で 分 類 結 果(ラ ベ ル と い う)既 知 の デ ー タ を使 っ て機 械 学 習 を行 な う.教 師 あ り学 習 は遺 伝 子 発 現 プ ロ フ ァイ ル解 析 で は,典 型 的 に は癌 の 分 類 問 題 に用 い られ る. 癌 の 遺 伝 子 発 現 解 析 は,患 者 の 臨 床 情 報(予 後,抗 癌 剤 感 受 性 な ど)と 発 現 デ ー タ との 関 連 性 か ら,こ れ ら の 臨 床 因子 と関 連 性 の あ る分 類 法 や 予 測 方 法 の 確 立 を 目標 に して い る.研 究 成 果 を診 断 な ど の応 用 を前 提 に して い る た め,少 数 の有 用 遺 伝 子 を選 択,そ れ ら を用 い て 予 測 ア ル ゴ リズ ム をつ くる の が 通 例 で あ る.新 しい 患 者 の デ ー タ に対 し て,予 測 ア ル ゴ リズ ム(教 師 あ りパ タ ー ン分 類 器 とい う)に よ り予 測 を行 な う こ とに な る. 遺 伝 子 発 現 プ ロ フ ァイ ル デ ー タで は,通 常 遺 伝 子 数 の ほ うが サ ンプ ル よ り多 い.こ う した状 況 で,す べ て の 遺 伝 子 を 用 い たパ ター ン分 類 器 を構 成 す る と,す べ て の 学 習 デ ー タ(サ ン プ ル)を 正 し くパ タ ー ン分 類 で き て し ま う.し か し,こ の よ う な 分 類 器 の 汎 化 性 能(新 し い デ ー タ を 正 し く予 測 す る 能 力)は 低 い.こ れ はover-fitting と して 知 られ て お り,少 数 の 発 現 パ ター ンを 多 数 の複 雑 なパ ラメ ー タを もつ 関数 で 近 似 す る と,学 習 に用 い た 発 現 パ ター ンの誤 差 は小 さ くで きて も,新 しい 発 現 パ ター ンに対 して 正 確 な 予 測 が で き な くな る現 象 で あ る.現 在 で も,遺 伝 子 選 択 を甘 く行 な う こ とで,精 度 の 高 い分 類 器 を構 成 した とす る研 究 が 多 くみ られ るが,実 際 の診 断 に使 え る可 能 性 は 低 い.し た が っ て,II節 で 述 べ た遺 伝 子選 択 を必 ず 行 な わ な け れ ば な らな い. 遺 伝 子 選 択 は 以 下 の 予 測 ア ル ゴ リ ズ ム と組 み 合 わ せ る.weighted voting algorithm20)は,そ れ ぞ れ の 遺 伝 子 の重 み づ け投 票(weighted vote)を 単 純 に加 算 した 総和 で予 測 す る方 法 で あ る(図9).重 み に は学 習 検 体 の デ ー タ か ら計 算 したSNRを 用 い る.テ ス ト した い サ ン プ ル の あ る 遺 伝 子aの 発 現 レベ ル をxa,学 習 検 体 で の 応 答 性 サ ン プ ル の 発 現 量 の 平 均 を μ1a,非 応 答 性 サ ンプ ル の 発 現 量 の 平 均 を μ2aと す る とvaが,遺 伝 子aの 重 み づ け 投 票 で あ る.こ のweighted voteを す べ て の 遺 伝 子 に つ い て 計 算 す る.こ こ で,SNRの 定Sa=(μ1a-μ2a)/ (σ1a+σ2a)(σ1aお よ び σ2aは そ れ ぞ れ 応 答 性 お よ び 非 応 答 性 サ ンプ ル の 標 準 偏 差)に よ り,応 答 性 サ ンプ ル へ の投 票 は正 の値,非 応 答 性 サ ンプ ル へ の投 票 は負 の 値 を と る こ とが わ か る.正 のvoteを す べ て 加 算 す る と,応 答 性 サ ン プ ル へ のvote合 計 が,負 のvoteを す べ て 加 算 す る と 非 応 答 性 サ ン プ ル へ の vote合 計 が 計 算 で き る.vote の 総 合 計 の正 負 で ク ラ ス 分 類 を 行 な う. k近 傍 法21)は,テ ス トサ ン プ ル の 遺 伝 子 発 現 を学 習 サ ン プ ル の遺 伝 子 発 現 と比 較 して,最 も 似 た 学 習 サ ン プ ル をk個 選 択 す る.学 習 サ ン プ ル の ラベ ル を み て 多 数 決 で 予 測 す る.類 似 度 図9 weighted-voting algorithm 2306 蛋白質 核酸 酵素 Vol.48 No.16(2003) Database Center for Life Science Online Service

(8)

の 指 標 と し て は ユ ー ク リ ッ ド距 離 か コ サ イ ン係 数 を 使 う. support vector machine22)で は,解 析 遺 伝 子 数 の 次 元 の 超 空 間 中 に お け る サ ン プ ル に つ い て,マ ー ジ ン最 大 化 と よ ば れ る2次 最 適 化 問 題 を 解 く こ と で,2群 を 分 類 す る 超 平 面 を つ く る.最 近 開 発 さ れ た 分 類 器 で あ り,ノ イ ズ に 強 く,優 れ た 汎 化 性 能 を 示 す こ と で 知 ら れ て い る が,分 類 器 の 解 釈(た と え ば,ど の 遺 伝 子 が ど の よ う に 分 類 に 寄 与 し て い る の か)が 困 難 と い う 欠 点 が あ る. 通 常,予 測 法 を 評 価 す る た め に,cross-validationと い う 方 法 を 用 い る(図10).癌 の 研 究 で は,leave-one-out (LOO)cross-validationが よ く 用 い ら れ る.こ れ は,1 つ の 検 体 を テ ス ト用 に 除 き,他 の 検 体 を 用 い て 遺 伝 子 の 選 択 を 行 な い,予 測 ア ル ゴ リ ズ ム を つ く る.こ の 予 測 ア ル ゴ リ ズ ム で テ ス ト用 検 体 を 判 定 す る.同 じ こ と を す べ て の 検 体 に つ い て 行 な い 予 測 精 度 を 計 算 す る.検 体 数 が 多 け れ ば,4-foldや10-foldのcross-validationを 行 な う こ と も あ る.LOO法 は 予 測 精 度 の 誤 差 の バ イ ア ス が 小 さ い が,ば ら つ き が 大 き い と い う特 徴 が あ る. 癌 の 予 測 問 題 で 頻 繁 に み ら れ る 誤 り は,予 測 ア ル ゴ リ ズ ム だ けcross-validationを 行 な う, と い う も の で あ る(図11)23,24). こ の 場 合,遺 伝 子 選 択 の 際 に テ ス ト検 体 の 情 報 を 使 う た め,本 来 の 意 味 で のcross-validation に な っ て い な い.1つ の 検 体 の 情 報 の 混 入 だ か ら,さ ほ ど の 差 は 出 な い だ ろ う,と 考 え る 向 き も あ る が,実 際 に は 予 測 精 度 が 数 十%甘 く評 価 さ れ る.デ ー タ マ ト リ ッ ク ス に よ っ て は,正 し いcross-validationで50%(す な わ ち 完 全 な ラ ン ダ ム デ ー タ) で も80%以 上 の 予 測 精 度 に な る こ と が あ っ た. ま た,cross-validationを 行 な わ ず に 追 加 症 例 の 検 討 の み で す ま せ る ケ ー ス も み ら れ る.グ ル ー プ 間 で 発 現 に 差 の あ る 遺 伝 子 の 候 補 は,II節 で 説 明 し た よ う に い く ら で も と れ る の で, cross-validationな し に は 予 測 に 必 要 な 情 報 が あ る か ど う か は 評 価 で き な い.ま た 追 加 症 例 の 検 討 は,と くに 少 数 例 の場 合 な どで 恣 意 的 操 作 が 入 りや す い,と い う問 題 が あ る. VI.

おわりに:そ の他の問題点

以 上,遺 伝 子 発 現 プ ロ フ ァ イ ル解 析 の お もな トピ ッ ク ス に つ い て,そ の 概 要 と陥 りや す い 問 題 点 に つ い て解 説 した.し か し,そ れ 以 外 に も問 題 は 多 い. 最 近,マ イ ク ロ ア レイ の 検 出 能 力 が 詳 細 に 検 討 さ れ た25).出 芽 酵 母 を用 い た 実 験 で は,定 量PCRが0.001∼ 10,000コ ピ ー/細 胞 に至 る 広 い 領 域 の 定 量 が 可 能 で あ る の に 対 し,マ イ ク ロ ア レ イ で は5コ ピ ー/細 胞 以 下 で は ほ とん どバ ック グ ラ ウ ン ドと 同 じ数 値 に な っ て し ま い, 定 量 で きた 遺 伝 子 数 は,お よそ10%強 で あ っ た.哺 乳 類 細 胞 の 場 合 は,複 雑 度 が よ り大 きい の で,こ れ よ り も よ い数 値 が 出 る とは 考 え られ な い.マ イ ク ロ ア レ イ デ ー タ解 析 の 際 に は,こ の デ ー タの 特 徴 を前 提 に して 解 析 し な け れ ば な らな い. 図10 leave-one-out cross-validation 図11 間 違 っ たleave-one-outcross-validation Database Center for Life Science Online Service

(9)

遺 伝 子 発 現 の個 体 差 も頭 の 痛 い 問 題 で あ る.最 近 の研 究 で少 な く と も神 経 組 織 につ い て は,遺 伝 子 発 現 の 個 体 差 が 意外 に大 きい こ とが わ か っ た.SAGEで 発 現 の 差 を 比 較 した 研 究 で は,た とえ ば,同 系 マ ウ ス で飼 育 環 境 が ま っ た く一 緒 の個 体 で も,海 馬 の遺 伝 子 発 現 の 個 体 差 は 神 経 組 織 と繊 維 芽 細 胞 の 差 の 約 半 分 もあ っ た26).飼 育 環 境 が 異 な る と さ ら に差 が 増 大 す る.ヒ トの網 膜 で も 同様 の現 象 が 認 め られ た26).筆 者 ら も,培 養 細 胞 で 株 に よ っ て発 現 が 大 き く異 な る ケ ー ス に 出合 っ て い る. 遺 伝 子 発 現 の 変 化 は,転 写 因子 調 節 な ど に よ る1次 的 変 化 の ほ か に,1次 的 変 化 に よ っ て 誘 導 され る2次 的 な 変 化 が あ る.ま た,こ れ らの 変 化 に よっ てRNAポ リ メ ラ ー ゼ な どRNA合 成 機 構 の レベ ル で の 競 合 反 応 が 起 こ り,そ の ほ か の 関 係 の な い 遺 伝 子 の 発 現 量 も変 化 す る. 発 現 プ ロ フ ァイ ル の デ ー タ は こ れ らの 総 体 を み て い る た め,注 意 深 く実 験 を デ ザ イ ン しな け れ ば,目 的 とす る遺 伝 子 発 現 変 化 以 外 の もの を と ら え る こ と に な りか ね な い. 発 現 に 差 の あ る 遺 伝 子 の 解 析 で は多 数 の 遺 伝 子 が 同定 さ れ るが,機 能 解 析 を 行 な う遺 伝 子 は 通 常 数 個 で あ る. 普 通 は研 究 者 が 経 験 と知 識 に 基 づ い て,機 能 解 析 を行 な う遺 伝 子 を選 択 す る.こ の と き に,よ い 解 析 結 果 が 出 そ う な遺 伝 子 を選 ぶ の で,機 能 解 析 の結 果 発 見 が あ った と し て も発 現 解 析 が 有 効 で あ っ た か ど うか,よ くわ か らな い.ハ イ ス ル ー プ ッ トの 遺伝 子 導 入 技 術 が 最 近 開 発 さ れ て お り27,28),機能 解 析 を多 数 の 遺 伝 子 で 行 な え ば,発 現 解 析 が 有 効 か ど うか 確 か め る こ とが で き る だ ろ う.関 連 し た 問 題 と して,mRNAと 蛋 白 質 の 発 現 量 の 相 関 関 係 の 問題 もあ る.こ の 問題 に つ い て は 最 近 広 範 囲 の 解 析 の 総 説29)が出 た の で,参 照 さ れ た い. ま た,本 稿 で は 取 り上 げ な か っ た が,遺 伝 子 ネ ッ トワ ー ク もむ ず か しい テ ー マ で あ る.現 在 の分子生 物学 の技 術 で は,数 個 以 上 の 遺 伝 子 の 相 互 作 用 を 同時 に 調 べ る こ と は で きな い.し た が っ て,遺 伝 子 ネ ッ トワ ー ク解 析 が め ざ す 広 域 の ネ ッ トワ ー ク につ い て は,デ ー タ解 析(グ ラ フ ィカ ル モ デ リ ン グ や パ ス 解 析 と よば れ,多 くの 研 究 が あ る)の 結 果 と して い か に エ レ ガ ン トな モ デ ル が で き て も検 証 す るす べ が な い.現 在,解 析 結 果 の検 証 が で き る発 現 プ ロ フ ァイ ル の実 験 系 は,癌 の 分 類 お よび 予 測 問 題 く らい で,生 物 学 的 問 題 は 実 験 的検 証 の 困 難 な も の が ほ と ん どで あ る.そ の た め,デ ー タ解 析 は探 索 的 方 法 に な らざ る を え な い.癌 の 問 題 は検 体 を増 や す だ け で 検 証 が 可 能 な た め,現 時 点 で 最 良 の 発 現 プ ロ フ ァイ ル の 実 験 系 だ と思 わ れ る(ヒ ト癌 組 織 が 限 られ た研 究 者 に しか 手 に入 ら な い と い う問 題 点 が あ る が).筆 者 ら も,癌 の 解 析 で 解 析 技 術 を磨 い て き た,と い う経 緯 が あ る. 以 上 の よ う に遺 伝 子 発 現 プ ロ フ ァイ ル 解 析 は,測 定 技 術,デ ー タ解 析 方 法 に問 題 が あ る ば か りで は な く,個 体 差の 問題 な ど遺 伝 子 発 現 の基 礎 的 な デ ー タ も ま だ 揃 っ て お らず,ご く初 期 の段 階 だ,と い え る.ま た,こ れ ま で の 研 究 成 果 と い わ れ て い る もの も統 計 解 析 の 観 点 か ら, 全 面 的 に 見 直 す 必 要 が あ る. 統 計 解 析 は 分 子 生 物 学 実 験 と同 様,熟 練 を必 要 とす る 作 業 で あ る.と くに正 規 化 は,実 験 環 境 に よ っ て 方 法 が 異 な っ て くるた め 注 意 が 必 要 で あ る.ま た,多 変 量 解 析 は き わ め て 高 次 元 の デ ー タ を扱 うた め,実 験 研 究 を 日常 と して い る 分 子 生 物 学 者 に は 理 解 しが た い こ とが 多 い. 遺 伝 子 発 現 プ ロ フ ァイ ル は分 子 生 物 学 の ツー ル と考 え る よ りは,新 しい 生 物 学(シ ス テ ム バ イ オ ロ ジ ー な ど と よ ば れ て い る)の 一 分 野 と と らえ た ほ うが 適 切 か も しれ な い. 分 子 生 物 学 の 実 験 で は,あ る 分 子 間相 互作 用 は あ るか な い か,と い う決 定 論 的 な答 え しか 許 さな い 。 相 互 作 用 が70%の 確 率 で存 在 す る,と い う確 率 論 的 な解 答 は分 子 生 物 学 に は な い の で あ る.ま た1つ の 実 験 で扱 え る分 子 種 は 数 個 以 下 で あ り,統 計 学 的 処 理 を必 要 と し な い. した が っ て,こ れ ま で の 生 化 学 分 子 生 物 学 の 知 識 体 系 の な か に,統 計 学 お よび確 率 論 は ま っ た くな い.遺 伝 子 発 現 プ ロ フ ァイ ル 解 析 は 本 質 的 に 高 次 元 デ ー タ の多 変 量 解 析 で あ る た め,統 計 学 の 知 識 が 必 須 で あ る.そ して 重 要 な発 見 は デ ー タの 統 計 学 的 な構 造 の な か にあ る,と 予 想 され る.遺 伝 子 発 現 プ ロ フ ァイ ル 解 析 の 本 当 の む ず か し さ は,た ぶ ん この よ う な分 子 生 物 学 の知 識 体 系 自体 の 特 性 に あ る と思 わ れ る.

VII.参考資料およびソフ トウェア

最 後 に 筆 者 らが 参 考 に し て い る 資 料 や 使 用 し て い る ソ フ トウ ェ ア の な か で,実 験 系 研 究 室 で 役 に 立 つ も の に つ い て 紹 介 す る. (1)統 計 学 全 般 青 木 繁 伸 氏 の ホ ー ム ペ ー ジ(http://aoki2.si.gunma-u. ac.jp/lecture/).統 計 学 全 般 に つ い て 基 礎 的 で 充 実 し た 情 報 を 得 ら れ る.本 稿 で よ く わ か ら な い と こ ろ が あ れ ば 参 照 さ れ た い.た だ し,階 層 的 ク ラ ス タ ー 分 析 の 記 載 は 不 十 分 で あ る. (2)汎 用 統 計 解 析 ソ フ ト ウ ェア SYSTAT.ほ か の 類 似 ソ フ ト と 比 べ て,マ ニ ュ ア ル 2308 蛋白質 核酸 酵素 Vol.48 No.16 (2003) Database Center for Life Science Online Service

(10)

が 充 実 し て い る.最 新 版 はScience誌 の 書 評 で も 取 り上 げ ら れ,高 い 評 価 を 受 け て い る.な お,研 究 室 で の 解 析 で は,SYSTATを 使 う こ と は 少 な い.た い て い の 解 析 は エ ク セ ル で 間 に 合 う. (3)ク ラ ス タ ー 分 析 ソ フ トウ ェ ア GeneMaths2.0ア ル ゴ リ ズ ム は 高 速 で,デ ー タ 可 視 化 ツ ー ル と し て 非 常 に す ぐ れ て い る.こ の ソ フ ト ウ ェ ア を 使 っ た 階 層 的 ク ラ ス タ ー 分 析 と 主 成 分 分 析 は,実 験 系 研 究 室 で の 解 析 の ル ー チ ン で あ る. ClustanGraphics.開 発 者 のDr.Wishartは,1960年 代 か ら ク ラ ス タ ー 分 析 ソ フ ト を 供 給 し て き て い る こ の 分 野 の パ イ オ ニ ア の 一 人 で あ る.階 層 的 ク ラ ス タ ー 分 析 と k平 均 法 に 関 し て は,ほ ぼ あ ら ゆ る こ と が で き る 環 境 が 整 っ て い る.た だ し,デ ー タ 可 視 化ツ ー ル と し て は あ ま り よ く な い.付 属 の マ ニ ュ ア ルClustan Graphics Primer は 階 層 的 ク ラ ス タ ー 分 析 が 簡 潔 そ し て 十 分 に ま と め ら れ て い る.ソ フ ト ウ ェ ア の 詳 細 に つ い て はhttp://www. clustan.comを 参 照 さ れ た い.

文 献

1) Tilstone, C.: Nature, 424, 610-612 (2003) 2) Kato, K. : Nucleic Acids Res., 25,4694-4696 (1997)

3) Schena, M., Shalon, D., Davis, R. W., Brown, P. O.: Science, 270,467-470(1995)

4) Velculescu, V. E., Zhang, L., Vogelstein, B., Kinzler, K. W. Science, 270,484-487 (1995)

5) Quackenbush, J. : Nature Genet., 32, 496-501(2002) 6) Oba, S., Takemasa, N., Monden, M., Matsubara, K., Ishii,

S. : Bioinformatics, in press (2003)

7) 縣 俊 彦 編 著:基 本 医 学 統 計 学,p.78,中 外 医学 社(1997)

8) Tusher, V. G., Tibshirani, R., Chu G. : Proc. Natl. Acad. Sci. USA, 98, 5116-5121(2001)

9) Broberg P.: Genome Biol., 4, R21 (2003)

10) Cui, X., Churchill, G. A.: Genome Biol., 4,210 (2003) 11) Eisen, M. B., Spellman, P. T., Brown, P. O., Botstein, D.

Proc. Natl. Acad. Sci. USA, 95,14863-14868 (1998) 12) Romesberg, H. C.: Cluster Analysis for Researchers,

Robert E. Krieger Publishing Company, Inc., Malarbar,

Florida(1989)[日 本 語 訳:実 例 ク ラ ス タ ー 分 析,西 田 英 郎 ・佐 藤 嗣 二 共 訳,内 田 老 鶴 圃(1992)]

13) Pablo, T., Slonim, D., Mesirov, J., Zhu, Q., Kitareewan, S., Dmitrovsky, E., Lander, E. S., Golub, T. R.: Proc. Natl. Acad. Sci. USA, 96, 2907-2912 (1999)

14) Iwao, K., Matoba, R., Ueno, N., Ando, A., Miyoshi, Y., Matsubara, K., Noguchi, S., Kato, K. : Human Mol. Genet.,

11, 199-206 (2002)

15) The Gene Ontology Consortium : Genome Res., 11, 1425-1433(2001)

16) Mootha, V. K., Lindgren, C. M., Eriksson, K.-F., Subrama-nian, A., Sihag, S., Lehar, J., Puigserver, P., Carlsson, E., Ridderstrale, M., Laurila, E., Houstis, N., Daly, M. J., Patterson, N., Mesirov, J. P., Golub, T. R., Tamayo, P., Spiegelman, B., Lander, E. S., Hirschhorn, J. N., Altshuler, D., Groop, L. C.: Nature Genet., 34,267-273 (2003) 17) Matoba, R., Saito, S., Ueno, N., Maruyama, C., Matsubara,

K., Kato, K. : Physiol. Genomics, 4,155-164 (2000)

18) Tavazoie, S., Hughes, J. D., Campbell, M. J., Cho, R. J., Church, G. M.: Nature Genet., 22,281-285 (1999)

19) Muro, S., Takemasa, I., Oba, S., Matoba, R., Ueno, N., Maruyama, M., Yamashita, R., Sekimoto, M., Yamamoto, H., Nakamori, S., Monden, M., Ishii, S., Kato, K.: Genome Biol., 4, R21 (2003)

20) Golub, T. R., Slonim, D. K., Tamayo, P., Huard, C., Gaasen-beek, M., Mesirov, J. P., Coller, H., Loh, M. L., Downing, J. R., Caligiuri, M. A. et al.: Science, 286, 531-537 (1999)

21) Pomeroy, S. L., Tamayo, P., Gaasenbeek, M., Sturla, L. M., Angelo, M., McLaughlin, M. E., et al. : Nature, 415,436-442

(2002)

22) Furey, T. S., Cristianini, N., Duffy, N., Bednarski, D. W.,

Schummer, M., Haussler, D. : Bioinformatics, 18, 906-914 (2000)

23) Macdonald, T. J. et al. : Nature Genet., 29,143-152 (2001) 24) van't Veer, L. J., Dai, H., van de Vijver, M. J., He, Y. D., Hart,

A. A., Mao, M. et al. : Nature, 415, 530-536 (2002) 25) Holland, M. J.: J. Biol. Chem., 277,14363-14366 (2002) 26) Blackshaw, S., Kuo. W. P., Park, P. J. et al.: Genome Biol.,

4, R17 (2003)

27) Ziauddin, J., Sabatini, D. M. : Nature, 411,107-110 (2001) 28) Honma, K., Ochiya, T., Nagahara, S., Sano, A., Yamamoto,

H., Hirai, K., Aso, Y., Terada, M. : Biochem. Biophys. Res. Commun., 289,1075-1081(2001)

29) Greenbaum, D., Colangelo, C., Williams, K., Gerstein, M. Genome Biol., 4,117 (2003) 加藤菊也 略 歴:1980年 大 阪 大 学 医 学 部 卒 業.ケ ン ブ リ ッジ 大 学 医 学 部 上 級 研 究 員(施 設 長Dr.Sydney Brenner),奈 良 先 端 科 学 技 術 大 学 院 大 学 寄 付 講 座 助 教 授 を 経 て,2001年 よ り 同 講 座 教 授.研 究 テ ー マ:ト ラ ン ス ク リ プ トー ム 解 析 全 般. 石井 信 略 歴:1986年 東 京 大 学 工 学 部 卒 業.リ コー 中央 研 究 所,ATR 人 間 情 報 通 信 研 究 所 を 経 て,2001年 よ り奈 良 先 端 科 学 技 術 大 学 院 大 学 情 報 科 学 研 究 科 教 授.研 究 テ ー マ:数 理 工 学, と くに,統 計 的 学 習 理 論 お よ び バ イ オ イ ン フ ォマ テ ィ ク ス. Database Center for Life Science Online Service

参照

関連したドキュメント

その産生はアルドステロン合成酵素(酵素遺伝 子CYP11B2)により調節されている.CYP11B2

 ヒト interleukin 6 (IL-6) 遺伝子のプロモーター領域に 結合する因子として同定されたNF-IL6 (nuclear factor for IL-6 expression) がC/EBP β である.C/EBP

Pms2 Impairment at pachytene stage and MI; MutL mismatch repair protein homolog Msh4 Arrest at zygotene-like stage; MutS mismatch repair protein homolog Msh5 Arrest

今日のお話の本題, 「マウスの遺伝子を操作する」です。まず,外から遺伝子を入れると

第四章では、APNP による OATP2B1 発現抑制における、高分子の関与を示す事を目 的とした。APNP による OATP2B1 発現抑制は OATP2B1 遺伝子の 3’UTR

[Publications] Taniguchi, K., Yonemura, Y., Nojima, N., Hirono, Y., Fushida, S., Fujimura, T., Miwa, K., Endo, Y., Yamamoto, H., Watanabe, H.: &#34;The relation between the

マーカーによる遺伝子型の矛盾については、プライマーによる特定遺伝子型の選択によって説明す

・逆解析は,GA(遺伝的アルゴリズム)を用い,パラメータは,個体数 20,世 代数 100,交叉確率 0.75,突然変異率は