バイオインフォマティクスと統計学
個別化医療のためのオミックスデータ解析
松浦正明 公益財団法人がん研究会がん研究所 e-mail:[email protected] 1. は じ め に バイオインフォマティクスは,生物学(バイオロジー)と情報学(インフォマティクス)を融合さ せ,生命における様々な現象を解明しようする新たな学問分野として誕生した.この新しい分野 では,膨大なゲノム関連情報が取り扱われるため,数学,統計学ならびにコンピュータサイエン スの利用が重要となる(Web Site 1).ゲノムとは,遺伝子(gene)と染色体(chromosome)を合わ せた造語である.これまでのバイオインフォマティクス研究では,ゲノム関連データベースを利 用した配列解析を中心とし,遺伝子予測やタンパク質構造解析などが行われ,そのためのアルゴ リズムやツール開発に焦点が当てられてきた(Arthur, 2002; 坊農, 2002; 高木, 2004; Web Site 2).またその一方で,一人のヒトの数万に及ぶゲノムの変異や遺伝子の発現情報を一枚のスライ ド上の実験で一度に取得できるマイクロアレイが半導体技術を応用して開発されたことにより, 大量かつ包括的なデータを用いて生命現象を解明する新たなデータ解析技術が必要となってきた (Knudesen, 2002; 江口, 2005).現在,このようなゲノム関連情報や革新的技術を応用し,患者 一人ひとりの遺伝学的特徴を考慮した医療や投薬を行なう「個別化医療」・「テーラーメイド医療」 の早期実現が望まれている(中村, 2000a).そのための研究においてバイオインフォマティクスは 大量のゲノム情報を取り扱える分野であると期待されており,その中でも統計学はデータ解析を 担うべき重要な位置を占めている.特にがんの個別化医療においては,抗がん剤に対する各患者 の治療効果予測と副作用予測が重要となる(松浦, 2004; 宮田ら, 2004).このような治療感受性予 測を行うためには重要な関連遺伝子や生体分子の発見・探索が先決である.統計学はこの分野で も役割は大きく,「予測」や「判別」という点から個別化医療研究と密接に関連している(松浦ら, 2004, 2005a,b; Ushijima et al., 2006).ヒトの設計図であるゲノム情報の全てを解読できる次世代高速シーケンサーの開発は間近であ り,近い将来,個々の人が自分自身の全ゲノム情報を把握することができるようになる.このよ うな状況をふまえ,現在の医学分野では,基礎研究から臨床研究への「橋渡しの研究(トランス レーショナルリサーチ)」が重要視されており,その具体的な研究内容を進展させるために,遺伝 的変異やマイクロアレイデータの解析において,新たなバイオインフォマティクス手法の開発に
期待が掛けられている. 本稿では,バイオインフォマティクスが発展してきた経緯をゲノム科学の歴史に沿って概観し, 統計学と密接に関連するトピックスとして,バイオインフォマティクス発展の契機となった未知 遺伝子の機能推定のための配列解析に関連する話題を紹介する.さらに,がんの個別化医療の実 現に向けた研究におけるオミックス(omics)データ解析の一端として,特に副作用予測のための関 連遺伝子の探索において,ゲノムの構造やデータの生物学的特徴を考慮した統計解析法が重要で あることを解説する. 2. バイオインフォマティクスの誕生 地球上のほぼ全ての生物は,生命の設計図として,遺伝子情報を担う高分子生体物質であるデ オキシリボ核酸(DNA)を持っている.Watson and Crick (1953) により DNA の 2 重らせん構造 が発見され,その後 DNA を実験材料とする分子生物学が発展してきた.ヒトのゲノムは,アデ ニン(A),チミン(T),グアニン(G)とシトシン(C)の 4 種類の塩基が約 30 億個も繋がって構成さ れている.約 30 億塩基対のゲノム配列中の約 0.1 0.5 %が個体間で異なっていると推測され,こ れらの個体ごとのわずかなゲノムの違いが,体質の個人差の遺伝学的原因と考えられている.生 体内ではゲノム上の遺伝子が転写されて一旦メッセンジャー RNA(mRNA)ができ,これが翻訳 されてタンパク質が作られる.この流れは生物学でセントラルドグマと呼ばれ,1958 年にクリッ クが始めて提唱したものである.ゲノム上の 3 個の塩基で 1 つのアミノ酸が構成され,塩基の組 み合わせにより 20 種ほどのアミノ酸が体内で生成される.代謝の触媒として働く酵素や生体構造 を形成するコラーゲンなど,生体内で多種多様な機能をつかさどるタンパク質は,これら 20 種類 のアミノ酸が繋がって構成されたものである(Brown, 1999).1960 年代,Dayhoff らはタンパク 質のアミノ酸配列を世界で初めてデータベース化した. 1983年,バイオインフォマティクスの発展の契機となる発見が Doolittle et al. (1983) らによっ てなされた.ウイルスにコードされた v-sis がん遺伝子のタンパク質アミノ酸配列を調べ,既に データベースに登録されているアミノ酸配列と比較してみたところ,そのがん遺伝子のタンパク 質アミノ酸配列は,正常細胞における血小板由来の増殖因子の遺伝子に由来していることが判明 したのである.このようにして Doolittle らの研究は,ウイルスがん遺伝子の機能の同定に世界で 初めて貢献することとなった.この研究により,生物学研究におけるデータベースの利用の有効 性が認識され,その後の各種データベースの構築に拍車が掛けられた.1990 年には,アメリカの エネルギー省と厚生省によって 30 億ドルもの予算が組まれてヒトゲノム計画が発足し,各国の大 学およびゲノムセンターなどによる国際ヒトゲノム配列コンソーシアムが組織され,ヒトのゲノ ムの全塩基配列を調べるプロジェクトが始まった.2003 年 4 月,99.99 %の正確さを持つと言わ れるヒトゲノム配列の解読完了が 6 カ国の首脳により共同宣言され,プロジェクトは完了した. これらの研究によりヒトには約 22000 程度の遺伝子が存在していると推定された(International Human Genome Sequencing Consortium, 2004).配列情報は NCBI や UCSC のデータベース上 で公開されて,現在も配列情報の更新作業は継続している.ヒトゲノム配列の解読はほぼ完了し たが,遺伝子の機能が全て解明されたわけではない.現在,研究の焦点は配列情報と生命現象を
結びつける機能解析に移り,新たな手法の開発がバイオインフォマティクスに望まれている. 2.1 未知遺伝子の機能推定のための配列解析 バイオインフォマティクスの進展において,塩基やアミノ酸の配列解析は大きな地位を占め, そこに統計学の考え方や手法が適用されてきた(Mount, 2001; 松浦, 2006a).機能が未知である遺 伝子の塩基やアミノ酸の配列が判明すれば,既存の遺伝子配列データベースを用い,既に機能が 判明している遺伝子配列からある程度の遺伝子機能が推定できる場合がある.もちろん,過去に 得られた配列とは全く異なる新規の遺伝子配列に対する遺伝子機能の探索は無理であるが,一般 に新しく配列情報を得た場合,過去の結果を参照し解析を試みることは重要である.その解析手 法には相同性(ホモロジー)検索とモチーフ検索がある.相同性検索では配列全体を用いて検索を 行ない,モチーフ検索では配列の局所的な情報に基づいて機能推定を行なう.モチーフは,アミ ノ酸や DNA 配列における数残基から数十残基程度の特定の配列パターンを意味する.酵素にお ける活性部位などでは,非常に短い配列がモチーフとなることがあり,配列のモチーフを手掛か りに未知遺伝子の機能推定が行なわれる.なお,配列モチーフは遺伝子配列の進化的な考察を行 う際にも有用な情報と考えられている.ある 1 つの種の遺伝子 A と異なる種の遺伝子 B が共通祖 先由来である場合,遺伝子 A は B のオーソログであると言い,このような生物種間のゲノムの比 較は,ゲノムの機能や進化を考える上で重要なアプローチとなる. 配列データベースが充実すればするほど,配列解析を行う意義も高まり,そのためのツール開 発が必要であった.歴史的には,類似性検索のためのプログラムとして FASTA が最初に登場し, 1990年にさらに高速な BLAST(Basic Local Alignment Search Tool)が開発され(Altschul et al., 1990),現在世界的に使用されるに至った.これらのソフトでは,塩基やアミノ酸の置換・挿入・ 欠失を考慮してこれら塩基・アミノ酸の文字記号を整列させ,2 つの配列間で同じ文字やパター ンを見つけるアライメントと呼ばれる手法が使われている.配列間で相同性の高い文字パターン を検出するために,2 配列間で一致しない文字に対しては,ギャップと呼ばれるハイフン記号を 挿入して文字の整列が行なわれる.アライメントでは,1 対 1 の配列の比較だけでなく,1 つの 配列と複数の配列との同時比較を行う多重整列(マルチプルアライメント)を行うことも多く,そ の主な目的は,機能に密接に関連する配列モチーフを抽出することにある. 多重配列のアライメントを行うために種々の方法が提案されたが,確かな統計理論に基盤を置 いていることから,特に隠れマルコフモデル(Hidden Markov Model,HMM)が利用されてきた (Durbin et al., 1998).一般に塩基配列では,ある特定の位置での塩基が他の塩基へ変異した場合, その変異は以前の塩基の変異に関係なく起きるため,マルコフ連鎖に従うと仮定される.HMM では,一群のアライメントを生成するために,ギャップを想定した塩基の欠失状態,挿入状態と, 各列の一致状態を含めた 3 つの状態が確率モデルとして表現される.ある状態から次の状態に推 移が起こる度に文字を整列させ,状態間の推移確率と一致状態における各文字の出力確率を最適 化する.与えられた配列の確率は,推移確率と出力確率によって得られる.実際の配列は,3 つ の状態のいずれかのみを取るが,HMM ではアライメントの各々の列に対して全ての状態を考慮 して,あらゆる可能な組み合わせを隠された確率モデルとして評価している. 相同性検索においては,検索された配列と基の配列との相同性を統計学的に評価することが必
要である.BLAST においては配列間の類似性が偶然によるものか,偶然ではないのかを示すため に,配列間で見出された類似領域の出現頻度の期待値 E-value によって評価がなされている.こ の期待値は,データベース内で偶然に見つかる相同な配列の個数を意味し,2 つの配列が進化的 にも機能的にも全く関係なく偶然に類似する確率から計算されている.E-value が小さいほど,配 列間の類似性が高いものと判定される(菅原, 2002).このように,初期のバイオインフォマティク スにおいては配列解析がメインであり,数学・統計学などの情報科学的アルゴリズムが適用され てきた.今もなお,これらの理論は実際の配列解析で多くの生物研究者が利用している(Setubal and Meidanis, 1997). 3. オミックス(omics)データ 研究体系としてゲノムを解析する学問分野はゲノミクス(genomics),ゲノムからの転写物(mRNA) を網羅的に調べる分野はトランスクリプトミクス(transcriptomics),全タンパク質を網羅的に調 べる分野はプロテオミクス(proteomics)の用語が使われており,このように「-omics」は研究体 系を意味する接尾語として用いられている.オミックス(omics)データは,これらゲノムの変異, mRNAの遺伝子発現やタンパク質発現のデータなどを総称する新語である(児玉・仁科, 2005). 今後の個別化医療の実現に向けて,患者の臨床情報と結び付けて解析すべき重要なオミックス データとして現在注目されているものに,(1)ゲノミクスの中ではゲノム上の遺伝子変異である 一塩基多型(SNP: single nucleotide polymorphism)データ(中村, 2000; Rebbeck, 2004),(2)トラ ンスクリプトミクスの中ではマイクロアレイにより mRNA の発現量を測定する遺伝子発現デー タ(Kohane et al., 2003; 井元, 2007),(3)プロテオミクスの中では質量分析計を用いて得られる タンパク発現データがある(松浦ら, 2004; Ushijima et al., 2007).ある特定の個人のゲノム情報 は突然変異などを除き,ヒトの設計図としてほとんど変化しないが,遺伝子発現データやタンパ ク発現データは,個体の状況や環境,発現している臓器の違いに応じて変化した値を示すのが特 徴である. ゲノム上には種々の変異が存在するが,スニップ(SNP)と呼ばれる一塩基多型は,ゲノム塩基 配列中の一塩基が他の塩基に変異した多様性として知られている.ヒトゲノムには 1000 万箇所に SNPが存在すると推定されている.一塩基の違いでアミノ酸の違いが生じれば,生成されるタン パクの立体構造が変化する.したがって,SNP は様々な個人の遺伝学的体質を規定する直接の原 因となりえる.例えば,お酒に対する強さは個人によって異なる.この理由はアルコールの代謝 に関連するアルコール脱水素酵素やアセトアルデヒド脱水素酵素をコードする遺伝子上に SNP が 存在し,SNP のタイプによりこれら酵素の機能が規定されていることが判明している.同じよう に薬剤に対する感受性も SNP に関連するものと考えられており,現在,薬剤感受性関連遺伝子 の探索が行われている.一方,SNP はゲノム上に非常に多く存在するため,これをマーカーとし て利用し,疾病の易罹患性に関連する原因変異や遺伝子を探索する試みも進められている.文部 科学省のオーダーメイド医療実現化プロジェクトにおいて 30 万人の患者の DNA を採取し,SNP と疾患あるいは薬剤の効果,副作用との関連を明らかにする計画が進行中である(Web Site 3). ヒトの病気や薬に対する反応性に関わる遺伝子を発見する国際 HapMap プロジェクトは 2005 年
に Phase I が終了した(The International HapMap Consortium, 2005).これまでに日本人 44 人 を含む 4 つの人種 269 人に対して 100 万箇所以上の SNP タイピングを行い,それらの情報を公 開している(Web Site 4). 4. 個別化医療実現に向けての副作用予測システムの開発 ゲノム情報の個人差を手がかりとして個々の患者に最適な治療法を提供する「個別化医療」が 実現すれば,薬剤の投与の前に患者のゲノム関連情報を調べ,事前に治療効果や副作用を予測し, 無駄な投薬や重篤な副作用を回避することができる.特にがんの個別化医療の実現に向けては, 各抗がん剤に対する治療効果と副作用の予測が重要となる.遺伝子検査技術の革新的発展に伴い, 大量の SNP を高速に調べることができるようになり,SNP を用いて副作用予測のための薬剤感 受性関連遺伝子が探索可能となった. 薬剤感受性や疾患に関連する遺伝子を探索・同定するためには,候補遺伝子アプローチとゲノ ムワイドアプローチの 2 つのアプローチがある.候補遺伝子アプローチでは,研究目的の疾患や 副作用などの表現型に関連すると考えられる候補遺伝子を文献情報などから予め選定し,それら の遺伝子の領域内の SNP について表現型との相関を解析する.具体的には,文献情報などを基 に薬物動態関連遺伝子や炎症関連遺伝子などを複数選択し,その遺伝子上の SNP を日本人 SNP データベース(JSNP, Web Site 5)などで調べ,検査すべき SNP を特定する.このアプローチで は,まだ明らかになっていない未知のメカニズムに関連する遺伝子の探索は不可能であるが,コ ストを抑えて重要な遺伝子を検討することができる.一方,ゲノムワイドアプローチではゲノム 全体を網羅できるように,10 万ヶ所以上にわたる非常に多くの SNP を全染色体領域に対してマー カーとして設定・配置し,薬剤感受性に関連する遺伝的変異を探索する.このアプローチではゲ ノム全体を探索するため,文献上に報告されていない未知の関連遺伝子を探索することが可能で ある.以前は SNP 当たりのタイピング単価の問題もあり候補遺伝子アプローチが良く用いられた が,今後は SNP をマーカーとして使用するゲノムワイドアプローチが主流になるものと思われ る.既に,100 万箇所に近い SNP が調べられるキットが開発され使用可能となっている. ゲノムワイドと候補遺伝子のどちらのアプローチにおいても,SNP と副作用の有無との関連性 を評価するために,アソシエーション解析(association study, case-control study)と呼ばれる分割 表を基にした種々の統計学的検定が行われる.基本的な分割表は,副作用の有無別 2 種と SNP の 遺伝子型であるジェノタイプ別 3 種の 2× 3 分割表で構成される.ここで,ジェノタイプは父母 由来の 2 つの塩基の種類(アレル)の組み合わせによって決まる.例えば G と A の塩基をアレル として持つ SNP の場合,ジェノタイプは GG, GA と AA の 3 種となる.なお,1 箇所の SNP に おける塩基は通常 2 種類であり,集団内での頻度によってメジャーアレルとマイナーアレルに分 けられる.したがって,SNP のジェノタイプは,一般にはメジャーアレル 2 個をホモ接合体で持 つ場合,メジャーとマイナーなアレルを 1 個ずつヘテロ接合体で持つ場合,マイナーアレル 2 個 をホモ接合体で持つ場合の計 3 種類に分けられる. アソシエーション解析では,SNP ごとに 3 種のジェノタイプに対して副作用頻度が異なってい るかどうかを調べて関連性を評価する.もし関連が無ければ,どのジェノタイプにおいても表現
型の出現頻度はほぼ同じ程度となる.実際の計算では,各ジェノタイプでの副作用出現頻度に差 がないことを仮定した場合の 2× 3 の各セルにおける期待値を算出し,これらと実際の観測値と の乖離を測かる独立性の検定が行われる.これとは別に,ジェノタイプを併合した解析も行われ る.遺伝学では,ジェノタイプが優性または劣性に表現型と関連している場合があることが知ら れている.GG か AA のどちらか片方のホモと GA のヘテロデータを合わせ,もう片方のホモの 表現型頻度とを比較すれば,SNP が優性か劣性に働いていることを調べることができる.実際に SNPが副作用と関連している場合は,2× 3 の場合の検定よりも優性または劣性の 2 × 2 表の方 が強い関連性を示す場合がある.患者数を基にした解析ではなく,アレルの数を基にした解析も 可能である.一人の患者は 2 個のアレルを持つため,サンプル数の 2 倍の数となるアレルを基に 2× 2 の分割表が構成できる.さらに,アレル型測定の誤りを検出するためにはハーディーワイン ベルグ(HW)平衡の検定が用いられる.集団の混ぜ合わせや血族結婚などが無い等の条件の下で は,世代が変わってもその集団の遺伝子頻度と遺伝子型頻度が変化しない.この状態を HW 平衡 と呼ぶ(Falconer and Mackay, 1996).例えばある SNP が G と A のアレルを持ち,遺伝子頻度が 各々 p と q である場合,HW 平衡においては,GG, GA, AA の遺伝子型頻度は各々 p2, 2pq, q2 となる.この検定では集団が HW 平衡にあることを帰無仮説とし,棄却された場合は,表現型が 異なる 2 群は遺伝学的に別の集団である可能性が示唆される.しかし,これまでの遺伝学におけ るデータ解析の経験により,日本人集団では HW 平衡が成立していることが多いため,この検定 で棄却された場合は,SNP のアレルのタイピングにミスがあったものと判断される. 実際のデータ解析では,以上のような様々な検定が実施され(鎌谷, 2001),各 SNP の評価が行 なわれる.しかしながら,このような SNP 単独の解析だけでは,副作用関連遺伝子を見逃して しまう可能性のあることが分かってきた.次節以降では,そのようなゲノムの構造や生物学的背 景を考慮した解析の重要性について解説する. 4.1 SNP のハプロタイプ解析の重要性 副作用のみならず一般の表現型と関連するゲノム上の原因変異を探索する際に分割表を用いた 解析だけでは不十分であり,隣り合う SNP を複数集めた解析が重要となる.なぜ SNP ごとの解 析だけでは,原因変異を見逃してしまうのか,図を用いて説明する. 1本のゲノム上の SNP のセットをハプロタイプと呼ぶ(Daly et al., 2001).厳密には,SNP だ けでなく,父または母から由来する 1 本の配偶子上で比較的近隣に存在する遺伝子変異の組合せ として定義される.各個体は父母由来の 2 種類のハプロタイプを有す(図 1).ハプロタイプ内に k 個の SNP がある場合,理論的には 2k種のハプロタイプが存在するが,実際には累積集団頻度が 90 %以上となるような主要なハプロタイプの種類は,種々の民族においても 2 から 6 種程度と報 告されている(Stram et al., 2003).ここでは簡単のために,各個体のハプロタイプを集めた集団 におけるハプロタイプは 3 種類であったとする.さらに,その中でハプロタイプ 3 のみに副作用 と関連する原因変異があると仮定する.SNP3 では,原因変異があるハプロタイプ 3 のアレルは Tであり,原因変異の無いハプロタイプ 1 と 2 では SNP3 のアレルはどちらも C であり,原因変 異の有無とアレルのタイプが 1 対 1 に対応している.したがって,SNP3 であれば原因変異を特 定することができる.しかし,SNP1 ではアレルの G が原因変異と同じハプロタイプ 3 上に存在
図1. 一塩基多型(SNP)とハプロタイプ しているが,原因変異の無いハプロタイプ 2 にも同じアレル G が乗っている.同様に SNP2 を見 ると原因変異があるハプロタイプ 3 にはアレル A が存在しているが,原因変異の無いハプロタイ プ 1 にもアレル A が存在し,SNP1 も SNP2 も原因変異の有無とアレルのタイプが 1 対 1 に対応 していない.したがって,SNP1 や SNP2 を調べても原因変異を特定することはできない.実際 の状況では,どこに原因変異が存在するか不明であるため,SNP3 のようなマーカーを事前に設 定できない. 確実に原因変異を同定するには,SNP1, SNP2 と SNP3 のアレルが G, A, T の組み合わせとな るハプロタイプ 3 のみが原因変異に対応していることを利用し,ハプロタイプ別に副作用の有無 を調べれば良い.なお,集団中に主要なハプロタイプの種類が 2 種類しかない場合には,SNP の アレルも 2 種であるため常に塩基と原因変異とは 1 対 1 の関係が保持でき,SNP ごとの解析だけ で十分となる.しかし,実際の集団中のハプロタイプの種類は 3 種以上の場合が多く,事前にハ プロタイプの種類が 2 種であることもわからないため,実質上ハプロタイプを用いた解析が必要 となる. 4.2 ハプロタイプブロック同定の重要性 前節では,ハプロタイプの種類が 3 種類以上の場合,SNP ごとの解析だけでは重要な関連遺伝 子を見逃す可能性があり,ハプロタイプを用いた解析が必要になることを述べた.しかし,実際 のハプロタイプの種類はハプロタイプの長さ・領域に依存する.したがって,次の問題としては アソシエーション解析で利用すべきハプロタイプの領域を限定しなければならない. 同一染色体上での 2 つの SNP がゲノム上で位置が近い場合,2 つの SNP の間で遺伝的組換え が起こりにくく,2 つの SNP はペアとして親から子へ伝わりやすくなる.したがって,これら 2 つの SNP の分割表を作成し比べた場合,片方の SNP のアレルが決まればもう片方の SNP のア レルもほぼ決まるため,分割表で表れる数値が非常に似た結果を示す傾向がある.これは集団遺 伝学における連鎖不平衡と呼ばれる現象で,2 つの SNP の間で組換えの頻度が低いことを示す.
組換えの強さは種々の連鎖不平衡係数で測られ(鎌谷, 2001),連鎖不平衡が非常に強い場合は 2 つの分割表は完全に一致することもある.このような連鎖不平衡の強い領域の SNP を多数調べて も同じ検定結果が得られるのみであり,表現型との関連性を示す新たな有用な情報はほとんど得 られない.そこで,このような SNP をハプロタイプブロックとしてまとめれば,組み換えが起 こりやすい境界領域によってブロックに分けられる(Anderson and Novembre, 2003).この組み 替えが起こりやすいブロックの境目はホットスポットと呼ばれている. Gabriel et al. (2002)は,遺伝的組換えが起きにくい領域内の SNP をまとめれば,同じような 分割表を示す SNP をひとまとめにすることができることを利用し,2 つの SNP 間の連鎖不平衡 係数の信頼上限,信頼下限を用いて組換えの生起を判定する方法を提案した.この方法は現在一 般的に用いられているが,多数の組み合わせの結果を総合的に判定するため,個々の判定結果と 矛盾する場合が多くなる.限られた数の遺伝子領域を調べる場合は視覚的にチェックできるが, 膨大な数の領域をオートマチックに判定する場合は対処が必要である.今後有望なゲノムワイド アプローチでは膨大な数の領域を調べる必要がある.我々との共同研究で,Fujisawa et al. (2007) は,先祖ハプロタイプを考慮したハプロタイプブロック同定のための感度が良い方法を提案してい る.この方法は,膨大な数の領域であってもプログラムで自動実行可能であり,アソシエーショ ン解析に適用するのに適度な長さのブロックを検出できる. ハプロタイプブロックを同定することの統計学的メリットは,ブロック内でのハプロタイプの 種類が少なくなり,サンプル数を固定したまま副作用有無別 2 群間で調べるべき対象の数を減ら すことができ,検定における検出力が上がることにある.検出力とは,真に差がある 2 群を正し く検出できる確率である.特定のブロックに原因変異があるにもかかわらず,ブロックの同定に 失敗しハプロタイプが長くなりすぎると,本来分離すべきホットスポットを中間に含むこととな る.この場合,組み合わせ的にハプロタイプが生成され,調べるべきハプロタイプの種類が増え て検出力が低下する.ハプロタイプブロックを小さくとりすぎると,限られた数の SNP では原 因となるハプロタイプを正しく分離することができなくなり検出力が低下する.このようにハプ ロタイプブロックを正しく同定することが,実際のアソシエーション解析で検出力を上げるため に重要となる. SNPのデータ解析を行った際に,各 SNP の分割表の結果を染色体上のゲノムの位置で並べる と,観察された有意確率の p 値は 1 つの遺伝子内でも多様に分布することが多い.隣り合う 2 つ の SNP の分割表であるにもかかわらず,分割表の結果がかなり異なる場合も存在し,SNP のタ イピングの不備により結果が異なるものと判断してしまうことがある.しかし,2 つの SNP の 間には実際には距離があり,その間で組み換えが生じ,その結果として別々なブロックに属する SNPを観察しているのである.これを理解するためにはハプロタイプブロックの概念が必要なわ けである. 4.3 稀なハプロタイプの処理 SNPデータを用い,副作用と関連する遺伝子を探索するためにハプロタイプブロックを同定 し,実際のハプロタイプ別に解析を行う前段階として,対象集団中の各患者の 2 本のハプロタイ プをデータから推定することが必要となる.実際の各個体のハプロタイプの推定には,SNPAlyze
(Ohmori et al., 2003)や Haplotyper(Niu et al., 2002)のプログラムを用いることができる.Stram et al. (2003)は,推定したハプロタイプの不確定性を考慮したハプロタイプ別リスクのオッズ比 をロジスティックモデルで推定する方法を開発し,乳癌と CYP17 との研究に応用している. 各個体の 2 本ハプロタイプを推定した場合,対象集団中に 1 例あるいは数例のみに割り付け られた稀なハプロタイプが存在することがある.このような稀なハプロタイプは,進化的にはメ ジャーな先祖ハプロタイプから 1 箇所の SNP に変異が生じて分岐した可能性がある.このよう な稀なハプロタイプをそのまま多変量解析などに用いると,逆行列の計算などで不都合が生じ解 が求まらない.Tzeng(2005)は,稀なハプロタイプを進化的に先祖(または親)ハプロタイプであ ると考えられるデータ中のメジャーなハプロタイプに置き換えれば,アソシエーション解析にお ける統計学的検出力が上がることを報告している.この考えは,進化を考慮した発想に基づいて いる.親ハプロタイプ上の 1 箇所の塩基が変化して稀なハプロタイプが生じたと考えれば,親の ハプロタイプと子の稀なハプロタイプでは原因変異の有無に関しては同等であるため,ひとまと めにして解析する方がハプロタイプ数も少なくなり検出力が上がる(松浦, 2006b).Tzeng の発想 を全てのハプロタイプに拡張することも可能である.ハプロタイプブロック内に原因変異が存在 していれば,各ハプロタイプは原因変異が存在する物と存在しない物に 2 分される.従って,原 因変異が 1 種類の場合は,ハプロタイプを 2 群に分類した方が,より小さな有意確率 p 値を得ら れる場合がある.実際,我々が経験したデータ解析において,サンプル数 71 のデータに対する 2 つの SNP の分割表の p 値は 0.015 と 0.054 であったが,ハプロタイプ解析で調べると 3 種類のハ プロタイプが得られ,それぞれの頻度は 59 %, 24 %, 17 %であった.ロジスティックモデルを用 いて,この 17 %の頻度のハプロタイプをホモで持つときの副作用の予測確率を推定すると 0.9 で 最も高く,3 つのハプロタイプを変数として用いた場合のモデルの適合度の有意確率は 0.0018 で あったが,副作用が起きにくい 2 つのハプロタイプをまとめた場合の有意確率は 0.00062 まで小 さくなった.予測確率算出の概略については次節で示す. 4.4 回帰モデルを用いた副作用予測 一般に,原因と思われる複数の要因が判明している場合,多変量回帰モデルを用いて予測を行う ことができる.ここでは副作用の有無の 2 つ場合が結果として観察されているので,ロジスティッ ク回帰モデルを用いて,副作用の予測確率を算出することができる.ハプロタイプが k 種類ある 場合,副作用が有りの場合は y = 1,無い場合は y = 0 とした時の,2 値的な表現型(y = 0, 1)で y = 1となる確率は, P (y = 1) = 1/{ 1 + exp(−b0− b1x1− b2x2− ··· − bkxk)} で与えられる.bi(0 i k)は i 番目のハプロタイプの副作用効果を示す未知パラメータであり, 最尤法によって推定する.xiはハプロタイプ i に対応する説明変数であり,ハプロタイプ i を有 する場合は 1 を,有さない場合は 0 とコード化される.個体がハプロタイプの i 番目と j 番目を 持てば xi= 1, xj= 1となる.このモデルでは特定のハプロタイプのホモの効果とヘテロ単独の 効果が等しいと仮定されたモデルになる.他の説明変数のコード化やモデリングも可能である. 例えば,別のモデルとして,型 i をホモで持つ場合は xi= 2,他の x は 0 とコード化することも できる.このモデルでは,型 i の単一ハプロタイプ当たりの表現型への効果が,他のある特定の
型と比較して相対リスクが exp(bi)倍だけ変化するように仮定されている.ただし,このモデル の場合,各患者の説明変数の和が常に 2 となり説明変数行列の階数が落ちるための処理を行う必 要がある.上記のモデルにおいて,SNP が直接の原因変異である場合はハプロタイプの代わりに SNPを用いるべきである.いずれにしても,副作用に関連する遺伝的変異が見つかれば,臨床検 査キットで変異を調べ,上記のような予測を行うことができる. 臨床検査キットで使用すべき SNP の選定もハプロタイプに関連する.一般に m 種のハプロタ イプは,理論的には最低 (m− 1) 個の SNP で特定でき,このような SNP はタグ SNP と呼ばれ る.ハプロタイプ内のどの SNP をタグ SNP にするかは何通りもあり一意に定まらないが,タグ SNPが決まればハプロタイプは一意に定まる.したがって,SNP データベースが完備して調べ たいゲノム領域のタグ SNP が集団中に存在していることが判明すれば,最低の SNP 数で特定の 領域のハプロタイプを調べることができる.この事を利用して,特定の遺伝子を検査するための SNPの選定を行うことができる. 5. 今後の課題と展望 我々が行ってきた抗がん剤の副作用予測のための候補遺伝子アプローチを用いた研究では,約 500個の遺伝子に関する 3000 箇所の SNP に絞って解析を行ってきた(Web Site 6).今後は 100 万 SNP ものデータを取り扱うゲノムワイドアプローチに世界的に移行していくものと思われる. しかし,このような大量のデータを取り扱うに当たって新たな問題が生じてくる.解析を遺伝子 ごとに分割しハプロタイプブロックの同定を行い評価して行くことは,現在の計算機能力でも対 処可能である.「頻度の高い疾患で,それが遺伝と関係している場合は,その原因突然変異は家 系が異なっていても共通のものが多いであろう」(鎌谷, 2001)という Common disease common variant(CDCV)の仮説の下では,ある一つの特定のハプロタイプ上に原因変異が存在すると考 えられている.このように,単一の領域のみが表現型と関連する場合は大きな問題は生じないが, 稀な変異(rare variant)の可能性が考えられる場合は,複数の領域にまたがって関連性を調べなけ ればならず,SNP やハプロタイプブロックを組み合わせた解析を行わなければならない.そのた めには膨大な計算が必要となり,計算の実現可能性の問題が生ずる.このようなことを踏まえて, 新たな統計学的研究デザインの設計や高速な解析アルゴリズムの開発など,実データ解析におい ては実現可能な解析アプローチの方法を開発していかなければならず,未だ多くの研究すべき内 容が残されている. さらにこれまでの解析は,ゲノミクス,トランスクリプトミクス,プロテオミクスなどの各層 ごとに研究開発が進められてきたが,本来のオミックスデータ解析では,これらを統合したデー タ解析の実現が期待されている.既に一人の患者から多様なデータを取得し解析する試みも開始 されており,今後はさらにバイオインフォマティクスにおける統計科学の役割は大きくなる. 統計解析を行ったデータのみで全てを判断しなければならないような状況では,得られた有意 確率 p 値には検定の多重性の問題(牛島ら, 2006)があり,調べたモデルの数によって p 値の大きさ を調整する必要もある.これとは別に,データ解析の後に生物学的な実験などが行われて,デー タ解析の結果が別途検証されるような状況では,p 値はスクリーニングの相対的判断基準として
用いられる場合もある.いずれにしても,同じデータに対して,様々な可能性を考慮して最良の モデルを探索していくことは非常に重要である. ハプロタイプはゲノムの物理的構造であると言えるが,ハプロタイプの種類を考える場合には 進化という生物学的構造が関連している.生物の表現型を規定する遺伝子や原因変異などのゲノ ム構造も進化の流れの中で形作られたわけであるので,その過程や生物現象を考慮してデータ解 析を行うことの意義と重要性は大きい. 謝 辞 本稿の内容に関してこれまで様々な資料,情報,コメントをいただいた財団法人癌研究会ゲノ ムセンターの磯村 実先生,三木義男博士,野田哲生博士ならびに,統計数理研究所の江口真透教 授,藤澤洋徳準教授に感謝いたします. 参考文献
Altschul, S.F., Gish, W., Miller, W., Myers, E.W. and Lipman, D.J. (1990). Basic local alignment search tool. Journal of Molecular Biology, 215 (3), 403–410.
Anderson, E.C. and Novembre, J. (2003). Finding haplotype block boundaries by using the minimum-description-length principle. American Journal of Human Genetics, 73, 336–354. Arthur, M.L. (2002). Introduction to Bioinformatics. Oxford University Press. (岡崎康司, 坊農 秀雅 監訳 (2003). バイオインフォマティクス基礎講義. メディカル・サイエンス・インター ナショナル)
Brown, T.A. (1999). Genome. BIOS Scientific Publisher Ltd. (村松正實 監訳 (2000). ゲノム. メ ディカル・サイエンス・インターナショナル)
Daly, M.J., Rioux, J.D., Schaffner, S.F. et al. (2001). High-resolution haplotype structure in the human genome. Nature Genetics, 29, 229–232.
Doolittle, R.F., Hunkapiller, M.W., Hood, L.E. et al. (1983). Simian sarcoma virus onc gene, v-sis, is derived from the gene (or genes) encoding a platelet-derived growth factor. Science,
221, 275–277.
Durbin, R., Eddy, S.R., Krogh, A. and Mitchison, G. (1998). Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press. (阿久津達 也, 浅井 潔, 矢田哲士 訳 (2001). バイオインフォマティクス 確率モデルによる遺伝子配列 解析 . 医学出版)
江口真透 (2005). 数理統計学とチップ解析. バイオテクノロジージャーナル, 5(4), 430–435. 坊農秀雅 (2002). バイオインフォマティクス入門. 羊土社.
Fujisawa, H., Isomura, M., Eguchi, S., Ushijima, M., Miyata, S., Miki, Y. and Matsuura, M. (2007). Identifying haplotype block structure using an ancestor-derived model. Journal of
Human Genetics, 52(9), 738–746.
Gabriel, S.B., Schaffner, S.F., Nguyen, H. et al. (2002). The structure of haplotype blocks in the human genome. Science, 296, 2225–2229.
井元清哉 (2007). マイクロアレイ遺伝子発現データからの遺伝子間因果に関する知識発見. 日本統 計学会誌, 37, 55–70.
鎌谷直之 (2001). ポストゲノム時代の遺伝統計学. 羊土社. 児玉龍彦, 仁科博通 (2005). システム生物医学入門. 羊土社.
Kohane, I.S., Kho, A.T. and Butte, A.J. (2003). Microarrays for integrative genomics. Springer. (星田有人 訳 (2004). 統合ゲノミクスのためのマイクロアレイデータアナリシス. シュプリン ガー・ジャパン)
Kundsen, S. (2002). A Biologist’s guide to analysis of DNA microaary data. John Wiley & Sons, Inc. (塩島 聡, 松本 治, 辻本豪三 監訳. (2002). わかる ! 使える ! DNA マイクロアレイデータ 解析入門. 羊土社) 中村祐輔 (2000a). SNP 解析・マイクロアレーによる創薬とオーダーメイド医療. 羊土社. 中村祐輔 (2000b). SNP 遺伝子多型の戦略. 中山書店. 松浦正明 (2004). 癌の診断・治療へ向けてのバイオインフォマティクス. 実験医学, 22(14), 1949– 1953. 松浦正明, 牛嶋 大, 宮田敏 (2004). メディカルインフォマティクスのためのゲノム関連データの解 析法とその問題点. 計量生物学, 25(2), 117–134. 松浦正明, 牛嶋 大, 宮田 敏 (2005a). バイオインフォマティクスがもたらす癌研究と診断. ゲノム 医学, 5(2), 137–141. 松浦正明, 牛嶋 大, 宮田 敏 (2005b). ゲノム関連データの解析. ファルマシア, 41, 427–432. 松浦正明 (2006a). バイオインフォマティクス. 日本臨床腫瘍学会編: 新臨床腫瘍学, 75–78, 南 江堂. 松浦正明 (2006b). ゲノム多様性と抗癌剤副作用 関連遺伝子探索のための方法論について . 肺 癌, 46(3), 253–258. 松浦正明, 牛嶋 大, 宮田 敏 (2006). 癌患者の遺伝的体質診断と遺伝的個性診断に向けてのバイオ インフォマティクス. BioTherapy, l20(3), 253-259. 松浦正明, 牛嶋 大, 宮田 敏 (2006). 臨床情報と OMICS 情報のバイオインフォマティクス的アプ ローチ. 生体医工学, 44(3), 390–396.
Mount, D.W. (2001). Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Lab-oratory Press. (岡崎康司・坊農秀雅 監訳 (2003). バイオインフォマティクスゲノム配列から 機能解析へ. メディカル・サイエンス・インターナショナル)
Niu, T., Qin, Z.S., Xu, X. et al. (2002). Bayesian haplotype inference for multiple linked single-nucleotide polymorphisms. American Journal of Human Genetics, 70, 157–169.
Ohmori, H., Makita, Y., Funamizu, M. et al. (2003). Haplotype analysis of the human collection placenta 1 (hCL-P1) gene. Journal of Human Genetics, 48, 82–85.
Rebbeck, T.R., Ambrosone, C.B., Bell, D.A. et al. (2004). SNPs, haplotypes, and cancer: ap-plications in molecular epidemiology. Cancer Epidemiology, Biomarkers & Prevention, 13, 681–687.
Setubal, J.C. and Meidanis, J. (1997). Introduction to computational molecular biology. Brooks/Cole Publishing Co. (五條堀孝 監訳 (2001). 分子生物学のためのバイオインフォ マティクス入門. 共立出版)
高木利久 (2004). バイオインフォマティクス集中講義. 羊土社.
The International HapMap Consortium. (2005). A haplotype map of the human genome. Nature,
437, 1299–1320.
Tzeng, J.Y. (2005). Evolutionary-based grouping of haplotypes in association analysis. Genetic
Epidemiology, 28, 220–231.
菅原秀明 (2002). あなたにも役立つバイオインフォマティクス. 共立出版.
Stram, D.O., Pearce, C.L., Bretsky, P. et al. (2003). Modeling and E-M estimation of haplotype-specific relative risks from genotype data for a case-control study of unrelated individuals.
Human Heredity, 55, 179–190.
Ushijima, M., Miyata, S., Eguchi, S., Kawakita, M., Yoshimoto, M., Iwase, T., Akiyama, F., Sakamoto, G., Nagasaki, K., Miki, Y., Noda, T., Hoshikawa, Y. and Matsuura, M. (2007). Common peak approach using mass spectrometry data sets for predicting the effects of anticancer drugs on breast cancer. Cancer Informatics, 3, 285–293.
Watson, J.D. and Crick, F.H.C. (1953). A structure for deoxyribose nucleic acid. Nature, 171, 737–738. Web Site 1) http://www.geocities.com/bioinformaticsweb/ 2) http://discover.nci.nih.gov/tools.jsp 3) http://www.biobankjp.org/ 4) http://www.hapmap.org/
5) http://snp.ims.u-tokyo.ac.jp/index ja.html