最近検索した

検索結果がありません。

タグ

検索結果がありません。

ドキュメント

検索結果がありません。

アップロード

ホーム学校トピック

ログイン

Vol. 32, Special Issue, S 51 S 64 (2011) 1. Web Site 1 gene chromosome Arthur, 2002;, 2002;, 2004; Web Site 2 Knudesen, 20

シェア "Vol. 32, Special Issue, S 51 S 64 (2011) 1. Web Site 1 gene chromosome Arthur, 2002;, 2002;, 2004; Web Site 2 Knudesen, 20"

N/A

N/A

Protected

学年: 2021

Info

ダウンロード

Protected

Academic year: 2021

シェア "Vol. 32, Special Issue, S 51 S 64 (2011) 1. Web Site 1 gene chromosome Arthur, 2002;, 2002;, 2004; Web Site 2 Knudesen, 20"

Copied!

14

0

0

14

0

0

読み込み中.... (全文を見る)

今ダウンロードする ( 14 ページ )

全文

(1)

バイオインフォマティクスと統計学

個別化医療のためのオミックスデータ解析

松浦正明公益財団法人がん研究会がん研究所 e-mail:[email protected] 1. はじめに バイオインフォマティクスは，生物学（バイオロジー）と情報学（インフォマティクス）を融合させ，生命における様々な現象を解明しようする新たな学問分野として誕生した．この新しい分野では，膨大なゲノム関連情報が取り扱われるため，数学，統計学ならびにコンピュータサイエンスの利用が重要となる（Web Site 1）．ゲノムとは，遺伝子（gene）と染色体（chromosome）を合わせた造語である．これまでのバイオインフォマティクス研究では，ゲノム関連データベースを利用した配列解析を中心とし，遺伝子予測やタンパク質構造解析などが行われ，そのためのアルゴリズムやツール開発に焦点が当てられてきた（Arthur, 2002; 坊農, 2002; 高木, 2004; Web Site 2）．またその一方で，一人のヒトの数万に及ぶゲノムの変異や遺伝子の発現情報を一枚のスライド上の実験で一度に取得できるマイクロアレイが半導体技術を応用して開発されたことにより，大量かつ包括的なデータを用いて生命現象を解明する新たなデータ解析技術が必要となってきた（Knudesen, 2002; 江口, 2005）．現在，このようなゲノム関連情報や革新的技術を応用し，患者一人ひとりの遺伝学的特徴を考慮した医療や投薬を行なう「個別化医療」・「テーラーメイド医療」の早期実現が望まれている（中村, 2000a）．そのための研究においてバイオインフォマティクスは大量のゲノム情報を取り扱える分野であると期待されており，その中でも統計学はデータ解析を担うべき重要な位置を占めている．特にがんの個別化医療においては，抗がん剤に対する各患者の治療効果予測と副作用予測が重要となる（松浦, 2004; 宮田ら, 2004）．このような治療感受性予測を行うためには重要な関連遺伝子や生体分子の発見・探索が先決である．統計学はこの分野でも役割は大きく，「予測」や「判別」という点から個別化医療研究と密接に関連している（松浦ら, 2004, 2005a,b; Ushijima et al., 2006）．

ヒトの設計図であるゲノム情報の全てを解読できる次世代高速シーケンサーの開発は間近であり，近い将来，個々の人が自分自身の全ゲノム情報を把握することができるようになる．このような状況をふまえ，現在の医学分野では，基礎研究から臨床研究への「橋渡しの研究（トランスレーショナルリサーチ）」が重要視されており，その具体的な研究内容を進展させるために，遺伝的変異やマイクロアレイデータの解析において，新たなバイオインフォマティクス手法の開発に

(2)

期待が掛けられている．本稿では，バイオインフォマティクスが発展してきた経緯をゲノム科学の歴史に沿って概観し，統計学と密接に関連するトピックスとして，バイオインフォマティクス発展の契機となった未知遺伝子の機能推定のための配列解析に関連する話題を紹介する．さらに，がんの個別化医療の実現に向けた研究におけるオミックス（omics）データ解析の一端として，特に副作用予測のための関連遺伝子の探索において，ゲノムの構造やデータの生物学的特徴を考慮した統計解析法が重要であることを解説する． 2. バイオインフォマティクスの誕生 地球上のほぼ全ての生物は，生命の設計図として，遺伝子情報を担う高分子生体物質であるデオキシリボ核酸（DNA）を持っている．Watson and Crick (1953) により DNA の 2 重らせん構造が発見され，その後 DNA を実験材料とする分子生物学が発展してきた．ヒトのゲノムは，アデニン（A），チミン（T），グアニン（G）とシトシン（C）の 4 種類の塩基が約 30 億個も繋がって構成されている．約 30 億塩基対のゲノム配列中の約 0.1 0.5 %が個体間で異なっていると推測され，これらの個体ごとのわずかなゲノムの違いが，体質の個人差の遺伝学的原因と考えられている．生体内ではゲノム上の遺伝子が転写されて一旦メッセンジャー RNA（mRNA）ができ，これが翻訳されてタンパク質が作られる．この流れは生物学でセントラルドグマと呼ばれ，1958 年にクリックが始めて提唱したものである．ゲノム上の 3 個の塩基で 1 つのアミノ酸が構成され，塩基の組み合わせにより 20 種ほどのアミノ酸が体内で生成される．代謝の触媒として働く酵素や生体構造を形成するコラーゲンなど，生体内で多種多様な機能をつかさどるタンパク質は，これら 20 種類のアミノ酸が繋がって構成されたものである（Brown, 1999）．1960 年代，Dayhoﬀ らはタンパク質のアミノ酸配列を世界で初めてデータベース化した． 1983年，バイオインフォマティクスの発展の契機となる発見が Doolittle et al. (1983) らによっ てなされた．ウイルスにコードされた v-sis がん遺伝子のタンパク質アミノ酸配列を調べ，既に データベースに登録されているアミノ酸配列と比較してみたところ，そのがん遺伝子のタンパク質アミノ酸配列は，正常細胞における血小板由来の増殖因子の遺伝子に由来していることが判明したのである．このようにして Doolittle らの研究は，ウイルスがん遺伝子の機能の同定に世界で初めて貢献することとなった．この研究により，生物学研究におけるデータベースの利用の有効性が認識され，その後の各種データベースの構築に拍車が掛けられた．1990 年には，アメリカのエネルギー省と厚生省によって 30 億ドルもの予算が組まれてヒトゲノム計画が発足し，各国の大学およびゲノムセンターなどによる国際ヒトゲノム配列コンソーシアムが組織され，ヒトのゲノムの全塩基配列を調べるプロジェクトが始まった．2003 年 4 月，99.99 %の正確さを持つと言われるヒトゲノム配列の解読完了が 6 カ国の首脳により共同宣言され，プロジェクトは完了した．これらの研究によりヒトには約 22000 程度の遺伝子が存在していると推定された（International Human Genome Sequencing Consortium, 2004）．配列情報は NCBI や UCSC のデータベース上で公開されて，現在も配列情報の更新作業は継続している．ヒトゲノム配列の解読はほぼ完了したが，遺伝子の機能が全て解明されたわけではない．現在，研究の焦点は配列情報と生命現象を

(3)

結びつける機能解析に移り，新たな手法の開発がバイオインフォマティクスに望まれている． 2.1 未知遺伝子の機能推定のための配列解析 バイオインフォマティクスの進展において，塩基やアミノ酸の配列解析は大きな地位を占め，そこに統計学の考え方や手法が適用されてきた（Mount, 2001; 松浦, 2006a）．機能が未知である遺伝子の塩基やアミノ酸の配列が判明すれば，既存の遺伝子配列データベースを用い，既に機能が判明している遺伝子配列からある程度の遺伝子機能が推定できる場合がある．もちろん，過去に得られた配列とは全く異なる新規の遺伝子配列に対する遺伝子機能の探索は無理であるが，一般に新しく配列情報を得た場合，過去の結果を参照し解析を試みることは重要である．その解析手法には相同性（ホモロジー）検索とモチーフ検索がある．相同性検索では配列全体を用いて検索を行ない，モチーフ検索では配列の局所的な情報に基づいて機能推定を行なう．モチーフは，アミノ酸や DNA 配列における数残基から数十残基程度の特定の配列パターンを意味する．酵素における活性部位などでは，非常に短い配列がモチーフとなることがあり，配列のモチーフを手掛かりに未知遺伝子の機能推定が行なわれる．なお，配列モチーフは遺伝子配列の進化的な考察を行う際にも有用な情報と考えられている．ある 1 つの種の遺伝子 A と異なる種の遺伝子 B が共通祖先由来である場合，遺伝子 A は B のオーソログであると言い，このような生物種間のゲノムの比較は，ゲノムの機能や進化を考える上で重要なアプローチとなる．配列データベースが充実すればするほど，配列解析を行う意義も高まり，そのためのツール開発が必要であった．歴史的には，類似性検索のためのプログラムとして FASTA が最初に登場し， 1990年にさらに高速な BLAST（Basic Local Alignment Search Tool）が開発され（Altschul et al., 1990），現在世界的に使用されるに至った．これらのソフトでは，塩基やアミノ酸の置換・挿入・欠失を考慮してこれら塩基・アミノ酸の文字記号を整列させ，2 つの配列間で同じ文字やパターンを見つけるアライメントと呼ばれる手法が使われている．配列間で相同性の高い文字パターンを検出するために，2 配列間で一致しない文字に対しては，ギャップと呼ばれるハイフン記号を挿入して文字の整列が行なわれる．アライメントでは，1 対 1 の配列の比較だけでなく，1 つの配列と複数の配列との同時比較を行う多重整列（マルチプルアライメント）を行うことも多く，その主な目的は，機能に密接に関連する配列モチーフを抽出することにある．多重配列のアライメントを行うために種々の方法が提案されたが，確かな統計理論に基盤を置いていることから，特に隠れマルコフモデル（Hidden Markov Model，HMM）が利用されてきた（Durbin et al., 1998）．一般に塩基配列では，ある特定の位置での塩基が他の塩基へ変異した場合，その変異は以前の塩基の変異に関係なく起きるため，マルコフ連鎖に従うと仮定される．HMM では，一群のアライメントを生成するために，ギャップを想定した塩基の欠失状態，挿入状態と，各列の一致状態を含めた 3 つの状態が確率モデルとして表現される．ある状態から次の状態に推移が起こる度に文字を整列させ，状態間の推移確率と一致状態における各文字の出力確率を最適化する．与えられた配列の確率は，推移確率と出力確率によって得られる．実際の配列は，3 つの状態のいずれかのみを取るが，HMM ではアライメントの各々の列に対して全ての状態を考慮して，あらゆる可能な組み合わせを隠された確率モデルとして評価している．相同性検索においては，検索された配列と基の配列との相同性を統計学的に評価することが必

(4)

要である．BLAST においては配列間の類似性が偶然によるものか，偶然ではないのかを示すために，配列間で見出された類似領域の出現頻度の期待値 E-value によって評価がなされている．この期待値は，データベース内で偶然に見つかる相同な配列の個数を意味し，2 つの配列が進化的にも機能的にも全く関係なく偶然に類似する確率から計算されている．E-value が小さいほど，配列間の類似性が高いものと判定される（菅原, 2002）．このように，初期のバイオインフォマティクスにおいては配列解析がメインであり，数学・統計学などの情報科学的アルゴリズムが適用されてきた．今もなお，これらの理論は実際の配列解析で多くの生物研究者が利用している（Setubal and Meidanis, 1997）． 3. オミックス（omics）データ 研究体系としてゲノムを解析する学問分野はゲノミクス（genomics），ゲノムからの転写物（mRNA）を網羅的に調べる分野はトランスクリプトミクス（transcriptomics），全タンパク質を網羅的に調べる分野はプロテオミクス（proteomics）の用語が使われており，このように「-omics」は研究体系を意味する接尾語として用いられている．オミックス（omics）データは，これらゲノムの変異， mRNAの遺伝子発現やタンパク質発現のデータなどを総称する新語である（児玉・仁科, 2005）．今後の個別化医療の実現に向けて，患者の臨床情報と結び付けて解析すべき重要なオミックスデータとして現在注目されているものに，（1）ゲノミクスの中ではゲノム上の遺伝子変異である一塩基多型（SNP: single nucleotide polymorphism）データ（中村, 2000; Rebbeck, 2004），（2）トランスクリプトミクスの中ではマイクロアレイにより mRNA の発現量を測定する遺伝子発現データ（Kohane et al., 2003; 井元, 2007），（3）プロテオミクスの中では質量分析計を用いて得られるタンパク発現データがある（松浦ら, 2004; Ushijima et al., 2007）．ある特定の個人のゲノム情報は突然変異などを除き，ヒトの設計図としてほとんど変化しないが，遺伝子発現データやタンパク発現データは，個体の状況や環境，発現している臓器の違いに応じて変化した値を示すのが特徴である．ゲノム上には種々の変異が存在するが，スニップ（SNP）と呼ばれる一塩基多型は，ゲノム塩基配列中の一塩基が他の塩基に変異した多様性として知られている．ヒトゲノムには 1000 万箇所に SNPが存在すると推定されている．一塩基の違いでアミノ酸の違いが生じれば，生成されるタンパクの立体構造が変化する．したがって，SNP は様々な個人の遺伝学的体質を規定する直接の原因となりえる．例えば，お酒に対する強さは個人によって異なる．この理由はアルコールの代謝に関連するアルコール脱水素酵素やアセトアルデヒド脱水素酵素をコードする遺伝子上に SNP が存在し，SNP のタイプによりこれら酵素の機能が規定されていることが判明している．同じように薬剤に対する感受性も SNP に関連するものと考えられており，現在，薬剤感受性関連遺伝子の探索が行われている．一方，SNP はゲノム上に非常に多く存在するため，これをマーカーとして利用し，疾病の易罹患性に関連する原因変異や遺伝子を探索する試みも進められている．文部科学省のオーダーメイド医療実現化プロジェクトにおいて 30 万人の患者の DNA を採取し，SNP と疾患あるいは薬剤の効果，副作用との関連を明らかにする計画が進行中である（Web Site 3）．ヒトの病気や薬に対する反応性に関わる遺伝子を発見する国際 HapMap プロジェクトは 2005 年

(5)

に Phase I が終了した（The International HapMap Consortium, 2005）．これまでに日本人 44 人を含む 4 つの人種 269 人に対して 100 万箇所以上の SNP タイピングを行い，それらの情報を公開している（Web Site 4）． 4. 個別化医療実現に向けての副作用予測システムの開発 ゲノム情報の個人差を手がかりとして個々の患者に最適な治療法を提供する「個別化医療」が実現すれば，薬剤の投与の前に患者のゲノム関連情報を調べ，事前に治療効果や副作用を予測し，無駄な投薬や重篤な副作用を回避することができる．特にがんの個別化医療の実現に向けては，各抗がん剤に対する治療効果と副作用の予測が重要となる．遺伝子検査技術の革新的発展に伴い，大量の SNP を高速に調べることができるようになり，SNP を用いて副作用予測のための薬剤感受性関連遺伝子が探索可能となった．薬剤感受性や疾患に関連する遺伝子を探索・同定するためには，候補遺伝子アプローチとゲノムワイドアプローチの 2 つのアプローチがある．候補遺伝子アプローチでは，研究目的の疾患や副作用などの表現型に関連すると考えられる候補遺伝子を文献情報などから予め選定し，それらの遺伝子の領域内の SNP について表現型との相関を解析する．具体的には，文献情報などを基に薬物動態関連遺伝子や炎症関連遺伝子などを複数選択し，その遺伝子上の SNP を日本人 SNP データベース（JSNP, Web Site 5）などで調べ，検査すべき SNP を特定する．このアプローチでは，まだ明らかになっていない未知のメカニズムに関連する遺伝子の探索は不可能であるが，コストを抑えて重要な遺伝子を検討することができる．一方，ゲノムワイドアプローチではゲノム全体を網羅できるように，10 万ヶ所以上にわたる非常に多くの SNP を全染色体領域に対してマーカーとして設定・配置し，薬剤感受性に関連する遺伝的変異を探索する．このアプローチではゲノム全体を探索するため，文献上に報告されていない未知の関連遺伝子を探索することが可能である．以前は SNP 当たりのタイピング単価の問題もあり候補遺伝子アプローチが良く用いられたが，今後は SNP をマーカーとして使用するゲノムワイドアプローチが主流になるものと思われる．既に，100 万箇所に近い SNP が調べられるキットが開発され使用可能となっている．ゲノムワイドと候補遺伝子のどちらのアプローチにおいても，SNP と副作用の有無との関連性を評価するために，アソシエーション解析（association study, case-control study）と呼ばれる分割表を基にした種々の統計学的検定が行われる．基本的な分割表は，副作用の有無別 2 種と SNP の遺伝子型であるジェノタイプ別 3 種の 2× 3 分割表で構成される．ここで，ジェノタイプは父母由来の 2 つの塩基の種類（アレル）の組み合わせによって決まる．例えば G と A の塩基をアレルとして持つ SNP の場合，ジェノタイプは GG, GA と AA の 3 種となる．なお，1 箇所の SNP における塩基は通常 2 種類であり，集団内での頻度によってメジャーアレルとマイナーアレルに分けられる．したがって，SNP のジェノタイプは，一般にはメジャーアレル 2 個をホモ接合体で持つ場合，メジャーとマイナーなアレルを 1 個ずつヘテロ接合体で持つ場合，マイナーアレル 2 個をホモ接合体で持つ場合の計 3 種類に分けられる．アソシエーション解析では，SNP ごとに 3 種のジェノタイプに対して副作用頻度が異なっているかどうかを調べて関連性を評価する．もし関連が無ければ，どのジェノタイプにおいても表現

(6)

型の出現頻度はほぼ同じ程度となる．実際の計算では，各ジェノタイプでの副作用出現頻度に差がないことを仮定した場合の 2× 3 の各セルにおける期待値を算出し，これらと実際の観測値との乖離を測かる独立性の検定が行われる．これとは別に，ジェノタイプを併合した解析も行われる．遺伝学では，ジェノタイプが優性または劣性に表現型と関連している場合があることが知られている．GG か AA のどちらか片方のホモと GA のヘテロデータを合わせ，もう片方のホモの表現型頻度とを比較すれば，SNP が優性か劣性に働いていることを調べることができる．実際に SNPが副作用と関連している場合は，2× 3 の場合の検定よりも優性または劣性の 2 × 2 表の方が強い関連性を示す場合がある．患者数を基にした解析ではなく，アレルの数を基にした解析も可能である．一人の患者は 2 個のアレルを持つため，サンプル数の 2 倍の数となるアレルを基に 2× 2 の分割表が構成できる．さらに，アレル型測定の誤りを検出するためにはハーディーワインベルグ（HW）平衡の検定が用いられる．集団の混ぜ合わせや血族結婚などが無い等の条件の下では，世代が変わってもその集団の遺伝子頻度と遺伝子型頻度が変化しない．この状態を HW 平衡と呼ぶ（Falconer and Mackay, 1996）．例えばある SNP が G と A のアレルを持ち，遺伝子頻度が 各々 p と q である場合，HW 平衡においては，GG, GA, AA の遺伝子型頻度は各々 p2, 2pq, q2 となる．この検定では集団が HW 平衡にあることを帰無仮説とし，棄却された場合は，表現型が異なる 2 群は遺伝学的に別の集団である可能性が示唆される．しかし，これまでの遺伝学におけるデータ解析の経験により，日本人集団では HW 平衡が成立していることが多いため，この検定で棄却された場合は，SNP のアレルのタイピングにミスがあったものと判断される．実際のデータ解析では，以上のような様々な検定が実施され（鎌谷, 2001），各 SNP の評価が行なわれる．しかしながら，このような SNP 単独の解析だけでは，副作用関連遺伝子を見逃してしまう可能性のあることが分かってきた．次節以降では，そのようなゲノムの構造や生物学的背景を考慮した解析の重要性について解説する． 4.1 SNP のハプロタイプ解析の重要性 副作用のみならず一般の表現型と関連するゲノム上の原因変異を探索する際に分割表を用いた解析だけでは不十分であり，隣り合う SNP を複数集めた解析が重要となる．なぜ SNP ごとの解析だけでは，原因変異を見逃してしまうのか，図を用いて説明する． 1本のゲノム上の SNP のセットをハプロタイプと呼ぶ（Daly et al., 2001）．厳密には，SNP だけでなく，父または母から由来する 1 本の配偶子上で比較的近隣に存在する遺伝子変異の組合せ として定義される．各個体は父母由来の 2 種類のハプロタイプを有す（図 1）．ハプロタイプ内に k 個の SNP がある場合，理論的には 2k種のハプロタイプが存在するが，実際には累積集団頻度が 90 %以上となるような主要なハプロタイプの種類は，種々の民族においても 2 から 6 種程度と報告されている（Stram et al., 2003）．ここでは簡単のために，各個体のハプロタイプを集めた集団におけるハプロタイプは 3 種類であったとする．さらに，その中でハプロタイプ 3 のみに副作用と関連する原因変異があると仮定する．SNP3 では，原因変異があるハプロタイプ 3 のアレルは Tであり，原因変異の無いハプロタイプ 1 と 2 では SNP3 のアレルはどちらも C であり，原因変異の有無とアレルのタイプが 1 対 1 に対応している．したがって，SNP3 であれば原因変異を特定することができる．しかし，SNP1 ではアレルの G が原因変異と同じハプロタイプ 3 上に存在

(7)

図1. 一塩基多型（SNP）とハプロタイプ しているが，原因変異の無いハプロタイプ 2 にも同じアレル G が乗っている．同様に SNP2 を見ると原因変異があるハプロタイプ 3 にはアレル A が存在しているが，原因変異の無いハプロタイプ 1 にもアレル A が存在し，SNP1 も SNP2 も原因変異の有無とアレルのタイプが 1 対 1 に対応していない．したがって，SNP1 や SNP2 を調べても原因変異を特定することはできない．実際の状況では，どこに原因変異が存在するか不明であるため，SNP3 のようなマーカーを事前に設定できない．確実に原因変異を同定するには，SNP1, SNP2 と SNP3 のアレルが G, A, T の組み合わせとなるハプロタイプ 3 のみが原因変異に対応していることを利用し，ハプロタイプ別に副作用の有無を調べれば良い．なお，集団中に主要なハプロタイプの種類が 2 種類しかない場合には，SNP のアレルも 2 種であるため常に塩基と原因変異とは 1 対 1 の関係が保持でき，SNP ごとの解析だけで十分となる．しかし，実際の集団中のハプロタイプの種類は 3 種以上の場合が多く，事前にハプロタイプの種類が 2 種であることもわからないため，実質上ハプロタイプを用いた解析が必要となる． 4.2 ハプロタイプブロック同定の重要性 前節では，ハプロタイプの種類が 3 種類以上の場合，SNP ごとの解析だけでは重要な関連遺伝子を見逃す可能性があり，ハプロタイプを用いた解析が必要になることを述べた．しかし，実際のハプロタイプの種類はハプロタイプの長さ・領域に依存する．したがって，次の問題としてはアソシエーション解析で利用すべきハプロタイプの領域を限定しなければならない．同一染色体上での 2 つの SNP がゲノム上で位置が近い場合，2 つの SNP の間で遺伝的組換えが起こりにくく，2 つの SNP はペアとして親から子へ伝わりやすくなる．したがって，これら 2 つの SNP の分割表を作成し比べた場合，片方の SNP のアレルが決まればもう片方の SNP のアレルもほぼ決まるため，分割表で表れる数値が非常に似た結果を示す傾向がある．これは集団遺伝学における連鎖不平衡と呼ばれる現象で，2 つの SNP の間で組換えの頻度が低いことを示す．

(8)

組換えの強さは種々の連鎖不平衡係数で測られ（鎌谷, 2001），連鎖不平衡が非常に強い場合は 2 つの分割表は完全に一致することもある．このような連鎖不平衡の強い領域の SNP を多数調べても同じ検定結果が得られるのみであり，表現型との関連性を示す新たな有用な情報はほとんど得られない．そこで，このような SNP をハプロタイプブロックとしてまとめれば，組み換えが起こりやすい境界領域によってブロックに分けられる（Anderson and Novembre, 2003）．この組み替えが起こりやすいブロックの境目はホットスポットと呼ばれている． Gabriel et al. (2002)は，遺伝的組換えが起きにくい領域内の SNP をまとめれば，同じような分割表を示す SNP をひとまとめにすることができることを利用し，2 つの SNP 間の連鎖不平衡係数の信頼上限，信頼下限を用いて組換えの生起を判定する方法を提案した．この方法は現在一般的に用いられているが，多数の組み合わせの結果を総合的に判定するため，個々の判定結果と矛盾する場合が多くなる．限られた数の遺伝子領域を調べる場合は視覚的にチェックできるが，膨大な数の領域をオートマチックに判定する場合は対処が必要である．今後有望なゲノムワイドアプローチでは膨大な数の領域を調べる必要がある．我々との共同研究で，Fujisawa et al. (2007) は，先祖ハプロタイプを考慮したハプロタイプブロック同定のための感度が良い方法を提案している．この方法は，膨大な数の領域であってもプログラムで自動実行可能であり，アソシエーション解析に適用するのに適度な長さのブロックを検出できる．ハプロタイプブロックを同定することの統計学的メリットは，ブロック内でのハプロタイプの種類が少なくなり，サンプル数を固定したまま副作用有無別 2 群間で調べるべき対象の数を減らすことができ，検定における検出力が上がることにある．検出力とは，真に差がある 2 群を正しく検出できる確率である．特定のブロックに原因変異があるにもかかわらず，ブロックの同定に失敗しハプロタイプが長くなりすぎると，本来分離すべきホットスポットを中間に含むこととなる．この場合，組み合わせ的にハプロタイプが生成され，調べるべきハプロタイプの種類が増えて検出力が低下する．ハプロタイプブロックを小さくとりすぎると，限られた数の SNP では原因となるハプロタイプを正しく分離することができなくなり検出力が低下する．このようにハプロタイプブロックを正しく同定することが，実際のアソシエーション解析で検出力を上げるために重要となる． SNPのデータ解析を行った際に，各 SNP の分割表の結果を染色体上のゲノムの位置で並べると，観察された有意確率の p 値は 1 つの遺伝子内でも多様に分布することが多い．隣り合う 2 つの SNP の分割表であるにもかかわらず，分割表の結果がかなり異なる場合も存在し，SNP のタイピングの不備により結果が異なるものと判断してしまうことがある．しかし，2 つの SNP の間には実際には距離があり，その間で組み換えが生じ，その結果として別々なブロックに属する SNPを観察しているのである．これを理解するためにはハプロタイプブロックの概念が必要なわけである． 4.3 稀なハプロタイプの処理 SNPデータを用い，副作用と関連する遺伝子を探索するためにハプロタイプブロックを同定し，実際のハプロタイプ別に解析を行う前段階として，対象集団中の各患者の 2 本のハプロタイプをデータから推定することが必要となる．実際の各個体のハプロタイプの推定には，SNPAlyze

(9)

（Ohmori et al., 2003）や Haplotyper（Niu et al., 2002）のプログラムを用いることができる．Stram et al. (2003)は，推定したハプロタイプの不確定性を考慮したハプロタイプ別リスクのオッズ比 をロジスティックモデルで推定する方法を開発し，乳癌と CYP17 との研究に応用している． 各個体の 2 本ハプロタイプを推定した場合，対象集団中に 1 例あるいは数例のみに割り付けられた稀なハプロタイプが存在することがある．このような稀なハプロタイプは，進化的にはメジャーな先祖ハプロタイプから 1 箇所の SNP に変異が生じて分岐した可能性がある．このような稀なハプロタイプをそのまま多変量解析などに用いると，逆行列の計算などで不都合が生じ解が求まらない．Tzeng（2005）は，稀なハプロタイプを進化的に先祖（または親）ハプロタイプであると考えられるデータ中のメジャーなハプロタイプに置き換えれば，アソシエーション解析における統計学的検出力が上がることを報告している．この考えは，進化を考慮した発想に基づいている．親ハプロタイプ上の 1 箇所の塩基が変化して稀なハプロタイプが生じたと考えれば，親のハプロタイプと子の稀なハプロタイプでは原因変異の有無に関しては同等であるため，ひとまとめにして解析する方がハプロタイプ数も少なくなり検出力が上がる（松浦, 2006b）．Tzeng の発想を全てのハプロタイプに拡張することも可能である．ハプロタイプブロック内に原因変異が存在していれば，各ハプロタイプは原因変異が存在する物と存在しない物に 2 分される．従って，原因変異が 1 種類の場合は，ハプロタイプを 2 群に分類した方が，より小さな有意確率 p 値を得られる場合がある．実際，我々が経験したデータ解析において，サンプル数 71 のデータに対する 2 つの SNP の分割表の p 値は 0.015 と 0.054 であったが，ハプロタイプ解析で調べると 3 種類のハプロタイプが得られ，それぞれの頻度は 59 %, 24 %, 17 %であった．ロジスティックモデルを用いて，この 17 %の頻度のハプロタイプをホモで持つときの副作用の予測確率を推定すると 0.9 で最も高く，3 つのハプロタイプを変数として用いた場合のモデルの適合度の有意確率は 0.0018 であったが，副作用が起きにくい 2 つのハプロタイプをまとめた場合の有意確率は 0.00062 まで小さくなった．予測確率算出の概略については次節で示す． 4.4 回帰モデルを用いた副作用予測 一般に，原因と思われる複数の要因が判明している場合，多変量回帰モデルを用いて予測を行うことができる．ここでは副作用の有無の 2 つ場合が結果として観察されているので，ロジスティッ ク回帰モデルを用いて，副作用の予測確率を算出することができる．ハプロタイプが k 種類ある 場合，副作用が有りの場合は y = 1，無い場合は y = 0 とした時の，2 値的な表現型（y = 0, 1）で y = 1となる確率は， P (y = 1) = 1/{ 1 + exp(−b0− b1x1− b2x2− ··· − bkxk)} で与えられる．bi（0 i k）は i 番目のハプロタイプの副作用効果を示す未知パラメータであり， 最尤法によって推定する．xiはハプロタイプ i に対応する説明変数であり，ハプロタイプ i を有 する場合は 1 を，有さない場合は 0 とコード化される．個体がハプロタイプの i 番目と j 番目を 持てば xi= 1, xj= 1となる．このモデルでは特定のハプロタイプのホモの効果とヘテロ単独の効果が等しいと仮定されたモデルになる．他の説明変数のコード化やモデリングも可能である． 例えば，別のモデルとして，型 i をホモで持つ場合は xi= 2，他の x は 0 とコード化することも できる．このモデルでは，型 i の単一ハプロタイプ当たりの表現型への効果が，他のある特定の

(10)

型と比較して相対リスクが exp(bi)倍だけ変化するように仮定されている．ただし，このモデルの場合，各患者の説明変数の和が常に 2 となり説明変数行列の階数が落ちるための処理を行う必要がある．上記のモデルにおいて，SNP が直接の原因変異である場合はハプロタイプの代わりに SNPを用いるべきである．いずれにしても，副作用に関連する遺伝的変異が見つかれば，臨床検査キットで変異を調べ，上記のような予測を行うことができる． 臨床検査キットで使用すべき SNP の選定もハプロタイプに関連する．一般に m 種のハプロタ イプは，理論的には最低 (m− 1) 個の SNP で特定でき，このような SNP はタグ SNP と呼ばれ る．ハプロタイプ内のどの SNP をタグ SNP にするかは何通りもあり一意に定まらないが，タグ SNPが決まればハプロタイプは一意に定まる．したがって，SNP データベースが完備して調べたいゲノム領域のタグ SNP が集団中に存在していることが判明すれば，最低の SNP 数で特定の領域のハプロタイプを調べることができる．この事を利用して，特定の遺伝子を検査するための SNPの選定を行うことができる． 5. 今後の課題と展望 我々が行ってきた抗がん剤の副作用予測のための候補遺伝子アプローチを用いた研究では，約 500個の遺伝子に関する 3000 箇所の SNP に絞って解析を行ってきた（Web Site 6）．今後は 100 万 SNP ものデータを取り扱うゲノムワイドアプローチに世界的に移行していくものと思われる．しかし，このような大量のデータを取り扱うに当たって新たな問題が生じてくる．解析を遺伝子ごとに分割しハプロタイプブロックの同定を行い評価して行くことは，現在の計算機能力でも対処可能である．「頻度の高い疾患で，それが遺伝と関係している場合は，その原因突然変異は家系が異なっていても共通のものが多いであろう」（鎌谷, 2001）という Common disease common variant（CDCV）の仮説の下では，ある一つの特定のハプロタイプ上に原因変異が存在すると考えられている．このように，単一の領域のみが表現型と関連する場合は大きな問題は生じないが，稀な変異（rare variant）の可能性が考えられる場合は，複数の領域にまたがって関連性を調べなければならず，SNP やハプロタイプブロックを組み合わせた解析を行わなければならない．そのためには膨大な計算が必要となり，計算の実現可能性の問題が生ずる．このようなことを踏まえて，新たな統計学的研究デザインの設計や高速な解析アルゴリズムの開発など，実データ解析においては実現可能な解析アプローチの方法を開発していかなければならず，未だ多くの研究すべき内容が残されている．さらにこれまでの解析は，ゲノミクス，トランスクリプトミクス，プロテオミクスなどの各層ごとに研究開発が進められてきたが，本来のオミックスデータ解析では，これらを統合したデータ解析の実現が期待されている．既に一人の患者から多様なデータを取得し解析する試みも開始されており，今後はさらにバイオインフォマティクスにおける統計科学の役割は大きくなる．統計解析を行ったデータのみで全てを判断しなければならないような状況では，得られた有意確率 p 値には検定の多重性の問題（牛島ら, 2006）があり，調べたモデルの数によって p 値の大きさを調整する必要もある．これとは別に，データ解析の後に生物学的な実験などが行われて，データ解析の結果が別途検証されるような状況では，p 値はスクリーニングの相対的判断基準として

(11)

用いられる場合もある．いずれにしても，同じデータに対して，様々な可能性を考慮して最良のモデルを探索していくことは非常に重要である．ハプロタイプはゲノムの物理的構造であると言えるが，ハプロタイプの種類を考える場合には進化という生物学的構造が関連している．生物の表現型を規定する遺伝子や原因変異などのゲノム構造も進化の流れの中で形作られたわけであるので，その過程や生物現象を考慮してデータ解析を行うことの意義と重要性は大きい．謝辞本稿の内容に関してこれまで様々な資料，情報，コメントをいただいた財団法人癌研究会ゲノムセンターの磯村実先生，三木義男博士，野田哲生博士ならびに，統計数理研究所の江口真透教授，藤澤洋徳準教授に感謝いたします．参考文献

Altschul, S.F., Gish, W., Miller, W., Myers, E.W. and Lipman, D.J. (1990). Basic local alignment search tool. Journal of Molecular Biology, 215 (3), 403–410.

Anderson, E.C. and Novembre, J. (2003). Finding haplotype block boundaries by using the minimum-description-length principle. American Journal of Human Genetics, 73, 336–354. Arthur, M.L. (2002). Introduction to Bioinformatics. Oxford University Press. (岡崎康司, 坊農秀雅監訳 (2003). バイオインフォマティクス基礎講義. メディカル・サイエンス・インターナショナル)

Brown, T.A. (1999). Genome. BIOS Scientiﬁc Publisher Ltd. (村松正實監訳 (2000). ゲノム. メディカル・サイエンス・インターナショナル)

Daly, M.J., Rioux, J.D., Schaﬀner, S.F. et al. (2001). High-resolution haplotype structure in the human genome. Nature Genetics, 29, 229–232.

Doolittle, R.F., Hunkapiller, M.W., Hood, L.E. et al. (1983). Simian sarcoma virus onc gene, v-sis, is derived from the gene (or genes) encoding a platelet-derived growth factor. Science,

221, 275–277.

Durbin, R., Eddy, S.R., Krogh, A. and Mitchison, G. (1998). Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press. (阿久津達也, 浅井潔, 矢田哲士訳 (2001). バイオインフォマティクス確率モデルによる遺伝子配列解析 . 医学出版)

江口真透 (2005). 数理統計学とチップ解析. バイオテクノロジージャーナル, 5(4), 430–435. 坊農秀雅 (2002). バイオインフォマティクス入門. 羊土社.

(12)

Fujisawa, H., Isomura, M., Eguchi, S., Ushijima, M., Miyata, S., Miki, Y. and Matsuura, M. (2007). Identifying haplotype block structure using an ancestor-derived model. Journal of

Human Genetics, 52(9), 738–746.

Gabriel, S.B., Schaﬀner, S.F., Nguyen, H. et al. (2002). The structure of haplotype blocks in the human genome. Science, 296, 2225–2229.

井元清哉 (2007). マイクロアレイ遺伝子発現データからの遺伝子間因果に関する知識発見. 日本統 計学会誌, 37, 55–70.

鎌谷直之 (2001). ポストゲノム時代の遺伝統計学. 羊土社. 児玉龍彦, 仁科博通 (2005). システム生物医学入門. 羊土社.

Kohane, I.S., Kho, A.T. and Butte, A.J. (2003). Microarrays for integrative genomics. Springer. (星田有人訳 (2004). 統合ゲノミクスのためのマイクロアレイデータアナリシス. シュプリンガー・ジャパン)

Kundsen, S. (2002). A Biologist’s guide to analysis of DNA microaary data. John Wiley & Sons, Inc. (塩島聡, 松本治, 辻本豪三監訳. (2002). わかる ! 使える ! DNA マイクロアレイデータ解析入門. 羊土社) 中村祐輔 (2000a). SNP 解析・マイクロアレーによる創薬とオーダーメイド医療. 羊土社. 中村祐輔 (2000b). SNP 遺伝子多型の戦略. 中山書店. 松浦正明 (2004). 癌の診断・治療へ向けてのバイオインフォマティクス. 実験医学, 22(14), 1949– 1953. 松浦正明, 牛嶋大, 宮田敏 (2004). メディカルインフォマティクスのためのゲノム関連データの解 析法とその問題点. 計量生物学, 25(2), 117–134. 松浦正明, 牛嶋大, 宮田敏 (2005a). バイオインフォマティクスがもたらす癌研究と診断. ゲノム 医学, 5(2), 137–141. 松浦正明, 牛嶋大, 宮田敏 (2005b). ゲノム関連データの解析. ファルマシア, 41, 427–432. 松浦正明 (2006a). バイオインフォマティクス. 日本臨床腫瘍学会編: 新臨床腫瘍学, 75–78, 南江堂. 松浦正明 (2006b). ゲノム多様性と抗癌剤副作用関連遺伝子探索のための方法論について . 肺 癌, 46(3), 253–258. 松浦正明, 牛嶋大, 宮田敏 (2006). 癌患者の遺伝的体質診断と遺伝的個性診断に向けてのバイオ インフォマティクス. BioTherapy, l20(3), 253-259. 松浦正明, 牛嶋大, 宮田敏 (2006). 臨床情報と OMICS 情報のバイオインフォマティクス的アプ ローチ. 生体医工学, 44(3), 390–396．

(13)

Mount, D.W. (2001). Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Lab-oratory Press. (岡崎康司・坊農秀雅監訳 (2003). バイオインフォマティクスゲノム配列から機能解析へ. メディカル・サイエンス・インターナショナル)

Niu, T., Qin, Z.S., Xu, X. et al. (2002). Bayesian haplotype inference for multiple linked single-nucleotide polymorphisms. American Journal of Human Genetics, 70, 157–169.

Ohmori, H., Makita, Y., Funamizu, M. et al. (2003). Haplotype analysis of the human collection placenta 1 (hCL-P1) gene. Journal of Human Genetics, 48, 82–85.

Rebbeck, T.R., Ambrosone, C.B., Bell, D.A. et al. (2004). SNPs, haplotypes, and cancer: ap-plications in molecular epidemiology. Cancer Epidemiology, Biomarkers & Prevention, 13, 681–687.

Setubal, J.C. and Meidanis, J. (1997). Introduction to computational molecular biology. Brooks/Cole Publishing Co. (五條堀孝監訳 (2001). 分子生物学のためのバイオインフォマティクス入門. 共立出版)

高木利久 (2004). バイオインフォマティクス集中講義. 羊土社.

The International HapMap Consortium. (2005). A haplotype map of the human genome. Nature,

437, 1299–1320.

Tzeng, J.Y. (2005). Evolutionary-based grouping of haplotypes in association analysis. Genetic

Epidemiology, 28, 220–231.

菅原秀明 (2002). あなたにも役立つバイオインフォマティクス. 共立出版.

Stram, D.O., Pearce, C.L., Bretsky, P. et al. (2003). Modeling and E-M estimation of haplotype-speciﬁc relative risks from genotype data for a case-control study of unrelated individuals.

Human Heredity, 55, 179–190.

Ushijima, M., Miyata, S., Eguchi, S., Kawakita, M., Yoshimoto, M., Iwase, T., Akiyama, F., Sakamoto, G., Nagasaki, K., Miki, Y., Noda, T., Hoshikawa, Y. and Matsuura, M. (2007). Common peak approach using mass spectrometry data sets for predicting the eﬀects of anticancer drugs on breast cancer. Cancer Informatics, 3, 285–293.

Watson, J.D. and Crick, F.H.C. (1953). A structure for deoxyribose nucleic acid. Nature, 171, 737–738. Web Site 1) http://www.geocities.com/bioinformaticsweb/ 2) http://discover.nci.nih.gov/tools.jsp 3) http://www.biobankjp.org/ 4) http://www.hapmap.org/

(14)

5) http://snp.ims.u-tokyo.ac.jp/index ja.html

図

図 1. 一塩基多型（SNP）とハプロタイプしているが，原因変異の無いハプロタイプ 2 にも同じアレル G が乗っている．同様に SNP2 を見ると原因変異があるハプロタイプ 3 にはアレル A が存在しているが，原因変異の無いハプロタイプ 1 にもアレル A が存在し，SNP1 も SNP2 も原因変異の有無とアレルのタイプが 1 対 1 に対応していない．したがって，SNP1 や SNP2 を調べても原因変異を特定することはできない．実際の状況では，どこに原因変異が存在するか不明であるため，S

参照

今ダウンロードする ( PDF - 14 ページ - 513.18 KB )

関連したドキュメント

Microsoft Word - *ˆ>ëßÍ¯¹ÐłµüÓ¹)(‘ (1).docx

当社は、お客様が本サイトを通じて取得された個人情報（個人情報とは、個人に関する情報

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014. 貨物船以外特殊船

et al. 2004 1998Inoue & Fodor 1995Kamide & Mitchell 1999, Miyamoto 2002, Aoshima 1.

I claim that the parser uses not only information of case-markers but also lexical information in processing left clause boundaries in Japanese. A self-paced reading

経済学部新⼊⽣ガイダンス 2022 年度

特に LUNA 、教学 Web

第1章はじめに

バーチャルパワープラント構築実証事業のうち、「B．高度制御型ディマンドリスポンス実

情報システム Web サービス https://webmail.kwansei.ac.jp/ （https → s が必要）.. メール

第1章はじめに

（Economic load Dispatching Controlの略）：DPC（Dispatching Power Cont rolの略）、OTM（Order Telemeterの略）と同義. (14)

第1章はじめに

*一般社団法人新エネルギー導入促進協議会が公募した 2014 年度次世代エネルギー技術実証事

学習資料をアップロードして、すべてのドキュメントをダウンロードしてください。

あなたのドキュメントは、123deta JP で共有され、学習を支援するために充実されます。

関連したドキュメント

1. はじめに

1. はじめに

2

0

0

能楽研究の方法と資料: 能の作品研究を例として

能楽研究の方法と資料: 能<百万> の作品研究を例として

12

0

0

第 1 章はじめに

第 1 章はじめに

40

0

0

第 1 章はじめに

第 1 章はじめに

69

0

0

第 1 章はじめに

第 1 章はじめに

50

0

0

はじめに (1) 目的

はじめに (1) 目的

8

0

0

１はじめに１はじめに

１はじめに１はじめに

22

0

0

TV とWeb をシームレスな融合について

TV とWeb をシームレスな融合について

6

0

0