• 検索結果がありません。

PPI Databases Data Loading Applications

E) Annotation tools

図 2.3.2-2 P-CAS (Protein-Complex Annotation System) のスクリーンショット

A) Top page B) Protein complex list

E) PPI Map

C) Protein-protein interaction (PPI) information D) Protein complex information

2.3.3 比較ゲノムデータベースの構築 2.3.3.1 比較ゲノムブラウザの開発

(1) ヒト-モデル生物間の進化的保存領域の同定、および比較ゲノムブラウザ G-compass の開発

近年、数多くの脊椎動物のゲノム配列が解読されているが、これらの多くはいわゆるモデル生 物であり、進化学的研究のみならず、医薬品開発研究においても比較ゲノム情報の利用価値や 必要性はますます高くなっている。そこで我々は、全ゲノムレベルでのヒトとモデル生物種間のゲ ノムアラインメントを独自の手法を用いて作成し、種間で対応する進化的保存領域の抽出を行っ た。また、それらの進化的保存情報を遺伝子構造などとともに概観することが可能なウェブベース の 比 較 ゲ ノ ム ブ ラ ウ ザ ”G-compass” の 開 発 ・ 公 開 を 行 っ た 。 G-compass の 公 開 URL は http://h-invitational.jp/g-compass/ であり、世界中の様々な分野の研究者が無償で利用でき る。

平成 17、18 年度は、ヒト(UCSC hg16)とチンパンジー(UCSC panTro1)、マウス(UCSC mm6)、

ラット(UCSC rn3)の進化的保存領域情報を提供する G-compass(Ver.1)の開発を行った。このバ ージョンの特徴としては、ヒトゲノムを基準とした、チンパンジー、マウス、ラットとのゲノム保存領 域を同時に並べて表示するインターフェースを持つことが挙げられる。また、各保存領域につい て、塩基一致率や GC 含有率等のウィンドウ解析結果と、詳細な塩基配列のアラインメントを表示 するビュアーを備え、アラインメントや解析データのダウンロードも可能である。G-compass

(Ver.1)は、平成 18 年 10 月 31 日に H-Invitational database (H-InvDB)のサテライトデータベース の 1 つとして公開した。

平成 19 年度には、より充実したヒトとモデル生物間の比較ゲノム解析データを提供することを目 的とし、進化的保存領域の解析対象種を 3 生物種から 13 生物種:チンパンジー(UCSC panTro2)、アカゲザル(UCSC rheMac2)、マウス(UCSC mm8)、ラット(UCSC rn4)、イヌ(UCSC canFam2)、ウシ(UCSC bosTau3)、ウマ(UCSC equCab1)、オポッサム(UCSC monDom4)、ニワ トリ(UCSC galGal3)、ゼブラフィッシュ(UCSC danRer4)、メダカ(UCSC oryLat1)、ミドリフグ

(UCSC tetNig1)、トラフグ(UCSC fr2)へと大幅に拡大し、ヒトゲノム配列も最新の UCSC hg18 に 対応した。進化的保存領域情報を抽出するにあたって、blastz(Schwartz et al. Genome Res.

2003 Jan;13(1):103-7.)による配列相同性検索により、精確に、より多くのヒトゲノム領域をカバー するヒトと他生物間の全ゲノムアラインメントを作成し、さらに独自に考案したフィルタリング処理に よって種間で精確に 1:1 の関係にある直系ゲノム領域データの作成を行った(図 2.3.3.1-1)。遺伝 子領域などの機能を持った配列は進化過程で高度に保存される傾向を持つという特徴を利用し て、これらの進化的保存領域情報は H-InvDB 予測遺伝子(eHIT、pHIT)の予測信頼性の評価にも 利用された。また、オルソログデータベース Evola で提供されているヒト遺伝子の他生物オルソロ グの同定にも、進化的保存ゲノム領域情報を用いており、タンパク質アミノ酸配列だけではなく、

のゲノムアセンブルが完了していないトラフグを除いた 12 生物種についてはヒトゲノムとの進化的 保存領域情報を最新の G-compass で提供しており、それらの統計情報については表 2.3.3.1-1 に 示した。

図 2.3.3.1-1 ヒトとモデル生物間のゲノムアラインメント作成の概要

表 2.3.3.1-1 最新版 G-compass から提供されている進化的保存領域の概要

また、平成 19 年度には対象モデル生物の拡大とともに、比較ゲノムブラウザ G-compass のユー ザーインターフェースの大幅な機能拡張を行った。そして、染色体レベルでのアセンブルが不十分 なトラフグを除くモデル生物 12 種とヒトとの進化的保存領域情報の提供を目的として、新たなユー ザーインターフェースを備えた G-compass(Ver.2)を平成 20 年 2 月 21 日に公開した。この最新版 の G-compass は、ヒトと他生物のゲノムや遺伝子構造を同時に並べて比較可能であり、種間での オルソログを表示するだけではなく、周辺の遺伝子の向きや並びが種間で保存されているか、あ るいはゲノム再編成によって変化しているかなどを容易に知ることができ、世界的にも例のないウ ェブベースの比較ゲノムブラウザである。

最新版の G-compass の主要画面のスクリーンショットを図 2.3.3.1-2 に示した。図中の(A)は G-compass のトップページであり、ユーザーに対して 3 つの入り口が提供されている。1 つ目は、

上部のフレームにあるヒトと他生物の全転写産物に対するキーワード検索である。他生物転写産 物のアクセッション番号による検索も可能であり、マウスなどを実験に用いる研究者にも利用しや すい仕様になっている。2 つ目は、BLAT(Kent, Genome Res. 2002 Apr;12(4):656-64.)を用いたヒ ト、チンパンジー、マウスの全ゲノム配列に対する配列相同性検索である。3 つ目は、最下部にあ る他生物との進化的保存状況によって塗り分けられたヒト染色体マップであり、ユーザーが任意

with dup. 1:1 conserved region with dup. 1:1 conserved region with dup. 1:1 conserved region

chimpanzee (panTro2) 12,427,899 188,292 1,093 12,600 0.72 0.97

Rhesus (rheMac2) 5,294,677 420,685 1,113 5,339 0.72 0.93

Mouse (mm8) 4,577,684 831,853 798 1,384 0.65 0.69

Rat (rn4) 3,793,156 799,534 766 1,360 0.66 0.69

Dog (canFam2) 3,634,970 760,514 931 2,363 0.70 0.75

Cow (bosTau2) 8,763,117 825,099 830 1,772 0.64 0.74

Horse (equCab1) 2,300,721 256,855 879 2,740 0.64 0.77

Opossum (monDom4) 23,499,456 436,912 804 571 0.63 0.70

Chicken (galGal3) 2,300,721 256,855 611 518 0.59 0.66

Zebrafish (danRer4) 1,342,486 163,612 477 320 0.61 0.66

Medaka (oryLat1) 1,250,552 123,170 507 322 0.60 0.66

Tetraodon (tetNig1) 1,449,718 148,857 477 280 0.61 0.66

with dup. 1:1 conserved region Transcripts Locus

chimpanzee (panTro2) 88.72 76.07 88,353 29,564

Rhesus (rheMac2) 79.48 71.34 86,870 27,933

Mouse (mm8) 36.16 34.12 297,920 61,013

Rat (rn4) 34.27 32.32 113,487 37,935

Dog (canFam2) 56.26 52.54 61,984 22,609

Cow (bosTau2) 45.6 42.43 60,494 22,981

Horse (equCab1) 60.37 56.13 15,152 13,121

Opossum (monDom4) 8.39 7.4 36,756 15,536

Chicken (galGal3) 5.41 3.98 59,015 20,643

Zebrafish (danRer4) 2.59 1.54 85,114 32,521

Medaka (oryLat1) 2.14 1.2 23,043 17,890

Tetraodon (tetNig1) 2.3 1.26 77,880 17,262

Number of alignments Block length (sites) Sequence identity w/o gap sites

Coverage(%) on the human genome Number of overlapped genes with 1:1 conserved regions

の位置をクリックすることにより、該当領域の進化的保存情報を概観することが出来る。(B)は (G-compass) Advanced search 画面であり、転写産物の検索だけでなく、ゲノムアラインメントブロ ック長や配列一致率などによる進化的保存領域の検索が可能である。(C)は Main view であり、2 生物種のゲノム・遺伝子構造を進化的保存状況などとともに同時に比較可能となっている。図で はヒトとマウスの進化的に対応する領域を示しているが、ヒトとマウスの遺伝子を結ぶオレンジ色 の直線はそれらがオルソログの関係にあることを示している。また、Main view では、この領域に 存在する遺伝子にオルソログが存在するかどうかだけではなく、その並びや向き(シンテニー)ま で種間で保存されているか、ゲノム再編成によって変化しているかを容易に確認することが出来 る。さらに、2 生物種のゲノム・遺伝子構造を並べて表示することによって、タンデム遺伝子重複に よって生じたパラログについても種間で比較可能である。(D)は Genome alignment viewer であ り、任意の進化的保存領域についての詳細情報が表示される。上段には、塩基置換率や GC 含 有率についてのウィンドウ解析結果がグラフ表示され、ユーザーが自由にパラメータを変更してリ アルタイムに解析することも可能である。下段には塩基配列のアラインメント情報が遺伝子構造と ともに表示され、1 塩基単位の詳細なアラインメントや種特異的な突然変異などを確認することが 出来る。Genome alignment viewer は、Main view で任意の進化的保存領域をクリックすると表示さ れるポップアップメニューから参照可能である。(E)は CGPLOT(ドットプロット解析)であり、Main view 右上のボタンを押すことにより表示領域のドットプロット図が参照可能である。これによって、

対象とした 2 生物の種分岐後に生じたゲノム再編成の様相を、より直感的に知ることが出来る。さ らに、Main view などに表示される個々のヒト遺伝子の情報は、H-InvDB で提供されている機能ア ノテーションや遺伝子発現の組織特異性、選択的スプライシングバリアント情報と密接にリンクし ている。これらの特徴をもつ G-compass は、進化的な保存情報を手がかりにモデル生物を使った 基礎研究と応用研究を強力に支援し、ヒトとモデル生物研究の相補・相乗的な発展に貢献する比 較ゲノム解析ブラウザである。

図 2.3.3.1-2 G-compass(Ver.2)のスクリーンショット

(2) 霊長類近縁種間の高精度ゲノムアラインメント作成アルゴリズムの開発

ヒトが獲得した遺伝子の進化や多様性(重複)を理解するためには、ヒトとその近縁種である霊 長類のゲノム直系領域を正確に対応づけ、詳細な比較ゲノム解析を行うことが重要である。そこ で本研究は、これらの比較ゲノム解析に有用な比較ゲノムブラウザの開発のために、ヒトとその 最近縁種であるチンパンジーのゲノム直系領域間高精度アラインメントの作成方法を開発するこ とを目的とした。

既存のゲノムアラインメントには二つの問題点がある。第一に、ヒトとチンパンジーはごく近縁で あり塩基レベルでの相違度はわずか 1.数%程度である(Fujiyama et al. 2002 Science, Watanabe et al. 2004 Nature)ので、高精度なゲノムアラインメントを作成するためには、高精度ゲノム配列 が必要となる。しかしながら我々の解析から、チンパンジーのゲノム概要配列データの質は低く、

未決定または曖昧な状態である部分が存在することが明らかとなっている。具体的には、多型と 重複の区別の誤りや重複遺伝子領域の区別の誤りによるアセンブルエラーや、配列決定成功率 の GC 率依存性による配列未決定部分が存在している。第二に、現在公開されている BLASTZ 等 を用いたゲノムアラインメントの多くは、直系関係を考慮していない(e.g. Miller et al. 2007 Genome Research)。したがって、例えば、チンパンジーの直系領域が存在しないヒトゲノム領域は、パラロ ガスなチンパンジー領域とアラインされている可能性がある。また、ゲノム重複領域についてのデ ータは存在しないか、存在しても重複の時期を考慮していないものが多く、網羅的なヒト系統特異 的ゲノム重複領域の同定はなされていない。

そこで本研究では、チンパンジーゲノム配列として BAC クローン配列を用い、より高精度の霊長 類間ゲノムアラインメントの作成を目指した。さらに、直系領域の同定方法として、マカクザルを外 群とした分子系統解析に基づく方法を開発した。この直系領域には、従来の方法には含まれない 系統特異的ゲノム重複領域も含まれる。また、アラインメントプログラムには BLASTZ ではなく BLASTN と MAFFT を用い、ヒト・チンパンジー・マカクザルの相同配列のマルチプルアラインメント を作成した。これらにより、従来の方法よりもより高精度な霊長類直系領域間のゲノムアラインメ ントが作成できることが期待される。

本研究で用いた配列データは以下の通りである。

ヒトゲノム NCBI build 36.2

チンパンジーBAC クローン 2007 年 10 月の時点で国際塩基配列データベースに登録されて いたもの(表 2.3.3.1-2)。計 3261 本、570,393,866 bp。

チンパンジーゲノム NCBI build 2.1

マカクザルゲノム NCBI build 1.1

関連したドキュメント