プレゼンテーション2.ppt

(1)

有用データベースとWebサーバー

東京大学医科学研究所フロンティア研究拠点

ヒトゲノム解析センター機能解析インシリコ分野

山下理宇

[email protected]

(2)

本日の講義に当たって

•

質問がありましたら、いつでも途中で止めてください。

•

メディカルゲノムの学生の方へ

–

講義の最後にアンケートに記入して下さい。 → 出席とみなします。

(3)

本日の流れ

１配列の解析

・

BLAST

からのリンク

・

Genome browser

・

InterProScan

・

PSORT

転写制御解析

・

DBTSS

・

Seqlogo

・

JASPAR

・

Melina II

大量データ解析

・大量データの照会

・

Panther

・

Babelomics

・

+@

(4)

introduction

(5)

スタート：ｃDNA配列を得た

>cDNA_test

CCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCAC ACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTG AGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGCATCTTATCCGAG TGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGTGGTGGTGCCCTA TGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAACAGTTCCTGCATG GGCGGCATGAACCGGAGGCCCATCCTCACCATCATCACACTGGAAGACTCCAGTGGTAATCTACTGGGAC GGAACAGCTTTGAGGTGCGTGTTTGTGCCTGTCCTGGGAGAGACCGGCGCACAGAGGAAGAGAATCTCCG CAAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAGCGAGCACTGCCCAACAACACCAGC TCCTCTCCCCAGCCAAAGAAGAAACCACTGGATGGAGAATATTTCACCCTTCAGATCCGTGGGCGTGAGC

クローニングシークエンス実験データから

(6)

NCBIでBLASTをかける

• NCBI(http://www.ncbi.nlm.nih.gov/)

(7)

BLAST search

(8)

BLAST result

(9)

各データベースへのリンク

＊

UniGene

EST

を含めた

cDNA

を機械的にクラスタリングした物

＊

GEO

マイクロアレイによる発現データ（大林先生）

＊

Gene

Entrez Gene

による遺伝子のアノテーション

＊

Structure

立体構造（木下先生）

＊

Map viewer

ゲノム上での位置

(10)

Entrez Gene

(11)

Entrez Gene 詳細1

(12)

Entrez Gene: GO

遺伝子の機能を大まかに見積もることができる

遺伝子機能のデジタルな分類が可能

(13)

Gene Ontology (GO)とは

http://www.geneontology.org/

生物学用語の階層構造を表記

遺伝子のアノテーションとして使われる

(14)

Gene Ontologyの例

(15)

似ている配列が発見できない・・・

• 1.

その前に

–

その配列は、ゴミではありませんか？

• AAAAAAAA

・・・・・等、クオリティに問題はありませんか？

–

大腸菌の一部ではないですか？

•

大腸菌・ベクターをクローニングしてしまった・・・。

–

他の生物種は試してみましたか？

•

（トマトではないですか？）

• 2.

ゲノムに当ててみよう。

(16)

Genome Browser

• NCBI

– http://www.ncbi.nlm.nih.gov/Genomes/

• Ensembl

– http://www.ensembl.org/index.html

• UCSC Genome browser

– http://genome.ucsc.edu/

(17)

UCSC Genome browser

http://genome.ucsc.edu/

ゲノムの総合的なデータベース

(18)

BLAT: ゲノムへのマッピング

(19)

Browser

(20)

detail

(21)

Genome browser

の内側

:download

(22)

自前のデータの追加

(23)

ゲノム配列

(24)

refGene.txt

26250

行

(25)

ゲノムにマッピングの結果・・・

• 1.

ゲノムにマッピングできた。

–

報告されている

EST

はありますか？

–

その領域の保存はどうですか？

• 2.

ゲノムにマッピングできない

–

意味のある配列だと思いますか？

アミノ酸に翻訳して考えてみましょう

(26)

InterProScanによる機能推定

http://www.ebi.ac.uk/Tools/InterProScan/

タンパク質の機能モチーフ・ドメイン等の統合検索システム

(27)

InterProScan結果

(28)

InterProScan詳細

(29)

タンパク質の局在予測（PSORT)

http://psort.ims.u-tokyo.ac.jp/

(30)

WoLF PSORT

Paul Horton

先生

(31)

WoLF PSORT

結果

特徴の似ているタンパク質の局在を元に多数決を取る

(32)

本日の流れ

１配列の解析

・

BLAST

からのリンク

・

Genome browser

・

InterProScan

・

PSORT

転写制御解析

・

DBTSS

・

Seqlogo

・

JASPAR

・

Melina II

・

Panther

・

Babelomics

・

+@

(33)

さて・・・

それで満足ですか？

転写制御（プロモータ）を調べてみよう

目的の

cDNA

の同定・あるいは類似配列がわかった。

CDS

のアノテーションはできた。

ゲノム上のどこにあるか分かった

(34)

genome

mRNA(full) ^AAAA

転写開始領域の解析には5ʼ端が保証された配列が不可欠

TTTT TTTT

Genbank

TTTT

Refseq cDNA TTTT

転写開始点はどこ？

5’端配列

プロモータ同定に必要な配列

転写

完全長cDNA

TTTT

5ʼ端が保証

(35)

転写開始点データベースDBTSS

http://dbtss.hgc.jp

•

5ʼ端の保証された多量のcDNA配列

– Oligo-capping

法（東大医科研、かずさＤＮＡ研）

–

Ｃ

AP-

Ｔｒａｐｐｅｒ法（理研）

ゲノム

5’端配列

転写開始点転写開始点

DBTSS: DataBase of Transcritption Start Sites

(36)

!"#$ %#$!&# '()!$#* '&+""#, '-. '/!(0/1$2 %#$!&# '()!$# '&+""#, '-. '/!(0*/1$2

3#456 78869#"5 :%; 76;<87 666=>7 ;>>? @ @ @ @ @ @

3#457 7887.+45 :%66 <8877A 6>=><A ?==B @ &&6 ==<>7 6<B8B 7;>? @ 3#45= 788=.+C5 :%6= <8877A 6?8?B< 667=< ?<;8 &&7 A>878? 6?A<<B ;A7< B>;A 3#45< 788<-!3 :%6B <8877A 7;;;?< 6AA=B 67;>8 &&= A>878? 7?8;6< 6666B 68?==

3#45A 788A9#" :%6; 6;>87?A 6=A?888 6?;A= 6A7B7 &&A A>878? =B<<>; 6<;<B 6<6B7

:0&+$ &!0*#

DBTSSデータ数

DBTSS登録遺伝子数

ヒト・マウス遺伝子の

9

割近い遺伝子について転写開始点情報がある

Ver. 5

では

ヒト

19753 / 22682(87.1%)

マウス

14746 / 17213(85.7%)

Ver. 6

(2007 Sep)

では、

SOLEXA

のデータを導入

(37)

DBTSS 検索と結果

(38)

プロモータ配列の入手

(39)

比較ゲノム例

比較ゲノムによるプロモータ解析が可能

human mouse

アライメント TSS付近詳細

局所アライメント

(40)

転写開始点の多様性

一つの遺伝子の転写開始点は一つとは限らないそろっている揺らぎがある

選択的

甲状腺その他

(41)

代表転写開始点の決定

Case 1

Case 2

ignored ignored ORF

5’UTR

TSS with max number of clones

Median locus of TSS

代表転写開始点をもとにしたプロモータ配列はダウンロード可能

(42)

fixed TSSsの定義

TSS>=50%, #clones>=10 ↓

fixed TSS

425117 TSSs (15262遺伝子)

↓

#clones>=10

408341 TSSs (10578 遺伝子)

925 fixed TSS (925遺伝子)

DBTSS ver. 5

を使用

(43)

Sequence logo

Weblogo

http://weblogo.berkeley.edu/

Weblogo

のホームページより引用

SEQLOGO

http://www.bioinf.ebc.ee/EP/EP/

(44)

Sequence logo

Ribosomal protein

の

mRNA

TSS

付近

-10~+10

45

種

(45)

SEQLOGO 入力

配列

マトリックスも可

(46)

SEQLOGO 結果

Ribosome

protein

遺伝子

(45

種

)

それ以外の遺伝子

(880

種）

(47)

miRNAのdatabase

http://microrna.sanger.ac.uk/

(48)

miRBase:: Targets入力

(49)

miRBase:: Targets結果

(50)

miRBase::Sequences

(51)

miRBase::Sequences 詳細１

pre-mature

な配列

(52)

miRBase::Sequences 詳細２

mature

な配列

(53)

Motif検索の必要性

•

同じように発現する遺伝子は、同じ転写因子によって制御されている？

遺伝子領域

A

遺伝子領域

B

遺伝子領域

C

遺伝子領域

D

プロモータモチーフ

どうやって、モチーフ、プロモータを求めるか

(54)

既知Motifの探索

• TRANSFAC

– Public

は無償だが、有償の方がデータ多い

–

重複がある。

– DBTSS

に

Link

がある

– http://www.biobase.de/

• JASPAR

–

無償

–

重複なし

– http://jaspar.genereg.net

(55)

JASPAR: Top page

(56)

JASPAR: 入力画面

(57)

JASPAR: 結果

(58)

FANTOM4

Functional Annotation of the Mouse

Functional Annotation of the Mammalian Genome

http://fantom.gsc.riken.jp/4/

(59)

未知Motifの探索の限界

確率的手法

・

MEME

、

Gibbs

、

CONSENSUS….

! " # ! $ ! " ! #

" % & % % % % & % %

# % % & % % % % % &

! & % % & % & % & %

$ % % % % & % % % %

# % % & % % % % % &

$ % % % % & % % % %

" % & % % % % & % %

! & % % & % & % & %

# % % & % % % % % &

! " # ! $ ! " ! #

" % & % % % % & % %

# % % & % % % % % &

! & % % & % & % & %

$ % % % % & % % % %

# % % & % % % % % &

$ % % % % & % % % %

" % & % % % % & % %

! & % % & % & % & %

# % % & % % % % % &

! " # ! $ ! " ! #

" % & % % % % & % %

# % % ' % % % % % &

! & % % ( % & % & %

$ % % % % ) % % % %

# % % & % % % % % &

$ % % % % & % % % %

" % & % % % % & % %

! & % % & % & % ' %

# % % & % % % % % (

配列が3つだったら・・・・→ 3次元配列がnだったら・・・・→ n次元!!!

(60)

既存の確率的手法の問題点

•

得られたモチーフが最適解とは限らない

•

パラメータ調整の必要性

•

プログラム間での結果比較が難しい

Motif 1 sites sorted by position p-value

--- Sequence name Start P-value Site

--- --- --- ---

SEQ8; 172 9.57e-10 CCCGGAGTAT CTCAATCGTAGATGA ATACCACTTT SEQ3; 112 9.57e-10 GTTATATTGG CTCAATCGTAGATGA AACCAGACTC SEQ5; 185 1.96e-09 ACGGGCAAGC CTCAATCGTAGAGGA T SEQ6; 105 2.82e-09 GTCAGCCGGT CTCAATCGTAGATCA GAGGCGAGAA SEQ4; 173 4.67e-09 GTTCGAGAGC CTCAATCGTAGATAA CCTCTCTGGC SEQ2; 172 4.67e-09 AAGCGTCGTG CTCAATCGTAGATAA CAGAGGTCGG SEQ10; 3 7.52e-09 TT CTCAATCGTAGAGTA TGCTTAGAGG SEQ9; 93 7.52e-09 CGCCTAGAAA CTCAATCGTAGAGTA TCACGCACCG SEQ1; 52 9.33e-09 CTTTACTCGG CTCAATCGTAGAGGC GGTGCCGCGA SEQ7; 177 1.95e-08 AAGTCTTTGA CTCAATCGTAGACCC AACACTTGA ---

MEME

MOTIF A

1-1 53 tttactcggc TCAATCGTAG aggcggtgcc 62 2-1 173 agcgtcgtgc TCAATCGTAG ataacagagg 182 3-1 113 ttatattggc TCAATCGTAG atgaaaccag 122 4-1 174 ttcgagagcc TCAATCGTAG ataacctctc 183 5-1 186 cgggcaagcc TCAATCGTAG aggat 195 6-1 106 tcagccggtc TCAATCGTAG atcagaggcg 115 7-1 178 agtctttgac TCAATCGTAG acccaacact 187 8-1 173 ccggagtatc TCAATCGTAG atgaatacca 182 9-1 94 gcctagaaac TCAATCGTAG agtatcacgc 103 10-1 4 ttc TCAATCGTAG agtatgctta 13

Gibbs

(61)

モチーフ発見ツール Melina2

2.

パラメータ、プログラムを設定

3.submit

1.

配列を

FASTA

フォーマットで入力

(62)

Melina2結果画面

3.

既知の類似モチーフ検索

2.sequence logo

1.

モチーフを選択

(63)

Melina2結果画面

3.

既知の類似モチーフ検索

2.sequence logo 1.

モチーフを選択

4.

プロモータ上の探索

(64)

本日の流れ

１配列の解析

・

BLAST

からのリンク

・

Genome browser

・

InterProScan

・

PSORT

転写制御解析

・

DBTSS

・

Seqlogo

・

JASPAR

・

Melina II

・

Panther

・

Babelomics

・

+@

(65)

現代のニーズ＝大規模データの処理

•

大規模データ技術の出現（

microarray,

次世代シークエンサー・・・）

•

研究では、大規模データを取り扱うこともある

•

あるデータセットを与えたときに有意な情報を得たい

どんな情報が濃縮

?

・

GO

・

regulation

全ての遺伝子

癌で高発現の遺伝子群

(66)

Panther

http://www.pantherdb.org/

取り出した遺伝子群の特徴を解析できる

(67)

Panther

補正が必要

(68)

Babelomics

http://www.babelomics.org/

遅い！！

取り出した遺伝子群のや転写因子結合部位の推定

(69)

次世代シークエンサー

とにかく今までのシーケンサーとは桁が違う

454: 500 bp * 1,000,000 reads

Solid, SOLEXA: 25~50(70bp) * 100,000,000~

1 run

で出てくる画像ファイルは

1T

以上

(70)

次世代シークエンサーデータの解析

Web

経由でできるツールは、現状はないいくつかのソフトウェアは使用可能

Mapping: Maq, SOAP, BowTie, TopHat Assemble: velvet, GSassembly

別途ご相談下さい。。。

mapping

assemble

(71)

参考文献

Database issue

Web server issue

(72)

少しだけコンピュータの宣伝

•

便利なツールがあるので、できるだけそれを利用

•

大量に処理したいときには向いていないこともある・・・

ほんの少しのコンピュータの知識でも、かなりのことができます。

１．

UNIX

２．

R

（

http://www.r-project.org/)

３．

Perl, ruby, python, C++, C

・・・

(73)

例えば

問

refGene.txt

を利用して、染色体ごとの遺伝子数を求めよ。

cut -f 3 refGene.txt | sort |uniq -c

Mac OSX

であればすぐにできます。

１．アプリケーションーユーティリティ

ーターミナルを立ち上げる

2

．

refGene.txt

をデスクトップに置く

3. cd ~/Desktop

4. cut -f 3 refGene.txt | sort |uniq -c

(74)

HGC ｽｰﾊﾟｰｺﾝﾋﾟｭｰﾀ webページ

https://supcom.hgc.jp/japanese/

申請書をダウンロード

(75)

HGC ｽｰﾊﾟｰｺﾝﾋﾟｭｰﾀ

メモリ

2T

(76)

最後に

•

本日のスライドは

– http://www.hgc.jp/~ryamasi/others

に置いておきます。

•

何かご質問等ありましたらお気軽に

[email protected]

までメール下さい。

プレゼンテーション2.ppt

[email protected]

•

•

–

BLAST

Genome browser

InterProScan

PSORT

DBTSS

Seqlogo

JASPAR

Melina II

Panther

Babelomics

+@

>cDNA_test

• NCBI(http://www.ncbi.nlm.nih.gov/)

UniGene

EST

cDNA

GEO

Gene

Entrez Gene

Structure

Map viewer

http://www.geneontology.org/

• 1.

–

• AAAAAAAA

–

•

–

•

• 2.

• NCBI

– http://www.ncbi.nlm.nih.gov/Genomes/

• Ensembl

– http://www.ensembl.org/index.html

• UCSC Genome browser

– http://genome.ucsc.edu/

http://genome.ucsc.edu/

Genome browser

:download

26250

• 1.

–

EST

–

• 2.

–

http://www.ebi.ac.uk/Tools/InterProScan/

http://psort.ims.u-tokyo.ac.jp/

Paul Horton

WoLF PSORT

BLAST

Genome browser

InterProScan

PSORT

DBTSS

Seqlogo

JASPAR

Melina II

Panther

Babelomics

+@

cDNA

CDS

genome

mRNA(full) AAAA

TTTT TTTT

Genbank

TTTT

Refseq cDNA TTTT

5’端配列

TTTT

http://dbtss.hgc.jp

•

– Oligo-capping

–

mRNA(full) ^AAAA

!"#$ %#$!&# '()!$#* '&+""#, '-. '/!(0/1$2 %#$!&# '()!$# '&+""#, '-. '/!(0*/1$2