本日の講義に当たって
•
質問がありましたら、いつでも途中で止めて ください。•
メディカルゲノムの学生の方へ–
講義の最後にアンケートに記入して下さい。 → 出席とみなします。本日の流れ
1配列の解析
・
BLAST
からのリンク・
Genome browser
・
InterProScan
・
PSORT
転写制御解析
・
DBTSS
・
Seqlogo
・
JASPAR
・
Melina II
大量データ解析
・大量データの照会
・
Panther
・
Babelomics
・
+@
introduction
スタート:cDNA配列を得た
>cDNA_test
CCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCAC ACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTG AGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGCATCTTATCCGAG TGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGTGGTGGTGCCCTA TGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAACAGTTCCTGCATG GGCGGCATGAACCGGAGGCCCATCCTCACCATCATCACACTGGAAGACTCCAGTGGTAATCTACTGGGAC GGAACAGCTTTGAGGTGCGTGTTTGTGCCTGTCCTGGGAGAGACCGGCGCACAGAGGAAGAGAATCTCCG CAAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAGCGAGCACTGCCCAACAACACCAGC TCCTCTCCCCAGCCAAAGAAGAAACCACTGGATGGAGAATATTTCACCCTTCAGATCCGTGGGCGTGAGC
クローニング シークエンス 実験データから
NCBIでBLASTをかける
• NCBI(http://www.ncbi.nlm.nih.gov/)
BLAST search
BLAST result
各データベースへのリンク
*
UniGene
EST
を含めたcDNA
を機械的にクラスタリングした物*
GEO
マイクロアレイによる発現データ (大林先生)
*
Gene
Entrez Gene
による遺伝子のアノテーション*
Structure
立体構造(木下先生)
*
Map viewer
ゲノム上での位置
Entrez Gene
Entrez Gene 詳細1
Entrez Gene: GO
遺伝子の機能を大まかに 見積もることができる
遺伝子機能のデジタル な分類が可能
Gene Ontology (GO)とは
http://www.geneontology.org/
生物学用語の階層構造を表記
遺伝子のアノテーションとして使われる
Gene Ontologyの例
似ている配列が発見できない・・・
• 1.
その前に–
その配列は、ゴミではありませんか?• AAAAAAAA
・・・・・等、クオリティに問題はありませんか?–
大腸菌の一部ではないですか?•
大腸菌・ベクターをクローニングしてしまった・・・。–
他の生物種は試してみましたか?•
(トマトではないですか?)• 2.
ゲノムに当ててみよう。Genome Browser
• NCBI
– http://www.ncbi.nlm.nih.gov/Genomes/
• Ensembl
– http://www.ensembl.org/index.html
• UCSC Genome browser
– http://genome.ucsc.edu/
UCSC Genome browser
http://genome.ucsc.edu/
ゲノムの総合的なデータベースBLAT: ゲノムへのマッピング
Browser
detail
Genome browser
の内側:download
自前のデータの追加
ゲノム配列
refGene.txt
26250
行ゲノムにマッピングの結果・・・
• 1.
ゲノムにマッピングできた。–
報告されているEST
はありますか?–
その領域の保存はどうですか?• 2.
ゲノムにマッピングできない–
意味のある配列だと思いますか?アミノ酸に翻訳して考えてみましょう
InterProScanによる機能推定
http://www.ebi.ac.uk/Tools/InterProScan/
タンパク質の機能モチーフ・ドメイン等の統合検索システム
InterProScan結果
InterProScan詳細
タンパク質の局在予測(PSORT)
http://psort.ims.u-tokyo.ac.jp/
WoLF PSORT
Paul Horton
先生WoLF PSORT
結果特徴の似ているタンパク質 の局在を元に多数決を取る
本日の流れ
1配列の解析
・
BLAST
からのリンク・
Genome browser
・
InterProScan
・
PSORT
転写制御解析
・
DBTSS
・
Seqlogo
・
JASPAR
・
Melina II
大量データ解析
・大量データの照会
・
Panther
・
Babelomics
・
+@
さて・・・
それで満足ですか?
転写制御(プロモータ)を調べてみよう
目的の
cDNA
の同定・あるいは類似配列がわかった。CDS
のアノテーションはできた。ゲノム上のどこにあるか分かった
genome
mRNA(full) AAAA
転写開始領域の解析には5ʼ端が保証された配列が不可欠
TTTT TTTT
Genbank
TTTT
Refseq cDNA TTTT
転写開始点はどこ?
5’端配列
プロモータ同定に必要な配列
転写
完全長cDNA
TTTT
5ʼ端が保証
転写開始点データベースDBTSS
http://dbtss.hgc.jp
•
5ʼ端の保証された多量のcDNA配列– Oligo-capping
法(東大医科研、かずさDNA研)–
CAP-
Trapper法(理研)ゲノム
5’端配列
転写開始点 転写開始点
DBTSS: DataBase of Transcritption Start Sites
!"#$ %#$!&# '()!$#* '&+""#, '-. '/!(0*/1$2 %#$!&# '()!$#* '&+""#, '-. '/!(0*/1$2
3#456 78869#"5 :%; 76;<87 666=>7 ;>>? @ @ @ @ @ @
3#457 7887.+45 :%66 <8877A 6>=><A ?==B @ &&6 ==<>7 6<B8B 7;>? @ 3#45= 788=.+C5 :%6= <8877A 6?8?B< 667=< ?<;8 &&7 A>878? 6?A<<B ;A7< B>;A 3#45< 788<-!3 :%6B <8877A 7;;;?< 6AA=B 67;>8 &&= A>878? 7?8;6< 6666B 68?==
3#45A 788A9#" :%6; 6;>87?A 6=A?888 6?;A= 6A7B7 &&A A>878? =B<<>; 6<;<B 6<6B7
:0&+$ &!0*#
DBTSSデータ数
DBTSS登録遺伝子数
ヒト・マウス遺伝子の
9
割近い遺伝子について 転写開始点情報があるVer. 5
ではヒト
19753 / 22682(87.1%)
マウス14746 / 17213(85.7%)
Ver. 6
(2007 Sep)
では、SOLEXA
の データを導入DBTSS 検索と結果
プロモータ配列の入手
比較ゲノム例
比較ゲノムによるプロモータ解析が可能
human mouse
アライメント TSS付近詳細
局所アライメント
転写開始点の多様性
一つの遺伝子の転写開始点は一つとは限らない そろっている 揺らぎがある
選択的
甲状腺 その他
代表転写開始点の決定
Case 1
Case 2
ignored ignored ORF
5’UTR
TSS with max number of clones
Median locus of TSS
代表転写開始点をもとにしたプロモータ配列はダウンロード可能
fixed TSSsの定義
TSS>=50%, #clones>=10 ↓
fixed TSS
425117 TSSs (15262遺伝子)
↓
#clones>=10
408341 TSSs (10578 遺伝子)
925 fixed TSS (925遺伝子)
DBTSS ver. 5
を使用Sequence logo
Weblogo
http://weblogo.berkeley.edu/
Weblogo
のホームページより引用SEQLOGO
http://www.bioinf.ebc.ee/EP/EP/
Sequence logo
Ribosomal protein
のmRNA
TSS
付近-10~+10
45
種SEQLOGO 入力
配列
マトリックスも可
SEQLOGO 結果
Ribosome
protein
遺伝子(45
種)
それ以外の遺伝子
(880
種)miRNAのdatabase
http://microrna.sanger.ac.uk/
miRBase:: Targets入力
miRBase:: Targets結果
miRBase::Sequences
miRBase::Sequences 詳細1
pre-mature
な配列miRBase::Sequences 詳細2
mature
な配列Motif検索の必要性
•
同じように発現する遺伝子は、同じ転写因 子によって制御されている?遺伝子領域
A
遺伝子領域
B
遺伝子領域C
遺伝子領域D
プロモータ モチーフ
どうやって、モチーフ、プロモータを求めるか
既知Motifの探索
• TRANSFAC
– Public
は無償だが、有償の方がデータ多い–
重複がある。– DBTSS
にLink
がある– http://www.biobase.de/
• JASPAR
–
無償–
重複なし– http://jaspar.genereg.net
JASPAR: Top page
JASPAR: 入力画面
JASPAR: 結果
FANTOM4
Functional Annotation of the Mouse
Functional Annotation of the Mammalian Genome
http://fantom.gsc.riken.jp/4/
未知Motifの探索の限界
確率的手法
・
MEME
、Gibbs
、CONSENSUS….
! " # ! $ ! " ! #
" % & % % % % & % %
# % % & % % % % % &
! & % % & % & % & %
$ % % % % & % % % %
# % % & % % % % % &
$ % % % % & % % % %
" % & % % % % & % %
! & % % & % & % & %
# % % & % % % % % &
! " # ! $ ! " ! #
" % & % % % % & % %
# % % & % % % % % &
! & % % & % & % & %
$ % % % % & % % % %
# % % & % % % % % &
$ % % % % & % % % %
" % & % % % % & % %
! & % % & % & % & %
# % % & % % % % % &
! " # ! $ ! " ! #
" % & % % % % & % %
# % % ' % % % % % &
! & % % ( % & % & %
$ % % % % ) % % % %
# % % & % % % % % &
$ % % % % & % % % %
" % & % % % % & % %
! & % % & % & % ' %
# % % & % % % % % (
配列が3つだったら・・・・→ 3次元 配列がnだったら ・・・・→ n次元!!!
既存の確率的手法の問題点
•
得られたモチーフが最適解とは限らない•
パラメータ調整の必要性•
プログラム間での結果比較が難しいMotif 1 sites sorted by position p-value
--- Sequence name Start P-value Site
--- --- --- ---
SEQ8; 172 9.57e-10 CCCGGAGTAT CTCAATCGTAGATGA ATACCACTTT SEQ3; 112 9.57e-10 GTTATATTGG CTCAATCGTAGATGA AACCAGACTC SEQ5; 185 1.96e-09 ACGGGCAAGC CTCAATCGTAGAGGA T SEQ6; 105 2.82e-09 GTCAGCCGGT CTCAATCGTAGATCA GAGGCGAGAA SEQ4; 173 4.67e-09 GTTCGAGAGC CTCAATCGTAGATAA CCTCTCTGGC SEQ2; 172 4.67e-09 AAGCGTCGTG CTCAATCGTAGATAA CAGAGGTCGG SEQ10; 3 7.52e-09 TT CTCAATCGTAGAGTA TGCTTAGAGG SEQ9; 93 7.52e-09 CGCCTAGAAA CTCAATCGTAGAGTA TCACGCACCG SEQ1; 52 9.33e-09 CTTTACTCGG CTCAATCGTAGAGGC GGTGCCGCGA SEQ7; 177 1.95e-08 AAGTCTTTGA CTCAATCGTAGACCC AACACTTGA ---
MEME
MOTIF A
1-1 53 tttactcggc TCAATCGTAG aggcggtgcc 62 2-1 173 agcgtcgtgc TCAATCGTAG ataacagagg 182 3-1 113 ttatattggc TCAATCGTAG atgaaaccag 122 4-1 174 ttcgagagcc TCAATCGTAG ataacctctc 183 5-1 186 cgggcaagcc TCAATCGTAG aggat 195 6-1 106 tcagccggtc TCAATCGTAG atcagaggcg 115 7-1 178 agtctttgac TCAATCGTAG acccaacact 187 8-1 173 ccggagtatc TCAATCGTAG atgaatacca 182 9-1 94 gcctagaaac TCAATCGTAG agtatcacgc 103 10-1 4 ttc TCAATCGTAG agtatgctta 13
Gibbs
モチーフ発見ツール Melina2
2.
パラメータ、プログラムを設定3.submit
1.
配列をFASTA
フォーマットで入力Melina2結果画面
3.
既知の類似モチーフ検索2.sequence logo
1.
モチーフを選択Melina2結果画面
3.
既知の類似モチーフ検索2.sequence logo 1.
モチーフを選択4.
プロモータ上の探索本日の流れ
1配列の解析
・
BLAST
からのリンク・
Genome browser
・
InterProScan
・
PSORT
転写制御解析
・
DBTSS
・
Seqlogo
・
JASPAR
・
Melina II
大量データ解析
・大量データの照会
・
Panther
・
Babelomics
・
+@
現代のニーズ = 大規模データの処理
•
大規模データ技術の出現(microarray,
次世代シークエンサー・・・)•
研究では、大規模データを取り扱うこともある•
あるデータセットを与えたときに有意な情報を得たいどんな情報が濃縮
?
・
GO
・
regulation
全ての遺伝子癌で高発現の 遺伝子群
Panther
http://www.pantherdb.org/
取り出した遺伝子群の特徴を解析できる
Panther
補正が必要
Babelomics
http://www.babelomics.org/
遅い!!
取り出した遺伝子群のや転写因子結合部位の推定
次世代シークエンサー
とにかく今までのシーケンサーとは桁が違う
454: 500 bp * 1,000,000 reads
Solid, SOLEXA: 25~50(70bp) * 100,000,000~
1 run
で出てくる画像ファイルは1T
以上次世代シークエンサーデータ の解析
Web
経由でできるツールは、現状はない いくつかのソフトウェアは使用可能Mapping: Maq, SOAP, BowTie, TopHat Assemble: velvet, GSassembly
別途ご相談下さい。。。
mapping
assemble
参考文献
Database issue
Web server issue
少しだけコンピュータの宣伝
•
便利なツールがあるので、できるだけそれ を利用•
大量に処理したいときには向いていないこ ともある・・・ほんの少しのコンピュータの知識でも、かなりのことができます。
1.
UNIX
2.
R
(http://www.r-project.org/)
3.Perl, ruby, python, C++, C
・・・例えば
問
refGene.txt
を利用して、染色体ごとの遺伝子数を求めよ。cut -f 3 refGene.txt | sort |uniq -c
Mac OSX
であればすぐにできます。1.アプリケーション ー ユーティリティ
ー ターミナルを立ち上げる
2
.refGene.txt
をデスクトップに置く3. cd ~/Desktop
4. cut -f 3 refGene.txt | sort |uniq -c
HGC スーパーコンピュータ webページ
https://supcom.hgc.jp/japanese/
申請書を ダウンロード
HGC スーパーコンピュータ
メモリ
2T
最後に