• 検索結果がありません。

プレゼンテーション2.ppt

N/A
N/A
Protected

Academic year: 2022

シェア "プレゼンテーション2.ppt"

Copied!
76
0
0

読み込み中.... (全文を見る)

全文

(1)

有用データベースとWebサーバー

東京大学医科学研究所 フロンティア研究拠点

ヒトゲノム解析センター 機能解析インシリコ分野

山下理宇

[email protected]

(2)

本日の講義に当たって

質問がありましたら、いつでも途中で止めて ください。

メディカルゲノムの学生の方へ

講義の最後にアンケートに記入して下さい。 →  出席とみなします。

(3)

本日の流れ

1配列の解析

BLAST

からのリンク

Genome browser

InterProScan

PSORT

転写制御解析

DBTSS

Seqlogo

JASPAR

Melina II

大量データ解析

・大量データの照会

Panther

Babelomics

+@

(4)

introduction

(5)

スタート:cDNA配列を得た

>cDNA_test

CCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCAC ACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTG AGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGCATCTTATCCGAG TGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGTGGTGGTGCCCTA TGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAACAGTTCCTGCATG GGCGGCATGAACCGGAGGCCCATCCTCACCATCATCACACTGGAAGACTCCAGTGGTAATCTACTGGGAC GGAACAGCTTTGAGGTGCGTGTTTGTGCCTGTCCTGGGAGAGACCGGCGCACAGAGGAAGAGAATCTCCG CAAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAGCGAGCACTGCCCAACAACACCAGC TCCTCTCCCCAGCCAAAGAAGAAACCACTGGATGGAGAATATTTCACCCTTCAGATCCGTGGGCGTGAGC

クローニング シークエンス 実験データから

(6)

NCBIでBLASTをかける

• NCBI(http://www.ncbi.nlm.nih.gov/)

(7)

BLAST
search

(8)

BLAST
result

(9)

各データベースへのリンク

UniGene

EST

を含めた

cDNA

を機械的にクラスタリングした物

GEO

 マイクロアレイによる発現データ (大林先生)

Gene

Entrez Gene

による遺伝子のアノテーション

Structure

 立体構造(木下先生)

Map viewer

 ゲノム上での位置

(10)

Entrez
Gene

(11)

Entrez
Gene
詳細1

(12)

Entrez
Gene:
GO

遺伝子の機能を大まかに 見積もることができる

遺伝子機能のデジタル な分類が可能

(13)

Gene
Ontology
(GO)とは

http://www.geneontology.org/

生物学用語の階層構造を表記

遺伝子のアノテーションとして使われる

(14)

Gene
Ontologyの例

(15)

似ている配列が発見できない・・・

• 1.

その前に

その配列は、ゴミではありませんか?

• AAAAAAAA

・・・・・等、クオリティに問題はありませんか?

大腸菌の一部ではないですか?

大腸菌・ベクターをクローニングしてしまった・・・。

他の生物種は試してみましたか?

(トマトではないですか?)

• 2.

ゲノムに当ててみよう。

(16)

Genome
Browser

• NCBI

– http://www.ncbi.nlm.nih.gov/Genomes/

• Ensembl

– http://www.ensembl.org/index.html

• UCSC Genome browser

– http://genome.ucsc.edu/

(17)

UCSC
Genome
browser

http://genome.ucsc.edu/

ゲノムの総合的なデータベース

(18)

BLAT:
ゲノムへのマッピング

(19)

Browser

(20)

detail

(21)

Genome browser

の内側

:download

(22)

自前のデータの追加

(23)

ゲノム配列

(24)

refGene.txt

26250

(25)

ゲノムにマッピングの結果・・・

• 1.

ゲノムにマッピングできた。

報告されている

EST

はありますか?

その領域の保存はどうですか?

• 2.

ゲノムにマッピングできない

意味のある配列だと思いますか?

アミノ酸に翻訳して考えてみましょう

(26)

InterProScanによる機能推定

http://www.ebi.ac.uk/Tools/InterProScan/

タンパク質の機能モチーフ・ドメイン等の統合検索システム

(27)

InterProScan結果

(28)

InterProScan詳細

(29)

タンパク質の局在予測(PSORT)

http://psort.ims.u-tokyo.ac.jp/

(30)

WoLF
PSORT

Paul Horton

先生

(31)

WoLF PSORT

結果

特徴の似ているタンパク質 の局在を元に多数決を取る

(32)

本日の流れ

1配列の解析

BLAST

からのリンク

Genome browser

InterProScan

PSORT

転写制御解析

DBTSS

Seqlogo

JASPAR

Melina II

大量データ解析

・大量データの照会

Panther

Babelomics

+@

(33)

さて・・・

それで満足ですか?

転写制御(プロモータ)を調べてみよう

目的の

cDNA

の同定・あるいは類似配列がわかった。

CDS

のアノテーションはできた。

ゲノム上のどこにあるか分かった

(34)

genome

mRNA(full) AAAA

転写開始領域の解析には5ʼ端が保証された配列が不可欠

TTTT TTTT

Genbank

TTTT

Refseq cDNA TTTT

転写開始点はどこ?

5’端配列

プロモータ同定に必要な配列

転写

完全長cDNA

TTTT

5ʼ端が保証

(35)

転写開始点データベースDBTSS

http://dbtss.hgc.jp

5ʼ端の保証された多量のcDNA配列

– Oligo-capping

法(東大医科研、かずさDNA研)

AP-

Trapper法(理研)

ゲノム

5’端配列

転写開始点 転写開始点

DBTSS:
DataBase
of
Transcritption
Start
Sites

(36)

!"#$ %#$!&# '()!$#* '&+""#, '-. '/!(0*/1$2 %#$!&# '()!$#* '&+""#, '-. '/!(0*/1$2

3#456 78869#"5 :%; 76;<87 666=>7 ;>>? @ @ @ @ @ @

3#457 7887.+45 :%66 <8877A 6>=><A ?==B @ &&6 ==<>7 6<B8B 7;>? @ 3#45= 788=.+C5 :%6= <8877A 6?8?B< 667=< ?<;8 &&7 A>878? 6?A<<B ;A7< B>;A 3#45< 788<-!3 :%6B <8877A 7;;;?< 6AA=B 67;>8 &&= A>878? 7?8;6< 6666B 68?==

3#45A 788A9#" :%6; 6;>87?A 6=A?888 6?;A= 6A7B7 &&A A>878? =B<<>; 6<;<B 6<6B7

:0&+$ &!0*#

DBTSSデータ数

DBTSS登録遺伝子数

ヒト・マウス遺伝子の

9

割近い遺伝子について 転写開始点情報がある

Ver. 5

では

ヒト

19753 / 22682(87.1%)

マウス

14746 / 17213(85.7%)

Ver. 6

(2007 Sep)

では、

SOLEXA

データを導入

(37)

DBTSS
検索と結果

(38)

プロモータ配列の入手

(39)

比較ゲノム例

比較ゲノムによるプロモータ解析が可能

human mouse

アライメント TSS付近詳細

局所アライメント

(40)

転写開始点の多様性

一つの遺伝子の転写開始点は一つとは限らない そろっている 揺らぎがある

選択的

甲状腺 その他

(41)

代表転写開始点の決定

Case 1

Case 2

ignored ignored ORF

5’UTR

TSS with max number of clones

Median locus of TSS

代表転写開始点をもとにしたプロモータ配列はダウンロード可能

(42)

fixed
TSSsの定義

TSS>=50%,
#clones>=10     ↓

fixed
TSS

425117
TSSs
(15262遺伝子)

#clones>=10

408341
TSSs
(10578
遺伝子)

925
fixed
TSS
(925遺伝子)

DBTSS ver. 5

を使用

(43)

Sequence
logo

Weblogo

http://weblogo.berkeley.edu/

Weblogo

のホームページより引用

SEQLOGO

http://www.bioinf.ebc.ee/EP/EP/

(44)

Sequence
logo

Ribosomal protein

mRNA

TSS

付近

-10~+10

45

(45)

SEQLOGO
入力

配列

マトリックスも可

(46)

SEQLOGO
結果

Ribosome

protein

遺伝子

(45

)

それ以外の遺伝子

(880

種)

(47)

miRNAのdatabase

http://microrna.sanger.ac.uk/

(48)

miRBase::
Targets入力

(49)

miRBase::
Targets結果

(50)

miRBase::Sequences

(51)

miRBase::Sequences
詳細1

pre-mature

な配列

(52)

miRBase::Sequences
詳細2

mature

な配列

(53)

Motif検索の必要性

同じように発現する遺伝子は、同じ転写因 子によって制御されている?

遺伝子領域

A

遺伝子領域

B

遺伝子領域

C

遺伝子領域

D

プロモータ モチーフ

どうやって、モチーフ、プロモータを求めるか

(54)

既知Motifの探索

• TRANSFAC

– Public

は無償だが、有償の方がデータ多い

重複がある。

– DBTSS

Link

がある

– http://www.biobase.de/

• JASPAR

無償

重複なし

– http://jaspar.genereg.net

(55)

JASPAR:
Top
page

(56)

JASPAR:
入力画面

(57)

JASPAR:
結果

(58)

FANTOM4

Functional
Annotation
of
the
Mouse

Functional
Annotation
of
the
Mammalian
Genome

http://fantom.gsc.riken.jp/4/

(59)

未知Motifの探索の限界

確率的手法

MEME

Gibbs

CONSENSUS….

! " # ! $ ! " ! #

" % & % % % % & % %

# % % & % % % % % &

! & % % & % & % & %

$ % % % % & % % % %

# % % & % % % % % &

$ % % % % & % % % %

" % & % % % % & % %

! & % % & % & % & %

# % % & % % % % % &

! " # ! $ ! " ! #

" % & % % % % & % %

# % % & % % % % % &

! & % % & % & % & %

$ % % % % & % % % %

# % % & % % % % % &

$ % % % % & % % % %

" % & % % % % & % %

! & % % & % & % & %

# % % & % % % % % &

! " # ! $ ! " ! #

" % & % % % % & % %

# % % ' % % % % % &

! & % % ( % & % & %

$ % % % % ) % % % %

# % % & % % % % % &

$ % % % % & % % % %

" % & % % % % & % %

! & % % & % & % ' %

# % % & % % % % % (

配列が3つだったら・・・・→ 3次元 配列がnだったら ・・・・→ n次元!!!

(60)

既存の確率的手法の問題点

得られたモチーフが最適解とは限らない

パラメータ調整の必要性

プログラム間での結果比較が難しい

Motif 1 sites sorted by position p-value

--- Sequence name Start P-value Site

--- --- --- ---

SEQ8; 172 9.57e-10 CCCGGAGTAT CTCAATCGTAGATGA ATACCACTTT SEQ3; 112 9.57e-10 GTTATATTGG CTCAATCGTAGATGA AACCAGACTC SEQ5; 185 1.96e-09 ACGGGCAAGC CTCAATCGTAGAGGA T SEQ6; 105 2.82e-09 GTCAGCCGGT CTCAATCGTAGATCA GAGGCGAGAA SEQ4; 173 4.67e-09 GTTCGAGAGC CTCAATCGTAGATAA CCTCTCTGGC SEQ2; 172 4.67e-09 AAGCGTCGTG CTCAATCGTAGATAA CAGAGGTCGG SEQ10; 3 7.52e-09 TT CTCAATCGTAGAGTA TGCTTAGAGG SEQ9; 93 7.52e-09 CGCCTAGAAA CTCAATCGTAGAGTA TCACGCACCG SEQ1; 52 9.33e-09 CTTTACTCGG CTCAATCGTAGAGGC GGTGCCGCGA SEQ7; 177 1.95e-08 AAGTCTTTGA CTCAATCGTAGACCC AACACTTGA ---

MEME

MOTIF A

1-1 53 tttactcggc TCAATCGTAG aggcggtgcc 62 2-1 173 agcgtcgtgc TCAATCGTAG ataacagagg 182 3-1 113 ttatattggc TCAATCGTAG atgaaaccag 122 4-1 174 ttcgagagcc TCAATCGTAG ataacctctc 183 5-1 186 cgggcaagcc TCAATCGTAG aggat 195 6-1 106 tcagccggtc TCAATCGTAG atcagaggcg 115 7-1 178 agtctttgac TCAATCGTAG acccaacact 187 8-1 173 ccggagtatc TCAATCGTAG atgaatacca 182 9-1 94 gcctagaaac TCAATCGTAG agtatcacgc 103 10-1 4 ttc TCAATCGTAG agtatgctta 13

Gibbs

(61)

モチーフ発見ツール Melina2

2.

パラメータ、プログラムを設定

3.submit

1.

配列を

FASTA

フォーマットで入力

(62)

Melina2結果画面

3.

既知の類似モチーフ検索

2.sequence logo

1.

モチーフを選択

(63)

Melina2結果画面

3.

既知の類似モチーフ検索

2.sequence logo 1.

モチーフを選択

4.

プロモータ上の探索

(64)

本日の流れ

1配列の解析

BLAST

からのリンク

Genome browser

InterProScan

PSORT

転写制御解析

DBTSS

Seqlogo

JASPAR

Melina II

大量データ解析

・大量データの照会

Panther

Babelomics

+@

(65)

現代のニーズ 大規模データの処理

大規模データ技術の出現(

microarray,

次世代シークエンサー・・・)

研究では、大規模データを取り扱うこともある

あるデータセットを与えたときに有意な情報を得たい

どんな情報が濃縮

?

GO

regulation

全ての遺伝子

癌で高発現の 遺伝子群

(66)

Panther

http://www.pantherdb.org/

取り出した遺伝子群の特徴を解析できる

(67)

Panther

補正が必要

(68)

Babelomics

http://www.babelomics.org/

遅い!!

取り出した遺伝子群のや転写因子結合部位の推定

(69)

次世代シークエンサー

とにかく今までのシーケンサーとは桁が違う

454: 500 bp * 1,000,000 reads

Solid, SOLEXA: 25~50(70bp) * 100,000,000~

1 run

で出てくる画像ファイルは

1T

以上

(70)

次世代シークエンサーデータ の解析

Web

経由でできるツールは、現状はない いくつかのソフトウェアは使用可能

Mapping: Maq, SOAP, BowTie, TopHat Assemble: velvet, GSassembly

別途ご相談下さい。。。

mapping

assemble

(71)

参考文献

Database issue

Web server issue

(72)

少しだけコンピュータの宣伝

便利なツールがあるので、できるだけそれ を利用

大量に処理したいときには向いていないこ ともある・・・

ほんの少しのコンピュータの知識でも、かなりのことができます。

1.

UNIX

2.

R

 (

http://www.r-project.org/)

3.

Perl, ruby, python, C++, C

・・・

(73)

例えば

問 

refGene.txt

を利用して、染色体ごとの遺伝子数を求めよ。

cut -f 3 refGene.txt | sort |uniq -c

Mac OSX

であればすぐにできます。

1.アプリケーション  ー ユーティリティ

  ー ターミナルを立ち上げる

2

refGene.txt

をデスクトップに置く

3. cd ~/Desktop

4. cut -f 3 refGene.txt | sort |uniq -c

(74)

HGC
スーパーコンピュータ
webページ

https://supcom.hgc.jp/japanese/

申請書を ダウンロード

(75)

HGC
スーパーコンピュータ

メモリ 

2T

(76)

最後に

本日のスライドは

– http://www.hgc.jp/~ryamasi/others

に置いて おきます。

何かご質問等ありましたらお気軽に

[email protected]

までメール下さい。

参照

関連したドキュメント

●Gartner Magic QuadrantにてクラウドHCM Suiteにおけるリーダーの評価.. Copyright © 2022 Nomura System Corporation Co, Ltd. All Rights Reserved.. Copyright © 2022 Nomura

支援要請入力詳細 13ページ 患者受入入力詳細 14ページ 支援可能スタッフ3.

and Kristjan Vassil (2010) Internet voting in Estonia : a comparative analysis of four elections since 2005 : report for the Council of Europe”Report for the Council of Europe.

2021年1月15日にHa Tay Pharmaceutical Joint Stock Company(

がん化学療法に十分な知識・経験を持つ医師のもとで、本剤の投与が適切と判断さ

日医かかりつけ医機能研修制度 令和 年度応用研修会 「メタボリックシンドロームからフレイルまで」 飯島勝矢 Tamakoshi A ら. Obesity

(Immuno Checkpoint Inhibitor Proper use Support team

剣道部 柔道部 硬式野球部 卓球部 水泳部 ラグビー部 ソフトテニス部 テニス部 ハンドボール部 サッカー部 バドミントン部