• 検索結果がありません。

Perl + α. : DNA, mrna,,

N/A
N/A
Protected

Academic year: 2021

シェア "Perl + α. : DNA, mrna,,"

Copied!
53
0
0

読み込み中.... (全文を見る)

全文

(1)

2009

2009年度春学期

年度春学期

ゲノム解析プログラミング

ゲノム解析プログラミング 概要

概要

慶應義塾大学先端生命科学研究所

斎藤輪太郎

(2)

この授業の目的

この授業の目的

遺伝子情報処理技術(プログラミング)の取得

Perl + α.

遺伝子情報処理の研究の初歩を学ぶ

解析対象: DNA, mRNA, ゲノム, タンパク質

(3)

分子生物学入門

分子生物学入門

(4)

分子生物学に足を踏み入れよう

分子生物学に足を踏み入れよう

地球上には様々な生物がいるけれど…

全ての生物が細胞を持ち、

全ての生物がDNAを持ち、

全ての生物がタンパク質を持つ

生物ならみんな共通の部品を持つ

生命のことを分子レベルで理解すれば、

全ての生物のことが一度に分かるか

も知れない!

(5)

細胞の構造

細胞の構造

染色体

(6)

染色体をさらに拡大すると

(7)

生体高分子

生体高分子DNA

DNA

細胞内の全てのタンパク質の情報

が書かれている

各部分はA、C、G、Tの4種類の

化学的構造を持つ

DNAは2本鎖…A-T, C-G

(8)

O

NH

2

N

N

CH

2

O

P

-

O

O

O

-O

OH

OH

リン酸基

塩基

O

NH

2

N

N

O

P

-

O

O

O

-O

OH

O

NH

2

N

N

O

P

-

O

O

O

-

O

CH

2

CH

2

DNAはヌクレオチドがつながったもの

(9)

塩基の

塩基の化学構造

化学構造

チミン

(T)

シトシン

(C)

ウラシル

(U)

ピリミジン

グアニン

(G)

アデニン

(A)

プリン

DNA or RNA =塩基+糖+リン酸

塩基は、A、T(U)、C、Gの4種類

(10)

アデニン (A)

グアニン (G)

チミン (T)

シトシン (C)

AGTC

AGTC

TCAG

(11)

DNAを塩基配列として表すことができる

ggagctgcagcccgaccgcggggaggacgccatcgccgcctgcttcctcatcaactgcct ctacgagcagaacttcgtgtgcaagttcgcgcccagggagggcttcatcaactacctcac gagggaagtgtaccgctcctaccgccagctgcggacccagggctttggagggtctgggat ccccaaggcctgggcaggcatagacttgaaggtacaaccccaggaacccctggtgctgaa ggatgtggaaaacacagattggcgcctactgcggggtgacacggatgtcagggtagagag gaaagacccaaaccaggtggaactgtggggactcaaggaaggcacctacctgttccagct gacagtgactagctcagaccacccagaggacacggccaacgtcacagtcactgtgctgtc caccaagcagacagaagactactgcctcgcatccaacaaggtgggtcgctgccggggctc tttcccacgctggtactatgaccccacggagcagatctgcaagagtttcgtttatggagg ctgcttgggcaacaagaacaactaccttcgggaagaagagtgcattctagcctgtcgggg tgtgcaaggcccctccatggaaaggcgccatccagtgtgctctggcacctgtcagcccac ccagttccgctgcagcaatggctgctgcatcgacagtttcctggagtgtgacgacacccc caactgccccgacgcctccgacgaggctgcctgtgaaaaatacacgagtggctttgacga gctccagcgcatccatttccccagtgacaaagggcactgcgtggacctgccagacacagg actctgcaaggagagcatcccgcgctggtactacaaccccttcagcgaacactgcgcccg ctttacctatggtggttgttatggcaacaagaacaactttgaggaagagcagcagtgcct cgagtcttgtcgcggcatctccaagaaggatgtgtttggcctgaggcgggaaatccccat

(12)

DNA

DNAの役割は情報の格納庫?

の役割は情報の格納庫?

DNA上の遺伝情報が実際にタンパク質とし

て合成される

合成されたタンパク質が生体の中で様々な働

きをする(形質の決定、代謝反応、etc.)

タンパク質の重要性は?

(13)

細胞の主な成分は

細胞の主な成分は….?

….?

成分 細胞の重量比 (%)

無機物

70 炭水化物 1

有機物

炭水化物 3 アミノ酸 0.5 ヌクレオチド 0.5

巨大分子

タンパク質 15 DNA 0.5 RNA 6 多糖 2 脂質 2

(14)

タンパク質は生命現象の主役!

タンパク質は生命現象の主役!

役割 体の器官 構成タンパク質の名前(例) 体の形を整える 皮膚,毛髪,骨,肺 ケラチン,コラーゲン,エラスチン 感覚器 目のレンズ,角膜,網膜, ガラス体 コラーゲン,クリスタリン,ロドプシン 食物の消化 消化酵素 ペプシン,トリプシン,キモトリプシン,リパー ゼ,ヌクレアーゼ 栄養の運搬 血液タンパク質 アルブミン,トランスフェリン,リポタンパク質 呼吸 肺と諸器官での酸素交 換 ヘモグロビン,ミオグロビン,炭酸デヒドラ ターゼ 免疫など 免疫システム 免疫グロブリン,補体,α2−マクログロブリ ン 体内情報伝達 細胞間連絡 成長ホルモン,インスリン,グルカゴン

(15)

数万種類のタンパク質はどのようにして正確に作られる?

数万種類のタンパク質はどのようにして正確に作られる?

ヒトのタンパク質は数万∼数十万種類存在

タンパク質は細胞内で正確に合成される

どうやって数万種類ものタンパク質を正確に作るの

か?

どこかに設計図があれば…再びDNAの登場

(16)

遺伝子の発現のプロセス

遺伝子の発現のプロセス

DNA

ATG

mRNA

AUG

転写

翻訳

タンパク質

TAA

UAA

遺伝子

(17)

タンパク質合成ー翻訳

タンパク質合成ー翻訳

コドン

アミノ酸

UGCUCAUGUUGG

ACGAGUACA

システイン

セリン

スレオニン

ACC

スレオニン

mRNA

tRNA

タンパク質

(18)

UUU Phe (F) UCU Ser (S) UAU Tyr (Y) UGU Cys (C) UUC Phe (F) UCC Ser (S) UAC Tyr (Y) UGC Cys (C) UUA Leu (L) UCA Ser (S) UAA * UGA *

UUG Leu (L) UCG Ser (S) UAG * UGG Trp (W) CUU Leu (L) CCU Pro (P) CAU His (H) CGU Arg (R) CUC Leu (L) CCC Pro (P) CAC His (H) CGC Arg (R) CUA Leu (L) CCA Pro (P) CAA Gln (Q) CGA Arg (R) CUG Leu (L) CCG Pro (P) CAG Gln (Q) CGG Arg (R) AUU Ile (I) ACU Thr (T) AAU Asn (N) AGU Ser (S) AUC Ile (I) ACC Thr (T) AAC Asn (N) AGC Ser (S) AUA Ile (I) ACA Thr (T) AAA Lys (K) AGA Arg (R)

AUG Met (M) ACG Thr (T) AAG Lys (K) AGG Arg (R) GUU Val (V) GCU Ala (A) GAU Asp (D) GGU Gly (G) GUC Val (V) GCC Ala (A) GAC Asp (D) GGC Gly (G) GUA Val (V) GCA Ala (A) GAA Glu (E) GGA Gly (G) GUG Val (V) GCG Ala (A) GAG Glu (E) GGG Gly (G)

(19)

DNAから形質へ

DNAから形質へ

DNA

タンパク質

立体構造

機能

形質

(20)

配列決定が進行するゲノム

配列決定が進行するゲノム

(21)

ゲノムとは?

ゲノムとは?

1つの生物のDNAセット…ヒトの場合23個の

染色体

その生物がコードする全てのタンパク質の情

報が書き込まれている

生命の全体像

(22)

入手可能なゲノム

入手可能なゲノム(DNA)

(DNA)配列の例

配列の例

ゲノムサイズ

遺伝子数

大腸菌

4.6M

4,000

酵母菌

15M

6,000

線虫

100M

14,000

ショウジョウバエ

170M

12,000

ヒト

3,000M

25,000

(23)

全ゲノム配列

全ゲノム配列

大腸菌

ヒト22番染色体の一部

(24)

ヒトゲノムのドラフト配列

ヒトゲノムのドラフト配列

(25)

2001年初頭ヒトゲノム読み取り完了

2001年初頭ヒトゲノム読み取り完了

約30億塩基対

国際プロジェクトチームによる配列

(26)

バイオインフォマティクスの登場

バイオインフォマティクスの登場

大量のデータの管理

大量のデータのマイニング

配列データ

ATTCCTACGA…..

(27)

バイオインフォマティクスによる

バイオインフォマティクスによる

解析から分かってきたこと

解析から分かってきたこと

(28)

0

10000 20000 30000 40000 50000

ヒトの遺伝子の総数は?

ヒトの遺伝子の総数は?

イネ

トラフグ

シロイヌナズナ

線虫

大腸菌

ヒト (従来の推定)

ヒト

ショウジョウバエ

(29)

ヒトの遺伝子総数は思ったより何故少ない?

ヒトの遺伝子総数は思ったより何故少ない?

タンパク質の組み合わせが複雑

1つの遺伝子から複数の種類のタンパク質が

できる

RNA!?

A

B

C

A B

B

C

A

C

A

B C

DNA

A

B

C

(30)

ヒトゲノムの

ヒトゲノムの97%

97%はタンパク質をコードしない?

はタンパク質をコードしない?

遺伝子領域は < 3%

遺伝子領域以外

– 偽遺伝子

– ジャンクDNA?

– 50%は反復配列(トランスポゾン)

LINE1

LINE1

LINE1

ALU

ALU

LINE1

(31)

飛び回る配列トランスポゾン

飛び回る配列トランスポゾン

(32)

タンパク質コード領域を持たない

タンパク質コード領域を持たないRNA?

RNA?

ゲノム

RNA

(33)

さらにコード領域を持たない多数の

(34)

タンパク質をコードしない

タンパク質をコードしないRNA

RNA配列が多くある

配列が多くある

ゲノム

RNA

ゲノムの62.5%をカバー

多くのRNAは翻訳されなくても機能を持つ?

非翻訳RNAが多量に存在?

(35)

アンチセンスRNA

アンチセンスRNA

ヒトゲノム

cDNA

(36)

アンチセンスRNAによる遺伝子制御

アンチセンスRNAによる遺伝子制御

(37)

AAAAA # # # #

ゲノム中に多く存在する偽遺伝子

ゲノム中に多く存在する偽遺伝子

機能性遺伝子

偽遺伝子

AAAAA

タンパク質

ヒトには>12,000、マウスには>5,000の偽遺伝子が存在する

(Zhang et al. 2004)

機能性遺伝子由来

タンパク質をコードする能力を失っている

(38)

偽遺伝子は機能を持っていない

偽遺伝子は機能を持っていない??

偽遺伝子は

– 転写されない

– 機能を持っていない

と考えられてきた。

しかし ...

# #

#

##

AAAAA

(39)

マウスで機能がある偽遺伝子の例

マウスで機能がある偽遺伝子の例 (1)

(1)

mRNA Makorin1 Makorin1にコードされている タンパク質が合成される Makorin1-p1 (偽遺伝子) mRNA

野生型

mRNA分解因子が偽遺伝子の 転写産物に結合

(Hirotsune et al. 2003)

mRNAに転写

(40)

マウスで機能がある偽遺伝子の例

マウスで機能がある偽遺伝子の例 (2)

(2)

Makorin1 mRNA

変異型

mRNA分解因子が機能性遺伝子 由来のmRNAに結合 mRNA is degraded No Makorin1-p1

(Hirotsune et al. 2003)

骨形成に異常のあるマウスが生まれる。従って、

Makorin1-p1は

RNA

レベルで機能を持つ。

(41)

転写されている偽遺伝子の特定

転写されている偽遺伝子の特定

ゲノム

RNA

# # # # # # # # # # # # # # # # # # # # # # # # # #

ヒトの偽遺伝子のうち、約7.8%が転写されている

マウスの偽遺伝子のうち、約6.2%が転写されてい

今まで死んでいたと思われていた、偽遺伝子の中

に実は重要な機能を持つものがあるかも知れない

(42)

授業について

授業について

(43)

ゲノム解析の研

ゲノム解析の研究

遺伝子データベース

GenBank, etc.

配列データ

結果

考察

ATTCCTACGA…..

抽出

分析

(44)

GenBank

GenBankとは?

とは?

塩基配列データベース

塩基配列、コード領域、exon, intronなどの

情報が入っている

アメリカのNCBIというところが管理している

膨大な量のデータ

(45)

GenBank

GenBankの形式

の形式

LOCUS

DEFINITION E.coli peptide

SOURCE ORGANISM E.coli

CDS 2..16

ORIGIN

1 c

atgatgtac atctaa

taga

21 acgagtgagg

//

(46)

まずは

(47)

簡単な解析

簡単な解析

GC含量

コドン使用

開始コドン周辺のコン

センサス配列

発現データの相関解析

(48)

理論の勉強

理論の勉強

(49)

本授業の進め方

本授業の進め方

Perlプログラミング実習(1∼6回目)

– オリジナルのテキストを使用してPerlの習得

– ゲノム解析の実習

– WEBを使って毎回課題を提出

ゲノム解析実践(7∼12回目)

TA/SA指導のもとで、ゲノム解析プロジェクト

最終日(13回目)

プロジェクトの発表

(50)

授業

授業WEB page

WEB page

(51)

成績

成績

A:最終発表(30%)+最終レポート(30%)+

提出課題(40%)の総合得点が上位20%以内。

B:最終発表(30%) +最終レポート(30%) +

提出課題(40%)の総合得点がB基準を満たし

ている。

C:最終発表を行い、最終レポートを提出し、

提出課題を少なくとも1回は提出している。

(52)

最終発表の基準

最終発表の基準

成果(0-7):解析の成果、結果の面白さ、結果の解釈

の面白さ、解析の視点の面白さ、etc.

プレゼン(0-4):プレゼンのうまさ、分かりやすさ、etc.

努力(0-3):たとえ面白い結果がなくても、苦労してい

ろいろな解析を行っている、etc.

質疑(0-3):審査員から質問を引き出し、なおかつそ

れにうまく答えている。

その他(0-3):上記3つのどれにも該当しないが、+

α

をあげたい。チームワークが特に優れている、etc.

(53)

TA/SAの紹介

TA/SAの紹介

TA

河野暢明

小川隆

SA

木戸信博

池上慶太

浜島聖文

参照

Outline

関連したドキュメント

全国の 研究者情報 各大学の.

その詳細については各報文に譲るとして、何と言っても最大の成果は、植物質の自然・人工遺

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

当社は、お客様が本サイトを通じて取得された個人情報(個人情報とは、個人に関する情報

「系統情報の公開」に関する留意事項

何日受付第何号の登記識別情報に関する証明の請求については,請求人は,請求人

Google マップ上で誰もがその情報を閲覧することが可能となる。Google マイマップは、Google マップの情報を基に作成されるため、Google

しかしながら、世の中には相当情報がはんらんしておりまして、中には怪しいような情 報もあります。先ほど芳住先生からお話があったのは