2009
2009年度春学期
年度春学期
ゲノム解析プログラミング
ゲノム解析プログラミング 概要
概要
慶應義塾大学先端生命科学研究所
斎藤輪太郎
この授業の目的
この授業の目的
遺伝子情報処理技術(プログラミング)の取得
Perl + α.
遺伝子情報処理の研究の初歩を学ぶ
解析対象: DNA, mRNA, ゲノム, タンパク質
分子生物学入門
分子生物学入門
分子生物学に足を踏み入れよう
分子生物学に足を踏み入れよう
地球上には様々な生物がいるけれど…
全ての生物が細胞を持ち、
全ての生物がDNAを持ち、
全ての生物がタンパク質を持つ
生物ならみんな共通の部品を持つ
生命のことを分子レベルで理解すれば、
全ての生物のことが一度に分かるか
も知れない!
細胞の構造
細胞の構造
染色体
核
染色体をさらに拡大すると
生体高分子
生体高分子DNA
DNA
細胞内の全てのタンパク質の情報
が書かれている
各部分はA、C、G、Tの4種類の
化学的構造を持つ
DNAは2本鎖…A-T, C-G
O
NH
2N
N
CH
2O
P
-O
O
O
-O
OH
OH
リン酸基
塩基
糖
O
NH
2N
N
O
P
-O
O
O
-O
OH
O
NH
2N
N
O
P
-O
O
O
-O
CH
2CH
2DNAはヌクレオチドがつながったもの
塩基の
塩基の化学構造
化学構造
チミン
(T)
シトシン
(C)
ウラシル
(U)
ピリミジン
グアニン
(G)
アデニン
(A)
プリン
DNA or RNA =塩基+糖+リン酸
塩基は、A、T(U)、C、Gの4種類
アデニン (A)
グアニン (G)
チミン (T)
シトシン (C)
AGTC
AGTC
TCAG
DNAを塩基配列として表すことができる
ggagctgcagcccgaccgcggggaggacgccatcgccgcctgcttcctcatcaactgcct ctacgagcagaacttcgtgtgcaagttcgcgcccagggagggcttcatcaactacctcac gagggaagtgtaccgctcctaccgccagctgcggacccagggctttggagggtctgggat ccccaaggcctgggcaggcatagacttgaaggtacaaccccaggaacccctggtgctgaa ggatgtggaaaacacagattggcgcctactgcggggtgacacggatgtcagggtagagag gaaagacccaaaccaggtggaactgtggggactcaaggaaggcacctacctgttccagct gacagtgactagctcagaccacccagaggacacggccaacgtcacagtcactgtgctgtc caccaagcagacagaagactactgcctcgcatccaacaaggtgggtcgctgccggggctc tttcccacgctggtactatgaccccacggagcagatctgcaagagtttcgtttatggagg ctgcttgggcaacaagaacaactaccttcgggaagaagagtgcattctagcctgtcgggg tgtgcaaggcccctccatggaaaggcgccatccagtgtgctctggcacctgtcagcccac ccagttccgctgcagcaatggctgctgcatcgacagtttcctggagtgtgacgacacccc caactgccccgacgcctccgacgaggctgcctgtgaaaaatacacgagtggctttgacga gctccagcgcatccatttccccagtgacaaagggcactgcgtggacctgccagacacagg actctgcaaggagagcatcccgcgctggtactacaaccccttcagcgaacactgcgcccg ctttacctatggtggttgttatggcaacaagaacaactttgaggaagagcagcagtgcct cgagtcttgtcgcggcatctccaagaaggatgtgtttggcctgaggcgggaaatccccatDNA
DNAの役割は情報の格納庫?
の役割は情報の格納庫?
DNA上の遺伝情報が実際にタンパク質とし
て合成される
合成されたタンパク質が生体の中で様々な働
きをする(形質の決定、代謝反応、etc.)
タンパク質の重要性は?
細胞の主な成分は
細胞の主な成分は….?
….?
成分 細胞の重量比 (%)無機物
水 70 炭水化物 1有機物
炭水化物 3 アミノ酸 0.5 ヌクレオチド 0.5巨大分子
タンパク質 15 DNA 0.5 RNA 6 多糖 2 脂質 2タンパク質は生命現象の主役!
タンパク質は生命現象の主役!
役割 体の器官 構成タンパク質の名前(例) 体の形を整える 皮膚,毛髪,骨,肺 ケラチン,コラーゲン,エラスチン 感覚器 目のレンズ,角膜,網膜, ガラス体 コラーゲン,クリスタリン,ロドプシン 食物の消化 消化酵素 ペプシン,トリプシン,キモトリプシン,リパー ゼ,ヌクレアーゼ 栄養の運搬 血液タンパク質 アルブミン,トランスフェリン,リポタンパク質 呼吸 肺と諸器官での酸素交 換 ヘモグロビン,ミオグロビン,炭酸デヒドラ ターゼ 免疫など 免疫システム 免疫グロブリン,補体,α2−マクログロブリ ン 体内情報伝達 細胞間連絡 成長ホルモン,インスリン,グルカゴン数万種類のタンパク質はどのようにして正確に作られる?
数万種類のタンパク質はどのようにして正確に作られる?
ヒトのタンパク質は数万∼数十万種類存在
タンパク質は細胞内で正確に合成される
どうやって数万種類ものタンパク質を正確に作るの
か?
どこかに設計図があれば…再びDNAの登場
遺伝子の発現のプロセス
遺伝子の発現のプロセス
DNA
ATG
mRNA
AUG
転写
翻訳
タンパク質
TAA
UAA
遺伝子
タンパク質合成ー翻訳
タンパク質合成ー翻訳
コドン
アミノ酸
UGCUCAUGUUGG
ACGAGUACA
システインセリン
スレオニンACC
スレオニンmRNA
tRNA
タンパク質
UUU Phe (F) UCU Ser (S) UAU Tyr (Y) UGU Cys (C) UUC Phe (F) UCC Ser (S) UAC Tyr (Y) UGC Cys (C) UUA Leu (L) UCA Ser (S) UAA * UGA *
UUG Leu (L) UCG Ser (S) UAG * UGG Trp (W) CUU Leu (L) CCU Pro (P) CAU His (H) CGU Arg (R) CUC Leu (L) CCC Pro (P) CAC His (H) CGC Arg (R) CUA Leu (L) CCA Pro (P) CAA Gln (Q) CGA Arg (R) CUG Leu (L) CCG Pro (P) CAG Gln (Q) CGG Arg (R) AUU Ile (I) ACU Thr (T) AAU Asn (N) AGU Ser (S) AUC Ile (I) ACC Thr (T) AAC Asn (N) AGC Ser (S) AUA Ile (I) ACA Thr (T) AAA Lys (K) AGA Arg (R)
AUG Met (M) ACG Thr (T) AAG Lys (K) AGG Arg (R) GUU Val (V) GCU Ala (A) GAU Asp (D) GGU Gly (G) GUC Val (V) GCC Ala (A) GAC Asp (D) GGC Gly (G) GUA Val (V) GCA Ala (A) GAA Glu (E) GGA Gly (G) GUG Val (V) GCG Ala (A) GAG Glu (E) GGG Gly (G)
DNAから形質へ
DNAから形質へ
DNA
タンパク質
立体構造
機能
形質
配列決定が進行するゲノム
配列決定が進行するゲノム
ゲノムとは?
ゲノムとは?
1つの生物のDNAセット…ヒトの場合23個の
染色体
その生物がコードする全てのタンパク質の情
報が書き込まれている
生命の全体像
入手可能なゲノム
入手可能なゲノム(DNA)
(DNA)配列の例
配列の例
種
ゲノムサイズ
遺伝子数
大腸菌
4.6M
4,000
酵母菌
15M
6,000
線虫
100M
14,000
ショウジョウバエ
170M
12,000
ヒト
3,000M
25,000
全ゲノム配列
全ゲノム配列
大腸菌
ヒト22番染色体の一部
ヒトゲノムのドラフト配列
ヒトゲノムのドラフト配列
2001年初頭ヒトゲノム読み取り完了
2001年初頭ヒトゲノム読み取り完了
約30億塩基対
国際プロジェクトチームによる配列
バイオインフォマティクスの登場
バイオインフォマティクスの登場
大量のデータの管理
大量のデータのマイニング
配列データ
ATTCCTACGA…..バイオインフォマティクスによる
バイオインフォマティクスによる
解析から分かってきたこと
解析から分かってきたこと
0
10000 20000 30000 40000 50000ヒトの遺伝子の総数は?
ヒトの遺伝子の総数は?
イネ
トラフグ
シロイヌナズナ
線虫
大腸菌
ヒト (従来の推定)
ヒト
ショウジョウバエ
ヒトの遺伝子総数は思ったより何故少ない?
ヒトの遺伝子総数は思ったより何故少ない?
タンパク質の組み合わせが複雑
1つの遺伝子から複数の種類のタンパク質が
できる
RNA!?
A
B
C
A B
B
C
A
C
A
B C
DNA
A
B
C
ヒトゲノムの
ヒトゲノムの97%
97%はタンパク質をコードしない?
はタンパク質をコードしない?
遺伝子領域は < 3%
遺伝子領域以外
– 偽遺伝子
– ジャンクDNA?
– 50%は反復配列(トランスポゾン)
LINE1
LINE1
LINE1
ALU
ALU
LINE1
飛び回る配列トランスポゾン
飛び回る配列トランスポゾン
タンパク質コード領域を持たない
タンパク質コード領域を持たないRNA?
RNA?
ゲノム
RNA
さらにコード領域を持たない多数の
タンパク質をコードしない
タンパク質をコードしないRNA
RNA配列が多くある
配列が多くある
ゲノム
RNA
ゲノムの62.5%をカバー
多くのRNAは翻訳されなくても機能を持つ?
非翻訳RNAが多量に存在?
アンチセンスRNA
アンチセンスRNA
ヒトゲノム
cDNA
アンチセンスRNAによる遺伝子制御
アンチセンスRNAによる遺伝子制御
AAAAA # # # #