@2013 Miyazaki S, Tokyo University of Science
遺伝子配列解析の基礎
genome=gene+ome
cgtgctttccacgacggtgacacgcttccctggattggccagactgccttccgggtcactgccatggaggagccgcagtcagatcctagcgtcgagccccctctga gtcaggaaacattttcagacctatggaaactacttcctgaaaacaacgttctgtcccccttgccgtcccaagcaatggatgatttgatgctgtccccggacgatattga acaatggttcactgaagacccaggtccagatgaagctcccagaatgccagaggctgctccccgcgtggcccctgcaccagcagctcctacaccggcggcccctg caccagcccctcctggcccctgtcatcttctgtcccttcccagaaaacctaccagggcagctacggtttccgtctgggcttcttgcattccgggacagccaagtctg tgacttgcacgtactcccctgccctcaacaagatgttttgccaactggccaagacctgccctgtgcagctgtgggttgattccacacccccgcccggcacccgcgt ccgcgccatggccatctacaagcagtcacagcacatgacggaggttgtgaggcgctgcccccaccatgagcgctgctcagatagcgatggtctggcccctcctca gcatcttatccgagtggaaggaaatttgcgtgtggagtatttggatgacagaaacacttttcgacatagtgtggtggtgccctatgagccgcctgaggttggctctgact gtaccaccatccactacaactacatgtgtaacagttcctgcatgggcggcatgaaccggaggcccatcctcaccatcatcacactggaagactccagtggtaatct actgggacggaacagctttgaggtgcatgtttgtgcctgtcctgggagagaccggcgcacagaggaagagaatctccgcaagaaaggggagcctcaccacgagctg cccccagggagcactaagcgagcactgtccaacaacaccagctcctctccccagccaaagaagaaaccactggatggagaatatttcacccttcagatccgtggg cgtgagcgcttcgagatgttccgagagctgaatgaggccttggaactcaaggatgcccaggctgggaaggagccaggggggagcagggctcactccagccacctga agtccaaaaagggtcagtctacctcccgccataaaaaactcatgttcaagacagaagggcctgactcagactgacattctccacttcttgttccccactgacagcct cccacccccatctctccctcccctgccattttgggttttgggtctttgaacccttgcttgcaataggtgtgcgtcagaagcacccaggacttccatttgctttgtcccg gggctccactgaacaagttggcctgcactggtgttttgttgtggggaggaggatggggagtaggacataccagcttagattttaaggtttttactgtgagggatgtttggg agatgtaagaaatgttcttgcagttaagggttagtttacaatcagccacattctaggtaggggcccacttcaccgtactaaccagggaagctgtccctcactgttgaat tttctctaacttcaaggcccatatctgtgaaatgctggcatttgcacctacctcacagagtgcattgtgagggttaatgaaataatgtacatctggccttgaaaccacct tttattacatggggtctagaactgacccccttgagggtgcttgttccctctccctgttggtcggtgggttggtagtttctacagttgggcagctggttaggtagagggagtt gtcaagtctctgctggcccagccaaaccctgtctgacaacctcttggtgaaccttagtacctaaaaggaaatctcaccccatcccacaccctggaggatttcatctc ttgtatatgatgatctggatccaccaagacttgttttatgctcagggtcaatttcttttttctttttttttttttttttctttttctttgagactgggtctcgctttgttgcccagg ctggagtggagtggcgtgatcttggcttactgcagcctttgcctccccggctcgagcagtcctgcctcagcctccggagtagctgggaccacaggttcatgccacca tggccagccaacttttgcatgttttgtagagatggggtctcacagtgttgcccaggctggtctcaaactcctgggctcaggcgatccacctgtctcagcctcccagagt gctgggattacaattgtgagccaccacgtccagctggaagggtcaacatcttttacattctgcaagcacatctgcattttcaccccacccttcccctccttctcccttt ttatatcccatttttatatcgatctcttattttacaataaaactttgctgccaaaaaaaaaaaaaaaaaaaaDNA配列からタンパク質へ
タンパク質の立体構造
DNAの塩基配列
・・・・atg gag agc cgc agt cag・・・・
M E E P Q S ・ ・
タンパク質のアミノ酸配列
遺伝子配列の個人差
正常型・・・cgg gac agc・・・
R D S
変異型・・・cgg aac agc・・・
R N S
病気のなりやすさ
薬の効きやすさと副作用
@2013 Miyazaki S, Tokyo University of Science単純な文字列配列として扱えない原
因
• 配列決定時の読み取りエラー
• 遺伝子の定義は
• 転写規則の例外
• スプライシング
• コドン暗号表は20種類以上
@2013 Miyazaki S, Tokyo University of Science例外処理の実態
@2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Scienceゲノム配列の解析はどこまで進んでいるか?
2001.2 ドラフト配列
(99.9%の精度)
2003.4 完成配列
(99.99%精度)
上図はNature記事より無断掲載 Science記事より無断掲載 @2013 Miyazaki S, Tokyo University of Science• 遺伝子とは?
exon1
exon2
exon3
Poly A
CAP
Genomic DNA
mRNA
intron1
exon2
exon3
exon1
intron2
enhancer
terminator
promoter
intron1
exon2
exon3
exon1
@2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science
抗体の遺伝子
@2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science選択的スプライシング
(alternative splicing)
• 転写産物と翻訳配列の対応は1対多の関
係である。
イントロンで最も一般的なタイプは'端にGT、'端にAGをもち、これは
GT-AG則と呼ばれる。長さは様々で長いものでは数100 kb
@2013 Miyazaki S, Tokyo University of ScienceRNA エディティング
トリパノソーマ(原鞭毛虫類、睡眠病の原虫)のキネトプラスチ
ドDNAの転写過程に見出された。そこではウリジンの挿入や
欠失が見出され、つくられるタンパク質の1次構造が変えられ
ていた。トリパノソーマ・キネトプラスチド(ミトコンドリアに相当)
のシトクロムオキシダーゼ遺伝子(CO III)RNA(731塩基)に
おいて、45ヶ所で計407個のウリジンが挿入され、9ヶ所で計
19個のウリジンが欠失していた。このようにRNAの塩基配列
を変えることにより、翻訳されるタンパク質に変化をもたらす現
象をRNAエディティングRNA editing)と呼ぶ。
@2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science
tRNAのゆらぎ
• G-Uの結合
• イノシンの導入によるA,C,Uとの結合
• その結果45種のtRNAで64種のコドンに
対応している
それでも比べたい
ーDNA配列比較の留意点ー
• 「類似性」はあっても「同一」は期待できない
• 同じ文字であっても距離は0とせず、文字種
に応じて異なる数値を与える工夫が必要
• 違う文字であっても類似性が高いものもあ
る、すなわち、距離が小さくなる。
• 隠れた変異を見込む
@2013 Miyazaki S, Tokyo University of Science配列比較の効能
• 遺伝子、配列構造を分類するー>相同性
検索、局所アライメント
• 活性部位、機能部位の予測ー>大域アラ
イメント
• 進化系統解析、変異の予測
@2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science相同性検索による遺伝子解析
• 配列アライメントについて
• 相同性検索の概要
• Blast入門
– パラメータの意味
– 目的に応じたblast選択
• orthoroguとparalogu
• 演習
– 相同性検索
– 遺伝子を見つける
@2013 Miyazaki S, Tokyo University of Science配列アライメント入門
• ローカルアライメント(もっとも良く似た部分列を探
す)
• グローバルアライメント(違いが明確になるように
長さをあわせる)
• 長さの違う2つの配列を整列化するやり方
***
* *
*
@2013 Miyazaki S, Tokyo University of Science
2つのアミノ酸配列MENMMNEとMMEYE対して、
大域的アライメント(グローバルアライメント)は、
MENMMNE
M—-MEYE
局所的アライメント(ローカルアライメント)は、
***MMN***
***MME***
@2013 Miyazaki S, Tokyo University of Scienceアライメントを評価するための仕組み
• アミノ酸対あるいは塩基対の距離(類似性)を示
す距離行列(類似度行列)を準備しておく。
• 仮のアライメントをつくり、距離行列を用いてアラ
イメントを数値化。
• 可能なすべてのアライメントのすべてを数値化し、
(距離の場合は)最小(類似度の場合は最大)の
数値(アライメントスコア)をもつアライメントを結
果とする。
距離行列によってアライメント結果が異なる
@2013 Miyazaki S, Tokyo University of Science距離行列の一例
@2013 Miyazaki S, Tokyo University of Science代表的なスコア行列
• PAM(Percent Accepted Mutation)行列
– 祖先の共通性が保証されているタンパク質
ファミリーのアミノ酸配列を網羅的に集め、アミ
ノ酸の置換頻度から計算した。
• BLOSUM(Blocks Amino Acid Substitution
Matrices)行列
– 機能機知のタンパク質配列をBLASTによりア
ライメントしアミノ酸対間の相違を再計算した
もの
@2013 Miyazaki S, Tokyo University of SciencePAMとは?
1PAM(Percentage of accepted point mutation)は
アミノ酸配列で100残基あたり1個のアミノ酸の置
換が起こるのに必要な進化上の時間単位を指す。
250
PAM行列
は、100残基あたり250個のアミノ
酸置換がおこるような変異を仮定した場合に、アミ
ノ酸iがアミノ酸jに置換される相対的な頻度を表し
たもの
@2013 Miyazaki S, Tokyo University of Science相同性検索の概要
• 遺伝子配列をキーにして、データベースを検索し、
与えた遺伝子の機能を類推したい。
• そのために、遺伝子配列をキーにして、配列
データベースを検索することを考える。
• 遺伝子の機能は、配列の一部分から類推可能で
ある。
• そこで、ローカルアライメントのスコアが高くなる
ようにデータベース内の配列を取り出す。
• 取り出された配列は、キー配列と局所的に配列
類似性が高い部分をもっているはずである。
@2013 Miyazaki S, Tokyo University of Science
相同性検索アルゴリズム
• Basic Local Alignment Search Tool(BLAST)
アルゴリズム
• Smith-Watermanアルゴリズム
@2013 Miyazaki S, Tokyo University of ScienceBLASTアルゴリズム
• ヒューリスティック法(経験的手法)であり、結果
が最適解であることが保証されていない。
• 検索速度が速く、大量のデータを処理できる。
• 米国、国立医学図書館のNCBI(National Center
for Biotechnology Information, National Institute
of Medicine)の研究者が考案した。
@2013 Miyazaki S, Tokyo University of Science プログラム 問い合わせ配列 データベース 特徴 BLASTP タンパク質 タンパク質 ギャップあり BLASTN 核酸 核酸 ギャップあり BLASTX 翻訳された核酸 タンパク質 各フレームを考慮 TBLASTN タンパク質 翻訳された核酸 各フレームを考慮 TBLASTX 翻訳された核酸 翻訳された核酸 ギャップなし FASTA タンパク質/核酸 タンパク質/核酸 ギャップあり TFASTA タンパク質 翻訳された核酸 ギャップあり FASTX 翻訳された核酸 タンパク質 コドン間でフレー ムシフト考慮 FASTY 翻訳された核酸 タンパク質 コドン内で置換、 フレームシフトを 考慮 TFASTX タンパク質 翻訳された核酸 コドン間でフレー ムシフト考慮 TFASTY タンパク質 翻訳された核酸 コドン内で置換、 フレームシフトを 考慮 FASTF/TFASTF 短いペプチド断片 タンパク質/翻訳 された核酸 電気泳動によって 分離されたデータ FASTS/TFASTS 短いペプチド断片 タンパク質/翻訳 された核酸 質量分析による解 析結データ @2013 Miyazaki S, Tokyo University of Sciencee-valueについて
HSPの長さが短い場合、意味の無い配列が
偶然に見つけられただけかもしれない。
そこで、HSPがある値Sをもつ確率を計算し、
「配列が偶然にみつかってしまう期待値」を
求める。--->e-value
@2013 Miyazaki S, Tokyo University of Science検索パラメータとしてe-valueを操る
• タンパク質のドメイン構造を考慮した検索
問い合わせ
<10
-2010
-8~<10
-20<10
-410
-8~<10
-2010
-6~<10
-8 @2013 Miyazaki S, Tokyo University of Science距離行列の一例
@2013 Miyazaki S, Tokyo University of Science