Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

(1)

@2013 Miyazaki S, Tokyo University of Science

遺伝子配列解析の基礎

genome=gene+ome

cgtgctttccacgacggtgacacgcttccctggattggccagactgccttccgggtcactgccatggaggagccgcagtcagatcctagcgtcgagccccctctga gtcaggaaacattttcagacctatggaaactacttcctgaaaacaacgttctgtcccccttgccgtcccaagcaatggatgatttgatgctgtccccggacgatattga acaatggttcactgaagacccaggtccagatgaagctcccagaatgccagaggctgctccccgcgtggcccctgcaccagcagctcctacaccggcggcccctg caccagcccctcctggcccctgtcatcttctgtcccttcccagaaaacctaccagggcagctacggtttccgtctgggcttcttgcattccgggacagccaagtctg tgacttgcacgtactcccctgccctcaacaagatgttttgccaactggccaagacctgccctgtgcagctgtgggttgattccacacccccgcccggcacccgcgt ccgcgccatggccatctacaagcagtcacagcacatgacggaggttgtgaggcgctgcccccaccatgagcgctgctcagatagcgatggtctggcccctcctca gcatcttatccgagtggaaggaaatttgcgtgtggagtatttggatgacagaaacacttttcgacatagtgtggtggtgccctatgagccgcctgaggttggctctgact gtaccaccatccactacaactacatgtgtaacagttcctgcatgggcggcatgaaccggaggcccatcctcaccatcatcacactggaagactccagtggtaatct actgggacggaacagctttgaggtgcatgtttgtgcctgtcctgggagagaccggcgcacagaggaagagaatctccgcaagaaaggggagcctcaccacgagctg cccccagggagcactaagcgagcactgtccaacaacaccagctcctctccccagccaaagaagaaaccactggatggagaatatttcacccttcagatccgtggg cgtgagcgcttcgagatgttccgagagctgaatgaggccttggaactcaaggatgcccaggctgggaaggagccaggggggagcagggctcactccagccacctga agtccaaaaagggtcagtctacctcccgccataaaaaactcatgttcaagacagaagggcctgactcagactgacattctccacttcttgttccccactgacagcct cccacccccatctctccctcccctgccattttgggttttgggtctttgaacccttgcttgcaataggtgtgcgtcagaagcacccaggacttccatttgctttgtcccg gggctccactgaacaagttggcctgcactggtgttttgttgtggggaggaggatggggagtaggacataccagcttagattttaaggtttttactgtgagggatgtttggg agatgtaagaaatgttcttgcagttaagggttagtttacaatcagccacattctaggtaggggcccacttcaccgtactaaccagggaagctgtccctcactgttgaat tttctctaacttcaaggcccatatctgtgaaatgctggcatttgcacctacctcacagagtgcattgtgagggttaatgaaataatgtacatctggccttgaaaccacct tttattacatggggtctagaactgacccccttgagggtgcttgttccctctccctgttggtcggtgggttggtagtttctacagttgggcagctggttaggtagagggagtt gtcaagtctctgctggcccagccaaaccctgtctgacaacctcttggtgaaccttagtacctaaaaggaaatctcaccccatcccacaccctggaggatttcatctc ttgtatatgatgatctggatccaccaagacttgttttatgctcagggtcaatttcttttttctttttttttttttttttctttttctttgagactgggtctcgctttgttgcccagg ctggagtggagtggcgtgatcttggcttactgcagcctttgcctccccggctcgagcagtcctgcctcagcctccggagtagctgggaccacaggttcatgccacca tggccagccaacttttgcatgttttgtagagatggggtctcacagtgttgcccaggctggtctcaaactcctgggctcaggcgatccacctgtctcagcctcccagagt gctgggattacaattgtgagccaccacgtccagctggaagggtcaacatcttttacattctgcaagcacatctgcattttcaccccacccttcccctccttctcccttt ttatatcccatttttatatcgatctcttattttacaataaaactttgctgccaaaaaaaaaaaaaaaaaaaa

DNA配列からタンパク質へ

タンパク質の立体構造

DNAの塩基配列

・・・・atg gag agc cgc agt cag・・・・

M E E P Q S ・・

タンパク質のアミノ酸配列

遺伝子配列の個人差

正常型・・・cgg gac agc・・・

R D S

変異型・・・cgg aac agc・・・

R N S

病気のなりやすさ

薬の効きやすさと副作用

単純な文字列配列として扱えない原

因

• 配列決定時の読み取りエラー

• 遺伝子の定義は

• 転写規則の例外

• スプライシング

• コドン暗号表は２０種類以上

例外処理の実態

@2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science

ゲノム配列の解析はどこまで進んでいるか？

2001.2 ドラフト配列

（99.9%の精度）

2003.4 完成配列

（99.99%精度）

上図はNature記事より無断掲載 Science記事より無断掲載 @2013 Miyazaki S, Tokyo University of Science

• 遺伝子とは？

exon1

exon2

exon3

Poly A

CAP

Genomic DNA

mRNA

intron1

exon2

exon3

exon1

intron2

enhancer

_terminator

promoter

intron1

exon2

exon3

exon1

(2)

抗体の遺伝子

@2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science

選択的スプライシング

(alternative splicing)

• 転写産物と翻訳配列の対応は１対多の関

係である。

イントロンで最も一般的なタイプは'端にGT、'端にAGをもち、これは

GT-AG則と呼ばれる。長さは様々で長いものでは数100 kb

RNA エディティング

トリパノソーマ（原鞭毛虫類、睡眠病の原虫）のキネトプラスチ

ドDNAの転写過程に見出された。そこではウリジンの挿入や

欠失が見出され、つくられるタンパク質の１次構造が変えられ

ていた。トリパノソーマ・キネトプラスチド（ミトコンドリアに相当）

のシトクロムオキシダーゼ遺伝子（CO III）RNA（731塩基）に

おいて、45ヶ所で計407個のウリジンが挿入され、9ヶ所で計

19個のウリジンが欠失していた。このようにRNAの塩基配列

を変えることにより、翻訳されるタンパク質に変化をもたらす現

象をRNAエディティングRNA editing)と呼ぶ。

(3)

tRNAのゆらぎ

• G-Uの結合

• イノシンの導入によるA,C,Uとの結合

• その結果４５種のtRNAで64種のコドンに

対応している

それでも比べたい

ーＤＮＡ配列比較の留意点ー

• 「類似性」はあっても「同一」は期待できない

• 同じ文字であっても距離は0とせず、文字種

に応じて異なる数値を与える工夫が必要

• 違う文字であっても類似性が高いものもあ

る、すなわち、距離が小さくなる。

• 隠れた変異を見込む

配列比較の効能

• 遺伝子、配列構造を分類するー＞相同性

検索、局所アライメント

• 活性部位、機能部位の予測ー＞大域アラ

イメント

• 進化系統解析、変異の予測

相同性検索による遺伝子解析

• 配列アライメントについて

• 相同性検索の概要

• Blast入門

– パラメータの意味

– 目的に応じたblast選択

• orthoroguとparalogu

• 演習

– 相同性検索

– 遺伝子を見つける

配列アライメント入門

• ローカルアライメント(もっとも良く似た部分列を探

す)

• グローバルアライメント（違いが明確になるように

長さをあわせる）

• 長さの違う２つの配列を整列化するやり方

***

* *

*

(4)

2つのアミノ酸配列MENMMNEとMMEYE対して、

大域的アライメント（グローバルアライメント）は、

MENMMNE

M—-MEYE

局所的アライメント（ローカルアライメント）は、

MMN

MME

アライメントを評価するための仕組み

• アミノ酸対あるいは塩基対の距離（類似性）を示

す距離行列（類似度行列）を準備しておく。

• 仮のアライメントをつくり、距離行列を用いてアラ

イメントを数値化。

• 可能なすべてのアライメントのすべてを数値化し、

（距離の場合は）最小（類似度の場合は最大）の

数値（アライメントスコア）をもつアライメントを結

果とする。

距離行列によってアライメント結果が異なる

距離行列の一例

代表的なスコア行列

• PAM(Percent Accepted Mutation)行列

– 祖先の共通性が保証されているタンパク質

ファミリーのアミノ酸配列を網羅的に集め、アミ

ノ酸の置換頻度から計算した。

• BLOSUM（Blocks Amino Acid Substitution

Matrices）行列

– 機能機知のタンパク質配列をBLASTによりア

ライメントしアミノ酸対間の相違を再計算した

もの

PAMとは？

１PAM(Percentage of accepted point mutation)は

アミノ酸配列で１００残基あたり１個のアミノ酸の置

換が起こるのに必要な進化上の時間単位を指す。

２５０ PAM行列

は、100残基あたり250個のアミノ

酸置換がおこるような変異を仮定した場合に、アミ

ノ酸iがアミノ酸jに置換される相対的な頻度を表し

たもの

相同性検索の概要

• 遺伝子配列をキーにして、データベースを検索し、

与えた遺伝子の機能を類推したい。

• そのために、遺伝子配列をキーにして、配列

データベースを検索することを考える。

• 遺伝子の機能は、配列の一部分から類推可能で

ある。

• そこで、ローカルアライメントのスコアが高くなる

ようにデータベース内の配列を取り出す。

• 取り出された配列は、キー配列と局所的に配列

類似性が高い部分をもっているはずである。

(5)

相同性検索アルゴリズム

• Basic Local Alignment Search Tool(BLAST)

アルゴリズム

• Smith-Watermanアルゴリズム

BLASTアルゴリズム

• ヒューリスティック法（経験的手法）であり、結果

が最適解であることが保証されていない。

• 検索速度が速く、大量のデータを処理できる。

• 米国、国立医学図書館のNCBI（National Center

for Biotechnology Information, National Institute

of Medicine）の研究者が考案した。

@2013 Miyazaki S, Tokyo University of Science プログラム問い合わせ配列データベース特徴 BLASTP タンパク質タンパク質ギャップあり BLASTN 核酸核酸ギャップあり BLASTX 翻訳された核酸タンパク質各フレームを考慮 TBLASTN タンパク質翻訳された核酸各フレームを考慮 TBLASTX 翻訳された核酸翻訳された核酸ギャップなし FASTA タンパク質／核酸タンパク質／核酸ギャップあり TFASTA タンパク質翻訳された核酸ギャップあり FASTX 翻訳された核酸タンパク質コドン間でフレームシフト考慮 FASTY 翻訳された核酸タンパク質コドン内で置換、フレームシフトを考慮 TFASTX タンパク質翻訳された核酸コドン間でフレームシフト考慮 TFASTY タンパク質翻訳された核酸コドン内で置換、フレームシフトを考慮 FASTF/TFASTF 短いペプチド断片タンパク質／翻訳された核酸電気泳動によって分離されたデータ FASTS/TFASTS 短いペプチド断片タンパク質／翻訳された核酸質量分析による解析結データ @2013 Miyazaki S, Tokyo University of Science

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

遺伝子配列解析の基礎

genome=gene+ome

DNA配列からタンパク質へ

タンパク質の立体構造

DNAの塩基配列

・・・・atg gag agc cgc agt cag・・・・

M E E P Q S ・ ・

タンパク質のアミノ酸配列

遺伝子配列の個人差

正常型・・・cgg gac agc・・・

R D S

変異型・・・cgg aac agc・・・

R N S

病気のなりやすさ

薬の効きやすさと副作用

単純な文字列配列として扱えない原

因

• 配列決定時の読み取りエラー

• 遺伝子の定義は

• 転写規則の例外

• スプライシング

• コドン暗号表は２０種類以上

例外処理の実態

ゲノム配列の解析はどこまで進んでいるか？

2001.2 ドラフト配列

（99.9%の精度）

2003.4 完成配列

（99.99%精度）

• 遺伝子とは？

exon1

exon2

exon3

Poly A

CAP

Genomic DNA

mRNA

intron1

exon2

exon3

exon1

intron2

enhancer

terminator

promoter

intron1

exon2

exon3

exon1

抗体の遺伝子

選択的スプライシング

(alternative splicing)

• 転写産物と翻訳配列の対応は１対多の関

係である。

イントロンで最も一般的なタイプは'端にGT、'端にAGをもち、これは

GT-AG則と呼ばれる。長さは様々で長いものでは数100 kb

RNA エディティング

トリパノソーマ（原鞭毛虫類、睡眠病の原虫）のキネトプラスチ

ドDNAの転写過程に見出された。そこではウリジンの挿入や

欠失が見出され、つくられるタンパク質の１次構造が変えられ

ていた。トリパノソーマ・キネトプラスチド（ミトコンドリアに相当）

のシトクロムオキシダーゼ遺伝子（CO III）RNA（731塩基）に

おいて、45ヶ所で計407個のウリジンが挿入され、9ヶ所で計

19個のウリジンが欠失していた。このようにRNAの塩基配列

を変えることにより、翻訳されるタンパク質に変化をもたらす現

象をRNAエディティングRNA editing)と呼ぶ。

tRNAのゆらぎ

• G-Uの結合

• イノシンの導入によるA,C,Uとの結合

• その結果４５種のtRNAで64種のコドンに

対応している

それでも比べたい

ーＤＮＡ配列比較の留意点ー

• 「類似性」はあっても「同一」は期待できない

• 同じ文字であっても距離は0とせず、文字種

に応じて異なる数値を与える工夫が必要

• 違う文字であっても類似性が高いものもあ

る、すなわち、距離が小さくなる。

• 隠れた変異を見込む

配列比較の効能

M E E P Q S ・・

_terminator

MMN

MME