• 検索結果がありません。

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

N/A
N/A
Protected

Academic year: 2021

シェア "Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

@2013 Miyazaki S, Tokyo University of Science

遺伝子配列解析の基礎

genome=gene+ome

cgtgctttccacgacggtgacacgcttccctggattggccagactgccttccgggtcactgccatggaggagccgcagtcagatcctagcgtcgagccccctctga gtcaggaaacattttcagacctatggaaactacttcctgaaaacaacgttctgtcccccttgccgtcccaagcaatggatgatttgatgctgtccccggacgatattga acaatggttcactgaagacccaggtccagatgaagctcccagaatgccagaggctgctccccgcgtggcccctgcaccagcagctcctacaccggcggcccctg caccagcccctcctggcccctgtcatcttctgtcccttcccagaaaacctaccagggcagctacggtttccgtctgggcttcttgcattccgggacagccaagtctg tgacttgcacgtactcccctgccctcaacaagatgttttgccaactggccaagacctgccctgtgcagctgtgggttgattccacacccccgcccggcacccgcgt ccgcgccatggccatctacaagcagtcacagcacatgacggaggttgtgaggcgctgcccccaccatgagcgctgctcagatagcgatggtctggcccctcctca gcatcttatccgagtggaaggaaatttgcgtgtggagtatttggatgacagaaacacttttcgacatagtgtggtggtgccctatgagccgcctgaggttggctctgact gtaccaccatccactacaactacatgtgtaacagttcctgcatgggcggcatgaaccggaggcccatcctcaccatcatcacactggaagactccagtggtaatct actgggacggaacagctttgaggtgcatgtttgtgcctgtcctgggagagaccggcgcacagaggaagagaatctccgcaagaaaggggagcctcaccacgagctg cccccagggagcactaagcgagcactgtccaacaacaccagctcctctccccagccaaagaagaaaccactggatggagaatatttcacccttcagatccgtggg cgtgagcgcttcgagatgttccgagagctgaatgaggccttggaactcaaggatgcccaggctgggaaggagccaggggggagcagggctcactccagccacctga agtccaaaaagggtcagtctacctcccgccataaaaaactcatgttcaagacagaagggcctgactcagactgacattctccacttcttgttccccactgacagcct cccacccccatctctccctcccctgccattttgggttttgggtctttgaacccttgcttgcaataggtgtgcgtcagaagcacccaggacttccatttgctttgtcccg gggctccactgaacaagttggcctgcactggtgttttgttgtggggaggaggatggggagtaggacataccagcttagattttaaggtttttactgtgagggatgtttggg agatgtaagaaatgttcttgcagttaagggttagtttacaatcagccacattctaggtaggggcccacttcaccgtactaaccagggaagctgtccctcactgttgaat tttctctaacttcaaggcccatatctgtgaaatgctggcatttgcacctacctcacagagtgcattgtgagggttaatgaaataatgtacatctggccttgaaaccacct tttattacatggggtctagaactgacccccttgagggtgcttgttccctctccctgttggtcggtgggttggtagtttctacagttgggcagctggttaggtagagggagtt gtcaagtctctgctggcccagccaaaccctgtctgacaacctcttggtgaaccttagtacctaaaaggaaatctcaccccatcccacaccctggaggatttcatctc ttgtatatgatgatctggatccaccaagacttgttttatgctcagggtcaatttcttttttctttttttttttttttttctttttctttgagactgggtctcgctttgttgcccagg ctggagtggagtggcgtgatcttggcttactgcagcctttgcctccccggctcgagcagtcctgcctcagcctccggagtagctgggaccacaggttcatgccacca tggccagccaacttttgcatgttttgtagagatggggtctcacagtgttgcccaggctggtctcaaactcctgggctcaggcgatccacctgtctcagcctcccagagt gctgggattacaattgtgagccaccacgtccagctggaagggtcaacatcttttacattctgcaagcacatctgcattttcaccccacccttcccctccttctcccttt ttatatcccatttttatatcgatctcttattttacaataaaactttgctgccaaaaaaaaaaaaaaaaaaaa

DNA配列からタンパク質へ

タンパク質の立体構造

DNAの塩基配列

・・・・atg gag agc cgc agt cag・・・・

M E E P Q S ・ ・

タンパク質のアミノ酸配列

遺伝子配列の個人差

正常型・・・cgg gac agc・・・

R D S

変異型・・・cgg aac agc・・・

R N S

病気のなりやすさ

薬の効きやすさと副作用

@2013 Miyazaki S, Tokyo University of Science

単純な文字列配列として扱えない原

• 配列決定時の読み取りエラー

• 遺伝子の定義は

• 転写規則の例外

• スプライシング

• コドン暗号表は20種類以上

@2013 Miyazaki S, Tokyo University of Science

例外処理の実態

@2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science

ゲノム配列の解析はどこまで進んでいるか?

2001.2 ドラフト配列

(99.9%の精度)

2003.4 完成配列

(99.99%精度)

上図はNature記事より無断掲載 Science記事より無断掲載 @2013 Miyazaki S, Tokyo University of Science

• 遺伝子とは?

exon1

exon2

exon3

Poly A

CAP

Genomic DNA

mRNA

intron1

exon2

exon3

exon1

intron2

enhancer

terminator

promoter

intron1

exon2

exon3

exon1

(2)

@2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science

抗体の遺伝子

@2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science

選択的スプライシング

(alternative splicing)

• 転写産物と翻訳配列の対応は1対多の関

係である。

イントロンで最も一般的なタイプは'端にGT、'端にAGをもち、これは

GT-AG則と呼ばれる。長さは様々で長いものでは数100 kb

@2013 Miyazaki S, Tokyo University of Science

RNA エディティング

トリパノソーマ(原鞭毛虫類、睡眠病の原虫)のキネトプラスチ

ドDNAの転写過程に見出された。そこではウリジンの挿入や

欠失が見出され、つくられるタンパク質の1次構造が変えられ

ていた。トリパノソーマ・キネトプラスチド(ミトコンドリアに相当)

のシトクロムオキシダーゼ遺伝子(CO III)RNA(731塩基)に

おいて、45ヶ所で計407個のウリジンが挿入され、9ヶ所で計

19個のウリジンが欠失していた。このようにRNAの塩基配列

を変えることにより、翻訳されるタンパク質に変化をもたらす現

象をRNAエディティングRNA editing)と呼ぶ。

(3)

@2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science

tRNAのゆらぎ

• G-Uの結合

• イノシンの導入によるA,C,Uとの結合

• その結果45種のtRNAで64種のコドンに

対応している

それでも比べたい

ーDNA配列比較の留意点ー

• 「類似性」はあっても「同一」は期待できない

• 同じ文字であっても距離は0とせず、文字種

に応じて異なる数値を与える工夫が必要

• 違う文字であっても類似性が高いものもあ

る、すなわち、距離が小さくなる。

• 隠れた変異を見込む

@2013 Miyazaki S, Tokyo University of Science

配列比較の効能

• 遺伝子、配列構造を分類するー>相同性

検索、局所アライメント

• 活性部位、機能部位の予測ー>大域アラ

イメント

• 進化系統解析、変異の予測

@2013 Miyazaki S, Tokyo University of Science @2013 Miyazaki S, Tokyo University of Science

相同性検索による遺伝子解析

• 配列アライメントについて

• 相同性検索の概要

• Blast入門

– パラメータの意味

– 目的に応じたblast選択

• orthoroguとparalogu

• 演習

– 相同性検索

– 遺伝子を見つける

@2013 Miyazaki S, Tokyo University of Science

配列アライメント入門

• ローカルアライメント(もっとも良く似た部分列を探

す)

• グローバルアライメント(違いが明確になるように

長さをあわせる)

• 長さの違う2つの配列を整列化するやり方

***

* *

*

(4)

@2013 Miyazaki S, Tokyo University of Science

2つのアミノ酸配列MENMMNEとMMEYE対して、

大域的アライメント(グローバルアライメント)は、

MENMMNE

M—-MEYE

局所的アライメント(ローカルアライメント)は、

***MMN***

***MME***

@2013 Miyazaki S, Tokyo University of Science

アライメントを評価するための仕組み

• アミノ酸対あるいは塩基対の距離(類似性)を示

す距離行列(類似度行列)を準備しておく。

• 仮のアライメントをつくり、距離行列を用いてアラ

イメントを数値化。

• 可能なすべてのアライメントのすべてを数値化し、

(距離の場合は)最小(類似度の場合は最大)の

数値(アライメントスコア)をもつアライメントを結

果とする。

距離行列によってアライメント結果が異なる

@2013 Miyazaki S, Tokyo University of Science

距離行列の一例

@2013 Miyazaki S, Tokyo University of Science

代表的なスコア行列

• PAM(Percent Accepted Mutation)行列

– 祖先の共通性が保証されているタンパク質

ファミリーのアミノ酸配列を網羅的に集め、アミ

ノ酸の置換頻度から計算した。

• BLOSUM(Blocks Amino Acid Substitution

Matrices)行列

– 機能機知のタンパク質配列をBLASTによりア

ライメントしアミノ酸対間の相違を再計算した

もの

@2013 Miyazaki S, Tokyo University of Science

PAMとは?

1PAM(Percentage of accepted point mutation)は

アミノ酸配列で100残基あたり1個のアミノ酸の置

換が起こるのに必要な進化上の時間単位を指す。

250

PAM行列

は、100残基あたり250個のアミノ

酸置換がおこるような変異を仮定した場合に、アミ

ノ酸iがアミノ酸jに置換される相対的な頻度を表し

たもの

@2013 Miyazaki S, Tokyo University of Science

相同性検索の概要

• 遺伝子配列をキーにして、データベースを検索し、

与えた遺伝子の機能を類推したい。

• そのために、遺伝子配列をキーにして、配列

データベースを検索することを考える。

• 遺伝子の機能は、配列の一部分から類推可能で

ある。

• そこで、ローカルアライメントのスコアが高くなる

ようにデータベース内の配列を取り出す。

• 取り出された配列は、キー配列と局所的に配列

類似性が高い部分をもっているはずである。

(5)

@2013 Miyazaki S, Tokyo University of Science

相同性検索アルゴリズム

• Basic Local Alignment Search Tool(BLAST)

アルゴリズム

• Smith-Watermanアルゴリズム

@2013 Miyazaki S, Tokyo University of Science

BLASTアルゴリズム

• ヒューリスティック法(経験的手法)であり、結果

が最適解であることが保証されていない。

• 検索速度が速く、大量のデータを処理できる。

• 米国、国立医学図書館のNCBI(National Center

for Biotechnology Information, National Institute

of Medicine)の研究者が考案した。

@2013 Miyazaki S, Tokyo University of Science プログラム 問い合わせ配列 データベース 特徴 BLASTP タンパク質 タンパク質 ギャップあり BLASTN 核酸 核酸 ギャップあり BLASTX 翻訳された核酸 タンパク質 各フレームを考慮 TBLASTN タンパク質 翻訳された核酸 各フレームを考慮 TBLASTX 翻訳された核酸 翻訳された核酸 ギャップなし FASTA タンパク質/核酸 タンパク質/核酸 ギャップあり TFASTA タンパク質 翻訳された核酸 ギャップあり FASTX 翻訳された核酸 タンパク質 コドン間でフレー ムシフト考慮 FASTY 翻訳された核酸 タンパク質 コドン内で置換、 フレームシフトを 考慮 TFASTX タンパク質 翻訳された核酸 コドン間でフレー ムシフト考慮 TFASTY タンパク質 翻訳された核酸 コドン内で置換、 フレームシフトを 考慮 FASTF/TFASTF 短いペプチド断片 タンパク質/翻訳 された核酸 電気泳動によって 分離されたデータ FASTS/TFASTS 短いペプチド断片 タンパク質/翻訳 された核酸 質量分析による解 析結データ @2013 Miyazaki S, Tokyo University of Science

e-valueについて

HSPの長さが短い場合、意味の無い配列が

偶然に見つけられただけかもしれない。

そこで、HSPがある値Sをもつ確率を計算し、

「配列が偶然にみつかってしまう期待値」を

求める。--->e-value

@2013 Miyazaki S, Tokyo University of Science

検索パラメータとしてe-valueを操る

• タンパク質のドメイン構造を考慮した検索

問い合わせ

<10

-20

10

-8

~<10

-20

<10

-4

10

-8

~<10

-20

10

-6

~<10

-8 @2013 Miyazaki S, Tokyo University of Science

距離行列の一例

(6)

@2013 Miyazaki S, Tokyo University of Science

配列比較から分子進化を捉える

@2013 Miyazaki S, Tokyo University of Science

分子進化距離の考え方

GTTCTAGTCC

ATTCTTGTCT

* * *

上記の2つの配列の進化距離=3/10

とするのは危険!!!

@2013 Miyazaki S, Tokyo University of Science

GTTCTAGTCC

GTACTAGTCC (祖先)

G

A

TTCT

T

GTC

T

実際の置換数は2T時間で、6個かもしれない。

@2013 Miyazaki S, Tokyo University of Science

主要な配列関連データベース

一次データベース

国際塩基配列データベース(INSDC)

タンパク質立体構造データベース(PDB)

二次データベース(付加価値データベース)

Uniprot/SWISSprot

(タンパク質(アミノ酸)配列)

PROSITE(配列モチーフ)

SCOP(タンパク質立体構造分類)

Interpro(配列モチーフ・相同領域)

H-inv(ヒトの転写産物配列)

FANTOM(マウスの転写産物配列)

ENCODE(ヒトゲノム配列の総合情報)

ネット上には約1000種の有用な生物学的DBがある。

@2013 Miyazaki S, Tokyo University of Science

参照

関連したドキュメント

[r]

本研究は,地震時の構造物被害と良い対応のある震害指標を,構造物の疲労破壊の

注2)

First three eigenfaces : 3 個で 90 %ぐらいの 累積寄与率になる.

READ UNCOMMITTED 発生する 発生する 発生する 発生する 指定してもREAD COMMITEDで動作 READ COMMITTED 発生しない 発生する 発生する 発生する デフォルト.

[r]

国の5カ年計画である「第11次交通安全基本計画」の目標値は、令和7年までに死者数を2千人以下、重傷者数を2万2千人

ダウンロードしたファイルを 解凍して自動作成ツール (StartPro2018.exe) を起動します。.