• 検索結果がありません。

バイオインフォマティクスⅠ

N/A
N/A
Protected

Academic year: 2022

シェア "バイオインフォマティクスⅠ"

Copied!
34
0
0

読み込み中.... (全文を見る)

全文

(1)

バイオインフォマティクス

(第3回)

慶應義塾大学生命情報学科

榊原康文

(2)

アセンブリの演習問題 (解)

CGTCCGT--- --TCCGTAT--- ---GTATC--- ---ATCCAT-- ---CATCG

===============

CGTCCGTATCCATCG

1 4

2 3

CGTCCGT

TCCGTAT

ATCCAT

GTATC

4

2 5

CATCG

2 3

1 3 2

5

2 1

1

1

(3)

配列解析(ペアワイズアライメント)

① ペアワイズアライメント

② 最長共通部分配列( LCS )

③ 大域アライメント,局所アライメント

④ スコア行列(置換行列)

(4)

相同性検索(アライメント)の威力

サル肉腫ウイルスのがん遺伝子シス(

sis

)とヒトの血小板 由来増殖因子(

PDGF

)のアミノ酸配列が一致している

(そっくりである)ことが発見された (1983)

(「がん遺伝子の発見」,中公新書)

sis : simian sarcoma virus

この発見は2つの意味において驚きをもって迎えられた

がん遺伝子が正常な細胞の増殖・分化や個体発生を 司る遺伝子とほとんど同じものであることが初めて具体 的に明らかにされた (がん遺伝子と増殖因子が結び ついた)

その発見が試験管の中の実験ではなく,コンピュータに よるホモロジー検索の結果得られた

(5)

相同性検索

 Doolittle によるがん遺伝子の発見

 Doolittle がそれまでに構築してきたデータベース

 相同性検索プログラム

 総当りの仕事もいとわないコンピュータ

 BLAST によるデータベース検索

ゲノムデータベース

入力配列

DNA

配列

■アミノ酸配列

類似遺伝子 アノテーション

(6)

相同性検索(アライメント)の威力(2)

P16タンパク質遺伝子:

サイクリン依存性キナーゼ4(

CDK4

,細胞増殖促進)

の阻害因子

実は,がん抑制遺伝子の一つ

発見の過程において,

GENBANK

と相同性検索が威力 を発揮 (1994)

(ミリアッド・ジェネティクス社のカムは)メラノーマと呼ばれ る皮膚がんの組織から,ある遺伝子を実験によって同定 していた

しかし,その遺伝子の正体がわからなかったために,頻 繁に

GENBANK

上で相同性検索を行う

ある日,

GENBANK

に最近登録されたp16遺伝子と皮膚 がん遺伝子の相同性が非常に高いことを検索から発見 し,その正体を突き止めた

(「がん遺伝子を追う」,朝日新聞社)

(7)

アライメントからわかること

配列と配列がもつ情報との関係が十分に解明されていない ため,1本の配列だけから生物学的な情報を抽出することは 困難 ⇒ 配列を比較する

生物配列は進化によりダイナミックに変化する:

点突然変異(置換,挿入,欠失)

未知の遺伝子配列に類似である,機能が既知の遺伝子を検 索する ⇒ 遺伝子機能の推定

ゲノム配列中に既知の遺伝子配列と相同な領域を発見する

⇒ ゲノム配列からの遺伝子の発見

生物種間の共通遺伝子の配列をアライメントにより比べるこ とにより,配列間の進化的な関係を計算

⇒ 分子進化系統の推定

(8)

最適なアライメントを求める

① 与えられたスコア(置換度)に関して,最適なア ライメントを求める高速なアルゴリズム

② 数学的に最適なアライメントが,生物的に真に 最適なアライメントになるためのスコア行列

生物的に最適な配列 数学的に最適な配列

問い合わせ配列 高速なアルゴリズム

スコア行列

(9)

配列のアライメント

 2

つの

DNA

配列に対して,適切な位置にギャップ記号を挿入 することで,配列中の同じ位置に同じ塩基(あるいは性質が 良く似た塩基)が並ぶようにする操作

GAGGTTATCAAAAGCTACTAGTCCA GAGGATAACAAGGCTACTATCACA

入力:

GAGGTTATCAA-AA-GCTACTAGTC-CA GAGG--AT-AACAAGGCTACTA-TCACA

**** ** ** ** ******* ** **

出力:

(10)

MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLG MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLG

**********************************************************************

タンパク質のアライメントの例

ヘモグロビンのアミノ酸配列のアラメント:

AFSDGLAHLDNLKGTFATLSELHCDKLHVDPENF-RLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVA AFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFK-LLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVA

********************************** **********************************

NALAHKYH NALAHKYH

********

MV-HL--TPEEK-SAV-TALW-GKVN--VDEVGGEALGRLLVVYPWTQRFF-ESFGDLS-TP-DAVMGNP -VQ-LSG--EEKA-AVL-ALWD-KVNEE--EVGGEALGRLLVVYPWTQRFFD-SFGDLSN-PG-AVMGNP

* * *** ** *** *** ********************* ****** * ******

KVKAHGKKVL---G-AFSDG--LAHLDNLKGTF-ATLSELHCDKLHVDPENFRLLGNVL-VCVLA-HHFG KVKAHGKKVLHSFGE----GVH--HLDNLKGTFAA-LSELHCDKLHVDPENFRLLGNVLVV-VLAR-HFG

********** * * ********* * *********************** * *** ***

K-EFTP--PVQA-AYQKVVAGVANALAHKYH KD-FTPEL--QAS-YQKVVAGVANALAHKYH

* *** ** *****************

ヒトと馬:

ヒトとゴリラ:

(11)

大域アライメント計算の例題

2つの例題配列:

AGCGTAG , GTCAGA

置換度(置換スコア)とギャップスコア:

アライメント:

AG-C-GTAG -GTCAG-A-

* * * *

スコア:

0+1+0+1+0+1+0+1+0 = 4

AGCGTAG- GTC--AGA

* **

スコア:

(-1)+(-1)+1+0+0+1+1+0 = 1

AGCGTAG GTCAGA-

* *

スコア:

(-1)+(-1)+1+(-1)+(-1)+1+0 = -2

(12)

大域アライメントの数

最長共通部分配列(LCS):

2本の配列に共通な部分配列で最長のもの

大域アライメントの数(ギャップ挿入の場合):

長さ

n

の2本の配列に対して:

n n n

n n

n

n

 2

2

)

! )(

! (

)!

2 2 (

 

 

GAGGTTATCAAAAG

GAGGATAACAAGGC G

G ・ TTCAG

G

A

A

T

A

C

A

k

個取ってくる

k n

C

k n

C

n n n

k

k n k

n

C C

2

C

1

 

(13)

動的計画法(アルゴリズム)

 動的計画法( dynamic programming, DP )は,

計算機による配列解析の中核である

 どのような場合に,DPは適用できるか?

① Optimal substructure:

全体の問題に対する最適解は,その中に部分問題に対する 最適解を含んでいる

② Overlapping subproblems:

部分問題の空間が十分小さい

異なる部分問題の数は,入力サイズの多項式くらいの大きさ

DPは,各部分問題を一度だけ解き,テーブルに確保して,

必要になった時に参照する

(14)

大域アライメントアルゴリズム

Needleman-Wunsch

)アルゴリズムの基本的アイデア:

より小さな部分配列の最適アライメントを一つ前の解として,

最適なアライメントを次々と組み上げていく

② Optimal substructure of LCS:

とする

を入力列

LCS

,

2 1

2 1 2

1

Y X

z z

z Z

y y

y Y

x x

x X

k

n m

LCS

(1) x

m

y

n ならば,

z

k

x

m

y

n であり,かつ

Z

k1

X

m1

Y

n1

LCS

(2) x

m

y

n ならば,

z

k

x

m のとき,

Z

X

m1

Y

LCS

(3) x

m

y

n ならば,

z

k

y

n のとき,

Z

X

Y

n1

(15)

動的計画法の例題:石取りゲーム

n個の石の山

ゲームのルール:

① プレイヤーは二人で,交互に山から石をとる

② 片方の山から1つ,もしくは両方の山から1つずつ石を 取ることができる

③ 最後に石を取った方が勝ち

m個の石の山

(16)

動的計画法の例題:石取りゲーム

0 1 2 3 4 5 6 7 8 9 10

0 W

1 W W

2 3 4 5 6 7 8 9 10

W

:先手が勝つ

L

:先手が負ける m:石の数

n:石の数

(17)

大域アライメントアルゴリズム

を と の最適アライメントのスコア

初期化:

再帰式:

が と の最適アライメントの値

アライメントを求めるには, から に至ったパス を からトレースバック

) , ( i j

F x

1

x

2

x

i

y

1

y

2

y

j

d j j

F d i i

F

F ( 0 , 0 )  0 , ( , 0 )    , ( 0 , )   

d

はギャップペナルティ

 

 

d j

i F

d j

i F

y x s j

i F j

i F

j i

) 1 ,

(

) , 1 (

) , ( )

1 ,

1 ( max

) , (

) , ( m n

F X Y

) , ( m n F

) 0 , 0 ( F

)

,

( m n

F

(18)

i 0 1 2 3 4 5 6

j G T C A G A

0

1 A

2 G

3 C

4 G

5 T

6 A

7 G

0 0 0 0 0 0 0

0 0 0 1 1 1

1 1 1 1 2 2

1 1 2 2 2 2

1 1 2 2 3

0 0 0 0 0 0 0

3

1 2 2 2 3 3

1 2 2 3 3 4

1 2 2 3 4 4

置換スコア: ギャップスコア

(19)

i 0 1 2 3 4 5 6

j G T C A G A

0 0 0 0 0 0 0 0

1 A 0 0 0 0 1 1 1

2 G 0 1 1 1 1 2 2

3 C 0 1 1 2 2 2 2

4 G 0 1 1 2 2 3 3

5 T 0 1 2 2 2 3 3

6 A 0 1 2 2 3 3 4

7 G 0 1 2 2 3 4 4

G

G

G

G

C

C

A

A

-GTCAG-A-

AG-C-GTAG

(20)

局所アライメントアルゴリズム

と の部分配列間の最適なアライメント

共通のドメインの発見など

③ Smith-Waterman

アルゴリズム

初期化:

再帰式:

最大スコア を行列中から探索し,そこから

0

が格納 されたセルに到達するまでトレースバック

0 ) , 0 ( , 0 ) 0 , ( , 0 ) 0 , 0

(  F iF j

F

 

 

 

d j

i F

d j

i F

y x s j

i j F

i

F

i j

) 1 ,

(

) , 1 (

) , ( )

1 ,

1 ( 0 max )

, (

X Y

)

,

( i j

F

(21)

局所アライメントアルゴリズム

(22)

参考:大域アライメントアルゴリズム

(23)

スコア行列

① スコア行列(置換行列)の精度は,アライメントの 精度に影響

アミノ酸配列の場合,進化過程における相対的な置換 のしやすさを反映

塩基(

DNA)

配列の場合,マッチ+1,アンマッチ0と いった簡単なスコア

② 信頼できる既存のアライメントから統計的手法に よりスコア行列を導出

 PAM 行列( Dayhoff のアミノ酸置換行列)

 BLOSUM 行列(ブロックアミノ酸置換行列)

(24)

スコア行列

① PAM

行列(

Dayhoff

のアミノ酸置換行列)

先祖の共通のタンパク質ファミリから多数のタンパク質を集め,置換 の頻度を調べて分子進化学的に求めた.アミノ酸配列で

100

残基あ たり

1

個の突然変異が起きるという進化上の時間の単位

PAM

を導入.

1PAM

の間にアミノ酸

i

がアミノ酸

j

に置換される頻度を求める.

② BLOSUM

行列(ブロックアミノ酸置換行列)

より新しいデータのアライメントからアミノ酸変異の統計データを獲得.

 BLOSUM50, BLOSUM62, BLOSUM80,

など.

小さい数字の行列は進化的に遠縁の配列の比較に,大きい数字の 行列は近縁の配列の比較に,不明の場合には

BLOSUM62

を推奨

 BLOSUM50

はギャップあり,

BLOSUM62

はギャップなしで利用

 BLAST

などで利用.

(25)

CLUSTALW に おける

BLOSUM スコア

行列

(26)

参考: BLOSUM50 スコア行列

(27)

スコア行列の導出

① 頻度の比の対数をスコアとする

 

 

 

b a

ab

q q b p

a

s ( , ) log

:文字

a

が独立に起こる確率(頻度)

q

a

:文字

a

b

がアラインされたペアとして起こる確率

a

b

が共通の祖先から分岐してきた確率と考える)

p

ab

a b

文字のペア

a

b

が,偶然に“対”になるのに比べて,どれだけ 本当に“対”になる確率が大きいかを示したもの

対数を取ることにより,加法性をもつスコアリングシステムを得る

(28)

スコア行列の導出

② BLOSUM“L” 行列の求め方:

既存の多くの配列のアライメントを求め,ギャップ無しの領 域(ブロック)を集める

残基が

L

% 以上一致しているものを同一クラスタに集める

あるクラスタの残基

a

が別のクラスタの残基

b

にアライメン

トされる確率

p

ab を計算 (ただし,各クラスタの大きさで 割った重みをつける)

ある残基

a

が独立に起こる確率

q

a を計算

s

a,b)=log(p

ab

/q

a

q

b

)

を計算して,スケーリングして,近傍の 整数値に丸める

(29)

BLOSUM “75” の導出

タンパク質ファミリごとのマルチプルアライメントから ブロックを取り出す

ブロックとは,良く保存されたギャップを含まないアライメント の領域

ブロック内の配列の偏りを取り除くために,一致度が

75%

以上の配列をひとつにまとめる

block 1 block 2

BABA BABC AACC

CBB CBB ABC AAC

1クラスタ

(30)

BLOSUM75 の導出

ブロックからアミノ酸残基の出現確率(頻度)を数える

アミノ酸 出現確率

q a

A

B

C 17

2 / 11 17

2 4 3

17 5 17

2 1 8

17 2 / 13 17

2 5 3

 

 

 

block 1 block 2

BABA BABC AACC

CBB

CBB

ABC

AAC

(31)

BLOSUM75 の導出

ブロックからアライメントされたアミノ酸残基ペアの出現確率と その2つの残基が独立に同時に出現する確率を計算する

残基ペア ペア出現確率

A to A A to B A to C B to B B to C C to C

13 2 / 3

13 3 13

1

13 2 2 / 1

13 2 / 5

13 3

3 3 3 4 2

13 2

 

 

 

 

 

 

block 1 block 2

BABA BABC AACC

CBB CBB ABC AAC

独立同時確率

17 2 / 11 17

2 / 11

17 2 / 11 17

2 5

17 5 17

5

17 2 / 11 17

2 / 2 13

17 5 17

2 / 2 13

17 2 / 13 17

2 / 13

A B

B A

対になる

2通りの場合

p ab q a q b

(32)

BLOSUM75 の導出

対数尤度を計算し,さらにスケーリング(ここでは,2倍して ハーフビットに)して,近傍の整数値に丸める

残基ペア ペア確率

A to A A to B A to C B to B B to C C to C

13 2 / 3

13 3 13

1 13

2 / 5

13 3 13

2

同時確率

289 4 / 121

289 55 289

25 289

2 / 143

289 65 289

4 / 169

log

2

2

同時確率 ペアの出現頻度

スコア行列

28 . 0

56 . 0

34 . 0

73 . 0

07 . 0

15 . 0

0 1 0 1 0 0

(33)

アライメントに対するスコアの考え方

 アミノ酸配列のアライメントスコアの問題点:

それぞれのアミノ酸のペアに対する出現頻度の比の対数 の考え方は問題なし

進化的にまったく類縁関係にないアミノ酸配列のペアに対 してもスコア(正の値)は計算される(例えば,ランダム配列 のアライメントスコアは,平均50~60位の値になる)

このスコアは,位置特異的なスコアでない

アライメントのスコアは,長さに依存する傾向(より長い配 列ほどアライメントのスコアは高くなる傾向)がある

(34)

i 0 1 2 3 4 5 6 7 8 j

0 1 2 3 4 5 6 7

局所アライメント演習問題 学籍番号: 名前:

局所アライメント:

参照

関連したドキュメント

今日のお話の本題, 「マウスの遺伝子を操作する」です。まず,外から遺伝子を入れると

NGF)ファミリー分子の総称で、NGF以外に脳由来神経栄養因子(BDNF)、ニューロトロフ

の多くの場合に腺腫を認め組織学的にはエオヂ ン嗜好性細胞よりなることが多い.叉性機能減

に時には少量に,容れてみる.白.血球は血小板

混合液について同様の凝固試験を行った.もし患者血

[Publications] Taniguchi, K., Yonemura, Y., Nojima, N., Hirono, Y., Fushida, S., Fujimura, T., Miwa, K., Endo, Y., Yamamoto, H., Watanabe, H.: "The relation between the

マーカーによる遺伝子型の矛盾については、プライマーによる特定遺伝子型の選択によって説明す

教育・保育における合理的配慮