EF2/G遺伝子重複

藤田俊彦 (2010) “ 動物の系統分類と進化 ” 裳華房より

外群としてパラログを利用して３つのドメインの根を決定したのは宮田隆のグループの研究

(Iwabe et al. 1989)

EF-1α/Tu

EF2/G

Ecocyte Hypothesis = Two Domains Hypothesis Two Domains = Archaea and Bacteria

Eukaryotes arose through endosymbiotic

Partnership between Archaea and Bacteria

最尤法

(maximum likelihood method)

による系統樹の構築

elongation factor 1-alpha

のアミノ酸配列を使用

(1)

真核生物

ヒト

(Homo sapiens gi |4503471

）

(2)

古細菌

クレンアーキオータ

(Sulfolobus solafatarocus gi|80090675)

ユーリアーキオータ

(Methonococcus maripaludis, gi|73919278) (3)

真正細菌

(outgroup

として導入）

大腸菌

(Escherichia coli gi|487459962)

アラインメントは

mafft

で作成済みのものを使用

(1) MEGA

を起動して

mafft

で作成したアラインメントの読み込み

(2) MEGA

形式へのデータの変換

(3)

モデル選択

(1)

最尤法による系統樹の構築

(1) MEGA

を起動して

mafft

で作成したアラインメントの読み込み

(2) MEGA

形式へのデータの変換

(3)

モデル選択

(1)

最尤法による系統樹の構築

aaseq2.aln

mafft で作成された EF-1 α のアラインメントを入力として使用

CLUSTAL format alignment by MAFFT L-INS-i (v7.130b)

gi|4503471|ref| MGKEKTHINIVVIGHVDSGKSTTTGHLIYKCGGIDKRTIEKFEKEAAEMGKGSFKYAWVL gi|800906750|gb M-SQKPHLNLIVIGHIDHGKSTLVGRLLMDRGFIDEKTVKEAEEAAKKLGKESEKFAFLL gi|73919278|sp| MAKEKPILNVAFIGHVDAGKSTTVGRLLLDGGAIDPQLIVRLRKEAEEKGKAGFEFAYVM gi|487459962|re

---gi|4503471|ref| DKLKAERERGITIDISLWKFETSKYYVTIIDAPGHRDFIKNMITGTSQADCAVLIVAAGV gi|800906750|gb DRLKEERERGVTINLTFMRFETKKYFFTIIDAPGHRDFVKNMITGASQADAAILVVSAKK gi|73919278|sp| DGLKEERERGVTIDVAHKKFPTAKYEVTIVDCPGHRDFIKNMITGASQADAAVLVV--NV gi|487459962|re ---ETPKYHVTVIDAPGHRDFIKNMITGTSQADCAILIIAGGT

* ** .*::*.******:******:****.*:*::

gi|4503471|ref| GEFEAGISKNGQTREHALLAYTLGVKQLIVGVNKMDSTEPPYSQKRYEEIVKEV-STYIK gi|800906750|gb GEYEAGMSVEGQTREHIILAKTMGLDQLIVAVNKMDLTDPPYDEKRYKEIVDQV-SKFMR gi|73919278|sp| DDAKSGIQP--QTREHVFLSRTLGITQLAVAINKMDTVN--FSEADYNEMKKMLGDQLLK gi|487459962|re GEFEAGISKDGQTREHALLAYTLGVKQLIVAVNKMDSVK--WDKNRFEEIIKET-SNFVK .: ::*:. ***** :*: *:*: ** *.:**** .. :.: ::*: . . ::

gi|4503471|ref| KIGYNPDTVAFVPISGWNGDNMLEPSANMPWFKGWKVTRKDGNASGTTLLEALDCILPPT gi|800906750|gb SYGFNTNKVRFVPVVAPAGDNITHRSENMKWY---NGPTLEEYLDQLELPP gi|73919278|sp| MVGFNPDNIDFIPVASLLGDNVFKKSENTPWY---NGPTLAQVIDGFQPPE gi|487459962|re KVGYNPKTVPFVPISGWNGDNMIEPSTNCPWYKGWEKETKSGKVTGKTLLEAIDAIEPPT

*:*...: *:*: . ***: . * * *: .* ** : :* : *

MEGA の起動

① 左下のスタートをクリック

②下部ウィンドウに

MEGA

と入力 ③

MEGA

のアイコンが出てくるので、クリックして起動

起動画面左上に注目

メニューバーの File を

クリック

Open A File/Session を選択

ファイル選択のウィンドウが表示される

前ページのファイル選択ウィンドウを拡大したもの

スクロールバーで表示位置を変更しながらファイルを探して選択

読み込まれたアラインメントが新しいウィンドウ上で

Clustal

形式で表示される

(1) MEGA

を起動して

mafft

で作成したアラインメントの読み込み

(2) MEGA

形式へのデータの変換

(3)

モデル選択

(1)

最尤法による系統樹の構築

アラインメントウィンドウのメニューバーの

Utility

をクリック

プルダウンメニューから

Convert to

MEGA Format

を選択

新しいウィンドウが開いて

ファイルと形式を確認してくるので、

OK

をクリック

MEGA 形式のデータを保存するファイル名を聞いてくるので

* の部分を aaseq2 として

aaseq2.meg という名前で保存

変換が正常に終了したことを示すウィンドウが現れる。

OK をおしてとじる

それまで Clustal 形式だったアラインメントが

MEGA 形式に変換されて表示されている

MEGA

形式のデータが表示される

(1) MEGA

を起動して

mafft

で作成したアラインメントの読み込み

(2) MEGA

形式へのデータの変換

(3)

モデル選択

(1)

最尤法による系統樹の構築

モデルをクリック

プルダウンメニューの

Find Best DNA/Protein Models (ML)

を選択

新しく開いたウィンドウから、変換した MEGA 形式のファイルを選択し

Open をクリック

新しいウィンドウが開くので、

Protein Sequences

を選択して

OK

をクリック

ウィンドウの拡大図

モデル選択の確認画面がでてくる

デフォルト設定のままで Compute をクリック

時間がかかるので、計算の途中経過を示すウィンドウが現れる

計算結果の画面が現れる

BIC, AIC, lnL

がモデル選択の基準

BIC, AICc

は小さい程よく、

lnL

は大きいほど良い。

MEGA

では

BIC

でソートされている

LG + I

モデルが、このモデルに最適であることが示されている

(1) MEGA

を起動して

mafft

で作成したアラインメントの読み込み

(2) MEGA

形式へのデータの変換

(3)

モデル選択

(1)

最尤法による系統樹の構築

上部の

Phylogeny

をクリックプルダウンメニューから

Construct/Test Maximum Likelihood Tree

を選択

現在、

active

になっている

aaseq2.meg

について系統樹をつくるのかを聞いてくるので、

Yes

をクリック

最尤法の計算設定の画面が現れる黄色の部分が変更可能

① Phylogeny Test Bootstrap を 100 回

② Substitution Model LG model

③ Rates and Patterns

Has Invariant sites (I)

他はデフォルトで

変更の仕方

変更する項目をクリックすると

右端にボタンが出てくるのでそれを使って変更

Bootstrap

の回数の変更

上向き矢印で増加、下向きで減少今回は

100

になるようにしてください

変更の仕方

変更する項目をクリックすると

右端にボタンが出てくるのでそれを使って変更

Bootstrap

の回数の変更

上向き矢印で増加、下向きで減少今回は

100

になるようにしてください

Substitution model

は、右端をクリックすると現れるプルダウンメニューの中から選択

Rates and Patterns も同様

設定が完了したら

Compute

をクリック

時間がかかるので

途中経過を示すウィンドウが表示される

計算が終了すると

最尤系統樹に bootstrap support

がマッピングされた図が表示される。

系統樹を Newick format で保存

系統樹ウィンドウのメニューバーから File をクリック

系統樹のウインドウのメニューバーの

File

メニューから、

Export Current Tree (Newick)

を選択

ファイルネームを

aaseq2.nwk

として、

Save

をクリック

((gi|4503471|ref|:0.09656983,gi|487459962|re:0.11764039)1.0000:0.31334860, (gi|800906750|gb:0.36944335,gi|73919278|sp|:0.37953026)1.0000:0.05145874);

Newick format でファイルに保存された情報

系統樹のメニューバーの Image をクリックプルダウンメニューから

Save PDF file を選択

先ほど指定したファイル名が残されているので必要に応じて書き換えて、 Save をクリック

今回は、ファイル名は aaseq2 だけにしておく

aaseq2.PDF というファイル名で、系統樹の画像ファイルが保存される

gi|4503471|ref|

gi|487459962|re gi|800906750|gb

gi|73919278|sp|

1 0 0

0.1

ヒトとクレンアーキオータがクラスタを形成することを期待して作成したが、古細菌同士がクラスタを形成

ここが、ヒトと古細菌の根になる

今回の系統樹

大腸菌（外群）

ヒト

クレンアーキオータ

ユーリアーキオータ

この

解析

の問題点

(1)

真核生物、クレンアーキオータ、ユーリアーキオータ、

真正細菌を１種ずつで代表させる。

選択したそれぞれの生物に特化した進化の状況が反映されてしまう。

--- à

もっと種数を増やす

(2) Elongation factor 1-alpha/Tu

だけしか使っていない他のタンパク質についても解析するべき

今回のまとめ

アミノ酸にも置換モデルがある

分子系統樹は基本的には無根 (unrooted)

根を導入するには、何らかの根拠から遠い関係にあると考えられる配列を外群（ outgroup ）として

導入する

最尤法の説明については次回

点数

(4) 100-90 (3) 89-80 (2) 79-70 (1) 69-60

ドキュメント内バイオインフォマティクス第五回 (ページ 57-107)

藤田俊彦 (2010) “ 動物の系統分類と進化 ” 裳華房 より

(Iwabe et al. 1989)

EF-1α/Tu

EF2/G

Ecocyte Hypothesis = Two Domains Hypothesis Two Domains = Archaea and Bacteria

Eukaryotes arose through endosymbiotic

Partnership between Archaea and Bacteria

(maximum likelihood method)

elongation factor 1-alpha

(1)

(Homo sapiens gi |4503471

(2)

(Sulfolobus solafatarocus gi|80090675)

(Methonococcus maripaludis, gi|73919278) (3)

(outgroup

(Escherichia coli gi|487459962)

mafft

(1) MEGA

mafft

(2) MEGA

(3)

(1)

(1) MEGA

mafft

(2) MEGA

(3)

(1)

aaseq2.aln

mafft で作成された EF-1 α のアラインメント を入力として使用

MEGA の起動

MEGA

MEGA

メニューバーの File を

クリック

Open A File/Session を選択

ファイル選択のウィンドウが表示される

Clustal

(1) MEGA

mafft

(2) MEGA

(3)

(1)

Utility

Convert to

MEGA Format

OK

MEGA 形式のデータを保存する ファイル名を聞いてくるので

* の部分を aaseq2 として

aaseq2.meg という名前で保存

変換が正常に終了したことを 示すウィンドウが現れる。

OK をおしてとじる

それまで Clustal 形式だったアラインメントが

MEGA 形式に変換されて表示されている

MEGA

(1) MEGA

mafft

(2) MEGA

(3)

(1)

Find Best DNA/Protein Models (ML)

新しく開いたウィンドウから、変換した MEGA 形式のファイルを選択し

Open をクリック

Protein Sequences

OK

ウィンドウの拡大図

モデル選択の確認画面がでてくる

デフォルト設定のままで Compute をクリック

BIC, AIC, lnL

BIC, AICc

lnL

MEGA

BIC

LG + I

(1) MEGA

mafft

(2) MEGA

(3)

(1)

Phylogeny

藤田俊彦 (2010) “ 動物の系統分類と進化 ” 裳華房より

mafft で作成された EF-1 α のアラインメントを入力として使用

MEGA 形式のデータを保存するファイル名を聞いてくるので

変換が正常に終了したことを示すウィンドウが現れる。

系統樹のメニューバーの Image をクリックプルダウンメニューから

先ほど指定したファイル名が残されているので必要に応じて書き換えて、 Save をクリック

aaseq2.PDF というファイル名で、系統樹の画像ファイルが保存される

根を導入するには、何らかの根拠から遠い関係にあると考えられる配列を外群（ outgroup ）として