HIV の RT

RT = Reverse Transcriptase

逆転写酵素

得られたアラインメントを使って MEGA で系統樹を作成

(1) MEGA

を起動して

mafft

で作成したアラインメントの読み込み

(2) MEGA

形式へのデータの変換

(3)

モデル選択

(1)

近隣結合法による系統樹の構築

得られたアラインメントを使って MEGA で系統樹を作成

(1) MEGA

を起動して

mafft

で作成したアラインメントの読み込み

(2) MEGA

形式へのデータの変換

(3)

モデル選択

(1)

近隣結合法による系統樹の構築

MEGA の起動

① 左下のスタートをクリック

②下部ウィンドウに

MEGA

と入力 ③

MEGA

のアイコンが出てくるので、クリックして起動

起動画面左上に注目

メニューバーの File を

クリック

Open A File/Session を選択

ファイル選択のウィンドウが表示される

前ページのファイル選択ウィンドウを拡大したもの

スクロールバーで表示位置を変更しながらファイルを探して選択

ファイルがおかれているフォルダを選択してクリック

ファイルを選択すると、 File name ウィンドウにファイル名が現れる

この状態で Open をクリック

①

②

③

アラインメントを表示するウィンドウが表意される

得られたアラインメントを使って MEGA で系統樹を作成

(1) MEGA

を起動して

mafft

で作成したアラインメントの読み込み

(2) MEGA

形式へのデータの変換

(3)

モデル選択

(1)

近隣結合法による系統樹の構築

アラインメントを表示するウィンドウが表意される

Utilities

をクリック

Convert to MEGA Format

を選択

OK をクリック

MEGA

形式のデータを保存するファイル名を入力するウィンドウが開く

*

の部分を書き換える。拡張子

(.meg)

は変更してはいけない

前ページのファイル名入力ウィンドウを拡大ファイル名を

*

から書き換える

変換が終了したことを示すメッセージ。

OK

をクリック

MEGA 形式に変換されたアラインメントが表示される

得られたアラインメントを使って MEGA で系統樹を作成

(1) MEGA

を起動して

mafft

で作成したアラインメントの読み込み

(2) MEGA

形式へのデータの変換

(3)

モデル選択

(1)

近隣結合法による系統樹の構築

①

Models

をクリック

②

Find Best DNA.Protein Models (ML)

をクリック

現在

active

ばファイル

(=hivpol.meg)

を使用するかを聞いてくるウィンドウが開く

Yes

をクリック

モデル選択の計算のオプション確認のウィンドウが開く黄色の部分が

Automatic Nucleotide

Complete deletion

になっていることを確認して、

Compute

をクリック

計算経過を示すウィンドウが開く

結果画面出力行がモデル

列に情報量基準とパラメータが書かれている

BIC, AICc :

情報量基準

この表が

BIC

でソートされている情報量は小さい方が良い

lnL:

対数尤度

大きい方が良い

BIC

最小の

T92+G

モデルを今回使用することにする

このウィンドウは閉じる

得られたアラインメントを使って MEGA で系統樹を作成

(1) MEGA

を起動して

mafft

で作成したアラインメントの読み込み

(2) MEGA

形式へのデータの変換

(3)

モデル選択

(1)

近隣結合法による系統樹の構築と

bootstrap

解析

①

Phylogeny

をクリックしプルダウンメニューから

②

Construct/Test Neighbor-Joining Tree…

を選択

現在

active

なファイル

(=hivpol.meg)

を使用するかを問い合せるウィンドウが開くので、

Yes

をクリック

計算の設定を問い合わせるウィンドウが開く黄色の部分が変更可能

Bootstrap

法

デフォルトのリサンプリング回数

は

500

まんで、右端をクリックした時に

現れる上下の矢印の上向矢印をクリックし

1000

にする。

Model/Method

は、デフォルトは

No. of differences

になっているモデル選択の結果に従い、

T92+G

に変更する。

Tamura 3-parameter

モデルは

1992

に提案されており、

これが

T92

に相当すると考えられるので、これを選択。

Tamura

の

3

パラメータを選択すると

Rates among Sites

では、

Gamma

Distributed

が自動的に選択されるこれがモデル選択の

+G

の部分

Compute

をクリックして計算

計算の進行状況を示すウィンドウが表示

計算が終わると系統樹が別のウィンドウに表示される。

Victim (Maria)

から単離された

HIV

は、

Robert

の患者から

単離された

HIV

に近縁

（ただし、

bootstrap support

(bootstrap probability

ともよぶ）

小さい）

デフォルトでは

Original Tree

が表示されている

Bootstrap consensus tree

のタブを選択

1000

回の

bootstrap

サンプル

のそれぞれについて構築された系統樹のコンセンサスが

示される。

系統樹の枝振り（トポロジー）

についてのみコンセンサス

が示されており、枝の長さには意味はない。

コンセンサスでも

Victim

由来

HIV

は

Patient

由来

HIV

に近い

再び、

Original tree

タブを選択

①

Original tree

タブを選択しオリジナルの系統樹を

表示

② メニューバーの

File

をクリック

③

Export Current Tree (Newick)

を選択

Newick

形式のデータを保存するファイル名を聞いてくるので、

Hivpol.nwk

とファイル名を指定して

Save

をクリック

hivpol.nwk

をメモ帳で開く

(((((((((((((((V1.MIC.RT:0.00183356,V2.MIC.RT:-0.00005991)0.8910:0.00358471,P6¥

.MIC.RT:-0.00000974)0.1770:0.00000487,V1.BCM.RT:-0.00000487)0.1240:0.00000487,P¥

5.BCM.RT:-0.00000487)0.1580:0.00000487,V2.BCM.RT:-0.00000649)0.6510:0.00179596,¥

P6.BCM.RT:-0.00002443)0.2560:0.00047535,(P3.MIC.RT:0.00247068,(P5.MIC.RT:0.0001¥

0360,(P4.BCM.RT:-0.00001486,(P1.BCM.RT:0.00180051,P7.BCM.RT:-0.00002890)0.3290:¥

0.00001486)0.6290:0.00167160)0.3700:0.00110497)0.1450:0.00042271)0.1300:0.00012¥

758,(P2.MIC.RT:0.00692434,(P3.BCM.RT:0.00000000,P4.MIC.RT:0.00000000)0.3170:0.0¥

0022865)0.3800:0.00123392)0.2950:0.00120878,P2.BCM.RT:0.00151719)0.1530:0.00021¥

449,LA32.RT:0.00555837)0.1380:0.00004296,(LA08.RT:0.00517567,LA05.RT:0.01117874¥

)0.4190:0.00175445)0.2030:0.00101235,P1.MIC.RT:0.00223222)0.3350:0.00231784,LA1¥

8.RT:0.00719763)0.0810:0.00037487,((((LA29.RT:0.01283766,LA06.RT:0.00724592)0.3¥

080:0.00136025,LA12.RT:0.00407447)0.1500:0.00100562,(LA28.RT:0.01213187,LA07.RT¥

:0.00795380)0.5010:0.00248453)0.0890:0.00048663,((LA10.RT:0.00771152,LA23.RT:0.¥

01441878)0.4210:0.00234077,((((LA04.RT:0.00992803,LA25.RT:0.01196780)0.2190:0.0¥

0075079,LA27.RT:0.00367005)0.1520:0.00156941,(LA22.RT:0.01275031,LA30.RT:0.0111¥

6664)0.2420:0.00081036)0.0260:0.00057137,((LA17.RT:0.00971516,LA13.RT:0.0103715¥

9)0.5080:0.00308458,(LA31.RT:0.00767816,(LA14.RT:0.01046118,(LA21.RT:0.00708465¥

,LA24.RT:0.00192401)0.8140:0.00438466)0.2290:0.00054839)0.1320:0.00076469)0.146¥

0:0.00116298)0.0090:0.00046111)0.0210:0.00077806)0.0200:0.00022654)0.1420:0.001¥

01897,LA16.RT:0.00625876)0.5290:0.00018712,(LA26.RT:0.00566221,LA02.RT:0.016280¥

61)0.5290:0.00268962);

Newick

形式とは、系統樹の情報を、テキストとして記述したもの

合衆国の法廷ではじめて分子系統解析が利用されたのがこの事件

1998 年、 Robert White は二級殺人について有罪判決

をうけ現在 50 年の禁固刑に服している

モデル選択のモデルとは何か距離の最尤推定とは何か

bootstrap support (bootstrap probablity) とは何か？

Newick 形式とは何か？

参考文献

Samuelsson, T. (2012) “Genomics and Bioinformatics - An Introduction to Programming Tools - “

Cambridge Univ Press

今回の配列データの入手と、

mafft

によるマルチプルアラインメント

配列データは NCBI に登録されている AY156734 – AY156907

配列を取得

Multi FASTA 形式のファイルで保存 mafft で multiple alignment

MEGA で系統解析

NCBI をググる

クリック

①

AY156734

を入力

②

Search

をクリック

前ページの入力ウィンドウを拡大したもの

Genes

の中の

PopSet

をクリック

前ページの

Genes

部分を拡大

PopSet

をクリック

前ページのトップを拡大

FASTA

をクリック

Multi-Fasta

形式で配列が表示される

前ページの図のトップを拡大

画面右上の Send to をクリック

Send to をクリックすると図のようなメニューが出てくる

File をチェックすると、下部のメニューが出てくるので

最下段の Create File をクリック

OK をおしてファイルを保存

>gi|24209939|gb|AY156734.1| HIV-1 clone P1.BCM.RT from USA reverse transcriptase (pol) gene, partial CCCATAAGTCCTATTGAAACTGTACCAGTAAAATTAAAGCCAGGAATGGATGGCCCAAAAGTTAAACAAT

GGCCACTGACAGAAGAAAAAATAAAAGCATTAGTAGAAATTTGTACAGAAATGGAAAAGGAAGGAAAAAT TTCAAAAATTGGGCCTGAAAATCCATACAATACTCCAGTATTTGCCATAAAGAAAAAAGACAGTACTAAA TGGAGAAAATTAGTAGATTTCAGAGAACTTAATAAGAGAACTCAGGACTTCTGGGAAGTTCAATTAGGAA TACCACATCCTGCAGGGTTAAAAAAGAAAAAATCAGTAACAGTGCTGGATGTGGGTGATGCATATTTTTC AGTTCCCTTAGATAAAGAGTTCAGGAAGTATACTGCATTTACCATACCTAGTATAAACAATGAGACACCA GGGATTAGATATCAGTACAATGTGCTTCCACAGGGATGGAAAGGATCACCAGCAATATTCCAAAGTAGCA TGACAAAAATCTTAGAGCCTTTTAGAAAACAAAATCCAGACATAGTTATCTATCAATACATGGATGATCT GTATGTAGGATCTGACTTAGAAATAGGGCAGCATAGAATAAAAATAGAGGAACTAAGACAACATCTGTTG AAGTGGGGACTTACCACACCAGACAAAAAACATAAGAAGGAACCCCCATTCCTTTGGAT

>gi|24209941|gb|AY156735.1| HIV-1 clone P2.BCM.RT from USA reverse transcriptase (pol) gene, partial CCCATAAGTCCTATTGAAACTGTACCAGTAAAATTAAAGCCAGGAATGGATGGCCCAAAAGTTAAGCAAT

GGCCACTGACAGAAGAAAAAATAAAAGCATTAGTAGAAATTTGTACAGAAATGGAAAAGGAAGGAAAAAT TTCAAAAATTGGGCCTGAAAATCCATACAATACTCCAGTATTTGCCATAAAGAAAAAAGACAGTACTAAA TGGAGAAAATTAGTAGATTTCAGAGAACTTAATAAGAGAACTCAAGACTTCTGGGAAGTTCAATTAGGAA TACCACATCCTGCAGGGTTAAAAAAGAAAAAATCAGTAACAGTGCTGGATGTGGGTGATGCATATTTTTC AGTTCCCTTAGATAAGGAGTTCAGGAAGTATACTGCATTTACCATACCTAGTATAAACAATGAGACACCA GGGATTAGATATCAGTACAATGTGCTTCCACAGGGATGGAAAGGATCACCAGCAATATTCCAAAGTAGCA TGACAAAAATCTTAGAGCCTTTTAGAAAACAAAATCCAGACATAGTTATCTATCAATACATGGATGATTT GTATGTAGGATCTGACTTAGAAATAGGGCAGCATAGAATAAAAATAGAAGAACTAAGACAACATCTGTTG AAGTGGGGACTTACCACACCAGACAAAAAACATCAGAAGGAACCTCCATTCCTTTGGAT

>gi|24209943|gb|AY156736.1| HIV-1 clone P3.BCM.RT from USA reverse transcriptase (pol) gene, partial CCCATAAGTCCTATTGAAACTGTACCAGTAAAATTAAAGCCAGGAATGGATGGCCCAAAAGTTAAACAAT

GGCCACTGACAGAAGAAAAAATAAAAGCATTAGTAGAAATTTGTACAGAAATGGAAAAGGAAGGAAAAAT TTCAAAGATTGGGCCTGAAAATCCATACAATACTCCAGTATTTGCCATAAAGAAAAAAAACAGTACTAGA TGGAGAAAATTAGTAGATTTCAGAGAACTTAATAAGAGAACTCAAGACTTCTGGGAAGTTCAATTAGGAA TACCACATCCTGCAGGGTTAAAAAAGAAAAAATCAGTAACAGTGCTGGATGTGGGTGATGCATATTTTTC AGTTCCCTTAGATAAAGAGTTCAGGAAGTATACTGCATTTACCATACCTAGTATAAACAATGAGACACCA GGGATTAGATATCAATACAATGTGCTTCCACAGGGATGGAAAGGATCACCAGCAATATTCCAAAGTAGCA TGACAAAAATCTTAGAGCCTTTTAGAAAACAAAATCCAGACATAGTTATCTATCAATACATGGATGATCT GTATGTAGGATCTGACTTAGAAATAGGGCAGCATAGAATAAAAATAGAGGAACTAAGACAACATCTGTTG AAGTGGGGATTTATCACACCAGACGAAAAACACCAGAAGGAACCTCCATTCCGTTGGAT

ダウンロードされたファイルには

Multi-Fasta

形式で塩基配列が含まれている

準備したファイルでは、配列の名前を短くしてあります。

V

で始まる名前

victim = Maria

から分離された

HIV

の

RT

P

で始まる名前

patient=Robert

の患者から分離された

HIV

の

RT LA

で始まる名前

Lafeyette

で生活する

AIDS

患者から分離された

HIV

の

RT

RT = Reverse Transcriptase

逆転写酵素

ダウンロードしたファイルを Mafft でアラインして、

Clustal 形式のアラインメントを作成する。

Mafft

を起動する

1

左下スタートをクリック

2.

検索ウィンドウに

mafft

と入力

上部に

mafft

のインストール場所が表示される。この

mafft

のアイコンをクリック

1.

このウィンドウに

mafft

と入力

2.

表示された

mafft

をクリック

3. mafft

の入力画面がたちあがる。

Input file? (fasta format)

@ ここに入力ファイルを記入（次のようにする）

4.

入力ファイルを指定するために、

multi-fasta format

のファイルが置かれた

Windows OS

上での処理）

左下のスタートをクリックし、出て来たパネル左上のドキュメントを選択

ドキュメントを選択ファイルが

ドキュメントフォルダにある場合

5.

ドキュメント

mafft

のウィンドウにファイルをドラッグすると、ファイル名が入力される。ファイル名が入力されたら

enter

キーをおす。

Fasta format

の入力ファイルのアイコン

を

mafft

の入力画面にドラッグする

6. Output

すなわち、アラインメントを出力するファイル名を聞かれる、入力

ファイル名を参考に

Z

ドライブ上のファイル（新規でも既存の者でも良い）を指定し

Enter

キーをおす。出力オプションを聞いてくるので

2

を指定する。

Clustal

形式

/Fasta

形式

Sorted Order/Input Order

説明はアラインメントを見ながら

1.

入力ファイルが

Z:¥

ファイル名の形で記入されるエンターキーをおす

2. Output file?

@

とアラインメントの出力ファイルを聞いてくるので

Z:¥

ファイル名

としてドキュメントフォルダのファイル名を持つファイルに保存するようにしてエンターキーをおす

3. 6

つのアウトプット形式が出力される

６つ出力形式

1 Clustal format/ Sorted

2 Clustal format / Input order 3 Fasta format / Sorted

4 Fasta format / Input Order 5 Phylip format / Sorted

6 Phylip format / Input Order

Clustal と Fasta は説明済み

Phylip は系統解析の際に説明

ドキュメント内バイオインフォマティクス第四回 (ページ 48-124)

RT = Reverse Transcriptase

得られたアラインメントを使って MEGA で系統樹を作成

(1) MEGA

mafft

(2) MEGA

(3)

(1)

得られたアラインメントを使って MEGA で系統樹を作成

(1) MEGA

mafft

(2) MEGA

(3)

(1)

MEGA の起動

MEGA

MEGA

メニューバーの File を

クリック

Open A File/Session を選択

ファイル選択のウィンドウが表示される

ファイルがおかれているフォルダを選択してクリック

ファイルを選択すると、 File name ウィンドウ にファイル名が現れる

この状態で Open をクリック

得られたアラインメントを使って MEGA で系統樹を作成

(1) MEGA

mafft

(2) MEGA

(3)

(1)

Utilities

Convert to MEGA Format

OK をクリック

MEGA

*

(.meg)

*

OK

MEGA 形式に変換されたアラインメントが表示される

得られたアラインメントを使って MEGA で系統樹を作成

(1) MEGA

mafft

(2) MEGA

(3)

(1)

Models

Find Best DNA.Protein Models (ML)

active

(=hivpol.meg)

Yes

Automatic Nucleotide

Complete deletion

Compute

BIC, AICc :

BIC

lnL:

BIC

T92+G

得られたアラインメントを使って MEGA で系統樹を作成

(1) MEGA

mafft

(2) MEGA

(3)

(1)

bootstrap

Phylogeny

Construct/Test Neighbor-Joining Tree…

active

(=hivpol.meg)

Yes

Bootstrap

500

1000

Model/Method

No. of differences

T92+G

Tamura 3-parameter

1992

T92

Tamura

ファイルを選択すると、 File name ウィンドウにファイル名が現れる

合衆国の法廷ではじめて分子系統解析が利用されたのがこの事件

モデル選択のモデルとは何か距離の最尤推定とは何か