• 検索結果がありません。

分子系統解析における様々な問題について 田辺晶史

N/A
N/A
Protected

Academic year: 2022

シェア "分子系統解析における様々な問題について 田辺晶史"

Copied!
64
0
0

読み込み中.... (全文を見る)

全文

(1)

分子系統解析における 様々な問題について

田辺晶史

(2)
(3)

そもそもどこの配列を使うべき ?

(4)

そもそもどこの配列を使うべき ?

置換が早すぎず遅すぎない(=多すぎず少なすぎない)

(5)

そもそもどこの配列を使うべき ?

置換が早すぎず遅すぎない(=多すぎず少なすぎない)

連続長は長い方が良い

(6)

そもそもどこの配列を使うべき ?

置換が早すぎず遅すぎない(=多すぎず少なすぎない)

連続長は長い方が良い

遺伝子重複が起きていない(=パラログでない)

(7)

で、そういう領域をどうやって探す ?

(8)

で、そういう領域をどうやって探す ?

外群種と内群種のゲノム・トランスクリプトームがある場合

(9)

で、そういう領域をどうやって探す ?

外群種と内群種のゲノム・トランスクリプトームがある場合

BLASTで類似箇所を探す

(10)

で、そういう領域をどうやって探す ?

外群種と内群種のゲノム・トランスクリプトームがある場合

BLASTで類似箇所を探す

類似度が高く、アライメント長が長く、そういうのが1件だけ のものを採用

(11)

で、そういう領域をどうやって探す ?

外群種と内群種のゲノム・トランスクリプトームがある場合

BLASTで類似箇所を探す

類似度が高く、アライメント長が長く、そういうのが1件だけ のものを採用

PhyloMarker, markers_genesというソフトが自動的にやって くれる

(12)

で、そういう領域をどうやって探す ?

外群種と内群種のゲノム・トランスクリプトームがある場合

BLASTで類似箇所を探す

類似度が高く、アライメント長が長く、そういうのが1件だけ のものを採用

PhyloMarker, markers_genesというソフトが自動的にやって くれる

ゲノム・トランスクリプトームがない場合

(13)

で、そういう領域をどうやって探す ?

外群種と内群種のゲノム・トランスクリプトームがある場合

BLASTで類似箇所を探す

類似度が高く、アライメント長が長く、そういうのが1件だけ のものを採用

PhyloMarker, markers_genesというソフトが自動的にやって くれる

ゲノム・トランスクリプトームがない場合

全ゲノム解読する

(14)

で、そういう領域をどうやって探す ?

外群種と内群種のゲノム・トランスクリプトームがある場合

BLASTで類似箇所を探す

類似度が高く、アライメント長が長く、そういうのが1件だけ のものを採用

PhyloMarker, markers_genesというソフトが自動的にやって くれる

ゲノム・トランスクリプトームがない場合

全ゲノム解読する

トランスクリプトーム解析を行う

(15)

で、どうやって解読する ?

(16)

で、どうやって解読する ?

pgpickprimer \ --maxpick=99 \ --consensus=90 \

--sizerange=90-500 \ --tmrange=45-65 \ inputfile \

outputfile

…コマンド名

…最大プライマーセット数

…縮重多数決合意配列の閾値

…増幅産物のアライメント長範囲

…プライマーのTm値範囲

…入力ファイル名

…出力ファイル名

下記のコマンドで多重整列データからユニバーサルプライマーを自動作成

「\」は「次の行に改行なしで続く」という意味であることに注意 ただしスペースは入れること

(17)

多遺伝子座連結解析の問題

(18)

多遺伝子座連結解析の問題

パラログ混入や浸透交雑、水平伝播、incomplete lineage sortingで、遺伝子座間で支持する系統樹が異なる(不調和)

(19)

多遺伝子座連結解析の問題

パラログ混入や浸透交雑、水平伝播、incomplete lineage sortingで、遺伝子座間で支持する系統樹が異なる(不調和)

連結解析のブートストラップ値悪化やアーティファクトの原因

(20)

多遺伝子座連結解析の問題

パラログ混入や浸透交雑、水平伝播、incomplete lineage sortingで、遺伝子座間で支持する系統樹が異なる(不調和)

連結解析のブートストラップ値悪化やアーティファクトの原因

Internode Certainty, ICAll, TreeC, TCA値で不調和を評価

(21)

多遺伝子座連結解析の問題

パラログ混入や浸透交雑、水平伝播、incomplete lineage sortingで、遺伝子座間で支持する系統樹が異なる(不調和)

連結解析のブートストラップ値悪化やアーティファクトの原因

Internode Certainty, ICAll, TreeC, TCA値で不調和を評価

IC, ICAは系統仮説ごとに出るがTC, TCAは系統樹全体で1つ

(22)

多遺伝子座連結解析の問題

パラログ混入や浸透交雑、水平伝播、incomplete lineage sortingで、遺伝子座間で支持する系統樹が異なる(不調和)

連結解析のブートストラップ値悪化やアーティファクトの原因

Internode Certainty, ICAll, TreeC, TCA値で不調和を評価

IC, ICAは系統仮説ごとに出るがTC, TCAは系統樹全体で1つ

ICの範囲は1~0で、ICAは1~マイナス?、小さいほど不調和

(23)

多遺伝子座連結解析の問題

パラログ混入や浸透交雑、水平伝播、incomplete lineage sortingで、遺伝子座間で支持する系統樹が異なる(不調和)

連結解析のブートストラップ値悪化やアーティファクトの原因

Internode Certainty, ICAll, TreeC, TCA値で不調和を評価

IC, ICAは系統仮説ごとに出るがTC, TCAは系統樹全体で1つ

ICの範囲は1~0で、ICAは1~マイナス?、小さいほど不調和

TC, TCAはIC, ICAの総和.OTU数-3で割ってデータ間比較

(24)

多遺伝子座連結解析の問題

パラログ混入や浸透交雑、水平伝播、incomplete lineage sortingで、遺伝子座間で支持する系統樹が異なる(不調和)

連結解析のブートストラップ値悪化やアーティファクトの原因

Internode Certainty, ICAll, TreeC, TCA値で不調和を評価

IC, ICAは系統仮説ごとに出るがTC, TCAは系統樹全体で1つ

ICの範囲は1~0で、ICAは1~マイナス?、小さいほど不調和

TC, TCAはIC, ICAの総和.OTU数-3で割ってデータ間比較

使用する遺伝子座を選別する

(25)

多遺伝子座連結解析の問題

パラログ混入や浸透交雑、水平伝播、incomplete lineage sortingで、遺伝子座間で支持する系統樹が異なる(不調和)

連結解析のブートストラップ値悪化やアーティファクトの原因

Internode Certainty, ICAll, TreeC, TCA値で不調和を評価

IC, ICAは系統仮説ごとに出るがTC, TCAは系統樹全体で1つ

ICの範囲は1~0で、ICAは1~マイナス?、小さいほど不調和

TC, TCAはIC, ICAの総和.OTU数-3で割ってデータ間比較

使用する遺伝子座を選別する

Clusterflock, Concaterpiller, Conclustador

(26)

多遺伝子座連結解析の問題

パラログ混入や浸透交雑、水平伝播、incomplete lineage sortingで、遺伝子座間で支持する系統樹が異なる(不調和)

連結解析のブートストラップ値悪化やアーティファクトの原因

Internode Certainty, ICAll, TreeC, TCA値で不調和を評価

IC, ICAは系統仮説ごとに出るがTC, TCAは系統樹全体で1つ

ICの範囲は1~0で、ICAは1~マイナス?、小さいほど不調和

TC, TCAはIC, ICAの総和.OTU数-3で割ってデータ間比較

使用する遺伝子座を選別する

Clusterflock, Concaterpiller, Conclustador

species tree methodを使う

(27)

多遺伝子座連結解析の問題

パラログ混入や浸透交雑、水平伝播、incomplete lineage sortingで、遺伝子座間で支持する系統樹が異なる(不調和)

連結解析のブートストラップ値悪化やアーティファクトの原因

Internode Certainty, ICAll, TreeC, TCA値で不調和を評価

IC, ICAは系統仮説ごとに出るがTC, TCAは系統樹全体で1つ

ICの範囲は1~0で、ICAは1~マイナス?、小さいほど不調和

TC, TCAはIC, ICAの総和.OTU数-3で割ってデータ間比較

使用する遺伝子座を選別する

Clusterflock, Concaterpiller, Conclustador

species tree methodを使う

STEM, BUCKy, ASTRAL, *BEAST, BEST(MrBayes)

(28)

タクソンサンプリング法

(29)

タクソンサンプリング法

全種サンプリングは必ずしも良くない

(30)

タクソンサンプリング法

全種サンプリングは必ずしも良くない

系統樹上の分岐点・端点の密度ができるだけ偏らない方が良い

(31)

タクソンサンプリング法

全種サンプリングは必ずしも良くない

系統樹上の分岐点・端点の密度ができるだけ偏らない方が良い

同一配列や近縁配列が一部では多く一部では少ないのは×

(32)

パーティションの切り方

(33)

パーティションの切り方

Kakusan4は以下を比較して選択

(34)

パーティションの切り方

Kakusan4は以下を比較して選択

遺伝子座間・コドン位置間全部切る

遺伝子座間全部切る・コドン位置間全部切らない

遺伝子座間・コドン位置間全部切らない

(35)

パーティションの切り方

Kakusan4は以下を比較して選択

遺伝子座間・コドン位置間全部切る

遺伝子座間全部切る・コドン位置間全部切らない

遺伝子座間・コドン位置間全部切らない

もっと柔軟にな切り方があるのでは?

(36)

パーティションの切り方

Kakusan4は以下を比較して選択

遺伝子座間・コドン位置間全部切る

遺伝子座間全部切る・コドン位置間全部切らない

遺伝子座間・コドン位置間全部切らない

もっと柔軟にな切り方があるのでは?

PartitionFinderで探索可能

(37)

χ

2

検定で組成の均一性が棄却されたら

(38)

χ

2

検定で組成の均一性が棄却されたら

塩基配列ではACGTをAGYやRYに変換する

(39)

χ

2

検定で組成の均一性が棄却されたら

塩基配列ではACGTをAGYやRYに変換する

アミノ酸配列はDayhoff coding法+GTR20モデルなどを使う

(40)

χ

2

検定で組成の均一性が棄却されたら

塩基配列ではACGTをAGYやRYに変換する

アミノ酸配列はDayhoff coding法+GTR20モデルなどを使う

形質状態のいくつかを統合することで無理矢理均一に

(41)

χ

2

検定で組成の均一性が棄却されたら

塩基配列ではACGTをAGYやRYに変換する

アミノ酸配列はDayhoff coding法+GTR20モデルなどを使う

形質状態のいくつかを統合することで無理矢理均一に

nhPhyloBayesで系統樹上での組成変化を許す

(42)

χ

2

検定で組成の均一性が棄却されたら

塩基配列ではACGTをAGYやRYに変換する

アミノ酸配列はDayhoff coding法+GTR20モデルなどを使う

形質状態のいくつかを統合することで無理矢理均一に

nhPhyloBayesで系統樹上での組成変化を許す

より適しているがLinux上でしか動かない

(43)

例:塩基配列の第 3 コドン位置だけ RY コード化

pgrecodeseq \ --type=DNA \ 3-.\3 \

GT-AC \ inputfile \ outputfile

…コマンド名

…入力配列はDNA

…3つめから最後まで3つおきに処理

…GをAに、TをCに置換

…入力ファイル名

…出力ファイル名

下記のコマンドを入力してEnter

「\」は「次の行に改行なしで続く」という意味であることに注意 ただしスペースは入れること

(44)

例: χ

2

検定で不均質解消を確認

pgtestcomposition \ --type=DNA \

3-.\3 \

inputfile \ outputfile

…コマンド名

…入力配列はDNA

…3つめから最後まで3つおきに処理

…入力ファイル名

…出力ファイル名

下記のコマンドを入力してEnter

「\」は「次の行に改行なしで続く」という意味であることに注意 ただしスペースは入れること

(45)

例:アミノ酸配列を Dayhof コード化

pgrecodeseq \ --type=AA \

STGPNEQKHVILYW-AAAADDDRRMMMFF \ inputfile \

outputfile

…コマンド名

…入力配列はアミノ酸

…入力ファイル名

…出力ファイル名

下記のコマンドを入力してEnter

「\」は「次の行に改行なしで続く」という意味であることに注意 ただしスペースは入れること

(46)

変換したデータ解析の注意

RAxMLで解析するときはさらに01データにしてbinaryデータ として解析する

-m BINGAMMA

(47)

変換したデータ解析の注意

RAxMLで解析するときはさらに01データにしてbinaryデータ として解析する

-m BINGAMMA

RAxMLで解析するときはさらに0~9A~Vのデータにして multistateデータとして解析する

-m MULTIGAMMA -K GTR

(48)

データのギャップ情報を使いたいとき

(49)

データのギャップ情報を使いたいとき

トリミング前の配列から、simple indel coding法でギャップの 有無を01に符号化

(50)

データのギャップ情報を使いたいとき

トリミング前の配列から、simple indel coding法でギャップの 有無を01に符号化

トリミング後の配列に加えてMrBayes, RAxML, PAUP*で系統 樹推定

(51)

例: simple indel coding 法でギャップ情報を 01 データ化

pgencodegap \ --method=SIC \ inputfile \

outputfile

…コマンド名

…符号化法はSIC

…入力ファイル名

…出力ファイル名

注:入力ファイル形式はNEXUSのみに対応 下記のコマンドを入力してEnter

「\」は「次の行に改行なしで続く」という意味であることに注意 ただしスペースは入れること

(52)

例:ギャップの 01 データを塩基配列と連結

pgconcatgap \

--output=MrBayes \ DNAseqfile \

binarydatafile

…コマンド名

…MrBayes向けの出力を行う

…塩基配列ファイル名

…01データファイル名

下記のコマンドを入力してEnter

「\」は「次の行に改行なしで続く」という意味であることに注意 ただしスペースは入れること

(53)

変異がある座位だけのデータに関する注意事項

(54)

変異がある座位だけのデータに関する注意事項

形態形質・SNPなどのデータでは、変異がある座位しか含まれ ていない

(55)

変異がある座位だけのデータに関する注意事項

形態形質・SNPなどのデータでは、変異がある座位しか含まれ ていない

これは、「データ収集にバイアスascertainment biasがある」

(56)

変異がある座位だけのデータに関する注意事項

形態形質・SNPなどのデータでは、変異がある座位しか含まれ ていない

これは、「データ収集にバイアスascertainment biasがある」

RAxMLでは以下のオプションで補正した尤度を使用する

-m ASC_BINGAMMA

-m ASC_MULTIGAMMA

-m ASC_GTRGAMMA

-m ASC_PROTGAMMA[matrixname](F)

(57)

系統樹推定の勘所

(58)

系統樹推定の勘所

重要度高

重要度低

(59)

系統樹推定の勘所

データの質

重要度高

重要度低

(60)

系統樹推定の勘所

データの質

多重整列とトリミング

遺伝子座サンプリング

タクソンサンプリング

不適な部分の除去

重要度高

重要度低

(61)

系統樹推定の勘所

データの質

多重整列とトリミング

遺伝子座サンプリング

タクソンサンプリング

不適な部分の除去

樹形探索範囲の広さ(NNI・SPR・TBR・多点探索)

重要度高

重要度低

(62)

系統樹推定の勘所

データの質

多重整列とトリミング

遺伝子座サンプリング

タクソンサンプリング

不適な部分の除去

樹形探索範囲の広さ(NNI・SPR・TBR・多点探索)

パーティションの切り方

重要度高

重要度低

(63)

系統樹推定の勘所

データの質

多重整列とトリミング

遺伝子座サンプリング

タクソンサンプリング

不適な部分の除去

樹形探索範囲の広さ(NNI・SPR・TBR・多点探索)

パーティションの切り方

パーティション間モデル(等速度・比例・分離)

重要度高

重要度低

(64)

系統樹推定の勘所

データの質

多重整列とトリミング

遺伝子座サンプリング

タクソンサンプリング

不適な部分の除去

樹形探索範囲の広さ(NNI・SPR・TBR・多点探索)

パーティションの切り方

パーティション間モデル(等速度・比例・分離)

パーティション内モデル(JC69~GTR+G)

重要度高

重要度低

参照

関連したドキュメント

振動流中および一様 流中に没水 した小口径の直立 円柱周辺の3次 元流体場 に関する数値解析 を行った.円 柱高 さの違いに よる流況および底面せん断力

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

婚・子育て世代が将来にわたる展望を描ける 環境をつくる」、「多様化する子育て家庭の

目標を、子どもと教師のオリエンテーションでいくつかの文節に分け」、学習課題としている。例

「系統情報の公開」に関する留意事項

お客さまが発電設備を当社系統に連系(Ⅱ発電設備(特別高圧) ,Ⅲ発電設備(高圧) , Ⅳ発電設備(低圧)

けることには問題はないであろう︒

(1)  研究課題に関して、 資料を収集し、 実験、 測定、 調査、 実践を行い、 分析する能力を身につけて いる.