最後に系統解析で良く出てくる最尤法とベイズ法についてその基本を押さえておきましょ う.一見難しそうな分野ですが(実際難しいですが...),その根本的な考え方自体はシンプ ルです.!
!
条件付き確率!「Bの時にAが起こる確率」を意味する条件付き確率P(A|B)は以下の式で定義されます.!
右辺は「Bであることを前提としたとき(分母)にAとBが同時に起こる(分子)確率」です.
すなわち「Bのとき,Aが起こる確率」と言い換える事ができます.これは左辺に他なり ません.またP(A)は何かしらの限定条件が与えられる前の確率ということで”事前確率”,
P(A|B)はBという情報が与えられた後の確率なので”事後確率”と解釈できます!
!
*ちなみに はcapといって「AとBが同時に起こる」ことを意味する記号です.ピンセッ トでつまむイメージを持つと覚えやすいでしょう.また はcupといって「AかBのどち らかが起こる」ことを意味する記号です.同じようにコップのなかにAとBを放り込む イメージを持っておくと間違えません.!!
尤度!あるデータDが観測されたときに,それを説明するn個のモデル(H1,H2,...,Hn)があったと します.するとそれぞれのモデルHiについて以下のように尤度L(Hi)は定義されます.!
つまり「モデルHiのもとでデータDが生じる確率が尤度L(Hi)」です.簡単に言えばモデル Hiを与えたときのデータDの”事後確率”ということですね.そして最尤法とは観測データD に対して尤度が最大となるモデルを選択する手法,という事になります.!
!
ベイズの定理!さて,条件付き確率の式を変形すると,!
になりますが,これはAとBを入れ替えても成立します.すなわち!
ですね.ここで当然!
P (A | B) = P (A B ) P (B )
L(H
i) = P (D | H
i)
P (A B ) = P (A | B )P (B )
P (B A) = P (B | A)P (A)
なので!
となり,!
を得ます.ここに先程の尤度の式をあてはめていきますと!
となります.この式をよく見ると,まず右辺のP(D | Hi )は先程出てきた尤度ですね.そし てP(Hi)はモデルHiの事前確率,P(D)はデータDの事前確率です.そして左辺P(Hi | D)はDが 与えられたときのモデルHiの事後確率,と解釈する事ができます.モデルHiの事前確率は 事前に計算できますし,P(D)は既に観測したデータですので定数として扱う事ができま す.つまりモデルHiと尤度をかけるとHiの事後確率が求まるという事ですね.この式こそ がかの有名な「ベイズの定理」です.!
!
そして,さらに変形しますとまずP(D)について!ですので,!
と変形できます.こうすると事後確率は事前確率と尤度から求める事が可能である事が はっきりと分かりますね.
P (B A) = P (A B )
P (A | B )P (B) = P (B | A)P (A)
P (A | B) = P (B | A)P (A) P (B )
P (H
i| D) = P (D | H
i)P (H
i) P (D)
P (D) = P ((D H
1) (D H
2) · · · (D H
n))
=
n
i=1
P (D H
i)
=
n
i=1
P (D | H
i)P (H
i)
P (H
i| D) = P (D | H
i)P (H
i)
n
i=1
P (D | H
i)P (H
i)
最尤法とベイズ法の違い!
!
系統解析においては!!
・最尤法: 最大の尤度P(D | Hi)を持つ系統樹を探索することが目標.!・ベイズ法: 事後確率P(Hi | D)を最大化する系統樹を探索することが目標!
!
ということで「尤度を含む関数を最大化することで適当な系統樹を選択する手法」である という点で類似した最尤法とベイズ法ですが,その裏には実は頻度主義とベイズ主義の教 義のぶつかり合いを反映した考え方の著しい違い,対立があります.その顕著な例として は事前確率の扱い方が挙げられるでしょう.!!
例えば,データが何もない状態では各々の系統樹の生じる確率については何も言えないの で事前確率P(Hi)には等確率をおくのが「従来の考え方では普通」です.例えばコイン投 げ試行を想像してください.この試行をまだ一度も行っていない段階では,我々はコイン は「フェア」であると仮定し,表と裏の割合は1:1になるだろうという”等確率”を前提とし た予測をします.このような流儀で事後確率について考えますと当然!の右辺のP(Hi)/P(D)は定数となりますので,最尤法とベイズ法の結果は等しくなります.
しかし「事前確率として等確率ではない確率分布を設定してもいいじゃない?」というの がベイズ法の考え方なので,こういった観測データが無いようなケースでもベイズ法では 事前確率に異なる分布を仮定することがあります.その時,最尤法とベイズ法で結果の乖 離が生じるのです.!
!
つまり,最尤法は”頻度主義”を背景とした手法ですのでこのような事前確率が未知の場合 では等確率を事前確率として仮定するのですが,ベイズ法はベイズ主義を背景にしている ので事前確率として「主観的確率」を導入する事を許容するのです.「主観的確率」はよ り多くの情報を生かした結論を導く事ができるため非常に有用なのですが,その一方で系 統推定に作成者の主観的な意見が入り込む危険性を生じます.!!
どちらの手法が良いかという議論に結論は未だに出ていませんし,また原理的に決着はつ かないのかもしれません.我々としてはこの議論の行く末を注意深く見守りつつ,今後系 統樹に出くわしたときには,それがどのような思想のもと作成されたのか?ということに まず気をつけて見ていくとよいのではないでしょうか.P (H
i| D) = P (D | H
i)P (H
i)
P (D)
!
5.1 分子進化
古来から進化の研究と言えば化石(あるいは現存する生物の形態比較)しか手がかりはあ りませんでした.しかし分子生物学が進展しDNA情報を元に進化解析を行う事ができるよ うになり進化学は飛躍的に進展しています.DNAを進化解析に使用する利点としては以下 の三点が挙げられるでしょう.!
!
a. 全生物が共通して持つ物質である (例えば骨は全生物の”共通項”ではない)!b. DNAの変化には一定のルールがある (形態は多様性に”富みすぎて”いる)!
c. DNAは圧倒的に情報量が多い (長さnのDNAが持つ情報は4n)!