日本生態学会誌59巻3号

(1)

生態学と集団遺伝学理論

生態学とは「生物の分布と個体数を決定する相互作用の科学的研究」と定義される（Begon et al. 2006）。そのため、生態学において、個体の分布とその数はもっとも基礎的で重要な情報である。さらに近年では、保全生態学の見地からも、人間活動が生物の分布・個体数に及ぼす影響を観測する試みがさかんに行われている。同様に、過去に起きた個体数の増減や集団の分化・融合といった個体群動態（demography）を知ることも、（進化）生態学において、また保全生態学において今後の動態の振る舞いを予測する上でも非常に重要である。過去のイベントは、直接観測されていなかった場合、人間が知る事は難しい。そのような状況下では、DNA 配列に残された多型データ（SNP やマイクロサテライト）から過去の動態を推定する試みがなされてきた。しかしながら、このような推定は想像するほど直感的で簡単なものではなく、実は非常に危険な行為である。なぜなら、 DNAの多型パターンが生成される背景には、過去の個体群動態だけでなく、その他の要因が複雑に絡み合っているためである（図 1A）。そのなかでも、偶然の要素が占める割合は非常に大きい。この偶然の要素のおかげで、ある遺伝子 A の DNA 多型パターンから推定した個体群動態と、別の遺伝子 B の DNA 多型パターンから推定した個体群動態が食い違うといったような「事件」が起こるのである。このような失敗を減らすには、その推定方法が開発された背景にある「理論」を十分に理解しなければいけない。ここでいう「理論」とは、集団遺伝学の理論である。集団遺伝学の大きなテーマの 1 つは、DNA 多型パターンがどのような進化的要因によって形成されてきたかを理解することである。したがって、DNA 多型データから過去のイベントを推定したいと思う生態学者が、集団遺伝学に興味を持つのは当然のなりゆきだろう。しかし、一般的な生態学者は、集団遺伝学に対して微妙に距離を感じているのではないだろうか。例えば、DNA 多型データから「過去の動態の推定」をするという場合、生態学では、分集団や近縁種の分岐や移住、個体数の増加や減少、ボトルネックといった動態を、記述的に扱うことが多い。一方、集団遺伝学では、モデルを仮定したパラメータ推定というような定量的な解析が常とされる。これが可能なのは、集団遺伝学が理論的に非常に厳格な分野であり、その理論が多くの仮定のもとに構築されているからである。例えば、集団遺伝学理論の多くは、「個体数一定でランダムに交配する（panmictic）集団」という仮定をしている。そして、それを発展させた形で、個体数の増減や移住を組み込むことも出来るが、そのような発展的な理論はさらに複雑な仮定をもうけている。そして、このような仮定を伴う理論のもとで、パラメータを推定するのである（図 1B）。このような集団遺伝学に対する（それに精通していない）生態学者の反応は、主に 2 通りに分けられるのではないだろうか。1 つめは、成り立たない仮定（例えば、完全にランダム交配をしている集団はこの世に 1 つもない）の伴う理論は、使えないから無視するという場合である。その状況では、モデルを用いて分岐年代などのパラメータ推定を行うことをせずに、例えば DNA 多型データからレフュージアを推論するなどといった定性的な議 1）e-mail: [email protected]

始めよう！エコゲノミクス（3）

集団内変異データが語る過去：解析手法と理論的背景（その 1）

山道真人 *

,

_{**・印南秀樹 *}

1） *総合研究大学院大学生命共生体進化学専攻 **日本学術振興会特別研究員 DC

(2)

論に留まることになる。もう 1 つは、仮定をしっかり理解しないまま応用する場合である。例えば、集団遺伝学のソフトウェアを、そのモデルの仮定にあてはまらないデータに対して乱用するなどといった行為がそれにあたる。しかし、うまくつきあえば集団遺伝学は強力な解析ツールを提供することができるため、興味深いデータを持っている場合、上記のような例は非常に惜しい行為である。うっとうしく感じる仮定は所詮、仮定でしかないので、データに合うようにうまく仮定を再設定してやれば、どのような場合でも対応することが可能になる。そのことを理解していただくことを今回のメインテーマにしたい。過去の動態を推定するというテーマに対して、本連載では今回を含めて複数回を当てたい。今回はその基礎である coalescent 理論の概要を紹介する。Coalescent 理論とは、遺伝子系統樹（genealogy）を現在から過去に遡って考えることで、効率的なモデリングを可能にする理論である。さらに、シンプルなモデルを仮定して、coalescent 理論にもとづいたパラメータ推定法を解説する。複雑なモデルを用いて過去の動態を推定する手法の紹介は次回に譲る事としたい。今回のテーマである過去の動態の推定は、連載第 1 回で挙げた「ゲノム情報がいかに生態学に貢献しうるか」でリストアップした（1）∼（5）のポイントの内、（5）に相当する（山道・印南 2008）。これは、最後にリストアップしたにもかかわらず、実はその他の（1）∼（4）にも大きく関わる。例えば、連載第 2 回でも取り上げた様に、ゲノムワイド関連マッピング（2）を行う際には、図 1．A．DNA 多型パターンを決定する要因。まず、ゲノム全体に同様に影響を及ぼす要因として、個体群動態・環境がある。次に、個々の遺伝子に特異的に影響する要因としては、組み換え・選択・突然変異・遺伝的浮動がある。それらのプロセスの影響を受けて、現在見られる DNA の多型パターンが形成されてきた。多型パターンは、多型 サイト数 S や塩基多様度 p といった要約統 計量で表現される。B．要約統計量をもとに、さまざまな仮定にもとづいた理論モデルによって、モデルのパラメータを推定することができる。

(3)

前提条件として集団構造がわかっていることが必要になる（山道・印南 2009）。同様に、自然選択の痕跡を多型データから検出する際（3）にも、個体群動態の効果を考慮しなければならない。このように、単に生態学的興味だけでなく、高度な集団遺伝学的解析を生態学に持ち込むにあたっても、過去の動態の推定は非常に大きな役割を果たす。

Coalescent

理論とは

Coalescent 理論は、1980 年代初頭に Kingman・Hudson・田嶋によって、ほぼ同時期に独立に提唱された集団遺伝学の理論である（Kingman 1982；Hudson 1983；Tajima 1983）。この理論がユニークなのは、1．現在から時間を遡って後ろ向きに考えるため、現在の状態が理論の初期状態として与えられる。2．初期状態を、集団全体の構造ではなく、そのサブセット（サンプル）として設定することも可能である、という点である。例えば、10,000 個体からなる大集団においても、そこからサンプリングしてきた 20 個体の遺伝的変異の状態を初期状態とすることができるのである（図 2）。これは非常に便利で、とくにコンピューターシミュレーションを行う際には、計算時間を大幅に短縮することができる。近年では CPU の計算速度も向上してきているため、どのような複雑な動態でも（理論上は）計算することが可能になってきている（Rosenberg and Nordborg 2002）。Coalescent 理論の弱点は、

基本的に中立進化を仮定することであり、実際、理論によって解析的に自然選択を考慮することは難しい。しかし、シミュレーションによって、この問題も解消されつつあり、選択を組み込んだソフトウェアなども開発されている（Teshima and Innan 2009）。ただし、今回のテーマである、中立マーカーを用いた過去の個体群動態の推定には特に関係ないので、ここでは自然選択は考慮しない。本稿ではまず始めに、coalescent 理論の最も基本的な部分を説明する。とりあえず、古典的な「個体数一定でランダムに交配する」集団という仮定を置いて話を進める 図 2．Coalescent 理論の基礎となる遺伝子系統樹。個体数が一定（N ＝ 10）で、交配がランダムに起こる半数体生物の 中立な遺伝子の系統樹の例。時間について前向きに考えると、1 世代目からスタートして、第 9 世代目で集団中の全個体が 1 世代目の 1 個体の子孫となる。後ろ向きに考えると、MRCA は現在から遡って第 7 世代前で現れる。現在の世代でサンプルされた 5 個体とそれらの祖先個体を黒で、それ以外の個体を白で表している（Rosenberg and Nordborg（2002）より改変）。

(4)

が、次回以降、徐々にその制限を緩めてゆく。また、理論的な部分に関して少し数式が出てくるが、これはシミュレーションが理論の結果と合うということを示すためだけに用いるのであり、数式が理解できなくても今後いっさい問題ないので、安心して読み飛ばしてほしい。ここで紹介する理論は、個体数一定でランダム交配という仮定のときのみ成り立つものであるが、非常に有意義な直感的理解を促すものなので、あえて割愛しない。一方、個体数一定でランダム交配という仮定を緩めると、解析的理論は難解になる。この問題を解決するため、ここでは、計算機によるシミュレーションを活用する方法を中心に紹介する。もちろん、シミュレーションには難しい数式は出てこない。そして、データ解析にも柔軟に応用することができる。弱点は、理論的に厳密でなくなることだが、これも「うまく」やればそれほど問題はない。このように、いかにシミュレーションベースの理論がデータ解析に有用であるかを示したい。

Coalescent

の基礎理論

本来、coalescent 理論は 1 世代前の個体数が与えられれば成立する柔軟さを持っているが、ここでは簡単のため に、個体数が一定（N）で、離散世代であり、全個体が同 じ確率で子孫を残す 2 倍体の有限集団を考えてみよう（これは Wright-Fisher model と呼ばれる）。このような集団では、各個体の残す子の数の期待値は 1 になるが、これは確率的なモデルであるため、中には子を残せないもの・2 個体の子を残すもの・3 個体以上の子を残すものがあらわれる。子の数は正の整数なので、期待値 1 のポアソン分布をすることになる。すなわち、約 37％の確率で 0 個体、約 37％の確率で 1 個体、約 18％の確率で 2 個体、約 6％の確率で 3 個体、約 2％の確率で 4 個体を、非常にまれに 5 個体以上を、子供として残すような確率分布になる。従って、世代を重ねると徐々に最初の世代から存続している系統の数は減少し、時間が充分経つと、最終的には集団中の全ての個体が、最初の世代のある 1 個体の子孫という状況になる（図 2）。以上で述べてきたような考え方が時間的に前向き（forward）な考え方である。この考え方にもとづくモデルでシミュレーションを行うには 2 つの難点がある。1 つ目は、現在からは知り得ない第 1 世代の状態を仮定して出発しなくてはならないという点である。2 つ目は、現在まで子孫を残さず、サンプルされることがない系統についても考えなくてはならないため、無駄が多いという点である。図 2 で言えば、現在まで存続し、サンプリングされるのは太線の系譜のみだが、前向きのモデルならば、不必要である細線の系譜も含めた全てについて計算しなくてはならない（Nordborg 2001）。そこで考え出されたのが時間的に後ろ向き（backward）な coalescent 理論である。先程のモデルを逆に現在の状 態から考えてみよう。現在の世代 t の状態から出発して、 1つ前の世代 t-1 を考えてみる。すると、集団中からサンプルしてきた 2 本の塩基配列が親世代の同じ個体の同じ染色体から得られる（coalesce する）確率は、1 本目の親となる染色体を選んだうえで、2 本目の親となる染色体が 1 本目のそれと同じであるという条件付き確率なの で、1/(2N) になる。逆に、それらが別の染色体から得ら れる確率は 1-1/(2N) になる。このようにして時間を遡っ ていけば、どれだけ遠縁のサンプル同士であっても、いずれはもっとも最近の共通祖先（Most Recent Common Ancestor; MRCA）において coalesce することになる。こ の coalescence までの待ち時間の期待値は 2N 世代となる （Box 1）。このような後ろ向きのモデルを用いれば、祖先状態を仮定する必要がなく、かわりに、現在の集団が初期条件になる。また、現在まで存続せず途中で消える系統を考える必要がなくなるという利点がある（図 2）。この理論は、前述のようにサンプルベースなので、サンプルからなるDNA多型データ解析に非常に有用である。ここでは、まず、DNA 多型データ解析の基本中の基本である変異量に関する coalescent 理論を紹介する。多型データの変異量は、しばしば塩基多様度（nucleotide diversity; p） と多型サイト数（segregating site; S）という要約統計量で 表現される（第 1 回参照）。Coalescent 理論は、このモデルの仮定のもとでの期待値をたちどころに与える。まず、同一集団からサンプリングしてきた独立な 2 本 の配列を考えよう。この配列の長さを Lbp（base pairs） とする。前述のように（Box 1 も参照）、2 本の配列が時 間を遡って MRCA に至るまでの時間の期待値は 2N 世代 である。突然変異率を m（世代あたり・サイトあたり）とすると、MRCA から現在までに 2 本の系統に蓄積される突然変異の数の期待値は、（1）となる。ここで、集団サイズと突然変異率の積に 4 をか けたもの（4Nm）をθ として定義する。集団遺伝学において、 この θ は最も重要なパラメータの一つである。Wright-Fisher modelにおいては、θ はその集団中の変異を決める 唯一のパラメータとなる。ここで、θ は集団サイズ N と

(5)

突然変異率 m の積であることに注意されたい。つまり、個体数 10,000・突然変異率 10-8_{の時と、個体数 100,000・} 突然変異率 10-9_{の時、期待される変異量はまったく等し} くなるということである。 θ が充分小さければ、新しい突然変異は常に別のサイトに起き、同じサイトに 3 つ以上の対立遺伝子は存在しないと仮定できる。これを無限サイトモデル（infinite-sites model）と言う。このモデルは θ が 10-2_{以下のオーダーな} らば、非常によい近似を与える。この条件下では、2 本の配列を考えたとき、多型サイト数と塩基多様度の期待 値は等しくて、両方とも θ L となる。しかし、3 本以上の 配列を比較する時、その期待値は異なる。3 本以上であっても、塩基多様度は総当たりペアを比較した時の多型サイト数の平均値なので、（2） となる。一方、多型サイト数は、n 本の塩基配列間を比 較した時、その内の 1 本でも他の配列と異なる変異（多型）を持っている塩基対（サイト）の数なので、期待値は、（3）となる。このような式になる理由を、3 本の塩基配列を比較する状況で説明してみよう（Box 1 も参照）。3 本の塩基配列の内、2 本が coalesce するまでの待ち時間の期待 値は 2N/3C2＝ 2N/3 である。その期間中は、存在する 3 本 の系統に突然変異が蓄積するので、変異数は 2N/3 × 3 × m × L ＝ 2Nm L となる。従って、多型サイトの期待数は、 4Nm L ＋ 2Nm L ＝ θ L(1+1/2) となる。これを一般化すると、 n 本の配列が (n-1) 本に coalesce するまでの時間の期待 値が 4N/[n(n-1)] であり、その間に蓄積する突然変異数が θ L/(n-1) ということになるため、無限サイトモデルにお ける多型サイト数の期待値は（3）式で表せる（Watterson 1975）。このように、coalescent 理論は、集団中の DNA レベルの変異量を非常に簡単に表現できる。

Coalescent

シミュレーション

シミュレーションとは、コンピュータ上で実験的に検証する手段である。シミュレーションを用いることで、解析理論と同様の結果を理論なしで得ることができる。つまりシミュレーションは、ある設定のもと、ある程度の回数の試行を繰り返し行うことによって、理論と同様 の役目を果たすのである。例えば、θ ＝ 0.01・L ＝ 1,000 と決めて、coalescent シミュレーションを行い、塩基多様度 p の理論値を得てみよう。1 回目は p ＝ 9.1 で、2 回目は 11.9、3 回目は 5.6、4 回目は 4.3、5 回目は 13.0、というように繰り返し計算して、それらの値を平均すると、徐々に理論値である 10 に近付く。だいたい 10,000 回から 100,000 回繰り返すと、平均値はほぼ理論値に等しくなる。このように、シミュレーションによって理論値を得るには、時間がかかる。これがシミュレーションの最大の弱点である。一方、シミュレーションは解析的理論ではうまく取り扱えないようなさまざまな状況に柔軟に対応することが可能で、非常に有用である。シミュレーションの利点である柔軟さについては、次回に複雑な個体群動態を考慮したモデルを用いて解説することにする。今回は、シミュレーションがいかに理論の代役をこなすか、またそれがどこまで正確か、という点について、以下の θ の推定を例にとって説明する（coalescent シミュレーションの手順については、Box 2 にまとめたので参照されたい）。

パラメータ推定：モーメント推定法

上で紹介した coalescent 理論は、直接データ解析に使える。最も直感的な応用は、「集団突然変異率」と呼ばれる パラメータ θ（＝ 4Nm）の推定である。これは、塩基多 様度（p）および多型サイト数（S）から推定可能である。 式（2）及び（3）からそれぞれ、（4）（5）となる。ここで、データから推定された θ はハットを付けて区別している。下付き文字はそれぞれ、p にもとづく、 あるいは S にもとづくθ の推定値ということを示している。 例として、図 3A のようにサンプル数が n ＝ 20 で、配 列長が L ＝ 1,000 bp の時、多型サイト数が S ＝ 8、塩基 多様度がおよそ p ＝ 2.9 である仮想データを考える。p ＝ 2.9を使うと、（4）式から θ の推定値は ˆθp＝ 2.9 × 10-3と なり、S ＝ 8 を使うと、（5）式から θ の推定値はおよそ θˆS＝ 2.3 × 10-3となる。この例の場合、推定法は異なっても同じデータをつかっているため、似たような推定値を与える（もちろん、方法が違うので一致はしない）。このような、単に割り算

(6)

して求めた推定値をモーメント推定値という。このモーメント推定値を用いて、さらに集団サイズの推定を行うこともできる。突然変異率 m が既知であり、 10-8_{（世代あたり・サイトあたり）であったとしよう。θ ＝} 4Nm という関係から、p にもとづく N の推定値はおよそ 74,000個体となる。同様に、S にもとづく N の推定値はおよそ 56,000 個体となる。しかし、このような理論ベースの推定はあまりデータ解析には向いていない。なぜなら、理論の仮定が合っていない場合、推定値自体にあまり意味がないためである。本連載ではむしろ、そのような仮定をデータに合うように再設定することがテーマである。これが、シミュレーションを使うことが望ましい理由のひとつである。

パラメータ推定：最尤法

解析的理論とシミュレーション

あるモデルにもとづいてパラメータを推定する際、尤度（likelihood）という考え方が重要になる。尤度とは、「尤も（もっとも）らしさの度合い」という名前の通り、パ ラメータセット m を与えた条件でデータ D が得られる確 率であり、条件付き確率の形式で表せば P(D|m) となる。 この確率がもっとも大きくなる、すなわち最大尤度を持つパラメータセットを求める推定方法が最尤法である。最尤法は、複雑なモデルのもとで複数のパラメータを推定する状況で力を発揮するため、広く用いられている。まず、解析的に多型サイトの尤度を求めてみよう。配列が coalesce するまでの時間は指数分布、coalesce するま 図 3．A．仮想的な DNA 塩基配列の多型データ（SNPs）。サンプルサイズは n ＝ 20 で、多型サイトが 8 つ見つかった例。20 個 のサンプル中、もっとも頻度が多い対立遺伝子をそのサイトのコンセンサス（Cons.）として最上列に示した。B．多型サイト数を要約統計量とした θ の最尤推定の結果。横軸が θ × 10-3_{、縦軸が最大値を 0 とした相対的な対数尤度。理論的な尤} 度関数によって算出した尤度を実線で、シミュレーションによって算出した尤度を四角形の点で表している。C．塩基多様度を要約統計量としたθ の最尤推定の結果。B と同様、横軸が θ × 10-3_{、縦軸が最大値を 0 とした相対的な対数尤度。シミ} ュレーションによって近似尤度を計算する際、許容するずれ δ が 1％のものを四角形、10％を青い菱形、100％を赤い三角形の点で表している。

(7)

での時間に起こる突然変異の数はポアソン分布に従って 確率的にばらつく。そこで、2 本の配列を比較した時（n ＝ 2）の多型サイト数の尤度を式で表してみる。集団サイズ を N、遺伝子系統樹の全長を T とすると、全長 T は期待 値 4N の指数分布に従う。また、突然変異の数（＝多型サ イト数）は期待値 m TL のポアソン分布をする。そこで尤 度関数は、coalescent までの時間と突然変異数の積を時間で積分して、（6）となる（Watterson 1975）。3 本以上の配列を比較する場合 （n ＝ 3, 4, 5, …）も、同様にして畳み込み積分（convolution） を繰り返し、尤度を求めることができる。ここでもう一度、図 3A の仮想データをつかう。（5）式から、多型サイト数が 8 のとき、θ のモーメント推定値はおよそ 2.3 × 10-3_{となる。では、最尤法ではどのよ} うな推定値になるだろうか。（6）式のような畳み込みに よって得られた式を用いて n ＝ 20 の時の尤度 P(S ＝ 8|θ ) を計算し、その尤度曲線を図 3B に示す。ここで、x 軸に θ（× 103_{）の値を、y 軸に最大値を 0 とした相対的な対} 数尤度を取った。理論的な尤度関数に基づき計算された対数尤度を実線で示している。モーメント推定値の 2.3 × 10-3_{と比較すると、実際に同じ値（θ ＝ 2.3 × 10}-3_）で最大の尤度が得られている。ちなみに、最大対数尤度と対数尤度の差の 2 倍は χ2_{乗分布に従うので、（最大対数尤} 度−対数尤度）がおよそ 1.9 以内の範囲（図 3B 横線）がおおよその 95％信頼区間になる。次に、シミュレーションによって多型サイトの尤度を求める。この際には、ある θ の値を与えて多数回（今回は 200,000 回）coalescent シミュレーションを行って得ら れた SNP データから多型サイト数 S を計算し、S がちょ うど 8 になったシミュレーションの割合を尤度とする。そして θ の値を 10-4_{ずつ変化させ、最も尤度が高くなる} θ を探索する。その結果が図 3B の四角い点によって示されている。最尤推定値は理論値と同様 2.3 × 10-3_{となった。} 図 3B において、シミュレーションによって算出した尤度が理論的に求めた尤度関数ときれいに一致することがわかるだろう。このように、尤度を求めるという点で、シミュレーションが完全に解析理論の代役を果たすことが解っていただけたと思う。では、塩基多様度 p を用いて θ を推定するときはどうなるだろうか。解析的に尤度関数を求めることは（不可能ではないが）かなり難しい。そこで、シミュレーションによって塩基多様度の尤度を求めるしかないが、シミュレーションによって求める際にも、多型サイト数のように簡単ではない。なぜなら、先程と同様に、尤度をデータと同じ値を取る試行の割合とすると、大変なことになるためである。図 3A の例では、正確な p の観察値は 2.947368421…であり、これとぴったり同じ p の値がシミ ュレーションで出てくることは滅多にない。S からの推 定がうまく行ったのは、多型サイト数が正の整数しか取らないからである。そこで、考えだされたのが近似最尤法である（Tavaré et al. 1997；Pritchard et al. 1999；Marjoram et al. 2003）。これは、データとまったく同じ塩基多様度の値を取る試行だけを「データとマッチした」としてカウントするのではなく、値がそこそこ近い試行もカウントすることによって、シミュレーションの効率をあげる方法である。このずれの絶対値を δ と表現する。δ ＝ 0 の場合が正確な最尤法にあたる。そして、若干のずれを認める場合（δ ＞ 0）、それから求められた尤度は近似的なものとなる。問題は、どれくらいのズレなら許されるのか、という点である。これは実は非常に難しい問題なのだが、ここでは、直感的にそれを理解してもらうために以下の実験をおこなう。まず、かなり厳密な場合（δ が p の値の 1％）を試してみる（図 3C の四角い点）。これは真の尤度にかなり近いと考えられる。ここから δ を増やすと、どんどん真の尤度から離れるのは想像に容易い。そこで次に、δ＝ 10％を試してみる（青い菱形の点）と、δ ＝ 1％の近似尤度曲線とほぼ同じものが得られた。これは何を意味するかというと、δ ≤ 10％の範囲で、シミュレーションは非常に良い近似尤度を与えるということである。それなら、δ＝ 1％より δ ＝ 10％を採用した方が、計算速度（シミュレーションの時間）を 10 倍短縮できる。では、もっと効率を上げるために δ ＝ 100％にしてみよう。直感的にこれはやり過ぎと思われるであろうが、もしうまくいけば儲け物である（計算速度が 100 倍速くなるため）。しかし、残念ながら 100％の場合（赤い三角形の点）の近似尤度曲線は、δ ＝ 1％のそれとは大きくかけ離れるものになり、使い物にならない。このように、うまく δ を設定できれば、シミュレーションは解析理論の代役を見事に果たすので、非常に有用である。たとえ解析的に尤度が求められない場合でも、シミュレーションを使えば最尤法と実質的に同様の結果が得られるということは特筆すべきポイントである。これを示すために、不本意ながらいくらかの難解な数式を用いた。理解しようと挑戦した方には申し訳ないが、こ

(8)

れらの式はシミュレーションを使う限りあまり意味がない、というか忘れてもらって結構で、問題なく数式をフォローできた方は、本格的な集団遺伝学への転向を勧める。なお今回の例で、δ ＝ 10％程度が、正確性を失わない範囲でもっとも計算効率を上げる δ であると結論したが、これは常に当てはまる法則ではないことを肝に銘じてほしい。完全にケースバイケースである。これが、シミュレーションによる近似最尤法の最も批判される点である。そのため、実際に近似尤度を用いて推定する際には、ここで紹介したような簡単な事前実験で適当な δ を決めるプロセスを行うことを強く推奨する。この点さえ気をつければ、シミュレーションは万能で、（理論家としては残念なことではあるが）エレガントな解析的理論の価値もかすんでしまう程である。

より正しく推定するために必要な努力

推定値というものは常に分散を持つ。これは当たり前ではあるが、意外と軽く扱われている事実である。分散がある以上、推定値はあやふやなものである（すなわち、誤差がある）。直感的な理解としては、例えば推定値が 10でその 95％信頼区間が 5 から 15 であった場合、真の値は 20 回に 1 回は信頼区間の外にあると考えてもらえば良い。これを考えれば、いわゆる「推定値」が、いかに怪しげなものであるかは想像に難くない。しかしながら、自分が得た推定値をあたかも正しいと仮定してその後の議論を続ける行為は、生物学では頻繁にみられる。これは、あまり褒められたものではない。重要な事は、その誤差の存在を認識し、それがどのように結論に影響するかを理解することである。さらには、より正確に小さい誤差で推定値を得るように心がけることである。ここでは、多型サイト数及び塩基多様度から θ を推定する場合を例にとって、この問題を考えたい。図 3A の データから得られた S を用いた θ の推定では、最尤推定 値は 2.3 × 10-3_{であるが、その 95％信頼区間は広くおよ} そ 1 ∼ 6 × 10-3_{になる（図 3B）。一般的に p を用いた θ} の推定値はもっと大きな信頼区間を持つ（図 3C）。このように、図 3A の例程度のデータ量では満足に信頼できる θ の推定値を与えないのである。では、どうしたらいいだろうか。もちろんデータ量を増やせばいいのだが、やみくもに増やすのは賢くない。ここでは、効果的な増やし方を理論的に考えてみよう。まず、データを増やせと言われれば、サンプル数（個体数）を増やすか、シークエンスする領域の長さを増やすことを考えるだろう。しかし、これはあまりコストパフォーマンスが高くない。図 4A では、サンプル数と推定値の分散の理論的関係をプロットした。サンプル数を増やせば分散は減っていくが、（特に塩基多様度の）分散はなかなかゼロに近くならない。同様に、シークエンスする領域の長さを増やした場合も、効果は低いことがわかるだろう（図 4B）。もっと効率の良い方法はないものだろうか。最も効果的な方法は、ひとつの遺伝子座のデータを使うのではなく、複数（出来るだけ多く）の遺伝子座のデータを使うものである。突然変異率はゲノム中でわりと一定であるため、θ もどの遺伝子座でもほぼ一定であると言える。統計学的に、独立な標本の数を増やすと、分散は標本数の逆数で減っていく（図 4C）。従って、もし 10遺伝子座を使えば分散は 1/10 になり、100 遺伝子座を使えば 1/100 になる。このように、遺伝子座数を増やすと、分散はどんどん減っていく。図 5 では、遺伝子座数が 1・10・100 のときの θ の最尤推定値の頻度分布をプロットしている。真の θ は 0.01 と設定して仮想データを作り、それぞれに対して最尤法で θ を推定した。遺伝子座数が 1 の場合の分布は広く、正しく θ ＝ 0.01 を推定することは稀であるが、遺伝子座数が 100 の場合の分布は、ほとんどの試行において非常に良い推定値を得られると期待できる。100 遺伝子座というデータ量は、理想的な推定値を与える基準と考えてよい。もちろん、遺伝子座数を増やすことは、新たなプライマーを開発するなどといった手間がかかり、常に最も効率的であるとは言えない。しかし、次回に紹介するような、より踏み込んだ個体群動態の推定を目指すならば、ある程度の遺伝子座数は絶対に必要になる。逆に言えば、1 遺伝子座を用いた個体群動態の推定は、非常に信頼度の低いものといえる（詳しくは次回に解説する予定である）。

理想的なデータについて

非モデル生物の過去の個体群動態を推定する際には、しばしばミトコンドリアや葉緑体といったオルガネラゲノムの塩基配列が用いられる。しかし、このような推定には問題がある。ミトコンドリアは組み換えのない 1 つの遺伝子座に相当するので、いかに長い配列を読んでも、ミトコンドリアだけで推定を行うと、図 5 のように信頼区間が広く、正確な推定値が得られないという結果になる。ミトコンドリアのみに基づいた個体群動態の推定がいかに意味のない危険な行為であるかがおわかりいただ

(9)

けると思う（この点に関しては、もう一度次回で触れる）。一方、同様に非モデル生物でよく用いられる核ゲノム上のマイクロサテライトでは、複数のマーカーが用いられることが多い。複数のマイクロサテライトは、複数の遺伝子座に相当するので、ミトコンドリア単体よりもずっと良い推定ができる。マイクロサテライトの問題は、そこで起こっている突然変異のメカニズムが、点突然変異と違って複雑であることである。マイクロサテライトでは、反復配列が DNA 複製時にその反復数を変えるかたちで変化する。その際、反復数がどのように増減するのか（1 個ずつか、または一気に 5 個か）といったメカニズムを、実際の現象に合うようにモデル化できるなら、今回紹介したようなシミュレーションを用いた近似最尤法は簡単に応用できる（Box 2）。ちなみに集団遺伝学では、一回の突然変異で増減する反復配列の数を幾何分布で近似するモデルがよく 使われる。そして、S や p でなく、マイクロサテライト のヘテロ接合頻度などを要約統計量に用い、シミュレーションをとおして θ やさらには個体群動態の推定を行うことが出来る。結論としては、ミトコンドリアのみにもとづいて推定を行うことは問題があり、マイクロサテライトがベターだが、理想的には核の塩基配列多型（の複数の領域）を用いるのが望ましい、ということになる。

まとめと次回予告

今回の連載のポイントは、coalescent シミュレーションが十分理論の代用になり、解析理論なしで最尤法と事実上同じアプローチがとれるということである。さらにシミュレーションには、柔軟性という理論にはない利点がある。これを生かして、θ だけでなく複雑な個体群動態を推定することが可能である。また、今回あえて無視した、シークエンスする領域内での組換えも簡単に組み込むことが出来る。このような、より複雑な coalescent シミュレーションとその応用は、次回以降で扱う予定である。図 4．サンプル数・配列長・遺伝子座数を増やした時の、多型サイト数・塩基多様度から推定した θ の分散の変化。黒点 が塩基多様度、灰色の点が多型サイト数にもとづく値。A．サンプル数 n を n ＝ 2, 3, …, 100 と増やした場合。固定 条件：L ＝ 1,000 bp で θ ＝ 0.01、1 遺伝子座。B．配列長 L を 100 bp から 10,000 bp まで増やした場合。固定条件：n ＝ 20で θ ＝ 0.01、1 遺伝子座。C．遺伝子座数 l を 1 から 10 まで増やした場合。固定条件：n ＝ 20、L ＝ 1,000 bp で θ ＝ 0.01。図 4A ∼ C で、n ＝ 20、L ＝ 1,000 bp、l ＝ 1 という共通条件で縦線を引き、その際の分散の値に横線を引いた。図 5．複数遺伝子座を用いた θ の最尤推定値の頻度分布。横軸が θ の最尤推定値で、縦軸が最尤推定値の頻度。遺伝子数が 1 の場合の最尤推定値の分布を点線で、遺伝子数が 10 の場合 を破線で、100 の場合を実線で表した。複数の遺伝子座を l 個用いて最尤推定する場合、全体の尤度は、各遺伝子座のデ ータから計算された尤度の積となる。つまり、遺伝子座 i の データを Diとすると尤度 P は となる。遺伝子数が増えると、ばらつきが小さくなり、最尤推定値が 真の θ の値に近付く。サンプル数は 20、配列長は 1,000 bp、 真の θ の値は 0.01 で、シミュレーションの繰り返し回数は 10,000回。

(10)

Box 1. 集団中からサンプリングしてきた配列の coalescent 理論 1 世代前に遡った時、2 本の配列が coalesce する確 率は 1/(2N) である。したがって、T-1 世代前に遡った 時点でまだ coalesce しておらず、T 世代前で coalesce する確率は、（7）となる。式の左は幾何分布と呼ばれるもので、ある確率で成功する試行を繰り返して、初めて成功するまでの待ち時間である。例えば、6 面体のさいころを 振って 1 が出るまでの待ち時間（試行回数＝ x）は、 で、試行回数 x の平均（期待値）は 6 回になる。 また、パチスロで 1/200 のボーナスを引くまでの試行回数はで、期待値は 200 回となる。これ らの例と同様にして、確率 1/(2N) で coalesce するま での待ち時間の期待値は 2N 世代である。式の右は指 数関数で、N が 100 以上あれば非常によく幾何分布 を近似するため、集団遺伝学ではよく用いられる。次に、集団中からサンプルしてきた 3 本の配列の coalescentプロセスを考えよう。3 本が 1 つ前の世代で 2 本に coalesce する確率は、3 つの中から 2 つを選んでくる組み合わせを考えて、（8）となり、1 つ前の世代で 3 本のままである確率は 1-3/(2N) となる。そこで、T 世代前で 3 本の配列が 2 本へ coalesce する確率は、（9） となる。この分布の平均値は 2N/3 となる。 同様にして、n 本の配列が T 世代で n-1 本へ coalesceする確率は、（10） となり、平均は 2N/nC2である（Tajima 1983）。このようにして、配列が何本の時でも確率にしたがって遺伝子系統樹を描くことができる。 Box 2. Coalescent シミュレーションによる多型デー タの生成 4 本の配列を、個体数 N の集団からサンプリング してきた状況を考えよう（図 6）。まず、4 本の内からランダムに 2 本を選び、その 2 つが coalesce する までの時間 t4（世代数）を決定する。Coalescent 時間 は、平均 2N/4C2の指数分布をするので、指数乱数を発生させて時間を得る。同様にして、3 本が 2 本に、 2本が 1 本に coalesce する過程で、どの個体がどれ くらいの時間（t3・t2）で coalesce するかをランダム に決定する。それぞれの値は、平均 2N/3C2と 2N/2C2 の指数分布をする（図 6-1）。そして、この遺伝子系統樹のうえに、突然変異をランダムにばらまく（図 6-2∼ 4）。突然変異の個数は、遺伝子系統樹の全長 T （T ＝ 4t4+3t3+2t2）と突然変異率 m（世代あたり・サイ トあたり）、配列長 L に依存する。シミュレーション する配列の長さが L bp であれば、突然変異の個数は 平均 Tm L のポアソン分布からの乱数になる。突然変 異は、枝の長さに応じてランダムに遺伝子系統樹の上に配置する（図 6-4）。突然変異が起こった DNA 塩 基の場所を L bp の領域上にランダムに決めれば、そ れが直接塩基配列の多型パターンに反映される（図 6-5）。同様にして、マイクロサテライトの多型もシミュレーションできる（図 6-5’）。この場合、例えば祖先タイプの反復数を 20 と仮定し、それぞれの突然変異が幾何分布に従って反復数を増減させるプロセスをシミュレートすることになる。このようなシミュレーションは非常に簡単なプログラムで書くことが出来るが、web 上で公開されている ms（Hudson 2002）のようなソフトを使うことも出来る（http:// home.uchicago.edu/~rhudson1/source/mksamples.html を参照）。

引用文献

Begon M, Townsend CR, Harper JL (2006) Ecology: from individuals to ecosystem, 4th ed. Blackwell Publishing, Oxford

Hudson RR (1983) Properties of a neutral allele model with intragenic recombination. Theor Pop Biol 23:183-201 Hudson RR (2002) Generating samples under a Wright-Fisher

neutral model of genetic variation. Bioinformatics 18:337-338

(11)

Appl Probab 19:27-43

Marjoram P, Molitor J, Plagnol V, Tavaré S (2003) Markov chain Monte Carlo without likelihoods. Proc Natl Acad Sci USA 100:15324-15328

Nordborg M (2001) Coalescent theory. In: Balding DJ, Bishop M, Cannings C (eds) Handbook of statistical genetics. John Wiley & Sons, Ltd., West Sussex, pp 179-212

Pritchard JK, Seielstad MT, Perez-Lezaun A, Feldman MW (1999) Population growth of human Y chromosomes: a study of Y chromosome microsatellites. Mol Biol Evol 16:1791-1798

Rosenberg NA, Nordborg M (2002) Genealogical trees, coalescent theory and the analysis of genetic polymorphisms. Nat Rev Genet 3:380-390

Tavaré S, Balding DJ, Griffiths RC, Donnelly P (1997) Inferring

coalescence times from DNA sequence data. Genetics 145:505-518

Tajima F (1983) Evolutionary relationship of DNA sequences in finite populations. Genetics 105:437-460

Teshima KM, Innan H (2009) mbs: modifying Hudson's ms software to generate samples of DNA sequences with a biallelic site under selection. BMC Bioinformatics 10:166 Watterson GA (1975) On the number of segregating sites in

genetical models without recombination. Theor Popul Biol 7:256-276 山道真人・印南秀樹 (2008) 始めよう！エコゲノミクス (1) 局所適応と形質の分化. 日本生態学会誌 58:241-247 山道真人・印南秀樹 (2009) 始めよう！エコゲノミクス (2) ゲノムワイド関連マッピング. 日本生態学会誌 59:105-113 図 6．Coalescent シミュレーションから多型パターンを生成する方法。説明は Box 2 を参照。

(12)

日本生態学会誌59巻3号

生態学と集団遺伝学理論

始めよう！エコゲノミクス（3）

集団内変異データが語る過去：解析手法と理論的背景（その 1）

山道 真人 *

**・印南 秀樹 *

Coalescent

理論とは

Coalescent

の基礎理論

Coalescent

シミュレーション

パラメータ推定：モーメント推定法

パラメータ推定：最尤法

解析的理論とシミュレーション

より正しく推定するために必要な努力

理想的なデータについて

まとめと次回予告

引 用 文 献

山道真人 *

_{**・印南秀樹 *}

引用文献