• 検索結果がありません。

第 3 章 モーラ unigram を用いた系統樹による方言分類

3.2 分析方法 ―系統樹―

2.2

節で述べたモーラ

unigram

の比率データを用いて系統樹を作成し,各地方言を分類す る。

27

系統樹は,図に示したときに全体として木が根から発して枝葉を広げているように見える ので,このように呼ばれる。系統樹は,樹根の有無によって有根系統樹(rooted tree)と無 根系統樹(unrooted tree)に分類され,同一の系統関係を両方の系統樹で表すことができる

(図

3

参照)。

根の導入位置は一意ではなく,一つの無根系統樹に複数の有根系統樹が対応する。有根系 統樹には,時間の前後という情報が含まれているが,無根系統樹は分類群相互の関連のみを 示しており,時間の経過を伴う類縁関係は示していない。

図 3 有根系統樹と無根系統樹

本研究では,基本語彙データではなく,自然談話におけるモーラunigramを用いるため,

時間を考慮できるデータであるか不明である。したがって,根を特定できないため,類縁性 に基づく無根系統樹のほうが適切である。

無根系統樹の用語について説明する。グラフはノード(節)とエッジ(線)から構成され る。系統樹の場合には,ノードを外部節と内部節に分ける(図4参照)。

図 4 無根系統樹における内部と外部の節と枝(斎藤,2007: 62)

図4で〇は内部節,●は外部節とよぶ。外部節とは,端点となる節のことであり,そこから

1本の細い線(外部枝;図4の細い線)だけがつながっている。それに対して,内部節とは,2

本以上の線がつながっている。これらの線のうち少なくとも1本は通常,内部枝(図4の太い

D C A B E

有根系統樹

C A B

D E

無根系統樹

28

線)である。

系統樹作成の方法には,多くの手法が提案されているが,本研究では,距離データにもと づいた系統樹のアルゴリズムとして最も広く使用されている

「近隣結合法(Neighbor-Joining)

」を用いた系統樹分析による方言分類を試みる。近隣(neighbors)という概念を用い

ると,どのような樹形も近隣をつぎつぎに結びつけたりあるいは合体することによって樹形 を規定できる。

近隣結合法は,Saitou & Nei(1987)が提唱した分子系統樹を作成する代表的な方法で,

根を指定しない無根系統樹を生成する。近隣結合法の特徴は二点である。一つは,「枝の長さ の総和」を最小にすること,もう一つは,「比較する樹形を限定すること」である。個体すべ ての枝の長さの総和を計算し,比較するのは大変であるため,まず,すべての個体が1点から 放射状に分岐している系統樹を想定し,任意の2本だけをそこから引き離して組ませ,この中 で最小の枝の長さの総和をもつものを探す。それは最も近隣しているペアなので,次はそれ を一つにまとめて,距離行列を再計算する。これを1サイクルとし,次のサイクルに入れる。

こうして,とりうる樹形がなくなるまで繰り返す。すべての個体の枝の長さを比較するより も,非常に高速である。

近隣結合法を拡張したものに,Bryant & Moulton(2004)が提案したNeighbor-Netがある。

参照のためにこのアルゴリズムでも作成する。Neighbor-Netとは,近隣結合法をベースとし て,ネットワークを許容するように,すなわち,複数の樹形の可能性を表現できるようにし たものである。つまり,

Neighbor-Netは,近隣結合法とSplits Treeを合わせたネットワークを

構築する方法で,分類群は徐々に大きく重なり合うクラスターに結合される。系統樹の枝の 長さの総和が最小の樹形を選び,樹形を限定し比較するのは,近隣結合法と同一であるが,

Neighbor-Netの場合,枝分かれのパターンをツリーではなく,ネットワークの形で表現する。

したがって,複数の系統発生仮説を同時に表したり,検出したりするために使用できる。系 統樹の描画にはSplitTree4(Huson & Bryant, 2006)を使用する。

近隣結合法,Neighbor-Netのどちらのアルゴリズムも距離行列を使用するが,どの距離を 用いるかも重要である。本研究では,Deza & Deza(2013: 242)に記されたカイ二乗距離

(symmetric 𝜒2 -measure)を用いる。高次元(数百~数千)の比率データにおいては,ユ ークリッド距離よりもよい結果が得られていると報告されている(Jin & Huh, 2012)。

個体 𝑖について,𝑝個の項目を測定したデータを𝑥𝑖1

𝑥𝑖𝑗

𝑥𝑖𝑝

,

個体𝑘について同様 のデータを𝑥𝑘1

𝑥𝑘𝑗

𝑥𝑘𝑝とすると,以下のように表わせる。

𝑑(X𝑖, X𝑘) = 2 ∑(𝑥𝑖𝑗− 𝑥𝑘𝑗)2/(𝑥𝑖𝑗+ 𝑥𝑘𝑗)

𝑝

𝑗=1

29