第 4 章 線形判別分析による東西所属決定
4.2 分析方法 ―変数選択・判別分析―
34
35
4.2.2 線形判別分析
判別分析の目的は,いくつかの変数に基づいて,各データがどの群に所属するかを判定す ることである(青木,
2009)。地点が東西のどちらのグループに属するかが明確である学習デ
ータを用いて判別モデルを構築し,そのモデルに基づき,所属が不明とした愛知,岐阜,石 川,福井が東西のどちらに帰属するかを判別する。判別分析には種々の方法があるが,本研 究では,判別分析の中で最も基本的な線形判別分析を実施する。学習データの集合(x1
,
𝑦1), (x2,
𝑦2),…, (x𝑛,
𝑦𝑛)があるとする。x=(𝑥1,𝑥2,…,𝑥𝑝)は,テキス トから集計した項目である。この一つひとつの項目を独立変数と呼び,本研究ではモーラn-gram
に該当する。y=(𝑦1,𝑦2,…,𝑦𝑝)は,それぞれのテキストが属するカテゴリのラベルであ り,目的変数と呼ぶ。本研究では,東部方言に所属するか,西部方言に所属するかに該当す る。1936
年にRonald Fisher
が提案した線形判別分析は,目的変数の情報に基づいて群内(同じカテゴリ)の分散を最小,群間(異なるカテゴリ)の分散を最大にして求めた解である(金,
2018: 124-126)
。arg max(BS/WS)
群間の分散:BS = 1
𝐾−1∑𝐾𝑘=1𝑚𝑘(𝐱̅𝑘− 𝐱̅)(𝐱̅𝑘− 𝐱̅)𝑇 郡内の分散:WS = 1
𝑚−𝐾∑𝐾𝑘=1(𝐱𝑘𝑗− 𝐱̅𝑘)(𝐱𝑘𝑗− 𝐱̅𝑘)𝑇
𝐾は群の数,𝑚𝑘は群𝑘の個体数,𝑚 = ∑𝐾𝑘=1𝑚𝑘 𝐱̅𝑘は群𝑘の平均ベクトル,𝐱̅は全体の平均ベクトル
その解は(WS)-1
(BS)の固有値分解の方法で求めることができる。分析には統計処理ソフト R
のMASS
パッケージ(Venables & Ripley, 2002)に入っているlda
関数を用いてモデルを 構築した。4.2.3 変数選択
多変量解析を行う際,説明変数が多い場合は,モデルの解釈や目的変数の値を予測する場 合に実用的でない場合が多い。線形判別分析を行う際には,説明変数(モーラ
n-gram)の数
を最低でも「個体数(本研究における地点数)-1」まで減らす必要がある。変数選択は,統計学における非常に重要な問題の一つである。変数の選択により,意味の ない変数が分類のタスクから除外されると,データセットの次元が削減され,識別の精度と
36
パフォーマンスが向上する。Bradley Efron は,統計学における最も重要な問題は何かとい う,Hesterbergの問いかけに対して,「variable selection in regression(回帰における変数 選択)」と答えたそうである(Hesterbergら,2008)。
これまで,非常に多くの変数選択の方法が提案されてきたが,どの方法が実際に最も効果 的であるかは,未だによくわかっていない。最適な変数選択の方法はデータセットによって 異なる (Zheng & Jin, 2018)ことが,理由の一つとして考えられる。本章では,カイ二乗 値,LASSOと
Adaptive LASSO,Wilks
のラムダを使用した変数増減法を用いて変数選択を 行う。4.2.3.1 カイ二乗値
カイ二乗値は,距離に基づく変数選択の方法の一つである。二元分割表の分析に用いる統 計量の中で最も広く知られているのはピアソンのカイ二乗統計量(Pearson’s chi-squared statistics)である。略して,カイ二乗値と呼ぶことにする。カイ二乗値は次の式で定義されて いる。
𝜒2 = ∑ ∑(𝑛𝑖𝑗− 𝑒𝑖𝑗)2 𝑒𝑖𝑗
𝑐
𝑗=1 𝑟
𝑖=1
この式で得られた統計量は近似的に自由度(𝑟 − 1)(𝑐 − 1)のカイ二乗分布に従うことが知ら れている。式の中の𝑛𝑖𝑗は分割表の𝑖行𝑗列セルの度数であり,𝑒𝑖𝑗は𝑖行𝑗列の期待度数である。期 待度数𝑒𝑖𝑗は,𝑖行の和𝑛𝑖+,𝑗列の和𝑛+𝑗,分割表の度数の総合計を𝑛++を用いて次の式で求める。
𝑒𝑖𝑗 =𝑛𝑖+𝑛+𝑗 𝑛++
表12にモーラn-gramにおける𝑖に関する2×2の分割表を示す。
表 12 モーラunigramにおける𝒊に関する2×2の分割表 西 東 横の合計
モーラunigram 𝑖 𝑛11 𝑛12 𝑛1+
モーラunigram 𝑖以外 𝑛21 𝑛22 𝑛2+
縦の合計 𝑛+1 𝑛+2 𝑛++
37
カイ二乗値は,多くの研究において,効果的でよい方法であると言われている(Mesleh,
2011; Parlar & Ayşe, 2016; Zareapoor & Seeja, 2015; Liu
ら,2018)。そこで,本研究でもカイ二 乗値を求める。分割表の検定では,行・列のパターンが同じであると仮説を立てる。有意水 準を0.05とすると,𝑝値が有意水準以下(𝑝< 0.05)であれば,行,あるいは列のパターンに差が ないという仮説が棄却される。ただし,カイ二乗値の大きな順にソートしたとしても上位い くつまでの変数を見ればよいか,判断が難しい。4.2.3.2 LASSOとAdaptive LASSO
Tibshirani(1996)は,線形回帰分析において最小 2
乗法に𝓁1罰則を課す回帰母数の推定法である
LASSO(Least Absolute Shrinkage and Selection Operator)を提案した。スパー
スモデリングの代表的な手法である。正則化(regularization)は,統計学や機械学習などで よく使われ,過学習を防ぐために,パラメータにより罰則を設けるなどの手法を介して最適 化を行う方法である(金,2018: 180-188)。LASSO
は,回帰モデルの損失関数にパラメータ の𝐿1ノルムに基づく正則化項を加えた正則化損失関数を最小化することによってパラメータ を推定する方法で,推定の安定化とともに変数選択を行うことができる(廣瀬,2016)。これ は変数選択と回帰母数の推定を同時に行うものであり,以降,さまざまな手法が提案されて きた。以下,川野ら(2018)を参考に説明する。まず,目的変数と説明変数の関係を表すモデルとして,線形回帰モデルを考える。
𝑦𝑖 = 𝑥𝑖1𝛽1+ ⋯ + 𝑥𝑖𝑝𝛽𝑝+ 𝜀𝑖,
(𝑖 = 1, … , 𝑛)
ここで,𝛽1… , 𝛽𝑝は回帰係数を表すパラメータ,𝜀1… , 𝜀𝑛は観測誤差を表す。パラメータ
𝛽1… , 𝛽𝑝を推定するためのもっともよく用いられる方法は,誤差
2
乗和,すなわち上の式の左辺から右辺の平均構造を引いたものの
2
乗和S(𝜷) = ∑ 𝜀𝑖2
𝑛
𝑖=1
= ∑(
𝑛
𝑖=1
𝑦𝑖− ∑ 𝑥𝑖𝑗
𝑝
𝑗=1
𝛽𝑗)2
を最小にする𝜷 = (𝛽1, … , 𝛽𝑝)𝑇を求める最小
2
乗法である。最小2
乗法によって得られる推定 量は最小2
乗推定量と呼ばれる。最小2
乗推定量は,S(𝜷)をベクトル𝜷について偏微分する ことで得られる。ところが,説明変数の数(𝑝)がサンプルサイズ(𝑛)より多いときには,計算で きない。このような問題を解消するために,正則化という方法が用いられる。まず,ベクト ル𝜷の実測値関数R(𝜷)(≥ 0)を用意する。正則化法とは,S(𝜷)に関数 R(𝜷)を加えた式の最小
化により,パラメータの推定量を得る方法である。38
min𝑆𝜆(𝜷) = min {12𝑛𝑆(𝜷) + 𝜆R(𝜷) }
R(𝜷)
は正則化項と呼ばれ,λ(≥ 0)は正則化パラメータと呼ばれる。λ= 0のときは,最小2
乗法となる。線形回帰モデルを正則化法によって推定する際,パラメータに関する𝐿2ノルム を正則化項に用いたものは,リッジ回帰と呼ばれる。リッジ推定を用いると,安定した推定 はできるものの,変数選択ができないという問題がある(廣瀬,2016)ため,本研究では使 用しない。一般に,
LASSO
はオラクルプロパティを持たないと言われている(Zou, 2006)。オラクル性(Oracle property)とは,変数選択における望ましい性質のことで,Fan and Li(2001)
によって,次のような提案がされている。
・変数選択の一致性:サンプルサイズ𝑛が大きくなるとき,0でない係数(𝛽𝑗≠ 0)を持 つ説明変数が正しく選択される確率が
1
に収束する。・漸近正規性:0でない係数を持つ説明変数に対する推定量は,漸近正規性を持つ。
(荒木,2013: 262)
したがって,オラクル性を持たせるために,Adaptive LASSOなどの二段階推定を行う必 要がある(Zou, 2006)。最小二乗推定量を求め,それを用いて第
2
段階での推定を罰則付き で行う方法である。本研究では,lassoとadaptive lasso
を用いて,変数選択を行う。チュー ニングパラメータλの選択は,10
分割交差検証法(CV: Cross Validation)で行い,最適なλ を求める。分析には統計処理ソフトR
のglmnet,交差検証には glmnetUtils
を用いる。4.2.3.3 Wilksのラムダ
最後に,
Wilks
のラムダを使用した変数増減法を用いて変数選択を行う。Wilks
のラムダは,グループ平均が異なるかどうかを判断する多変量検定の統計手法である(Mardiaら,
1979)
。 変数増減法とは,変数増加法と変数減少法を組み合わせた手法である。まず変増加法と同様 に取り込み基準に従って変数を取り込む。そして変数を一つ取り込むたびに,すでに取り込 んだものの中から変数減少法と同様の追い出し基準を満足するものがあるか調べ,あればそ れを追い出してから,さらに変数の取り込みを続ける。取り込むべき変数も追い出すべき変 数もなくなった時に変数の選択を終了する。この手法は目的変数に対する影響が強い説明変 数を少数選択するという特徴を持ち,逐次変数選択法の中で多用されている。Gavin
ら(2014)は,ケープカツオドリにおける性別の形態的差異を定量化するための変数選択の方法の一つ
𝜷 𝜷
39
として用い,Guilherme & Flávia(2018)は,ホシクサ科の植物のラミート(1個体から栄 養的に繁殖した子孫の各個体)を持つ土壌と持たない土壌の違いを分析する際の変数を選択 する方法として用いて,植物の生態学的要素が土壌にどのように影響するかを分析している。
本研究では,統計処理ソフト