C. 分析手法の詳細
C. 1 分散分析
多変量データを統計的に分析する場合,設定したモデルが統計的な視点か らみて意味のあるものであるかどうかを考えなければならない.こういった 決定は通常「検定」を通じておこなわれる.さまざまな分析手法の詳細を見 る前に,もっとも基本的な検定の1つである分散分析について述べる.
a.分散分析とは
分散分析は,多群の標本を比較することで,それらが同じ平均値を持つ母 集団から抽出されたものであるかどうかという仮説に関する検定をおこなう 分析手法である.
分散分析はその名前が示す通り,各標本群の「分散」を通して群を規定す る因子が各群の反応に影響を与えているかどうかを統計的に検証することを 目的とする.以下では,もっとも単純な一元配置分散分析について説明する.
b.一元配置分散分析のモデル式
表C.1のように取り上げた因子に関してa個の水準を考え,各水準を1つ の群としてそれぞれn 個のサンプルが得られている場合を考える∗1).第 i 水準の第j 番目のサンプルを yij と表す.
一元配置分散分析では,1つの因子の水準が反応であるサンプルに影響を 及ぼすかどうかを検証する.そのために,サンプルに対して次のようなモデ ル式を考える.
yij=µ+ηi+εij (C.1)
∗1) 各水準でサンプルの数が異なる場合も以下の手順を踏めば分析可能である.
C. 1 分散分析 29 表C.1 分散分析のデータ例
群 サンプル
1 2 · · · j · · · n
1 y11 y12 · · · y1j · · · y1n
2 y21 y22 · · · y2j · · · y2n
..
. ... ... . .. ... . .. ...
i yi1 yi2 · · · yij · · · yin
.. .
.. .
..
. . .. ... . .. ...
a ya1 ya2 · · · yaj · · · yan
このモデル式では,第i水準のj番目のサンプルyij はすべての水準にお ける共通のパラメータµに各水準の効果を示すパラメータηi と観測誤差を 示すεij を加えられている.パラメータµ, ηi は定数であり,誤差εij は互 いに独立で平均0,分散σ2 の正規分布に従うとする.
しかし,このモデル式のパラメータµ, ηiの真の値は分からない.したがっ て,これらを観測データyij から推定することを考える.ηi の平均を0,つ まり P
iηi = 0 とすれば,µ は測定値全体の母平均であるので,サンプル の総平均 y¯¯ =
P
i
P
jyij
na をその推定値として採用する.また,ηi は総平 均 µと各水準の母平均の差であるので各水準の平均値から総平均を引いた
¯ yi=
P
jyij
n を推定値とする∗1).
今,水準間の反応に差があるかどうかを確かめたい.水準間に差がない,
つまり各水準の反応の平均が等しいならばη1=· · ·=ηa= 0となるはずで ある.ここで,以下のような帰無仮説H0 と対立仮説H1 を設定する.
H0: η1=· · ·=ηa= 0. (C.2)
H1: H0でない. (C.3)
c.一元配置分散分析のパラメータの評価
上記のように,ηi を評価することが最終的な目的であるが,実際にはそれ らの値を直接比較することはできない.そこで,サンプルと µの差の平方 和を,ηiを導入して分解する.µ, ηi の推定値¯¯y,y¯iを用いると,サンプルか
∗1) パラメータのこれらの推定値は誤差の2乗和を最小にするようなラグランジュ未定乗数法を解くこと によっても同様の結果が得られる.
ら総平均を引いた差の2乗和は次式のように分解できる.
Xa i=1
Xn j=1
(yij−y)¯¯2
| {z } 総平方和
= n Xa i=1
(¯yi−¯¯y)2
| {z } モデルの平方和
+ Xa i=1
Xn j=1
(yij−y¯i)2
| {z }
誤差の平方和
(C.4)
(C.4)式の左辺を総平方和とよび,右辺の第1, 2項をそれぞれモデルの平
方和,誤差の平方和とよぶ.
分散分析では,モデルの平方和と誤差の平方和をそれぞれ,水準間のばら つき,水準内のばらつきとして比較する.(C.4)式の右辺のモデルの平方和 は水準間のばらつきを,誤差の平方和は水準内のばらつきを表している.こ れら2つのばらつきの大きさを比較したいが,直接比較することはできない.
そこで,(C.4)式をσ2 で割り,平均平方として表現する.すると,カイ2 乗分布の平方和の性質より,nP
i(¯yi−¯¯y)2/σ2,P
i
P
j(yij−y¯i)2/σ2はそれ ぞれ自由度a−1,na−aのカイ2乗分布に従う.2つのカイ2乗分布の比 はF分布であるので,これら2つの平均平方の比を考える.これをF比(も しくは分散比)という.もしも水準間に違いがなければ平均平方の比はF分 布に従う.したがって,F検定により有意差があると結論付けられれば,水 準間に違いがあるとはいえない∗1)という帰無仮説H0が棄却され,水準間に 違いがあると結論づけられる.F比は次の式で与えられる.
F = nP
i(¯yi−y)¯¯2/(a−1) P
i
P
j(¯yij−¯¯y)2/(na−a) (C.5) 分散分析では以上の流れを,分散分析表にまとめて表すことが多い.分散 分析表は特に書式が決まっているわけではないが,多くのものは表C.2に示 されるようなものである.
ただし表中のFは,モデルと誤差の平均平方の比(C.5)式である.
たとえば,有意水準5%で検定をしたい場合は表C.2の F の値と F(a− 1, na−a,0.05)の値を比較して,Fの方が大きければ帰無仮説は棄却される.
また因子を2つ考えた場合の分散分析が二元配置分散分析である.この場 合は,2つの因子それぞれのの効果とともに,2つの因子に関する同時効果
∗1) 「違いがない」というように断定的な記述をしないのが一般的である.
C. 2 重回帰分析 31