3
3..重回帰分析重回帰分析
3.1 重回帰分析の原理
重回帰分析は説明変数が複数になった回帰分析
(1) 重回帰モデル
重回帰分析は目的変数が1つで、説明変数が複数でお互いに相関がある時の回帰分析。目 的変数には誤差変動があり、説明変数には誤差変動がないことを前提にしている。
・重回帰モデル
y=b0+b1x1+ ⋯+bpxp
y:目的変数 x1~xp:説明変数 b0:定数 b1~bp:偏回帰係数
第1章第2節で説明した概括評価項目を表す式において、概括評価項目が目的変数yに、検 査項目が説明変数x1~xp になった式に相当する。
(2) 重回帰分析の適用例
概括評価の例として、第1章第1節の表1.1のデータに重回帰分析を適用する。
<表1.1 脂質異常症患者のTCとTGと重症度>
症例No. TC TG 重症度
1 220 100 0
2 230 150 1
3 240 150 2
ある結果項目に影響を与えている原因項目が複数あり しかも原因項目間に相関関係がある
複数の原因項目間の相関関係を考慮して 結果項目との間の因果関係の内容を検討したい
重回帰分析を適用
4 240 250 1
5 250 200 3
6 260 150 3
7 260 250 2
8 260 290 1
9 270 250 4
10 280 290 4
※図3.1の左上が見取り図、右上がTCと重症度の散布図(正面図)、左下が重症度とTGの散布図(側面 図)、右下がTCとTGの散布図(立面図)。右上のTCと重症度の散布図と座標軸を合わせるために、他 の2枚の散布図は座標軸を反転しているので注意。この場合、重回帰式は平面になる。
●
●
●
図 3.1 見取り図と 3 種類の散布図
TC
TG
TC
TG
重症度
重症度
重症度
2 0 0 2 5 0 3 0 03 0 0
2 0 0 1 0 0 0
1 2 3 4 5
0 1 2 3 4 5
5 4 3 2 1 0
3 0 0 2 5 0 2 0 0 1 5 0
1 0 05 4 3 2 1 0
● ●
● ●
● ●
●
y=-18.5014+0.0916x重回帰式1-0.0115x2
TG
TC
3.2 重回帰分析結果の解釈
重回帰分析では検定結果よりも重回帰式と重寄与率の実質科学的解釈が大切
(1) 計算結果
=== 重回帰分析(multiple regression analysis) === [DANS V7.0]
データ名:表1.1 目的変数y :重症度 説明変数x 1:TC 説明変数x 2:TG
・各変数の基礎統計量
--- x 1:例数=10 平均値=251 標準偏差=18.5293 標準誤差=5.85947 x 2:例数=10 平均値=209 標準偏差=65.3962 標準誤差=20.6801 y 1:例数=10 平均値=2.1 標準偏差=1.37032 標準誤差=0.433333 ---
・相関行列(correlation coefficient matrix) x 1 x 2 y 1
--- x 1 1 0.753 0.827 x 2 0.753 1 0.386 y 1 0.827 0.386 1 ---
・全変数を選択した結果
標準 有意確率 変数 偏回帰係数 標準誤差 偏回帰係数 偏相関係数 偏F値 p値 --- 定数 -18.5014 3.8562 23.0192 0.00197122**
x 1 0.0916224 0.0183292 1.2389 0.883834 24.9872 0.00156753**
x 2 -0.0114632 0.00519335 -0.547063 -0.640612 4.87212 0.0630491+
--- 変数 偏回帰係数 95%信頼区間幅 下限 上限
--- 定数 -18.5014 9.11847 -27.6199 -9.38293 x 1 0.0916224 0.0433416 0.0482808 0.134964 x 2 -0.0114632 0.0122803 -0.0237435 0.000817099 ---
重寄与率(決定係数)R^2=0.813702 自由度調整済重寄与率(決定係数)R'^2=0.760474 重相関係数 R =0.902054 自由度調整済重相関係数 R' =0.872052
分散分析表(ANOVA table)
要因 平方和 自由度 平均平方和 F値 有意確率p値 --- 回帰 13.7516 2 6.87578 15.2871 0.0027908**
残差 3.14844 7 0.449777
--- 全体 16.9 9
(2) 各種パラメーターの意味
・相関行列…2つの変数間の単相関係数を行列形式の表にしたもの x1―x2:0.753 x1:TCとx2:TGの相関係数→図3.1の右下のグラフ x1―y:0.827 x1:TCとy:重症度の相関係数→図3.1の右上のグラフ
(参考)TCと重症度の単回帰式:y=-13.2524+0.061165x1
x2―y:0.386 x2:TGとy:重症度の相関係数→図3.1の左下のグラフ (参考)TGと重症度の単回帰式:y=0.411276+0.00808002x2
これらの単相関係数は重回帰分析の結果を解釈する時の参考情報になる。
・重回帰式…目的変数と複数の説明変数の因果関係を平面で近似した式 y=-18.5014+0.0916x1-0.0115x2
・偏回帰係数…他の説明変数の影響を取り除いた時の回帰係数
これは重回帰平面が座標面と交わる交線の傾きになる。例えば図3.1の見取り図で、重回帰式 が表す平面がTC―重症度座標面と交わる交線は、重回帰式のx2(TG)に0を代入し、
y=-18.5014+0.0916x1
となる。この直線の傾き0.0916が偏回帰係数。
・標準誤差…偏回帰係数の標準誤差
TGが一定という条件でTCが1増加した時、重症度が平均的に0.0916増加する 偏回帰係数=0.0916
TGの影響を取り除いた時のTCの影響を表す
母偏回帰係数の推測誤差。
・標準偏回帰係数…説明変数と目的変数を標準偏差単位にした時の偏回帰係数
他の説明変数が一定という条件で 各 説明変数が「 1 標準偏差」 増加 した時、目的変数が標 準偏差 単位 で いくつ 変化するかを表す値。各説明変数が目的変数に与える影響の強さを比較 する時の指標。
・偏F値…偏回帰係数が0かどうかの検定を行うための検定統計量
この値は変数選択の基準値として利用されることもある。→第3節参照 説明変数のひとつに身長があった時
身長が1m増加した時、目的変数が5増加する場合 身長が1cm増加すれば目的変数は0.05増加するはず
身長をメートル単位で測定した時の偏回帰係数=5 身長をセンチメートル単位で測定した時の偏回帰係数=0.05
偏回帰係数は100対1になり
見かけ上はメートル単位で測定した時の方が影響が強く見える 身長をメートル単位で測定 身長をセンチメートル単位で測定
身長が「1」増加する
↓
身長が1m増加する
身長が「1」増加する
↓
身長が1cm増加する
標準偏回帰係数はどちらも同じ値になり 影響力を公平に比較することが可能
・有意確率p値…偏回帰係数が0かどうかの検定結果、普通の検定の有意確率と同じ
・偏回帰係数の95%信頼区間…偏回帰係数の推定結果 偏回帰係数について実質科学的に考察するための情報。
・重寄与率(決定係数)…目的変数の全変動のうち、全ての説明変数によって説明できる割合
説明変数同士に相関関係があるため、個々の説明変数の寄与率は求められない。
その代わり標準偏回帰係数を比較することによって、説明変数の重要度を調べること ができる。重要な説明変数ほど、目的変数に対する寄与が大きい。
・自由度調整済み重寄与率…例数を考慮した重寄与率
この値は変数選択の基準値として利用される。→第3節参照
・分散分析表…重寄与率が0かどうかの検定、「回帰」の有意確率p値が検定結果
・偏相関係数、重相関係数、自由度調整済み重相関係数…重相関分析の指標
説明変数と目的変数の関係が因果関係ではなく相関関係の時は、重相関分析を用 いる。これらの指標はその結果で、参考までに出力してある。
(3) 多重共線性(multi-colinearity、マルチコ)
説明変数同士の相関が強い時に、偏回帰係数の値が一見すると非合理になり、解析結果の信 頼性が低くなってしまう現象。
通常は有意性検定
検定結果よりも偏回帰係数に関する実質科学的な考察の方が大切
分散分析表の回帰の平方和を全体の平方和で割った値=13.7516/16.9=0.813702
通常は有意性検定
検定結果よりも重回帰式全体と重寄与率を実質科学的に考察する方が大切
表1.1の重回帰分析結果では、TGと重症度の単相関係数は正にもかかわらず、TGの偏回帰 係数の符号が負になっている。→多重共線性
・この結果の解釈
i) TCとTGをそれぞれ単独で用いる時は、値が大きいほど重症度を大きく判定してい
る。しかし両者を総合して判定する時は、両者の差(TC-TG)が大きいほど重症度を大き く判定している。
y=-18.5014+0.0916x1-0.0115x2=-18.5014+(0.0801+0.0115)x1-0.0115x2 =-18.5014+0.0801x1+0.0115(x1-x2)
(x1-x2)=(TC-TG):脂質異常症のタイプを表す指標
値が大きい→高コレステロール型 値が小さい→高トリグリセリド型 この重回帰式は「TCと脂質異常症のタイプが重症度に正の影響を与えている」つまり
「TCの値が高いほど重症度を高く判定し、TCの値が同じなら高コレステロール型 になるほど重症度を高く判定している」と解釈可能。
同様のことは収縮期血圧と拡張期血圧でも起きる。その時は「(収縮期血圧-拡張期 血圧)つまり脈圧が影響している」と解釈可能。
説明変数同士の相関が高い
説明変数の差に科学的な意義がある 同じ因子の異なった面を表す指標
説明変数の差を説明変数に入れると合理的な結果になる
無暗に説明変数を除外すると重要な説明変数を見逃してしまう!
ii) TGは重症度に対して本当は負の影響を与えているが、TCと強い正の相関があっ てそれにひきずられるため、見かけ上は正の単相関を持ってしまう。
iii) TGは重症度に対して通常は正の影響を与えているか、ほとんど影響を与えていな
いが、TCが一定の値になった時だけ負の影響を与えるようになる。
iv) TCだけが重症度に強い正の影響を与えており、TGはあまり影響していないが、
データの誤差によってたまたま負の偏回帰係数になってしまった。
これらの解釈のうち、どれが実質科学的に合理的か検討して結果を解釈する。
(4) 重回帰分析の注意点
i) 誤差の少ない信頼のおける多数のデータに適用したか?
目安:例数≧(変数の数☓10)または(変数の数の2乗)の大きい方 ii) 重回帰モデルに組み込んだ項目が適当か?
iii) 高い重寄与率が得られているか?
iv) 重回帰式が実質科学的に納得できるか?
説明変数同士の相関が高い
同じ情報を重複して持っている
どちらか一方を説明変数に入れるだけで良い
多重共線性の発生を防ぐことが可能
3.3 変数の選択
変数選択結果は簡便で実用的な重回帰式を得るためのもの
(1) 変数選択法
できるだけ少ない説明変数で、できるだけ効率的に目的変数の変動を説明できる、簡便で実用 的な重回帰式を組み立てるための手法。
i) 変数指定方法…実質科学的な知見に基づいて適当な説明変数を指定 ii) 総当たり法…全ての説明変数の組み合わせを計算し、最良のものを選択 iii) 逐次選択法 …一定の規則に従って説明変数を逐次選択
変数増加法(前進的選択法)、変数減少法(後退的選択法)、変数増減法、変数減増法 (2) 変数増減法の手順
1) 最初の変数の取り込み
目的変数に対する単寄与率が最大の説明変数を取り込む。
2) 次の変数の取り込み
残りの説明変数から今取り込んだ説明変数と共有する情報を取り除き、その上で目的変数に 対する単独寄与分が最大のものを探す。そしてその変数が取り込み基準を満足するなら取り込む。
・各種の取り込み基準
図 3.3 1つの説明変数を取り込んだ時 y
自由度= n-2残差
x1
(単寄与率)
i) 偏F値(=単独寄与分の情報密度/残差の情報密度)が基準値以上 ii) 有意確率p値が基準値以下
iii) 変数を取り込むと自由度調整済み重寄与率が増加
iv) 変数を取り込むと赤池の情報量基準AICが減少
3) 変数の追い出し
これまでに取り込んだ説明変数のうち、単独寄与分が最小のものを探す。そしてその変数が追 い出し基準を満足するなら追い出す。
図 3.4 次の説明変数を取り込んだ時 y
自由度= n-3残差
x1
xj
xjの単独寄与分
図 3.5 説明変数の追い出し y
残差
x1
xj
xkを追い出す
xk
・各種の追い出し基準
i) 偏F値が基準値未満
ii) 有意確率p値が基準値より大きい
iii) 変数を追い出すと自由度調整済み重寄与率が増加
iv) 変数を追い出すと赤池の情報量基準AICが減少
4) 変数選択の終了
2)に戻って変数の取り込みを続け、取り込む変数も追い出す変数もなくなるまで2)と3)を繰り
返す。
(3) 変数選択の例
=== 重回帰分析(multiple regression analysis) === [DANS V7.0]
データ名:表1.1 目的変数y :重症度 説明変数x 1:TC 説明変数x 2:TG
・各変数の基礎統計量
--- x 1:例数=10 平均値=251 標準偏差=18.5293 標準誤差=5.85947 x 2:例数=10 平均値=209 標準偏差=65.3962 標準誤差=20.6801 y 1:例数=10 平均値=2.1 標準偏差=1.37032 標準誤差=0.433333 ---
・相関行列(correlation coefficient matrix) x 1 x 2 y 1
--- x 1 1 0.753 0.827 x 2 0.753 1 0.386 y 1 0.827 0.386 1 ---
・前進的変数増減法(stepwise forward selection method)による変数選択結果 取り込み基準:偏F値≧Fin=2 追い出し基準:偏F値<Fout=2
標準 有意確率 変数 偏回帰係数 標準誤差 偏回帰係数 偏相関係数 偏F値 p値 --- 定数 -18.5014 3.8562 23.0192 0.00197122**
x 1 0.0916224 0.0183292 1.2389 0.883834 24.9872 0.00156753**
x 2 -0.0114632 0.00519335 -0.547063 -0.640612 4.87212 0.0630491+
---
変数 偏回帰係数 95%信頼区間幅 下限 上限 --- 定数 -18.5014 9.11847 -27.6199 -9.38293 x 1 0.0916224 0.0433416 0.0482808 0.134964 x 2 -0.0114632 0.0122803 -0.0237435 0.000817099 ---
重寄与率(決定係数)R^2=0.813702 自由度調整済重寄与率(決定係数)R'^2=0.760474 重相関係数 R =0.902054 自由度調整済重相関係数 R' =0.872052 分散分析表(ANOVA table)
要因 平方和 自由度 平均平方和 F値 有意確率p値 --- 回帰 13.7516 2 6.87578 15.2871 0.0027908**
残差 3.14844 7 0.449777
--- 全体 16.9 9
ある説明変数が目的変数に影響を与えていないことを検証したい時は 変数選択をしない方が良い
変数選択法で選択されなかった変数は目的変数に影響を与えていないとは限らない
変数選択法で得られた説明変数の組み合わせは実質科学的に最適なものとは限らない
実質科学的に解釈困難な結果または実用的ではない結果なら
特定の変数を強制的に取り込んだり追い出したりして色々な重回帰式を検討した方が良い
3.4 パ
ス解析パス図を利用して重回帰分析の結果をグラフ化すると解釈しやすい
(1) パス図
多変量解析の結果を模式的にグラフ化し、結果の解釈を助けるための図。
・直接観測された変数を「観測変数」といい、四角形で囲む。
例:臨床検査値、アンケート項目
・直接観測されない仮定上の変数を「潜在変数」といい、丸または楕円で囲む。
例:因子分析の因子
・分析対象以外の要因を表す変数を「誤差変数」といい、何も囲まないか丸または楕円で囲む。
例:重回帰分析の回帰誤差
誤差 未知の原因
・因果関係を表す時は原因変数から結果変数方向に単方向の矢印を描く。
TC
TG
重症度 1.239 誤差
図 3.6 パス図 -0.549 0.753
0.431
TC
心機能 自立心
TC
重症度
重症度
・相関関係(共変関係)を表す時は変数と変数の間に双方向の矢印を描く。
・これらの矢印を「パス」といい、パスの傍らにパス係数を記載する。
パス係数は、因果関係の場合は重回帰分析の標準偏回帰係数または偏回帰係数を 用い、相関関係の場合は相関係数または偏相関係数を用いる。パス係数に有意水準 を表す有意記号「*」を付ける時もある。
(2) 階層的重回帰分析
ある説明変数が目的変数に影響を与え、さらにその目的変数が別の目的変数に影響を与える というような階層的な因果関係を、複数の重回帰分析を組み合わせて解析する手法。
表1.1に年齢を追加し、年齢がTCとTGに影響を与え、さらにTCとTGに基づいて重症度を 判定しているという因果関係を想定した時。
<表3.1 脂質異常症患者の年齢とTCとTGと重症度>
症例
No. 年齢 TC TG 重症度
1 50 220 100 0
2 45 230 150 1
3 48 240 150 2
4 41 240 250 1
5 50 250 200 3
6 42 260 150 3
7 54 260 250 2
8 51 260 290 1
9 60 270 250 4
10 47 280 290 4
・説明変数x:年齢、目的変数y:TCにした単回帰分析
心機能 自立心
TC 1.239* 重症度
単回帰式:y=199.398+1.05742x 標準偏回帰係数=単相関係数=0.321
・説明変数x:年齢、目的変数y:TGにした単回帰分析
単回帰式:y=50.4342+3.2493x 標準偏回帰係数=単相関係数=0.280
・説明変数x1:TC、x2:TG、目的変数y:重症度にした重回帰分析 重回帰式:y=-18.5014+0.0916x1-0.0115x2
TCの標準偏回帰係数=1.239 TGの偏回帰係数=-0.549
重寄与率:R2=0.814(81.4%) 残差寄与率の平方根=誤差=
√
1−0.814=0.431(3)パス解析
階層的重回帰分析とパス図を利用し、複雑な因果関係を各種の効果に分けて分析する手法。
・直接効果…原因変数が結果変数に直接影響している効果 図3.7のTC→重症度の直接効果:1.239
・間接効果…A→B→Cという因果関係がある時、AがBを通してCに影響を及ぼしている間接 的な効果
図3.7の年齢→(TC+TG)→重症度の間接効果:0.321×1.239+0.280×(-0.549)=0.244
・相関効果…相関関係がある他の原因変数を通して、結果変数に影響を及ぼしている間接的な 効果
図3.7のTC→TG→重症度の相関効果:0.753×(-0.549)=-0.413
・全効果…直接効果と間接効果と相関効果を合計した効果
図3.7のTC→重症度の全効果:1.239-0.413=0.826(TCと重症度の単相関係数と一 TC
TG
重症度
誤差
年齢
1.239
図 3.7 階層的重回帰分析結果のパス図 -0.549
0.753
0.431 0.321
0.280
致する)
重回帰分析だけでなく、判別分析や因子分析とパス解析を組み合わせ、潜在因子も含めた複 雑な因果関係を総合的に分析する手法を共分散構造分析(CSA:Covariance Structure Analysis) または構造方程式モデリング(SEM:Structural Equation Modeling )という。
これらの手法はモデルの組み立てに恣意性が高いため、主として社会学や心理学分野で用い られる。