6
6.ロジスティック回帰分析
.ロジスティック回帰分析6.1 ロジスティック回帰分析の原理
ロジスティック回帰分析は判別分析を前向きデータ用にした手法
(1) ロジスティックモデル
ロジスティック回帰分析(ロジット回帰分析)は、判別分析をロジスティック曲線によって前向き 研究から得られたデータ用にした手法。多種類のリスクファクターに基いて、被験者が疾患を発症 するかどうかを予想したり、リスクファクターの影響力を検討したりするための手法。
・ロジスティックモデル(ロジットモデル)
l =ln ( p
1− p )=b 0 + b 1 x 1 + ⋯+ b p x p
p = 1
1+ exp (−l ) = 1
1+ exp (−b 0 −b 1 x 1 −⋯−b p x p )
l:ロジット(対数オッズ) p:疾患を発症する確率 b
0:定数 b1~bp:偏回帰係数このモデルは、第
5
章第5
節で説明した判別スコアを確率に変換するロジスティック曲線の式 において、事前確率の項ln{π
1/(1-π
1)}と定数 a
0を一緒にしてb
0にしたものに相当する。このモデルを前向き研究から得られたデータに適用し、重回帰分析の原理を応用して定数と 偏回帰係数を求める手法がロジスティック回帰分析。
これは目的変数が名義尺度のデータで、説明変数が計量尺度のデータである回帰分析に相 疾患が発症するかどうかをリスクファクターから予想したい
または
疾患のリスクファクターを検討したい
判別分析は後ろ向きデータ用だから前向きデータ用にする必要がある
ロジスティック回帰分析を適用
当し、図
6.1
のように2
分類(疾患の有無)のデータを直線の代わりにシグモイド曲線(S字状曲線) で回帰する手法である。ちなみに、直線で回帰する手法はコクラン・アーミテージの傾向検定。(2) 一般化線形モデル
0 0.5 1
疾患の確率
x
:リスクファクター図 6.1 ロジスティック曲線と回帰直線
確率をロジットに変換するのは説明変数との関係を直線的つまり線形にするため
目的変数を線形にする変換関数のことをリンク関数
(
連結関数)
と呼ぶリンク関数によって線形にしたモデルも線形モデルとして扱う 一般化線形モデル
(GLM
:generalized linear model)
疾患が発症する前に、疾患が発症するかどうかをリスクファクターから予想したい
↓
ロジスティック回帰分析…前向き研究から得られたデータを用いる
疾患が発症した後で、疾患であるかどうかを診断指標とリスクファクターから診断したい
↓
判別分析…後ろ向き研究から得られたデータを用いる
6.2 ロジスティック回帰分析結果の解釈
ロジスティック回帰分析ではオッズ比を指標にする
(1) ロジスティック回帰分析の適用例
脂質異常が動脈硬化症のリスクファクターになるかどうかを検討するために、25名の被験者を 対象にして動脈硬化症が発症するかどうかを前向きに観察した。
被験者の動脈硬化症の発症の有無と、脂質異常スコア(脂質異常の程度を表す解説用仮想 データ)、性、年齢は表
6.1
のとおり。性と年齢はリスクファクターというよりも、被験者の背景因子 の代表的項目。<表
6.1 動脈硬化症の有無と脂質異常スコア等>
No.
動脈硬化症 脂質異常スコア 性 年齢1
無0
男36
2
無0
男55
3
無0
女27
4
無0
女42
5
無1
男35
6
無1
男39
7
無1
男41
8
無1
男45
9
無1
女32
10
無1
女42
11
無1
女51
12
無1
女53
13
無2
男43
14
無2
男47
15
無2
女52
16
有1
男46
17
有1
女24
18
有1
女38
19
有1
女58
20
有2
男21
21
有2
男30
22
有2
男37
23
有2
女24
24
有2
女56
25
有2
女58
(2) 計算結果
=== ロジスティック回帰分析(logistic regression analysis) === [DANS V7.0]
データ名:表6.1
目的変数y :動脈硬化症 (0:無 1:有) 説明変数x 1:脂質異常スコア
説明変数x 2:性 (0:男 1:女) 説明変数x 3:年齢 (才)
・各変数の基礎統計量
--- x 1:例数=25 平均値=1.2 標準偏差=0.707107 標準誤差=0.141421 x 2:例数=25 平均値=0.52 標準偏差=0.509902 標準誤差=0.10198 x 3:例数=25 平均値=41.28 標準偏差=11.0133 標準誤差=2.20267 y 1:例数=25 平均値=0.4 標準偏差=0.5 標準誤差=0.1 --- 反応有:コード=1 例数=10 反応無:コード=1以外 例数=15
・相関行列(correlation coefficient matrix) x 1 x 2 x 3 y 1
--- x 1 1 -0.069 0.009 0.471 x 2 -0.069 1 0.151 0.131 x 3 0.009 0.151 1 -0.157 y 1 0.471 0.131 -0.157 1 ---
・全変数を選択した結果(反復回数:4)
ロジットモデル:p=1/{1+exp(-β0-Σβj・xj)}
p:y=1(反応有)の確率 β0:定数 βj:変数xjの偏回帰係数
標準 有意確率 変数 偏回帰係数 標準誤差 オッズ比 偏回帰係数 Waldのχ^2 p値 --- 定数 -1.53326 2.18006 0.494649 0.481861 x 1 2.08029 0.923026 8.0068 1.47099 5.07949 0.0242105*
x 2 1.3481 1.11576 3.8501 0.687399 1.45983 0.226957 x 3 -0.0560363 0.0494628 0.945505 -0.617146 1.28345 0.257258 ---
変数 偏回帰係数 95%CI下限 上限 オッズ比 95%CI下限 上限 --- 定数 -1.53326 -5.80609 2.73957
x 1 2.08029 0.271193 3.88939 8.0068 1.31153 48.881 x 2 1.3481 -0.838749 3.53495 3.8501 0.432251 34.2933 x 3 -0.0560363 -0.152982 0.0409091 0.945505 0.858145 1.04176 --- 対数尤度:回帰L(β)=-12.5043 定数項L0=-16.8253 飽和Lf=0
擬似寄与率R^2=0.256816 AIC(赤池の情報量基準)=33.0086 回帰とズレの検定
要因 (-1)*対数尤度 自由度 χ^2値 有意確率p値 --- 回帰 4.32101 3 8.64201 0.0344493*
ズレ(LOF) 12.5043 21 25.0086 0.246793 --- 全体 16.8253 24
(3) 各種パラメーターの意味
・ロジスティック回帰式…ロジットと説明変数の因果関係をロジスティックモデルで近似した式
l=ln ( p
1− p )=−1.53326+ 2.08029 x 1 + 1.3481 x 2 −0.0560363 x 3
p= 1
1+ exp (1.53326 −2.08029 x 1 −1.3481 x 2 + 0.0560363 x 3 ) l:ロジット(対数オッズ) p:動脈硬化症の発症確率
・偏回帰係数…重回帰分析の偏回帰係数に相当する係数
ロジットの変化量=対数オッズの差
・標準誤差…偏回帰係数の標準誤差
・オッズ比…偏回帰係数(対数オッズの差)を指数変換してオッズの比にした値
調整オッズ比または補正オッズ比とも呼ばれる
反応率が小さい(10%未満)時、相対危険度の近似値と解釈できる 他の変数が一定という条件で各変数が
1
増加した時ロジットがいくつ変化するかを表す値
他の変数が一定という条件で各変数が
1
増加した時 オッズが相対的に何倍になるかを表す値・標準偏回帰係数…説明変数を標準偏差単位にした時の偏回帰係数、 重回帰式の標準偏回帰 係数に相当
・ワルドの
χ
2値…偏回帰係数が0
かどうかの検定を行うための検定統計量 この値は変数選択の基準値として利用されることもある。→第3
節参照・偏回帰係数の
95%信頼区間…偏回帰係数の推定結果
偏回帰係数について実質科学的に考察するための情報。・オッズ比の
95%信頼区間…偏回帰係数の 95%信頼区間を指数変換した値
オッズ比について実質科学的に考察するための情報。・AIC(赤池の情報量基準)…モデルの適合度を表す指標
AIC
は回帰誤差と説明変数の数の両方を考慮した指標。この値が小さいほど単純でかつ適合 度の良いモデルであることを表す。・回帰とズレの検定…偏回帰係数の検定と、モデルとデータのズレの検定
回帰の検定は全ての偏回帰係数が
0
かどうかの検定。ズレの検定はモデルと実際のデータの ズレが0
かどうかの検定。(4) ロジスティック回帰分析の注意点
i) 誤差の少ない信頼のおける多数のデータに適用したか?
目安:例数≧(変数の数☓
10)または(変数の数の 2
乗)の大きい方 他の変数が一定という条件で各変数が「1
標準偏差」増加した時ロジットがいくつ変化するかを表す値
回帰の検定結果:有意、ズレの検定結果:有意ではない
とりあえずモデルが適合していると解釈
しかし検定結果よりもロジスティック回帰式全体を実質科学的に考察する方が大切
疾患の発症例数と非発症例数はできるだけ同じくらいが理想
ii) ロジスティック回帰分析に組み込んだ項目が適当か?
iii) 組み込んだ項目はリスクファクターだけか?診断指標に相当するものはないか?
iv) ロジスティック回帰式が実質科学的に納得できるか?
v) ロジットは確率が 0
または1
になる時は計算できないので注意!例えば第
5
章の表5.1
のデータにロジスティック回帰分析を適用すると、途中で計算が発散し て不適解になる。これは、TCとTG
で正常群と動脈硬化群が完全に判別可能のため。=== ロジスティック回帰分析(logistic regression analysis) === [DANS V7.0]
データ名:表5.1
目的変数y :群 (0:正常 1:動脈硬化症) 説明変数x 1:TC (mg/dl)
説明変数x 2:TG (mg/dl)
・各変数の基礎統計量
--- x 1:例数=25 平均値=224.4 標準偏差=28.2961 標準誤差=5.65921 x 2:例数=25 平均値=207.2 標準偏差=60.1747 標準誤差=12.0349 y 1:例数=25 平均値=0.4 標準偏差=0.5 標準誤差=0.1 --- 反応有:コード=1 例数=10 反応無:コード=1以外 例数=15
・相関行列(correlation coefficient matrix) x 1 x 2 y 1
--- x 1 1 0.499 0.783 x 2 0.499 1 0.025 y 1 0.783 0.025 1 ---
・全変数を選択した結果(反復回数:11)
ロジットモデル:p=1/{1+exp(-β0-Σβj・xj)}
p:y=1(反応有)の確率 β0:定数 βj:変数xjの偏回帰係数 偏回帰係数初期値:β0=-61.569 β1=0.335192 β2=-0.074889
標準 有意確率 変数 偏回帰係数 標準誤差 オッズ比 偏回帰係数 Waldのχ^2 p値 --- 定数 -448.932 5693.3 0.00621775 0.93715 x 1 2.26982 29.6859 9.67765 64.2269 0.00584632 0.939052 x 2 -0.340886 6.29705 0.71114 -20.5127 0.00293052 0.956828 ---
説明変数によって疾患の発症と非発症が完全に決まってしまう時は計算不可能
変数 偏回帰係数 95%CI下限 上限 オッズ比 95%CI下限 上限 --- 定数 -448.932 -11607.6 10709.7
x 1 2.26982 -55.9135 60.4531 9.67765 5.21308e-25 1.79658e+26 x 2 -0.340886 -12.6829 12.0011 0.71114 3.10384e-06 162934 --- 対数尤度:回帰L(β)=-5.24827e-05 定数項L0=-16.8253 飽和Lf=0
擬似寄与率R^2=0.999997 AIC(赤池の情報量基準)=6.0001 回帰とズレの検定
要因 (-1)*対数尤度 自由度 χ^2値 有意確率p値 --- 回帰 16.8252 2 33.6505 4.93051e-08***
ズレ(LOF) 5.24827e-05 22 0.000104965 1 --- 全体 16.8253 24
・偏回帰係数の標準誤差が非常に大きな値になり、偏回帰係数とオッズ比の
95%信頼区間が異
常な値になっている。←計算が発散して不適解になったため6.3 変数の選択
変数選択法は重回帰分析と同様
(1) 変数選択法
できるだけ少ない変数で、できるだけ効率的に疾患の発症を予測できる、簡便で実用的なロジ スティック回帰式を組み立てるための手法。重回帰分析の変数選択法と同じ原理。
i) 変数指定方法…実質科学的な知見に基づいて適当な変数を指定 ii) 総当たり法…全ての変数の組み合わせを計算し、最良のものを選択 iii) 逐次選択法 …一定の規則に従って変数を逐次選択
変数増加法(前進的選択法)、変数減少法(後退的選択法)、変数増減法、変数減増法
(2) 変数増減法の手順
1) 最初の変数の取り込み
単独でロジットに最も寄与している変数、つまりワルドの
χ
2値が最大の変数を取り込む。2) 次の変数の取り込み
残りの変数から今取り込んだ変数と共有する情報を取り除き、その上でワルドの
χ
2値が最大の ものを探す。そしてその変数が取り込み基準を満足するなら取り込む。図 6.2
1つの説明変数を取り込んだ時
ロジット情報全体自由度=残差n-2
x1
寄与分
・各種の取り込み基準
i) ワルドの χ
2値が基準値以上ii) 有意確率 p
値が基準値以下3) 変数の追い出し
これまでに取り込んだ変数のうち、ワルドの
χ
2値が最小のものを探す。そしてその変数が追い 出し基準を満足するなら追い出す。図 6.4 説明変数の追い出し ロジット情報全体
残差
x1 xj
xkを追い出す
xk
図 6.3
次の説明変数を取り込んだ時
ロジット情報全体自由度=残差n-3
x1 xj
xjの単独寄与分
・各種の追い出し基準
i) ワルドの χ
2値が基準値未満ii) 有意確率 p
値が基準値より大きい4) 変数選択の終了
2)に戻って変数の取り込みを続け、取り込む変数も追い出す変数もなくなるまで 2)と 3)を繰り
返す。
(3) 変数選択の例
=== ロジスティック回帰分析(logistic regression analysis) === [DANS V7.0]
データ名:表6.1
目的変数y :動脈硬化症 (0:無 1:有) 説明変数x 1:脂質異常スコア
説明変数x 2:性 (0:男 1:女) 説明変数x 3:年齢 (才)
・各変数の基礎統計量
--- x 1:例数=25 平均値=1.2 標準偏差=0.707107 標準誤差=0.141421 x 2:例数=25 平均値=0.52 標準偏差=0.509902 標準誤差=0.10198 x 3:例数=25 平均値=41.28 標準偏差=11.0133 標準誤差=2.20267 y 1:例数=25 平均値=0.4 標準偏差=0.5 標準誤差=0.1 --- 反応有:コード=1 例数=10 反応無:コード=1以外 例数=15
・相関行列(correlation coefficient matrix) x 1 x 2 x 3 y 1
--- x 1 1 -0.069 0.009 0.471 x 2 -0.069 1 0.151 0.131 x 3 0.009 0.151 1 -0.157 y 1 0.471 0.131 -0.157 1 ---
・前進的変数増減法(stepwise forward selection method)による変数選択結果 取り込み基準:χ^2値≧2 追い出し基準:χ^2値<2 反復回数:5
ロジットモデル:p=1/{1+exp(-β0-Σβj・xj)}
p:y=1(反応有)の確率 β0:定数 βj:変数xjの偏回帰係数
標準 有意確率 変数 偏回帰係数 標準誤差 オッズ比 偏回帰係数 Waldのχ^2 p値 --- 定数 -2.634 1.18234 4.96304 0.0258947*
x 1 1.73219 0.800372 5.65305 1.22485 4.68392 0.0304462*
---
変数 偏回帰係数 95%CI下限 上限 オッズ比 95%CI下限 上限 --- 定数 -2.634 -4.95135 -0.316658
x 1 1.73219 0.163494 3.30089 5.65305 1.17762 27.1369 --- 対数尤度:回帰L(β)=-13.7193 定数項L0=-16.8253 飽和Lf=-13.3668
擬似寄与率R^2=0.898076 AIC(赤池の情報量基準)=31.4386 回帰とズレの検定
要因 (-1)*対数尤度 自由度 χ^2値 有意確率p値 --- 回帰 3.10599 1 6.21198 0.0126888*
ズレ(LOF) 0.352502 1 0.705004 0.401107 --- 全体 3.45849 2
ある変数が疾患の発症に寄与していないことを検証したい時は変数選択をしない方が良い 変数選択法で選択されなかった変数は疾患の発症に寄与していないとは限らない
変数選択法で得られた変数の組み合わせは実質科学的に最適なものとは限らない
実質科学的に解釈困難な結果または実用的ではない結果なら 特定の変数を強制的に取り込んだり追い出したりして
色々なロジスティック回帰式を検討した方が良い
6.4 順序ロジスティック回帰分析
目的変数が順序尺度の時は順序ロジスティック回帰分析を用いることができる
(1) 累積ロジスティックモデル
目的変数が疾患の有無ではなく、表
6.2
の動脈硬化症重症度のような順序尺度のデータの時 は、順序ロジスティック回帰分析を適用することができる。<表
6.2 動脈硬化症の重症度と脂質異常スコア等>
No.
動脈硬化症重症度 脂質異常スコア 性 年齢1
無1
男21
2
無1
男30
3
無1
男37
4
無1
女24
5
無1
女56
6
無1
女58
7
無2
男46
8
無2
女24
9
無2
女38
10
無2
女58
11
無3
女26
12
無3
女41
13
軽症1
男23
14
軽症1
男43
15
軽症1
男47
16
軽症1
女22
17
軽症1
女39
18
軽症1
女52
19
軽症2
男35
20
軽症2
男41
21
軽症2
男45
22
軽症2
男53
23
軽症2
女23
24
軽症2
女28
25
軽症2
女32
26
軽症2
女43
27
軽症3
男40
28
軽症3
女24
29
軽症3
女27
30
軽症3
女42
31
重症1
男20
32
重症1
男44
33
重症1
女34
34
重症2
男35
35
重症2
男37
36
重症2
女42
37
重症2
女51
38
重症3
男36
39
重症3
男41
40
重症3
男51
41
重症3
男55
42
重症3
女21
43
重症3
女35
44
重症3
女36
・累積ロジスティックモデル(比例オッズモデル)
i) ロジスティックモデル 1:無を疾患無、軽症と重症を疾患有と考えた時のモデル
l 1 =ln ( p 1
1− p 1 )=b 10 + b 1 x 1 + ⋯+ b p x p
p 1 = 1
1+ exp (−b 10 −b 1 x 1 −⋯−b p x p )
l1:p1のロジット p1:軽症または重症になる確率 b10:定数 b1~bp:偏回帰係数
ii) ロジスティックモデル 2:無と軽症を疾患無、重症を疾患有と考えた時のモデル
l 2 = ln ( p 2
1− p 2 )=b 20 + b 1 x 1 + ⋯+ b p x p
p 2 = 1
1+ exp(−b 20 − b 1 x 1 −⋯−b p x p )
l2:p2のロジット p2:重症になる確率 b20:定数 b1~bp:偏回帰係数
この
2
つのモデルは、定数が異なるだけで偏回帰係数は同じと仮定したモデル。偏回帰係数 が同じということは、2つのモデルのロジットの違いは定数b 10
とb 20
の差に影響されるだけで、説 明変数には影響されないということ。その結果、これらのモデルのロジスティック曲線は、図
6.5
のように立ち上がりの位置が異なる だけで傾きは同じになる。確率
(p
1)
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8 1
説明変数
(x)
図 6.5 累積ロジスティックモデル
モデル
1
モデル
2
疾患無:無↓
↑
疾患有:軽症・重症
● ● ● ● ●
●● ● ● ● ● ●● ●
確率
(p
2)
● ● ● ●●
● ● ●
● ● ● ● ● ●
疾患無:無・軽症
↓
↑
疾患有:重症説明変数
(x)
(2) 計算結果
=== 順序ロジスティック回帰分析 === [DANS V7.0]
データ名:表6.2
目的変数y :動脈硬化症重症度 (0:症状なし 1:軽症 2:重症) 説明変数x 1:脂質異常スコア
説明変数x 2:性 (0:男 1:女) 説明変数x 3:年齢 (才)
○順序1:動脈硬化症重症度 (0:症状なし 1:軽症 2:重症)=0
・各変数の基礎統計量
--- x 1:例数=12 平均値=1.66667 標準偏差=0.778499 標準誤差=0.224733 x 2:例数=12 平均値=0.666667 標準偏差=0.492366 標準誤差=0.142134 x 3:例数=12 平均値=38.25 標準偏差=13.7717 標準誤差=3.97554 ---
○順序2:動脈硬化症重症度 (0:症状なし 1:軽症 2:重症)=1
・各変数の基礎統計量
--- x 1:例数=18 平均値=1.88889 標準偏差=0.758395 標準誤差=0.178755 x 2:例数=18 平均値=0.555556 標準偏差=0.51131 標準誤差=0.120517 x 3:例数=18 平均値=36.6111 標準偏差=10.1873 標準誤差=2.40117 ---
○順序3:動脈硬化症重症度 (0:症状なし 1:軽症 2:重症)=2
・各変数の基礎統計量
--- x 1:例数=14 平均値=2.28571 標準偏差=0.82542 標準誤差=0.220603 x 2:例数=14 平均値=0.428571 標準偏差=0.513553 標準誤差=0.137253 x 3:例数=14 平均値=38.4286 標準偏差=10.1581 標準誤差=2.71486 ---
○全体・各変数の基礎統計量
--- x 1:例数=44 平均値=1.95455 標準偏差=0.805636 標準誤差=0.121454 x 2:例数=44 平均値=0.545455 標準偏差=0.503686 標準誤差=0.0759336 x 3:例数=44 平均値=37.6364 標準偏差=11.0224 標準誤差=1.66168 y 1:例数=44 平均値=2.04545 標準偏差=0.776233 標準誤差=0.117021 ---
・相関行列(correlation coefficient matrix) x 1 x 2 x 3 y 1
--- x 1 1 0.120 0.001 0.301 x 2 0.120 1 -0.114 -0.184 x 3 0.001 -0.114 1 0.010 y 1 0.301 -0.184 0.010 1 ---
・累積ロジットモデル:pk=1/{1+exp(-β0k-Σβj・xj)} 反復回数:4 pk:順序(k+1)以上の累積確率 β0k:kの定数 βj:変数xjの偏回帰係数
標準 有意確率 変数 偏回帰係数 標準誤差 オッズ比 偏回帰係数 Waldのχ^2 p値 --- 定数 1 0.0845924 1.33833 0.00399517 0.949601 定数 2 -1.87488 1.37266 1.8656 0.17198 x 1 0.835876 0.383019 2.30683 0.673412 4.7626 0.0290845*
x 2 -0.892357 0.596739 0.409689 -0.449468 2.23619 0.134813 x 3 -0.00344161 0.0268545 0.996564 -0.0379347 0.0164244 0.898024 --- 変数 偏回帰係数 95%CI下限 上限 オッズ比 95%CI下限 上限 --- 定数 1 0.0845924 -2.53849 2.70767
定数 2 -1.87488 -4.56525 0.815491
x 1 0.835876 0.0851737 1.58658 2.30683 1.08891 4.887 x 2 -0.892357 -2.06194 0.27723 0.409689 0.127207 1.31947 x 3 -0.00344161 -0.0560754 0.0491922 0.996564 0.945468 1.05042 --- 対数尤度:回帰L(β)=-44.4207 定数項L0=-47.712 飽和Lf=-1.38629
擬似寄与率R^2=0.0710469 AIC(赤池の情報量基準)=96.8414 回帰とズレの検定
要因 (-1)*対数尤度 自由度 χ^2値 有意確率p値 --- 回帰 3.29129 3 6.58259 0.0864617+
ズレ(LOF) 43.0344 39 86.0688 2.11596e-05***
--- 全体 46.3257 42
・ロジスティック回帰式
i) ロジスティックモデル 1
l 1 =ln ( p 1
1− p 1 )=0.0845924+ 0.835876 x 1 −0.892357 x 2 −0.00344161 x 3 ii) ロジスティックモデル 2
l 2 = ln ( p 2
1− p 2 )=−1.87488+ 0.835876 x 1 −0.892357 x 2 −0.00344161 x 3 (3) 重症度の予測方法
・表
6.2
のNo.13
の被験者:重症度=1(軽症)、脂質異常スコア=1、性=0(男)、年齢=23i) ロジスティックモデル 1
l 1 =0.0845924+ 0.835876×1−0.892357×0−0.00344161× 23=0.8413114
p 1 = 1
1+ exp (−0.8413114)
≒0.699
…軽症または重症の確率ii) ロジスティックモデル 2
l 1 =−1.87488+ 0.835876×1−0.892357×0−0.00344161 ×23=−1.118161
p 1 = 1
1+ exp (1.118161)
≒0.246
…重症の確率i)と ii)より、
・症状無になる確率
1-p
1(軽症または重症になる確率)=1-0.699=0.301
・軽症になる確率
p
1(軽症または重症になる確率)-p
2(重症になる確率)=0.699-0.246=0.453
・重症になる確率
p
2(重症になる確率)=0.246
これらの確率を比べると、この被験者は軽症になる確率が最も高い。→実際の重症度も軽症
確率
0 0.2 0.4 0.6 0.8 1
説明変数
(x)
図 6.6 各重症度になる確率
モデル
1→
←モデル
2
重症になる確率
=0.246
軽症になる確率=0.453
症状無になる確率
=0.301 p
1=0.699→
←p
2=0.246
(4) 重回帰分析を適用した場合
=== 重回帰分析(multiple regression analysis) === [DANS V7.0]
データ名:表6.2
目的変数y :動脈硬化症 (0:症状なし 1:軽症 2:重症) 説明変数x 1:脂質異常スコア
説明変数x 2:性 (0:男 1:女) 説明変数x 3:年齢 (才)
・全変数を選択した結果
標準 有意確率 変数 偏回帰係数 標準誤差 偏回帰係数 偏相関係数 偏F値 p値 --- 定数 0.659011 0.508394 1.68029 0.202315 x 1 0.315884 0.142331 0.32785 0.331117 4.92557 0.032197*
x 2 -0.34666 0.229156 -0.224943 -0.232628 2.28847 0.1382 x 3 -0.00111275 0.0103962 -0.0158009 -0.0169212 0.0114564 0.915297 --- 変数 偏回帰係数 95%信頼区間幅 下限 上限
--- 定数 0.659011 1.0275 -0.368491 1.68651 x 1 0.315884 0.287662 0.0282225 0.603546 x 2 -0.34666 0.463141 -0.809801 0.116481 x 3 -0.00111275 0.0210115 -0.0221243 0.0198988 ---
重寄与率(決定係数)R^2=0.13984 自由度調整済重寄与率(決定係数)R'^2=0.0753285 重相関係数 R =0.373952 自由度調整済重相関係数 R' =0.27446 分散分析表(ANOVA table)
要因 平方和 自由度 平均平方和 F値 有意確率p値 --- 回帰 3.62314 3 1.20771 2.16767 0.106887 残差 22.286 40 0.557149
--- 全体 25.9091 43
・重回帰式
y=0.659011+ 0.315884 x 1 − 0.34666 x 2 −0.00111275 x 3
・表
6.2
のNo.13
の被験者:重症度=1(軽症)、脂質異常スコア=1、性=0(男)、年齢=23y=0.659011+ 0.315884×1−0.34666×0−0.00111275× 23=0.9493018
この結果から、この被験者の重症度は1(軽症)に近いと予想できる。
目的変数が順序尺度のデータの時は
順序ロジスティック回帰分析を適用するよりも重回帰分析を適用した方が実用的