6.1 ロジスティック回帰分析の原理

(1)

6 6．ロジスティック回帰分析

．ロジスティック回帰分析

6.1 ロジスティック回帰分析の原理

ロジスティック回帰分析は判別分析を前向きデータ用にした手法

(1) ロジスティックモデル

ロジスティック回帰分析(ロジット回帰分析)は、判別分析をロジスティック曲線によって前向き研究から得られたデータ用にした手法。多種類のリスクファクターに基いて、被験者が疾患を発症するかどうかを予想したり、リスクファクターの影響力を検討したりするための手法。

・ロジスティックモデル(ロジットモデル)

l =ln ( p

1− p )=b ₀ + b ₁ x ₁ + ⋯+ b _p x _p

p = 1

1+ exp (−l ) = 1

1+ exp (−b ₀ −b ₁ x ₁ −⋯−b _p x _p )

l：ロジット(対数オッズ)　p：疾患を発症する確率　b

0：定数　b1～bp：偏回帰係数

このモデルは、第

5

章第

5

節で説明した判別スコアを確率に変換するロジスティック曲線の式において、事前確率の項

ln{π

1

/(1-π

1

)}と定数 a

0を一緒にして

b

0にしたものに相当する。

このモデルを前向き研究から得られたデータに適用し、重回帰分析の原理を応用して定数と偏回帰係数を求める手法がロジスティック回帰分析。

これは目的変数が名義尺度のデータで、説明変数が計量尺度のデータである回帰分析に相疾患が発症するかどうかをリスクファクターから予想したい

または

疾患のリスクファクターを検討したい

判別分析は後ろ向きデータ用だから前向きデータ用にする必要がある

ロジスティック回帰分析を適用

(2)

当し、図

6.1

のように

2

分類(疾患の有無)のデータを直線の代わりにシグモイド曲線(S字状曲線) で回帰する手法である。ちなみに、直線で回帰する手法はコクラン・アーミテージの傾向検定。

(2) 一般化線形モデル

0 0.5 1

疾患の確率

x

：リスクファクター

図 6.1 ロジスティック曲線と回帰直線

確率をロジットに変換するのは説明変数との関係を直線的つまり線形にするため

目的変数を線形にする変換関数のことをリンク関数

(

連結関数

)

と呼ぶ

リンク関数によって線形にしたモデルも線形モデルとして扱う一般化線形モデル

(GLM

：

generalized linear model)

疾患が発症する前に、疾患が発症するかどうかをリスクファクターから予想したい

↓

ロジスティック回帰分析…前向き研究から得られたデータを用いる

疾患が発症した後で、疾患であるかどうかを診断指標とリスクファクターから診断したい

↓

判別分析…後ろ向き研究から得られたデータを用いる

(3)

6.2 ロジスティック回帰分析結果の解釈

ロジスティック回帰分析ではオッズ比を指標にする

(1) ロジスティック回帰分析の適用例

脂質異常が動脈硬化症のリスクファクターになるかどうかを検討するために、25名の被験者を対象にして動脈硬化症が発症するかどうかを前向きに観察した。

被験者の動脈硬化症の発症の有無と、脂質異常スコア(脂質異常の程度を表す解説用仮想データ)、性、年齢は表

6.1

のとおり。性と年齢はリスクファクターというよりも、被験者の背景因子の代表的項目。

＜表

6.1 動脈硬化症の有無と脂質異常スコア等＞

No.

21

24

有

2

女

56

25

有

2

女

58 (2) 計算結果

=== ロジスティック回帰分析(logistic regression analysis) === [DANS V7.0]

データ名:表6.1

目的変数y :動脈硬化症 (0:無 1:有) 説明変数x 1:脂質異常スコア

説明変数x 2:性 (0:男 1:女) 説明変数x 3:年齢 (才)

・各変数の基礎統計量

--- x 1:例数=25 平均値=1.2 標準偏差=0.707107 標準誤差=0.141421 x 2:例数=25 平均値=0.52 標準偏差=0.509902 標準誤差=0.10198 x 3:例数=25 平均値=41.28 標準偏差=11.0133 標準誤差=2.20267 y 1:例数=25 平均値=0.4 標準偏差=0.5 標準誤差=0.1 --- 反応有:コード=1 例数=10 反応無:コード=1以外例数=15

・相関行列(correlation coefficient matrix) x 1 x 2 x 3 y 1

--- x 1 1 -0.069 0.009 0.471 x 2 -0.069 1 0.151 0.131 x 3 0.009 0.151 1 -0.157 y 1 0.471 0.131 -0.157 1 ---

・全変数を選択した結果(反復回数:4)

ロジットモデル:p=1/{1+exp(-β0-Σβj・xj)}

p:y=1(反応有)の確率 β0:定数 βj:変数xjの偏回帰係数

標準有意確率変数偏回帰係数標準誤差オッズ比偏回帰係数 Waldのχ^2 p値 --- 定数 -1.53326 2.18006 0.494649 0.481861 x 1 2.08029 0.923026 8.0068 1.47099 5.07949 0.0242105*

x 2 1.3481 1.11576 3.8501 0.687399 1.45983 0.226957 x 3 -0.0560363 0.0494628 0.945505 -0.617146 1.28345 0.257258 ---

(5)

変数偏回帰係数 95%CI下限上限オッズ比 95%CI下限上限 --- 定数 -1.53326 -5.80609 2.73957

x 1 2.08029 0.271193 3.88939 8.0068 1.31153 48.881 x 2 1.3481 -0.838749 3.53495 3.8501 0.432251 34.2933 x 3 -0.0560363 -0.152982 0.0409091 0.945505 0.858145 1.04176 --- 対数尤度:回帰L(β)=-12.5043 定数項L0=-16.8253 飽和Lf=0

擬似寄与率R^2=0.256816 AIC(赤池の情報量基準)=33.0086 回帰とズレの検定

要因 (-1)*対数尤度自由度 χ^2値有意確率p値 --- 回帰 4.32101 3 8.64201 0.0344493*

ズレ(LOF) 12.5043 21 25.0086 0.246793 --- 全体 16.8253 24

(3) 各種パラメーターの意味

・ロジスティック回帰式…ロジットと説明変数の因果関係をロジスティックモデルで近似した式

l=ln ( p

1− p )=−1.53326+ 2.08029 x ₁ + 1.3481 x ₂ −0.0560363 x ₃

p= 1

1+ exp (1.53326 −2.08029 x ₁ −1.3481 x ₂ + 0.0560363 x ₃ ) l：ロジット(対数オッズ)　　p：動脈硬化症の発症確率

・偏回帰係数…重回帰分析の偏回帰係数に相当する係数

ロジットの変化量＝対数オッズの差

・標準誤差…偏回帰係数の標準誤差

・オッズ比…偏回帰係数(対数オッズの差)を指数変換してオッズの比にした値

調整オッズ比または補正オッズ比とも呼ばれる

反応率が小さい(10%未満)時、相対危険度の近似値と解釈できる他の変数が一定という条件で各変数が

1

増加した時

ロジットがいくつ変化するかを表す値

他の変数が一定という条件で各変数が

1

増加した時オッズが相対的に何倍になるかを表す値

(6)

・標準偏回帰係数…説明変数を標準偏差単位にした時の偏回帰係数、重回帰式の標準偏回帰係数に相当

・ワルドの

χ

²値…偏回帰係数が

0

かどうかの検定を行うための検定統計量この値は変数選択の基準値として利用されることもある。→第

3

節参照

・偏回帰係数の

95%信頼区間…偏回帰係数の推定結果

偏回帰係数について実質科学的に考察するための情報。

・オッズ比の

95%信頼区間…偏回帰係数の 95%信頼区間を指数変換した値

オッズ比について実質科学的に考察するための情報。

・AIC（赤池の情報量基準）…モデルの適合度を表す指標

AIC

は回帰誤差と説明変数の数の両方を考慮した指標。この値が小さいほど単純でかつ適合度の良いモデルであることを表す。

・回帰とズレの検定…偏回帰係数の検定と、モデルとデータのズレの検定

回帰の検定は全ての偏回帰係数が

0

かどうかの検定。ズレの検定はモデルと実際のデータのズレが

0

かどうかの検定。

(4) ロジスティック回帰分析の注意点

i) 誤差の少ない信頼のおける多数のデータに適用したか？

目安：例数≧(変数の数☓

10)または(変数の数の 2

乗)の大きい方他の変数が一定という条件で各変数が「

1

標準偏差」増加した時

ロジットがいくつ変化するかを表す値

回帰の検定結果：有意、ズレの検定結果：有意ではない

とりあえずモデルが適合していると解釈

しかし検定結果よりもロジスティック回帰式全体を実質科学的に考察する方が大切

(7)

疾患の発症例数と非発症例数はできるだけ同じくらいが理想

ii) ロジスティック回帰分析に組み込んだ項目が適当か？

iii) 組み込んだ項目はリスクファクターだけか？診断指標に相当するものはないか？

iv) ロジスティック回帰式が実質科学的に納得できるか？

v) ロジットは確率が 0

または

1

になる時は計算できないので注意！

例えば第

5

章の表

5.1

のデータにロジスティック回帰分析を適用すると、途中で計算が発散して不適解になる。これは、TCと

TG

で正常群と動脈硬化群が完全に判別可能のため。

データ名:表5.1

目的変数y :群 (0:正常 1:動脈硬化症) 説明変数x 1:TC (mg/dl)

説明変数x 2:TG (mg/dl)

--- x 1:例数=25 平均値=224.4 標準偏差=28.2961 標準誤差=5.65921 x 2:例数=25 平均値=207.2 標準偏差=60.1747 標準誤差=12.0349 y 1:例数=25 平均値=0.4 標準偏差=0.5 標準誤差=0.1 --- 反応有:コード=1 例数=10 反応無:コード=1以外例数=15

・相関行列(correlation coefficient matrix) x 1 x 2 y 1

--- x 1 1 0.499 0.783 x 2 0.499 1 0.025 y 1 0.783 0.025 1 ---

・全変数を選択した結果(反復回数:11)

p:y=1(反応有)の確率 β0:定数 βj:変数xjの偏回帰係数偏回帰係数初期値:β0=-61.569 β1=0.335192 β2=-0.074889

標準有意確率変数偏回帰係数標準誤差オッズ比偏回帰係数 Waldのχ^2 p値 --- 定数 -448.932 5693.3 0.00621775 0.93715 x 1 2.26982 29.6859 9.67765 64.2269 0.00584632 0.939052 x 2 -0.340886 6.29705 0.71114 -20.5127 0.00293052 0.956828 ---

説明変数によって疾患の発症と非発症が完全に決まってしまう時は計算不可能

(8)

変数偏回帰係数 95%CI下限上限オッズ比 95%CI下限上限 --- 定数 -448.932 -11607.6 10709.7

x 1 2.26982 -55.9135 60.4531 9.67765 5.21308e-25 1.79658e+26 x 2 -0.340886 -12.6829 12.0011 0.71114 3.10384e-06 162934 --- 対数尤度:回帰L(β)=-5.24827e-05 定数項L0=-16.8253 飽和Lf=0

要因 (-1)*対数尤度自由度 χ^2値有意確率p値 --- 回帰 16.8252 2 33.6505 4.93051e-08***

ズレ(LOF) 5.24827e-05 22 0.000104965 1 --- 全体 16.8253 24

・偏回帰係数の標準誤差が非常に大きな値になり、偏回帰係数とオッズ比の

95%信頼区間が異

常な値になっている。←計算が発散して不適解になったため

(9)

6.3 変数の選択

変数選択法は重回帰分析と同様

(1) 変数選択法

できるだけ少ない変数で、できるだけ効率的に疾患の発症を予測できる、簡便で実用的なロジスティック回帰式を組み立てるための手法。重回帰分析の変数選択法と同じ原理。

i) 変数指定方法…実質科学的な知見に基づいて適当な変数を指定 ii) 総当たり法…全ての変数の組み合わせを計算し、最良のものを選択 iii) 逐次選択法 …一定の規則に従って変数を逐次選択

変数増加法(前進的選択法)、変数減少法(後退的選択法)、変数増減法、変数減増法

(2) 変数増減法の手順

1) 最初の変数の取り込み

単独でロジットに最も寄与している変数、つまりワルドの

χ

²値が最大の変数を取り込む。

2) 次の変数の取り込み

残りの変数から今取り込んだ変数と共有する情報を取り除き、その上でワルドの

χ

²値が最大のものを探す。そしてその変数が取り込み基準を満足するなら取り込む。

図 6.2

１つの説明変数を取り込んだ時

ロジット情報全体

自由度＝残差n-2

x₁

寄与分

(10)

・各種の取り込み基準

i) ワルドの χ

²値が基準値以上

ii) 有意確率 p

値が基準値以下

3) 変数の追い出し

これまでに取り込んだ変数のうち、ワルドの

χ

²値が最小のものを探す。そしてその変数が追い出し基準を満足するなら追い出す。

図 6.4 説明変数の追い出しロジット情報全体

残差

x1 x_j

x_kを追い出す

x_k

図 6.3

次の説明変数を取り込んだ時

ロジット情報全体

自由度＝残差n-3

x1 x_j

x_jの単独寄与分

(11)

・各種の追い出し基準

i) ワルドの χ

²値が基準値未満

ii) 有意確率 p

値が基準値より大きい

4) 変数選択の終了

2)に戻って変数の取り込みを続け、取り込む変数も追い出す変数もなくなるまで 2)と 3)を繰り

返す。

(3) 変数選択の例

データ名:表6.1

目的変数y :動脈硬化症 (0:無 1:有) 説明変数x 1:脂質異常スコア

--- x 1:例数=25 平均値=1.2 標準偏差=0.707107 標準誤差=0.141421 x 2:例数=25 平均値=0.52 標準偏差=0.509902 標準誤差=0.10198 x 3:例数=25 平均値=41.28 標準偏差=11.0133 標準誤差=2.20267 y 1:例数=25 平均値=0.4 標準偏差=0.5 標準誤差=0.1 --- 反応有:コード=1 例数=10 反応無:コード=1以外例数=15

--- x 1 1 -0.069 0.009 0.471 x 2 -0.069 1 0.151 0.131 x 3 0.009 0.151 1 -0.157 y 1 0.471 0.131 -0.157 1 ---

・前進的変数増減法(stepwise forward selection method)による変数選択結果取り込み基準:χ^2値≧2 追い出し基準:χ^2値＜2 反復回数:5

p:y=1(反応有)の確率 β0:定数 βj:変数xjの偏回帰係数

標準有意確率変数偏回帰係数標準誤差オッズ比偏回帰係数 Waldのχ^2 p値 --- 定数 -2.634 1.18234 4.96304 0.0258947*

x 1 1.73219 0.800372 5.65305 1.22485 4.68392 0.0304462*

---

(12)

変数偏回帰係数 95%CI下限上限オッズ比 95%CI下限上限 --- 定数 -2.634 -4.95135 -0.316658

x 1 1.73219 0.163494 3.30089 5.65305 1.17762 27.1369 --- 対数尤度:回帰L(β)=-13.7193 定数項L0=-16.8253 飽和Lf=-13.3668

要因 (-1)*対数尤度自由度 χ^2値有意確率p値 --- 回帰 3.10599 1 6.21198 0.0126888*

ズレ(LOF) 0.352502 1 0.705004 0.401107 --- 全体 3.45849 2

ある変数が疾患の発症に寄与していないことを検証したい時は変数選択をしない方が良い変数選択法で選択されなかった変数は疾患の発症に寄与していないとは限らない

変数選択法で得られた変数の組み合わせは実質科学的に最適なものとは限らない

実質科学的に解釈困難な結果または実用的ではない結果なら特定の変数を強制的に取り込んだり追い出したりして

色々なロジスティック回帰式を検討した方が良い

(13)

6.4 順序ロジスティック回帰分析

目的変数が順序尺度の時は順序ロジスティック回帰分析を用いることができる

(1) 累積ロジスティックモデル

目的変数が疾患の有無ではなく、表

6.2

の動脈硬化症重症度のような順序尺度のデータの時は、順序ロジスティック回帰分析を適用することができる。

＜表

6.2 動脈硬化症の重症度と脂質異常スコア等＞

No.

28

25

軽症

2

女

32

34

重症

2

36

・累積ロジスティックモデル(比例オッズモデル)

i) ロジスティックモデル 1：無を疾患無、軽症と重症を疾患有と考えた時のモデル

l ₁ =ln ( p ₁

1− p ₁ )=b ₁₀ + b ₁ x ₁ + ⋯+ b _p x _p

p ₁ = 1

1+ exp (−b ₁₀ −b ₁ x ₁ −⋯−b _p x _p )

　l1：p1のロジット　p1：軽症または重症になる確率　b10：定数　b1～bp：偏回帰係数

ii) ロジスティックモデル 2：無と軽症を疾患無、重症を疾患有と考えた時のモデル

l ₂ = ln ( p ₂

1− p ₂ )=b ₂₀ + b ₁ x ₁ + ⋯+ b _p x _p

(15)

p ₂ = 1

1+ exp(−b ₂₀ − b ₁ x ₁ −⋯−b _p x _p )

　l2：p2のロジット　　p2：重症になる確率　　b20：定数　　b1～bp：偏回帰係数

この

2

つのモデルは、定数が異なるだけで偏回帰係数は同じと仮定したモデル。偏回帰係数が同じということは、2つのモデルのロジットの違いは定数

b ₁₀

と

b ₂₀

の差に影響されるだけで、説明変数には影響されないということ。

その結果、これらのモデルのロジスティック曲線は、図

6.5

のように立ち上がりの位置が異なるだけで傾きは同じになる。

確率

(p

₁

)

0 0.2 0.4 0.6 0.8 1

説明変数

(x)

図 6.5 累積ロジスティックモデル

モデル

1

モデル

2

疾患無：無

↓

↑

疾患有：軽症・重症

● ● ● ● ●

●● ● ● ● ● ●● ●

確率

(p

₂

)

● ● ● ●●

● ● ●

● ● ● ● ● ●

疾患無：無・軽症

↓

↑

疾患有：重症

説明変数

(x)

(16)

(2) 計算結果

=== 順序ロジスティック回帰分析 === [DANS V7.0]

データ名:表6.2

目的変数y :動脈硬化症重症度 (0:症状なし 1:軽症　2:重症) 説明変数x 1:脂質異常スコア

○順序1:動脈硬化症重症度 (0:症状なし 1:軽症　2:重症)=0

--- x 1:例数=12 平均値=1.66667 標準偏差=0.778499 標準誤差=0.224733 x 2:例数=12 平均値=0.666667 標準偏差=0.492366 標準誤差=0.142134 x 3:例数=12 平均値=38.25 標準偏差=13.7717 標準誤差=3.97554 ---

○全体・各変数の基礎統計量

--- x 1:例数=44 平均値=1.95455 標準偏差=0.805636 標準誤差=0.121454 x 2:例数=44 平均値=0.545455 標準偏差=0.503686 標準誤差=0.0759336 x 3:例数=44 平均値=37.6364 標準偏差=11.0224 標準誤差=1.66168 y 1:例数=44 平均値=2.04545 標準偏差=0.776233 標準誤差=0.117021 ---

--- x 1 1 0.120 0.001 0.301 x 2 0.120 1 -0.114 -0.184 x 3 0.001 -0.114 1 0.010 y 1 0.301 -0.184 0.010 1 ---

(17)

・累積ロジットモデル:pk=1/{1+exp(-β0k-Σβj・xj)} 反復回数:4 pk:順序(k+1)以上の累積確率 β0k:kの定数 βj:変数xjの偏回帰係数

標準有意確率変数偏回帰係数標準誤差オッズ比偏回帰係数 Waldのχ^2 p値 --- 定数 1 0.0845924 1.33833 0.00399517 0.949601 定数 2 -1.87488 1.37266 1.8656 0.17198 x 1 0.835876 0.383019 2.30683 0.673412 4.7626 0.0290845*

x 2 -0.892357 0.596739 0.409689 -0.449468 2.23619 0.134813 x 3 -0.00344161 0.0268545 0.996564 -0.0379347 0.0164244 0.898024 --- 変数偏回帰係数 95%CI下限上限オッズ比 95%CI下限上限 --- 定数 1 0.0845924 -2.53849 2.70767

定数 2 -1.87488 -4.56525 0.815491

x 1 0.835876 0.0851737 1.58658 2.30683 1.08891 4.887 x 2 -0.892357 -2.06194 0.27723 0.409689 0.127207 1.31947 x 3 -0.00344161 -0.0560754 0.0491922 0.996564 0.945468 1.05042 --- 対数尤度:回帰L(β)=-44.4207 定数項L0=-47.712 飽和Lf=-1.38629

要因 (-1)*対数尤度自由度 χ^2値有意確率p値 --- 回帰 3.29129 3 6.58259 0.0864617+

ズレ(LOF) 43.0344 39 86.0688 2.11596e-05***

--- 全体 46.3257 42

・ロジスティック回帰式

i) ロジスティックモデル 1

l ₁ =ln ( p ₁

1− p ₁ )=0.0845924+ 0.835876 x ₁ −0.892357 x ₂ −0.00344161 x ₃ ii) ロジスティックモデル 2

l ₂ = ln ( p ₂

1− p ₂ )=−1.87488+ 0.835876 x ₁ −0.892357 x ₂ −0.00344161 x ₃ (3) 重症度の予測方法

・表

6.2

の

No.13

の被験者：重症度=1(軽症)、脂質異常スコア=1、性=0(男)、年齢=23

(18)

i) ロジスティックモデル 1

^l ₁ =0.0845924+ 0.835876×1−0.892357×0−0.00344161× 23=0.8413114

p ₁ = 1

1+ exp (−0.8413114)

≒

0.699

…軽症または重症の確率

ii) ロジスティックモデル 2

^l ₁ ^=−1.87488+ 0.835876×1−0.892357×0−0.00344161 ×23=−1.118161

p ₁ = 1

1+ exp (1.118161)

≒

0.246

…重症の確率

i)と ii)より、

・症状無になる確率

1－p

1

(軽症または重症になる確率)=1-0.699=0.301

・軽症になる確率

p

1

(軽症または重症になる確率)－p

2

(重症になる確率)=0.699-0.246=0.453

・重症になる確率

p

2

(重症になる確率)=0.246

これらの確率を比べると、この被験者は軽症になる確率が最も高い。→実際の重症度も軽症

確率

0 0.2 0.4 0.6 0.8 1

説明変数

(x)

図 6.6 各重症度になる確率

モデル

1→

←モデル

2

重症になる確率

=0.246

軽症になる確率

=0.453

症状無になる

確率

=0.301 p

₁

=0.699→

←p

2

=0.246

(19)

(4) 重回帰分析を適用した場合

=== 重回帰分析(multiple regression analysis) === [DANS V7.0]

データ名:表6.2

目的変数y :動脈硬化症 (0:症状なし 1:軽症 2:重症) 説明変数x 1:脂質異常スコア

・全変数を選択した結果

標準有意確率変数偏回帰係数標準誤差偏回帰係数偏相関係数偏F値 p値 --- 定数 0.659011 0.508394 1.68029 0.202315 x 1 0.315884 0.142331 0.32785 0.331117 4.92557 0.032197*

x 2 -0.34666 0.229156 -0.224943 -0.232628 2.28847 0.1382 x 3 -0.00111275 0.0103962 -0.0158009 -0.0169212 0.0114564 0.915297 --- 変数偏回帰係数 95%信頼区間幅下限上限

--- 定数 0.659011 1.0275 -0.368491 1.68651 x 1 0.315884 0.287662 0.0282225 0.603546 x 2 -0.34666 0.463141 -0.809801 0.116481 x 3 -0.00111275 0.0210115 -0.0221243 0.0198988 ---

重寄与率(決定係数)R^2=0.13984 自由度調整済重寄与率(決定係数)R'^2=0.0753285 重相関係数 R =0.373952 自由度調整済重相関係数 R' =0.27446 分散分析表(ANOVA table)

要因平方和自由度平均平方和 F値有意確率p値 --- 回帰 3.62314 3 1.20771 2.16767 0.106887 残差 22.286 40 0.557149

--- 全体 25.9091 43

・重回帰式

y=0.659011+ 0.315884 x ₁ − 0.34666 x ₂ −0.00111275 x ₃

・表

6.2

の

No.13

の被験者：重症度=1(軽症)、脂質異常スコア=1、性=0(男)、年齢=23

y=0.659011+ 0.315884×1−0.34666×0−0.00111275× 23=0.9493018

この結果から、この被験者の重症度は

1(軽症)に近いと予想できる。

目的変数が順序尺度のデータの時は

順序ロジスティック回帰分析を適用するよりも重回帰分析を適用した方が実用的

6.1 ロジスティック回帰分析の原理

6

6．ロジスティック回帰分析