医学統計勉強会 第2 回 回帰分析 1
医学統計勉強会
東北大学病院循環器内科・東北大学臨床研究推進センター 共催
東北大学大学院医学系研究科
EBM 開発学寄附講座
宮田 敏
“Data! data! data!” he cried impatiently. “I can't make bricks without clay.”
From The Adventure of the Copper Beeches, The Adventure of Sherlock Holmes.
「データ!データ!データ!」ホームズはいらいらして叫んだ。「粘土が無けれ
医学統計勉強会 第2 回 回帰分析 2
第
2 回 回帰分析
1. 線形回帰モデル 第 1 回で取り上げた「基本統計量」は、単独の変数の持つ特徴、傾向、分布を 解析するものでした。しかし、自然科学、社会科学において取り扱われる現象 の多くは、複数の要因が相互に依存しあって成り立っています。今回取り上げ る回帰分析 (regression analysis) は、多数の変数の間の関係を解析する多変量 解析 (multivariate analysis) と呼ばれる手法の一つで、一つの連続数(実数) の値を複数の変数によって説明、予測する統計モデルになります。 多数の変数の間の関係を解析するのが回帰分析の目的ですが、最初は2 変数の 間の関係を解析することから始めます。 1. 1 二変量データの解析 いま、x と y、2 つの変数の組が n 組得られたとします。
x1,y1
, x2,y2
,,
xn,yn
このとき、x と y の関係を推測することを目的とします。例として、以下のもの を考えます。 Example 1: Galton の親子の身長のデータ 図1.1 は、205 組の夫婦の平均身長(インチ単位)と、彼らから生まれた 928 人の成人した子供の身長の関係を図示したものです。データは0.1 インチ単位に 丸められているため、格子点上に分布しています。また、そのために多くのサ ンプルが同じ位置にプロットされています。図1.1 から明らかな通り、身長の高 い両親からは身長の高い子が生まれる傾向があり、親子の身長の間には正の相 関関係があることがわかります。(「相関」という概念については、すぐ後で詳 述します) なおこのデータは、Galton, F. (1886) で取り上げられたものですが、筆者の Francis Galton は回帰分析や相関係数の概念を提唱した人物として知られてお り、この親子の身長のデータは回帰分析の歴史のごく初期の例として有名です。医学統計勉強会 第2 回 回帰分析
3
図1. 1
Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature
Journal of the Anthropological Institute, 15, 246-263 1. 2 二変量データの要約 基本統計量の解説で強調した通り、データ解析の第一歩はデータを数値的、視 覚的に要約し、データの持つ特徴、傾向を把握することにあります。 二変量データを視覚的に要約するもっとも簡単な方法は、図 1.1 にあるように 二つの変数の値を二次元平面にプロットしたもので、これを散布図 (scatter plot) と呼びます。 一方、二変量データを数量的に要約するには、1)個々の変数に対する通常の数 値的要約と、2)二変量の関係の強さを要約する「共分散」「相関係数」の概念 があります。 1)個々の変数に対する数量的要約:Galton の親子の身長
Min. 1st Qu. Median Mean 3rd Qu. Max. SD IQR parent 64 67.50 68.5 68.31 69.5 73 1.79 2 child 61.7 66.20 68.2 68.09 70.2 73.7 2.52 4 64 66 68 70 72 74 62 64 6 6 68 7 0 7 2 74 parent c h ild
医学統計勉強会 第2 回 回帰分析 4 parent, child 各変数の要約統計量を見ると、平均、中央値がほぼ等しく分布の 中心は同じである一方、標準偏差(SD)、四分位点間距離(IQR)を見ると、child の散らばりの方が大きいことがわかります。このことは、以下のヒストグラム、 ボックスプロットを用いた視覚的要約でも確認することが出来ます。 図1.2 2)共分散、相関係数 二変量のデータが存在し互いに影響し合っているとき、二つの変数がいかに影 響し合っているかを定量的に理解することを考えます。このとき、よく用いら れる統計量に以下の共分散と相関係数があります。 定義:今、
x1,y1
,, xn,yx
が与えられたとする。このとき x とyの間の共分散 を以下で定義する。
n
i xi x yi y n y x 1 1 , Cov 共分散の性質: x とyの間に正の(負の)相関があるとき、Cov(X, Y)はそれぞれ正(負)になる。 従って、共分散を考えるときは共分散の符号が問題で有り、共分散の値そのも のはあまり問題になりません。共分散の値は x とyの単位に依存しますが、単位 は二つの変数の相関にあまり関係がありません。 Histogram of parent parent Fr eq ue nc y 62 64 66 68 70 72 74 0 1 00 20 0 Histogram of child child F req uen c y 62 64 66 68 70 72 74 05 0 1 5 0 parent child 62 64 66 68 7 0 72 74医学統 二つ 次の x と 分は るの 定義 する Cor 相関 相 近 相 統計勉強会 つの変数の間 のようなもの yの間に正 は第1,3 象 ので、共分散 義:
x1,y1
, 。
x,y r rr 関係数の性質 相関係数は 近いほど、 1 1 r
1 r 相関係数は 間に正の相 のです。 正の相関が 象限に存在し 散
n i n 1 1
x ,n yx
, が
n i n n 1 1 1 質: は、 x とyの x とyの関 :正(負) は x とyの単 相関があると あるときデ します。第
x1 x
yi が与えられ
i n i i n x x x x 2 1 1 の線形関係 関係は直線 の完全な 単位に依存 とき,共分 図1.3 データ領域 1,3 象限の
y も正に れたとき、
n i i i y y n y y 1 係の強さを測 線に近い。 な相関。線形 存しない。 分散が正の値 をx, で分y のいずれで になります。 x とyの間
n i y 2 測る尺度。 形関係。 第 値をとる直 分割すると、 でも
x1 x
。 間の相関係数
n i n i i x x x x 1 2 1 相関係数の 第2 回 回帰 直感的な説明 、データの
yi y
0 数を以下で
n i i i y y y x 1 の絶対値が 帰分析 5 明は の大部 0 とな で定義
y 2 が1 に医学統 例、 Galt ます あり の直 1. 3 いま x と ただ (右 ます 誤差 こ 係を 際に 統計勉強会 共分散、相 ton の親子 す。共分散、 ます。また 直線関係は強 3 回帰分析 、二つの変 yの関係を だし、(左辺の 右辺の)説明 す。また、未 差項、撹乱項 のうち、 y を示していま に観測される 相関係数: 子の身長のデ 相関係数 た、相関係数 強くもなく 析 変数 x とyの を以下の回帰 の)説明され 明する変数 未知のパラ 項、error t x y0 1 ます。実際 る被説明変 Galton の データの場 数が正の値で 数の絶対値 弱くもない の関係が線 帰式 (regr yi 0 れる変数y x を独立変 メター0, termと呼び x を真の回 のデータに 変数yの値は の親子の身長 場合、共分散 ですから、 値は0 と 1 の い、といっ 線形(直線) ression equ i xi i, 1 yを,従属変 変数、説明変 1 , を回帰係 びます。 回帰関数とよ にはランダ は「真の回 図1.4 長 散=2.064、 親と子の身 の間くらい ったところで で近似でき uation) で n i1,, 変数、被説明 変数、inde 係数、regr よび、 x と ムな誤差 回帰関数+誤 第 相関係数= 身長の間に いであり、二 です。 きるとしま でモデル化し 明変数、res ependent v ression coe yの間に想 が含まれて 誤差」にな 第2 回 回帰 =0.459 と には正の相関 二つの変数 ます。そのと します。 ponse var variableと efficient、 想定した関 ているので なっています 帰分析 6 なり 関が 数の間 き、 iable, 呼び を 数関 で,実 す。
医学統計勉強会 第2 回 回帰分析 7 回帰モデルの仮定: 線形性 (linearity):被説明変数 y と説明変数 x の関係は直線で近似できる。 独立性 (independence):サンプル
x1,y1
,, xn,yx
は互いに独立である。す なわち,あるサンプルの値が他のサンプルの値に影響を与えない。 正規性 (normality):撹乱項は期待値0,分散 の正規分布に従う。正規2 分布については、以下に説明する。
2
, 0 ~ N 等分散性 (homoscedasticity):撹乱項の分散は(従って、被説明変数 y の 分散も) で一定である。2
. 2 2 E V 以上の仮定に従って、未知の回帰係数と真の回帰関数を推定するわけですが、 その前に、上の回帰モデルの仮定に出てきた「正規分布」という確率分布につい て解説しておきます。 1. 4 正規分布 正規分布 (normal distribution) は、最も代表的な連続型の(実数値をとる)確 率分布といえます。正規分布は自然界の様々な局面で登場しますが、特に計測 値に含まれるランダムな測定誤差を表すのに用いられています。 正規分布の確率密度関数は、以下のように与えられます。(「確率密度関数」と いう概念については、数理統計学の教科書を参照してください。)
exp
2
, . 2 1 2 2 x x x f 図1.5:標準正規分布の確率密度関数 -3 -2 -1 0 1 2 3 0. 0 0 .1 0. 2 0 .3 0. 4医学統計勉強会 第2 回 回帰分析 8 正規分布の特徴: i. E
X ,V
X 2. 正規分布は期待値(平均)= 、分散= 。 2 ii. 正規分布の分布型は、 と で特徴付けられる。すなわち、 あるいは2 が2 異なれば、異なる種類の正規分布になる。iii. 特に、期待値=0,分散=1 の正規分布を、標準正規分布 (standard normal
distribution) と呼ぶ。 iv. 釣り鐘型 (bell-shaped) で、左右対称な分布。 正規分布の極めて有用な性質: 前に述べたとおり、正規分布は様々な場面における測定誤差をモデル化するの に有用です。さらに,以下に述べるとおり様々な確率的現象が正規分布で近似 される、という性質を持つため,正規分布は極めて重要な確率分布となってい ます。 確率変数の標準化 (standardization): いま、X を期待値(平均)= 、分散= である確率変数とする。 2 このとき、Z X
とすると、
1
1 1. , 0 2 2 2 X V X V X E Z E すなわち、任意の確率変数 X に対して、Z X
は必ず期待値=0、分散=1 を持つ。この、Z X
なる変換を確率変数 X の標準化 (standardization) と呼ぶ。 正規確率変数の標準化: 上で述べた確率変数の標準化は任意の確率変数に対して成り立つが、特に、X が 期待値= 、分散= の正規分布に従うとき(このことを2
2
, ~ N X と表す)、 正規確率変数 X の標準化Z X
は期待値=0,分散=1 の標準正規分布
0,1 N に従います。 上の正規分布の特徴 (ii) で述べたとおり、正規分布は と が異なれば別の2 正規分布になりますが、標準化により全ての正規分布はN
0,1 に帰着します。中心極限定理 (Central Limit Theorem, CLT):
中心極限定理は,任意の確率分布から得られたサンプルの標本平均の分布は, サンプル数が大きくなるとき正規分布で近似できる,という重要な定理です。
医学統計勉強会 第2 回 回帰分析 9 定理:中心極限定理 n X X1,, を独立かつ同一の分布に従う確率変数とする。ただし、
2 , V X X E とする。このとき、標本平均の分布は正規分布に収束する。
n n N X n X n i i , , 1 2 1 中心極限定理では、元のデータX1,,Xnがどのような確率分布に従うか仮定さ れていないことに注意してください。すなわち、どのような確率的現象から出 発しても、十分多くのサンプルを集めれば、標本平均の性質は正規分布という 特定の確率分布で解析できることを示しています。 中心極限定理と正規確率変数の標準化: さらに、上に述べた標準化と中心極限定理を組み合わせれば、以下の結果を導 くことができます。 n X X1,, を独立かつ同一の分布に従う確率変数とする。E
X ,V
X 2と すると、E
X ,V
X 2 nとなる。このとき標準化した標本平均の分布は標 準正規分布に収束する。
N n n X Z 0,1, この結果はきわめて強力であって、元データがいかなる確率分布に従おうとも、 サンプル数が十分大きければすべての議論は標準正規分布というただ一つの分 布に帰着してしまうことを意味します。 1. 5 回帰係数の推定 与えられたデータ
x1,y1
,, xn,yx
に対して、未知の回帰係数0,1を推定し、 回帰式yi 0 1xi iを当てはめることを考えます。説明変数x が与えらxi れた時、推定された(説明された)回帰式の値は0 1xiとなります。このと医学統 き i 誤差 で回 ずれ 義す 明変 ます 最小 推定 最小 不 正 統計勉強会 番目のサン 差項i yi 回帰によって れの値もとり することにし 変数の値y のi すから、この 小二乗推定量 定された回帰 小二乗推定量 不偏性 (un 正規性 (no 0 ~ ˆ N ただし ンプルとし
0 1xi て説明でき りますから します。こ の変動のう の
n i 1 i 2 が 量 (Ordina 帰直線: yˆ 量の性質: nbiasednes ormality):
2
ˆ 0,0 ,ˆ N し、
2 ˆ 0 n して観察され
になりま なかった部 、被説明変 このとき残差 ち、回帰に が最小にな ary Least S x 1 0 ˆ ˆ s):E
ˆ0
1 1 ~ , ˆ N
2 2 2 x x x i i れた被説明 す。つまり 部分に当た 変数y と真i 差二乗和
によって説 るように回 quares Est x
1 0, ˆ E
2 ˆ 1
2 ˆ 1 , 明変数の値 y り、誤差項 たります。誤 真の回帰モデ
n i 1 i 2 は、 説明できなか 回帰式を推 timator, OL 1
2 2 x xi 第 i y と回帰式 項とは被説明 誤差項その デルの「乖 データ全体 かった変動 定すること LSE): 第2 回 回帰 式の値の差 明変数の値 のものは正負 乖離」を 2 i 体における 動の総和にな とを考えま 帰分析 10 は、 値の中 負い で定 被説 なり す。医学統 回 ただ 回 検 ただ るこ 下に (使 回 回 回 決 M p 撹 統計勉強会 回帰係数の 回帰係数 0 の信頼区 1 の信頼区 だし、 j sˆ : 回帰係数に 0 : j H 検定統計量 だし、 はj0 とが多い。 に示すのは、 使用したソフ 回帰分析の解 回帰係数の 回帰係数の 決定係数 Model utilit p 値 撹乱項の標 の信頼区間 数0,1の信 区間:
区間:
j ˆ の標準誤 に関する仮 1 0 vs. : j H 量: ˆ s t j は帰無仮説 H 回帰分析 フトはR v 解析結果を の推定値 の有意性検定 (被説明変数 ty test(回帰 標準誤差 (Confiden 信頼区間は,
ˆ0 sˆ0t2,
ˆ1sˆ1t2,n 誤差、t2,n2 説検定 0 j j 2 ˆ 0 ~ t s n j j H0の元で仮 析を行う統計 ersion 3.0 を検討すると 定の p 値 数の変動の 帰モデル全 nce Interva 以下のよ ˆ 0 2 ,n ,ˆ s ˆ 1 2, ˆ 1 n s 2:自由度 0 under H 仮定される 計解析ソフ .1) ときは,以 のうち回帰 全体の有意性 al, CI): ように与え
2 , 2 0 n t
2 , 2n t n-2 の t 分布 る定数で、通 フトの典型的 以下の点に注 によって説 性検定。後 第 られます。 布の上側 通常H0 : 的な出力例 注意します 説明された 後でもう一度 第2 回 回帰 2 点。 0 j が検定 例になります す。 変動の割合 度触れます 帰分析 11 定され す。 合) す)の医学統計勉強会 第2 回 回帰分析
12
1. 6 多変量回帰分析
前項までは,説明変数が一つのいわゆる単純回帰 (simple regression) について解 説してきました。本項以降では,複数の説明変数を持つ多変量回帰分析
(multivariate regression analysis) について検討します。
多変量回帰の場合、モデルを記述するのには行列表示を用いた方が便利です。 まず、行列を使って回帰モデルを定式化します。
i n
N x x yi 0 1 1i k ki i,i ~ 0,2, 1,, 行列表示を使うと、上の多変量回帰モデルは以下のように簡潔に表せます。
,
, : -dimensionalidentity matrix. ~ , , , 1 1 1 , , 2 2 1 1 0 1 2 12 1 11 2 1 n I I N x x x x x x y y y n n n k kn n k k n 0 X y X y 前項の単純回帰の場合と同様、残差二乗和
n i 1 i 2 を最小化すると回帰係数 k 0, 1,, の最小二乗推定量 (Least Squares Estimators, LSE) は、以下のよ
うに得られます。
X'X
1X'y 1 2 1 1 0 , , , ˆ min 1 0
n i yi xi kxki k 最小二乗推定量の性質: 不偏性 (unbiasedness):E
ˆ 正規性 (normality):
2
1
, ~ ˆ X'X N医学統計勉強会 第2 回 回帰分析
13
回帰係数の信頼区間 (Confidence Interval, CI):
j の信頼区間:
ˆj sˆ t 2,nk1, ˆj sˆ t 2,nk1
j j ただし、
2
1
12 ˆ s X'X jj s j :ˆjの標準誤差、t2,n k 1:自由度 n-(k+1)の t 分布 の上側 2点。
2 2 2 2 2 , 1 ˆ ˆ
E s k n y y s i i 回帰係数に関する仮説検定 0 1 0 0 : j j vs.H : j j H 検定統計量: 1 0 ˆ 0 under ~ ˆ H t s t n k j j j ただし、 は帰無仮説 Hj0 0の元で仮定される定数で、通常H0 :j 0が検定され ることが多い。 決定係数: 上で述べた回帰係数の有意性検定は,個々の係数が有意か(主として 0 に等し いか否か)を検定するものでした。しかし、回帰モデル全体の有意性を議論す るためには,別の概念が必要になります。そのために、まず以下を定義します。 SST (Total Sum of Squares):
n
i 1 yi y 2
被説明変数yの、データ全体にお
ける変動(全変動)を示します。SST を(n-1)で割るとyの分散になりますね。
SSE (Error Sum of Squares):
n
i 1 yi yi 2 ˆ yˆ は回帰モデルによって推定さi れたyの値ですから、
yiyˆi
はyの中で回帰によって説明されなかった部 分でこれを残差 (residuals) といいます。SSE はyの回帰では説明されなか った変動を表します。 SSR (Regression Sum of Squares):
n
i 1 yi y 2
ˆ yˆ は回帰によって説明されi
医学統計勉強会 第2 回 回帰分析 14 の情報なしにyの値を推定するとすれば、それはyの平均値 y で推定するし かありません。すなわち
yˆi y
は、回帰モデルを適用することで初めて説 明できたyの変化を示しており、SSR はyの回帰によって説明された変動を 表しています。 このとき、以下の定理が成立します。 定理:SST =SSR + SSE (証明略) 以上の概念を用いて、回帰モデル全体のパフォーマンスを評価する尺度として、 以下のものを定義します。 定義:決定係数 (coefficient of determination) R2 SSR SST すなわち決定係数とは、被説明変数yの変動のうち、「回帰によって説明された 変動の割合」を示しています。上の定理から、0 R2 1であり、R が 1 に近い2 ほど回帰は有効である、といえます。Model Utility Test: さらに、決定係数R を使って、以下の仮説を検定することが2
できます。
0 : 1
0 k
H vs. not H0
この検定を Model utility test といいます。まず、帰無仮説の意味を考えてみます。
もし帰無仮説 H0が真であるとすると、回帰式はy 0 となり、説明変数 x
は被説明変数 y を説明するのに、全く役に立たないということになります。も
し対立仮説 H1が正しければ、いずれかの説明変数がなにがしかの説明力を持つ
ということになります。
この Model utility test の検定統計量は、以下で与えられることが知られています。
2
, 1 0 2 under ~ 1 1 1 SSE n k F H k SSR k n R k R F knk 医学統計勉強会 第2 回 回帰分析 15 1. 7 回帰診断 (Regression diagnostics) これまでの解析で、多変量の回帰モデルを推定し、その結果を解釈するところ まで来ました。しかし、ここで解析を終わらせるわけにはいきません。なぜな ら、仮にいま手元にあるデータに回帰分析を適用したとして、そのデータにお いて回帰モデルに必要な前提条件が満たされているとは限らないからです。 ここで、回帰モデルの仮定を再掲すると以下の通りです。 回帰モデルの仮定: 線形性 (linearity):被説明変数 y と説明変数 x の関係は直線で近似できる。 独立性 (independence):サンプル
x1,y1
,, xn,yx
は互いに独立である。す なわち,あるサンプルの値が他のサンプルの値に影響を与えない。 正規性 (normality):撹乱項は期待値0,分散 の正規分布に従う。正規2 分布については、以下に説明する。
2
, 0 ~ N 等分散性 (homoscedasticity):撹乱項の分散は(従って、被説明変数 y の 分散も) で一定である。2
. 2 2 E V この回帰モデルの仮定がすべて満たされていない限り、推定や仮設検定の結果 は(仮に計算できたとしても)まったくナンセンスなものとなります。 この回帰モデルを成り立たせている前提条件を事後的に確認することを、回帰 診断 (regression diagnostics) といいます。 また、多重回帰モデルに特有の問題として、もし説明変数の間に線形関係があ るならば、パラメターの推定が不安定になる、という多重共線性 (multicollinearity) という現象が知られています。これは、数学的には回帰式 X y において、もし説明変数が一次従属の関係にあるとX'Xが「特異」 行列になり、最小二乗推定量ˆ
X'X
1X'yの中の
X'X
1が定義できなくなる のが原因です。(X'Xが完全に特異でなくても、
X'X
1の計算が非常に不安定 なんる)直感的には、複数の説明変数が比例関係にあるとき、それらの変数が 本質的に同じ情報を持ち冗長であるのが、多重共線性であるといえます。この 多重共線性を発見することも、回帰診断の目的の一つになります。医学統計勉強会 第2 回 回帰分析 16 上に示した回帰モデルの仮定は、1)x, y にかかわるもの、2)撹乱項にかかわる もの、の二つに分けられます。 線形性の仮定の確認と多重共線性の有無の確認は 1)にかかわる問題ですが、こ れは各変数間の散布図を用いるのが適当です。 線形性の仮定:被説明変数と説明変数の間に、非線形な関係が存在しないこと を確認する。(x, y の間に相関がないように見える場合も、モデルに含めて結構 です。相関がなければ、「有意ではない」という結果が出るだけです。) 多重共線性:説明変数相互の間に、線形関係が存在しないことを確認する。 一方、独立性、正規性、等分散性の仮定の確認は、2)にかかわります。しかし 撹乱項そのものはデータから観察することはできませんので、それに代わるも のが必要になります。 定義:残差 (residuals) ei yi yˆi.すなわち残差とは、被説明変数 y と推定さ れた回帰式の値の差になります。
定義:残差プロット (residual vs. fitted value plot) 縦軸に残差e 、横軸に推定さi
れた回帰式の値yˆ をとった図。撹乱項と被説明変数の関係を示すものとして、i 独立性、等分散性の仮定の確認に用いられる。 図 1.6 左は、説明変数 x の値が大きくなるにつれ被説明変数 y の分散が増大する 傾向のあるデータの例と、それにあてはめられた回帰直線を示しています。一 方図 1.6 右は、左図のデータから構成した残差プロットを示していますが、図の 右のほうに行くにしたがって残差の分散が大きくなることがわかります。 このように、残差プロットではプロットの中で残差の範囲が変動することを見 ることで、等分散性の仮定が満たされているかを判断できます。等分散性の仮 定が満たされていれば、残差の範囲は均一になります。 また、独立性の仮定が満たされる場合、残差プロットには特異なパターンが現
医学統計勉強会 第2 回 回帰分析 17 れず、残差プロット一面に一様に点が現れることが知られています。 図 1.6 正規性の確認: 標本分布の正規性の確認は、適切なモデルを選択する上で重要なものとなりま す。正規性の仮定は後述する “QQ-norm plot” という図で確認しますが、 QQ-norm plot を定義するため、まず次の概念を導入します。 定義:n 個の標本を大きさ順に並べたとき、i 番目に小さな標本は [100(i-.5)/n] 標 本パーセント点 (sample percentile) であるという。 例えば標本が、正規分布など特定の確率分布から抽出されたとします。このと き、その特定の分布の理論上の [100(i-.5)/n] パーセント点はデータの [100(i-.5)/n] 標本パーセント点の近くにあるはずです。したがって、正規分布の 理論上のパーセント点と標本パーセント点をプロットすれば、もし元のデータ が正規分布から生成されていた場合プロットが直線状に並ぶはずです。 定義:n 個の標本が得られたとき,標準正規分布の[100(i-.5)/n] パーセント点と, i 番目に小さな観測値= [100(i-.5)/n] 標本パーセント点のプロットを、QQ-norm plot (Normal probability plot, 正規確率プロット) という。
回帰モデルの正規性の仮定を確認するためには、回帰から得られた残散の QQ-norm plotを描き、プロットが直線状に並ぶかどうかを確認すればよい、と いうことになります。 -2 -1 0 1 2 3 -4 -2 0 2 4 x y -1 0 1 2 -6 -4 -2 0 2 4 fitted values re s idu al s
医学統 例: 209 種 めた syct mmin mma cach chmi chma perf P. Ei units Vena editio まず CPU y – 誤 – x – 統計勉強会 CPU データ 種類のコン たデータ。特 cycle ti n minimu ax maximu cache s in minimu ax maximu publish n-Dor and J s: a relative ables, W. N. on. Springe ず、各変数の U データの散 y と x の間 – perf と 誤差項の分 – mmin x 同士の間 – 例えば タ ンピュータ 特性値の値 ime in nano um main me um main m size in kilob um number um number hed perform J. Feldmess e performan and Ripley er. の散布図を 散布図を観 に,非線形 と syct の間 分散は一定 等に,明ら 間に,線形な ば,mmin と 図 1.7 の中央演算 値から、CPU seconds emory in kil emory in ki bytes of channels r of channel mance on a b ser (1987) A nce predictio y, B. D. (200 を示すと図 観察すると、 形な関係が 間に,明ら か? らかな分差 な関係が存 と mmax の 7:QQ-norm 算装置(CP U の性能 ( lobytes ilobytes s s benchmark m Attributes of on model. C 02) Modern A 1.8 のよう 、以下のよ が存在しない かな非線形 差増大傾向が 存在しないか の間に明ら m plot PU)の性能 (perf) を予 mix relative f the perform Comm. ACM Applied Sta になります うな問題点 いか? 形関係があ がある。 か? かに線形関 第 能と、各種の 予測するのが e to an IBM mance of ce M. 30, 308–3 atistics with す。 点があるの る。 関係がある 第2 回 回帰 の特性値を が目的。 M 370/158-3 entral proce 17. h S. Fourth のがわかりま 。 帰分析 18 をまと essing ます。
医学統 した は不 と、 統計勉強会 たがって、予 不適切である 結果は次の 0 50 0 15 00 0 3 000 0 0 20 40 予備的な視 ることがわ のようにな perf 0 5 0 50 0 15 00 s 0 3 000 0 0 20 40 0 400 1000 視覚的要約の わかります。 なります。 500 1500 syct mmin 0 15000 図1.8 の段階でも 。しかしと 0 30000 n mmax 0 も、線形回 ともかく、 0 20 cach chm 100 250 第 帰モデルを 回帰モデル 40 min 0 50 150 chmax 第2 回 回帰 を当てはめ ルを当ては 0 4 0 0 1 000 0 1 500 0 01 0 0 2 5 0 0 5 0 150 帰分析 19 めるの はめる
医学統 元デ 説 決 M すな か言 よる 疑問 定が した 図 1. 図か (inve 一方 する ロッ いこ 分析 がわ 最後 計算 とを 統計勉強会 データの回帰 説明変数の 決定係数: Model utilit なわち、回帰 言いようがな 視覚的なデ 問があり、ま が満たされて た。 .9 左は、元デ から明らかな erse S-shape 方図 1.9 左は 傾向がみら トは明らか とがわかり 析の仮定が満 わかります。 後に、このよ 算の出力から を強調してお 帰分析の結 の有意性検定 R2=0.8649 ty test: p-va 帰分析の出 ない、とい データの要 また、多重 ているか確 データに対 なとおり、 e) を描いて は、残差プロ られ、等分 かに非線形 ります。こ 満たされて ように元デ らは決して おきます。 結果、次のよ 定は,chm 9 被説明変 alue < 2.2×1 出力結果を見 うことにな 要約の結果、 重共線性の存 確認するため 対する回帰分 QQ-norm p ており、残 ロットを示 分散性の仮定 形な傾向を示 このように、 ておらず、回 データにおい てわからず回 (回帰診断 ようなこと min を除き 変数の変動 10-16 見る限り、 なります。 、線形性の 存在も予想 め、残差の 図 1.9 分析による plot の点は 残差の非正規 示しています 定が破れて 示しており 、回帰診断 回帰分析を いて回帰モ 回帰診断に 断の重要性) がわかりま ,ほとんど 動の 86.49% この回帰分 しかし、も の仮定、等分 想されました のプロットに る残差の QQ は直線からか 規性を示し す。まず図 ていることが 、線形性の 断を行うこと を適用するこ モデルの仮定 によってはじ ) 第 ます。 どが強く有 %が説明で 分析は成功 もともと図 分散性の仮 た。そこで による回帰 Q-norm plo かけ離れた しています。 図からは残差 がわかりま の仮定も満 とで元のデ ことは不適 定が破綻し じめてわか 第2 回 回帰 有意. きた. 功している 1.8 の散布 仮定には大き で、モデルの 帰診断を行い ot になりま た逆 S 字型 。 差の分散が ます。また、 満たされてい データでは回 適切であるこ していること かる、とい 帰分析 20 とし 布図に きな の仮 いま ます。 が増大 、プ いな 回帰 こと とは、 うこ
医学統計勉強会 第2 回 回帰分析 21 1. 8 変数変換 前項でみたとおり、回帰モデルの仮定が満たされていないときは、直接回帰モ デルを適用することはできません。(モデルを適用すること自体はできるかもし れませんが、解析結果の解釈は不能で、仮設検定その他の推測も理論的に正当 化できません。) 線形回帰モデルの仮定(線形性, 正規性, 等分散性)が満たされないとき、変数 に何らかの変換を施すことで、モデルを改善できる場合があります。 例えば、撹乱項の分散が説明変数の値とともに大きくなる場合、対数変換
(logarithmic transformation)、冪変換 (power transformation) によって、モデ
ルの仮定が満たされるようにモデルを修正できる場合があります。 被説明変数の予測値を得るには、まず変換された被説明変数に対して回帰モデ ルを当てはめ、そのあとで元のモデルに逆変換します。(例えば、対数変換→ 指数変換)もっともよい返還を選ぶため、いくつかの返還を試してみる必要が あります。 ただしこれら対数変換、冪変換などは、その変換を選択した根拠が恣意的なも のとならざるを得ず、また、その変換によってモデルが改善したことを理論的 に示すことも困難です。このようなとき、対数変換,冪変換を組み合わせた Box-Cox 変換により、分散の安定化と正規性の改善を同時に達成できる場合が あります。 定義:Box-Cox 変換
0 : log 0 : 1 y yBox, George E. P.; Cox, D. R. (1964). "An analysis of transformations". Journal of the
Royal Statistical Society, Series B 26 (2): 211–252.
Box-Cox 変換は、パラメターλによって特徴付けられる。パラメターλは、モデ ルの適合度を最適化するように、ソフトウエアにより自動的に選択される。 例えば、統計解析ソフト R などは、Box-Cox 変換を実装している。
医学統 参考 with 例: Vena CP その ータ c 決 M 回帰 上に の範 こと 統計勉強会 考文献:Ven h S. Fourth CPU データ ables and U データに の結果、Box タに対する chmin,ch 決定係数: Model util 帰診断のため にプロットさ 範囲は均一で がわかりま nables, W. h edition. タの Box-C Ripley (20 に対してB x-Cox 変換 回帰分析の hmax は有 R2=0.882 lity test: p めの残差プ され、正規 で、分散が ます。 N. and Ri Springer. Cox 変換 002), §6.8 Box-Cox 変 換の最適な の結果は、 有意ではない 21 被説明 -value < 2 プロットは、 規性が向上 が安定化され ipley, B. D 8 と R vers 換を行いま λは、λ= 以下の通り い. 明変数の変動 2.2×10-16 、以下の通 したことが れ全体とし . (2002) M sion 3.0.1, ました。 0.2929 と りです。 動の88.21 通りです。Q がわかりま して回帰モ 第 Modern App MASS パッ なりました 1%が説明で QQ-norm p す。また、 デルの仮定 第2 回 回帰 plied Stati ッケージを た。返還後 できた。 plot はほぼ 残差プロ 定が満たさ 帰分析 22 tistics を用い、 後のデ ぼ直線 ロット された
医学統計勉強会 第2 回 回帰分析
23
Take Home Message 1. 回帰分析 2. 共分散と相関係数 3. 線形回帰モデル 回帰係数の推定.最小二乗推定量の性質 4. 回帰診断:回帰モデルの仮定の確認 散布図:線形性の確認 QQ-norm プロット:残差の正規性の確認 残差プロット:等分散性,独立性の確認 5. Box-Cox 変換:分散の安定化と正規性の向上 以上