実習資料統計ソフトRを使った統計学実習

(1)

情報・統計処理

統計パート　第

6 回

臨床試験管理センター西山毅（たけし）

[email protected]

(2)

前回のまとめ

 神の世界 = 母集団について限られた情報しかもたな

いわれわれ人間は，統計モデルを通じて何とか神さ

ましか知らない真の値 = パラメータを見積もる

 パラメータの見積りを推定と呼ぶ

母集団（ population ）標本（ sample ）

神の世界

ランダム

_人間界

人間界

サンプリング

ランダム

サンプリング

(3)

統計モデルの例

 この統計モデルでは，すべての人の体重は等しく

，体重の測定値の違いは，全部誤差によるものだという，現実にはありえない仮定をしている．

 β は身長が 1cm 増えるごとに増える体重 kg ， α は

身長ゼロ cm のときの体重 kg

• _{体重の測定値} _{Y =} _真の体重 _α+ _誤差 _ε • _誤差 _ε _{は正規分布}

• _{体重の測定値} _Y

　　　　 = _切片 α+β× _身長 X+ _誤差 ε • _誤差 _ε _{は正規分布}

• _{体重の測定値} _Y

(4)

質的変数を使った統計モデル

 先の例では測定値 X,Y は量的変数でした

 質的変数である性別を使った統計モデル

は？

 「女性はすべて同じ体重 α ，男性はすべて同

じ体重 α ＋ β とし，体重の測定値 Y はこれに

測定誤差 ε が加わったもの」という統計モデ

ルは

• _{（女）体重の測定値} _{Y = α+} _誤差 _ε

　（男）体重の測定値 Y= α + β +

誤差 ε

• _誤差 _ε _{は正規分布}

• _{（女）体重の測定値} _{Y = α+} _誤差 _ε

誤差 ε

女： α 女： α

男

基準の女の体重 α

(5)

このモデルの意味は

 「体重は学歴と誤差で決まり，中卒・高卒・

大卒の人は，それぞれみんな同じ体重」という統計モデルは，

 中卒の体重を基準 α ととり，

 基準に対する高卒の体重の増分を β1

 基準に対する大卒の体重の増分を β2 とする

と，

• _{（中卒）体重の測定値} _{Y= α+} _誤差 _ε

　（高卒）体重の測定値 Y= α+β1+ 誤差 ε

　（大卒）体重の測定値 Y= α+β2+ 誤差 ε

• _誤差 _ε _{は正規分布} • _{（中卒）体重の測定値} _{Y= α+} _誤差 _ε

(6)

質的変数を統計モデルに入れるに

は

 基準となるカテゴリー（中卒）を決め，

その他のカテゴリーは基準からの増分

（高卒： β1, 大卒： β2 ）を使ってモデル

化することが多い．

β 1

中卒の体重 α

β 2

高卒の体重高卒の体重

大卒の体重大卒の体重

β

女の体重 α

(7)

 「体重は性別と身長 X と誤差で決まる．身長 1c m 増えるごとに体重は γkg 増え，男性は女性より βkg 重い」という統計モデルは，

 α は性別 = 女性で，身長 X=0cm のときの体重　　⇒ α は基準となる値（ベースライン値）

• _{（女性）体重の測定値} _{Y= α+γX+} _誤差 ε

　（男性）体重の測定値 Y= α+β+γX+ _誤差 ε

• _誤差 _ε _{は標準正規分布}

• _{（女性）体重の測定値} _{Y= α+γX+} _誤差 ε

　（男性）体重の測定値 Y= α+β+γX+ _誤差 ε

質的変数と量的変数を使った統計モデル

質的変数

(8)

 「体重は学歴と身長 X と誤差で決まる．身長 1cm 増えるごとに体重は γkg 増え，高卒は中卒より β1k g 重く，大卒は中卒より β2kg 重い」という統計モデルは，

 α は学歴 = 中卒で，身長 X=0cm のときの体重　　⇒ α は基準となる値（ベースライン値）

• _{（中卒）体重の測定値} _{Y= α+γX+} _誤差 ε

　（高卒）体重の測定値 Y= α+β1+γX+ 誤差 ε

　（大卒）体重の測定値 Y= α+β2+γX+ 誤差 ε

• _誤差 _ε _{は正規分布} • _{（中卒）体重の測定値} _{Y= α+γX+} _誤差

ε

　（高卒）体重の測定値 Y= α+β1+γX+ 誤差 ε

　（大卒）体重の測定値 Y= α+β2+γX+ 誤差 ε

質的変数と量的変数を使った統計モデル

質的変数

(9)

統計モデルを分類しましょう

 量的変数 Y = α + β× 量的変数 X ＋ ε

　　回帰分析（ Linear Regression ）

 量的変数 Y = α + β1 + β2 + ε

　　分散分析（ ANOVA ）

 量的変数 Y = α + β1 + β2 + γ× 量的変数 X ＋ ε

　　共分散分析（ ANCOVA ）

質的変数

 _Y はどれも量的変数

 右辺が量的変数だけなら回帰分析  右辺が質的変数だけなら分散分析  右辺に両方あれば，共分散分析

 _Y はどれも量的変数

 右辺が量的変数だけなら回帰分析

 右辺が質的変数だけなら分散分析

(10)

R

でやってみましょう

 demo.csv を読み込んで，変数 d に代入

 d = read.csv(“demo.csv”)

 体重が性別だけで決まるという統計モデルは，

 lm(Wt~Sex,d)

 (Intercept) Sexm

 52.92 14.00

 体重が学歴だけで決まるという統計モデルは，

 lm(Wt~School, d)

 (Intercept) Schooljunior Schooluniv

 57.4039 -0.5616 1.3216

Y = α _（女） + β _（男） + ε

α の推定値 =52.92

β _の推定値 =14.00

Y = α _（女） + β _（男） + ε

α の推定値 =52.92

β _の推定値 =14.00

切片 α

中卒の効果

中卒の効果 _{大卒の効果}_{大卒の効果}

(11)

中卒を基準にするには？

 levels(d$School ）

 [1] "high" "junior" "univ"

 学歴因子の１番目が高卒” high” になっています

が，１番目の水準が基準となります．そこで，” high” と” junior” の順番を入れ替えるには，

 levels(d$School)=levels(d$School)[c(2,1,3)]

 とします．これで解析をやってみると，中卒が

基準になります．

 lm(Wt~School, d)

 (Intercept) Schoolhigh Schooluniv  57.4039 -0.5616 1.3216

切片 α

(12)

量的変数＋質的変数の統計モデル

 体重が性別と身長＋誤差で決まるモデル

 lm(Wt~Sex+Ht, d)

 (Intercept) Sexm Ht  -46.7456 5.7079 0.6342

 体重が学歴と身長＋誤差で決まるモデル

 lm(Wt~School+Ht, d)

 (Intercept) Schoolhigh Schooluniv

Ht

 -84.6279 -0.8223 0.2648 0.8

806

Y = α + β _（男） + γ× _体重 + _誤差

切片 α

切片 α _男の効果 β

男の効果

β 身長の傾きγ

身長の傾き

γ

切片 α

切片 α _{高卒の効果}_{高卒の効果大卒の効果}_{大卒の効果身長の傾き} γ

身長の傾き

(13)

統計モデルをスッキリさせるには

 男なら X=1, 女なら X=0 というダミー変数を使えば，

 基準となるカテゴリをゼロ，それ以外のカテゴリを

１にする

• _{（女）体重の測定値} _{Y = α+} _誤差 _ε

誤差 ε

• _{（女）体重の測定値} _{Y = α+} _誤差 _ε

誤差 ε

• _{体重の測定値} _{Y= α + βX +} _誤差 _ε • _誤差 _ε _{は正規分布}

(14)

統計モデルをスッキリさせるには

 カテゴリ数が 3 の場合は，以下のような 2 つのダミー

変数 X1, X2 を使ってモデル化する．

 　　　　　　　　　①基準の中卒はどちらもゼロ

 　　　　　　　　　②高卒は X1=1 （ X1 は高卒の変数）  ③ 大卒は X2=1 （ X2 は大卒の変数）

• _誤差 _ε _{は正規分布} • _{（中卒）体重の測定値} _{Y= α+} _誤差 _ε

　 X1 X2

中卒 0 0

高卒 1 0

(15)

ダミー変数を使うと

1 式で書けます

• _誤差 _ε _{は標準正規分布} • _{（中卒）体重の測定値} _{Y= α+} _誤差 _ε

• _{体重の測定値} _{Y= α+β}1X1+β2X2+ 誤差 ε

• _誤差 _ε _{は標準正規分布} • _{体重の測定値} _{Y= α+β}1X1+β2X2+ 誤差 ε

　 X1 X2

中卒 0 0

高卒 1 0

(16)

統計モデルを分類しましょう（再）

 量的変数 Y = α + β× 量的変数 Z ＋ ε

　　回帰分析（ Linear Regression ）

 量的変数 Y = α + β₁X₁ + β₂X₂ + ε

　　分散分析（ ANOVA ）

 量的変数 Y = α + β₁X₁ + β₂X₂ + γ×Z ＋ ε

　　共分散分析（ ANCOVA ）

質的変数

質的変数はダミー変数 X1, X2 を使って表す

すべてまとめて線形モデル（ LM _）と呼ぶ

(17)

でも

R

ではダミー変数を作る必要なし

 ダミー変数をわざわざ作らなくても質的変数を関

数 lm に入れれば自動的に計算してくれる．

 例えば，質的変数  d$School

 [1] univ junior high high junior univ u

niv 　

 　（中略）

 Levels: junior high univ

の水準は junior, high, univ の３つで，基準を１番目の junior にするという風に決まっている．

(18)

R

を使った

点推定

のまとめ

とすれば，パラメータの推定値が求まる

 質的変数は「基準からの増分」がパラメータ  量的変数は，その傾きがパラメータ

 切片は必ず入る

lm ( 量的変数 ~ 量的変数＋質的変数，データ名）

(19)

データにはバラツキがある

 真の値 α とサンプ

ルから推定した α の推定値は区別するために　　と書きます

 普通は，な

ので，幅をもって推定します

54 56 58 60 62

0 .0 0 .1 0 .2 0 .3 0 .4 x d n o rm (x , 5 8 , 1 ) x d n o rm (x , 5 7 , 1 .1 ) α

• _{体重の測定値} _{Y =} _真の体重 _α+ _誤差 _ε • _誤差 _ε _{は正規分布}

(20)

区間推定とは

 左図の灰色の部分

がちょうど 95% に

なる下限 L と上限 H を 95% 信頼区間（ 9 5%CI ）と呼ぶ　

 α を　　と１点だけ

で推定するのを点

推定とよび，区間

推定と区別する．

54 56 58 60 62

0 .0 0 .1 0 .2 0 .3 0 .4 x d n o rm (x , 5 8 , 1 ) x d n o rm (x , 5 7 , 1 .1 )

54 56 58 60 62

(21)

信頼区間の意味

 「 α が 95 ％入る区間」⇒☓

 「信頼区間を 100 個作れば，そのうち 95

個の区間には α が含まれる」⇒◯

パラメータは定数動くのは信頼区間

(22)

R

でやってみましょう

 体重が性別だけで決まるという統計モデ

ルは，

 res=lm(Wt~Sex,d) ← いったん結果を res に代

入

 confint(res)

 2.5 % 97.5 %  (Intercept)52.40602 53.43771

 Sexm 13.14764 14.85048

 体重が学歴だけで決まるという統計モデ

ルは，

 res1=lm(Wt~School+Ht, d)  confint(res1)

Y = α _（女） + β

（男） + ε

α _の推定値 =52.92

β の推定値 =14.00

Y = α _（女） + β

（男） + ε

α _の推定値 =52.92

β の推定値 =14.00

下限 L

下限 L _上限_上限 _HH

2.50

% 97.50%

(Intercep

t) 56.53 58.282

Schoolhi

gh -2.41 1.2869

Schoolun

(23)

R

でやってみましょう

 体重が性別と身長＋誤差で決まるモデル

 res2=lm(Wt~Sex+Ht, d)  confint(res2)

 体重が学歴と身長＋誤差で決まるモデル

 res3=lm(Wt~School+Ht, d)  confint(res3)

Y = α + β （男） + γ× 体重 + 誤差

(24)

R

を使った推定のまとめ

 使う統計モデルを決める

 res = lm( 統計モデル，データ名）でいっ

たん推定結果を変数 res に入れる

 res の中身をみて，点推定値を求める  confint(res) で 95% 信頼区間を求める

 使う統計モデルを決める

 res = lm( 統計モデル，データ名）でいっ

たん推定結果を変数 res に入れる

 res の中身をみて，点推定値を求める

実習資料 統計ソフトRを使った統計学実習

情報・統計処理

統計パート 第

6

回

前回のまとめ

神の世界

神の世界

人間界

人間界

統計モデルの例

質的変数を使った統計モデル

このモデルの意味は

質的変数を統計モデルに入れるに

は

質的変数と量的変数を使った統計モデル

質的変数と量的変数を使った統計モデル

統計モデルを分類しましょう

R

でやってみましょう

中卒を基準にするには？

量的変数＋質的変数の統計モデル

統計モデルをスッキリさせるには

統計モデルをスッキリさせるには

ダミー変数を使うと

1

式で書けます

でも

R

ではダミー変数を作る必要なし

R

を使った

点推定

のまとめ

データにはバラツキがある

区間推定とは

信頼区間の意味

R

でやってみましょう

R

でやってみましょう

R

を使った推定のまとめ

実習資料統計ソフトRを使った統計学実習

統計パート　第

_人間界