情報・統計処理
統計パート 第
6
回
臨床試験管理センター西山毅(たけし)
nishiyama@minos.ocn.ne.jp
前回のまとめ
神の世界 = 母集団について限られた情報しかもたな
いわれわれ人間は,統計モデルを通じて何とか神さ
ましか知らない真の値 = パラメータを見積もる
パラメータの見積りを推定と呼ぶ
母集団( population ) 標本( sample )
神の世界
神の世界
ランダム人間界
人間界
サンプリングランダム
サンプリング
統計モデルの例
この統計モデルでは,すべての人の体重は等しく
,体重の測定値の違いは,全部誤差によるものだ という,現実にはありえない仮定をしている.
β は身長が 1cm 増えるごとに増える体重 kg , α は
身長ゼロ cm のときの体重 kg
• 体重の測定値 Y = 真の体重 α+ 誤差 ε • 誤差 ε は正規分布
• 体重の測定値 Y = 真の体重 α+ 誤差 ε • 誤差 ε は正規分布
• 体重の測定値 Y
= 切片 α+β× 身長 X+ 誤差 ε • 誤差 ε は正規分布
• 体重の測定値 Y
質的変数を使った統計モデル
先の例では測定値 X,Y は量的変数でした
質的変数である性別を使った統計モデル
は?
「女性はすべて同じ体重 α ,男性はすべて同
じ体重 α + β とし,体重の測定値 Y はこれに
測定誤差 ε が加わったもの」という統計モデ
ルは
• (女)体重の測定値 Y = α+ 誤差 ε
(男)体重の測定値 Y= α + β +
誤差 ε
• 誤差 ε は正規分布
• (女)体重の測定値 Y = α+ 誤差 ε
(男)体重の測定値 Y= α + β +
誤差 ε
• 誤差 ε は正規分布
女: α 女: α
男
男
基準の女の体重 α
このモデルの意味は
「体重は学歴と誤差で決まり,中卒・高卒・
大卒の人は,それぞれみんな同じ体重」とい う統計モデルは,
中卒の体重を基準 α ととり,
基準に対する高卒の体重の増分を β1
基準に対する大卒の体重の増分を β2 とする
と,
• (中卒)体重の測定値 Y= α+ 誤差 ε
(高卒)体重の測定値 Y= α+β1+ 誤差 ε
(大卒)体重の測定値 Y= α+β2+ 誤差 ε
• 誤差 ε は正規分布 • (中卒)体重の測定値 Y= α+ 誤差 ε
(高卒)体重の測定値 Y= α+β1+ 誤差 ε
(大卒)体重の測定値 Y= α+β2+ 誤差 ε
質的変数を統計モデルに入れるに
は
基準となるカテゴリー(中卒)を決め,
その他のカテゴリーは基準からの増分
(高卒: β1, 大卒: β2 )を使ってモデル
化することが多い.
β 1
β 1
中卒の体重 α
中卒の体重 α
β 2
β 2
高卒の体重 高卒の体重
大卒の体重 大卒の体重
β
β
女の体重 α
女の体重 α
「体重は性別と身長 X と誤差で決まる.身長 1c m 増えるごとに体重は γkg 増え,男性は女性よ り βkg 重い」という統計モデルは,
α は性別 = 女性で,身長 X=0cm のときの体重 ⇒ α は基準となる値(ベースライン値)
• (女性)体重の測定値 Y= α+γX+ 誤差 ε
(男性)体重の測定値 Y= α+β+γX+ 誤差 ε
• 誤差 ε は標準正規分布
• (女性)体重の測定値 Y= α+γX+ 誤差 ε
(男性)体重の測定値 Y= α+β+γX+ 誤差 ε
• 誤差 ε は標準正規分布
質的変数と量的変数を使った統計モデル
質的変数
「体重は学歴と身長 X と誤差で決まる.身長 1cm 増えるごとに体重は γkg 増え,高卒は中卒より β1k g 重く,大卒は中卒より β2kg 重い」という統計モ デルは,
α は学歴 = 中卒で,身長 X=0cm のときの体重 ⇒ α は基準となる値(ベースライン値)
• (中卒)体重の測定値 Y= α+γX+ 誤差 ε
(高卒)体重の測定値 Y= α+β1+γX+ 誤差 ε
(大卒)体重の測定値 Y= α+β2+γX+ 誤差 ε
• 誤差 ε は正規分布 • (中卒)体重の測定値 Y= α+γX+ 誤差
ε
(高卒)体重の測定値 Y= α+β1+γX+ 誤差 ε
(大卒)体重の測定値 Y= α+β2+γX+ 誤差 ε
• 誤差 ε は正規分布
質的変数と量的変数を使った統計モデル
質的変数
統計モデルを分類しましょう
量的変数 Y = α + β× 量的変数 X + ε
回帰分析( Linear Regression )
量的変数 Y = α + β1 + β2 + ε
分散分析( ANOVA )
量的変数 Y = α + β1 + β2 + γ× 量的変数 X + ε
共分散分析( ANCOVA )
質的変数
質的変数
Y はどれも量的変数
右辺が量的変数だけなら回帰分析 右辺が質的変数だけなら分散分析 右辺に両方あれば,共分散分析
Y はどれも量的変数
右辺が量的変数だけなら回帰分析
右辺が質的変数だけなら分散分析
R
でやってみましょう
demo.csv を読み込んで,変数 d に代入
d = read.csv(“demo.csv”)
体重が性別だけで決まるという統計モデルは,
lm(Wt~Sex,d)
(Intercept) Sexm
52.92 14.00
体重が学歴だけで決まるという統計モデルは,
lm(Wt~School, d)
(Intercept) Schooljunior Schooluniv
57.4039 -0.5616 1.3216
Y = α (女) + β (男) + ε
α の推定値 =52.92
β の推定値 =14.00
Y = α (女) + β (男) + ε
α の推定値 =52.92
β の推定値 =14.00
切片 α
切片 α
中卒の効果
中卒の効果 大卒の効果大卒の効果
中卒を基準にするには?
levels(d$School )
[1] "high" "junior" "univ"
学歴因子の1番目が高卒” high” になっています
が,1番目の水準が基準となります.そこで,” high” と” junior” の順番を入れ替えるには,
levels(d$School)=levels(d$School)[c(2,1,3)]
とします.これで解析をやってみると,中卒が
基準になります.
lm(Wt~School, d)
(Intercept) Schoolhigh Schooluniv 57.4039 -0.5616 1.3216
切片 α
量的変数+質的変数の統計モデル
体重が性別と身長+誤差で決まるモデル
lm(Wt~Sex+Ht, d)
(Intercept) Sexm Ht -46.7456 5.7079 0.6342
体重が学歴と身長+誤差で決まるモデル
lm(Wt~School+Ht, d)
(Intercept) Schoolhigh Schooluniv
Ht
-84.6279 -0.8223 0.2648 0.8
806
Y = α + β (男) + γ× 体重 + 誤差
Y = α + β (男) + γ× 体重 + 誤差
切片 α
切片 α 男の効果 β
男の効果
β 身長の傾きγ
身長の傾き
γ
切片 α
切片 α 高卒の効果高卒の効果 大卒の効果大卒の効果 身長の傾き γ
身長の傾き
統計モデルをスッキリさせるには
男なら X=1, 女なら X=0 というダミー変数を使えば,
基準となるカテゴリをゼロ,それ以外のカテゴリを
1にする
• (女)体重の測定値 Y = α+ 誤差 ε
(男)体重の測定値 Y= α + β +
誤差 ε
• 誤差 ε は正規分布
• (女)体重の測定値 Y = α+ 誤差 ε
(男)体重の測定値 Y= α + β +
誤差 ε
• 誤差 ε は正規分布
• 体重の測定値 Y= α + βX + 誤差 ε • 誤差 ε は正規分布
統計モデルをスッキリさせるには
カテゴリ数が 3 の場合は,以下のような 2 つのダミー
変数 X1, X2 を使ってモデル化する.
①基準の中卒はどちらもゼロ
②高卒は X1=1 ( X1 は高卒の変数) ③ 大卒は X2=1 ( X2 は大卒の変数)
• (中卒)体重の測定値 Y= α+ 誤差 ε
(高卒)体重の測定値 Y= α+β1+ 誤差 ε
(大卒)体重の測定値 Y= α+β2+ 誤差 ε
• 誤差 ε は正規分布 • (中卒)体重の測定値 Y= α+ 誤差 ε
(高卒)体重の測定値 Y= α+β1+ 誤差 ε
(大卒)体重の測定値 Y= α+β2+ 誤差 ε
• 誤差 ε は正規分布
X1 X2
中卒 0 0
高卒 1 0
ダミー変数を使うと
1
式で書けます
• (中卒)体重の測定値 Y= α+ 誤差 ε
(高卒)体重の測定値 Y= α+β1+ 誤差 ε
(大卒)体重の測定値 Y= α+β2+ 誤差 ε
• 誤差 ε は標準正規分布 • (中卒)体重の測定値 Y= α+ 誤差 ε
(高卒)体重の測定値 Y= α+β1+ 誤差 ε
(大卒)体重の測定値 Y= α+β2+ 誤差 ε
• 誤差 ε は標準正規分布
• 体重の測定値 Y= α+β1X1+β2X2+ 誤差 ε
• 誤差 ε は標準正規分布 • 体重の測定値 Y= α+β1X1+β2X2+ 誤差 ε
• 誤差 ε は標準正規分布
X1 X2
中卒 0 0
高卒 1 0
統計モデルを分類しましょう(再)
量的変数 Y = α + β× 量的変数 Z + ε
回帰分析( Linear Regression )
量的変数 Y = α + β1X1 + β2X2 + ε
分散分析( ANOVA )
量的変数 Y = α + β1X1 + β2X2 + γ×Z + ε
共分散分析( ANCOVA )
質的変数
質的変数
質的変数はダミー変数 X1, X2 を使って表す
質的変数はダミー変数 X1, X2 を使って表す
すべてまとめて線形モデル( LM )と呼ぶ
でも
R
ではダミー変数を作る必要なし
ダミー変数をわざわざ作らなくても質的変数を関
数 lm に入れれば自動的に計算してくれる.
例えば,質的変数 d$School
[1] univ junior high high junior univ u
niv
(中略)
Levels: junior high univ
の水準は junior, high, univ の3つで,基準を 1番目の junior にするという風に決まっている .
R
を使った
点推定
のまとめ
とすれば,パラメータの推定値が求まる
質的変数は「基準からの増分」がパラメータ 量的変数は,その傾きがパラメータ
切片は必ず入る
lm ( 量的変数 ~ 量的変数+質的変数,データ名)
データにはバラツキがある
真の値 α とサンプ
ルから推定した α の推定値は区別す るために と書 きます
普通は, な
ので,幅をもって 推定します
54 56 58 60 62
0 .0 0 .1 0 .2 0 .3 0 .4 x d n o rm (x , 5 8 , 1 ) x d n o rm (x , 5 7 , 1 .1 ) α
• 体重の測定値 Y = 真の体重 α+ 誤差 ε • 誤差 ε は正規分布
区間推定とは
左図の灰色の部分
がちょうど 95% に
なる下限 L と上限 H を 95% 信頼区間( 9 5%CI )と呼ぶ
α を と1点だけ
で推定するのを点
推定とよび,区間
推定と区別する.
54 56 58 60 62
0 .0 0 .1 0 .2 0 .3 0 .4 x d n o rm (x , 5 8 , 1 ) x d n o rm (x , 5 7 , 1 .1 )
54 56 58 60 62
信頼区間の意味
「 α が 95 %入る区間」⇒☓
「信頼区間を 100 個作れば,そのうち 95
個の区間には α が含まれる」⇒◯
パラメータは定数 動くのは信頼区間
R
でやってみましょう
体重が性別だけで決まるという統計モデ
ルは,
res=lm(Wt~Sex,d) ← いったん結果を res に代
入
confint(res)
2.5 % 97.5 % (Intercept)52.40602 53.43771
Sexm 13.14764 14.85048
体重が学歴だけで決まるという統計モデ
ルは,
res1=lm(Wt~School+Ht, d) confint(res1)
Y = α (女) + β
(男) + ε
α の推定値 =52.92
β の推定値 =14.00
Y = α (女) + β
(男) + ε
α の推定値 =52.92
β の推定値 =14.00
下限 L
下限 L 上限上限 HH
2.50
% 97.50%
(Intercep
t) 56.53 58.282
Schoolhi
gh -2.41 1.2869
Schoolun
R
でやってみましょう
体重が性別と身長+誤差で決まるモデル
res2=lm(Wt~Sex+Ht, d) confint(res2)
体重が学歴と身長+誤差で決まるモデル
res3=lm(Wt~School+Ht, d) confint(res3)
Y = α + β (男) + γ× 体重 + 誤差
R
を使った推定のまとめ
使う統計モデルを決める res = lm( 統計モデル,データ名)でいっ
たん推定結果を変数 res に入れる
res の中身をみて,点推定値を求める confint(res) で 95% 信頼区間を求める
使う統計モデルを決める
res = lm( 統計モデル,データ名)でいっ
たん推定結果を変数 res に入れる
res の中身をみて,点推定値を求める