• 検索結果がありません。

実習資料 統計ソフトRを使った統計学実習

N/A
N/A
Protected

Academic year: 2018

シェア "実習資料 統計ソフトRを使った統計学実習"

Copied!
24
0
0

読み込み中.... (全文を見る)

全文

(1)

情報・統計処理

     

統計パート 第

6

臨床試験管理センター西山毅(たけし)

nishiyama@minos.ocn.ne.jp

(2)

前回のまとめ

 神の世界 = 母集団について限られた情報しかもたな

いわれわれ人間は,統計モデルを通じて何とか神さ

ましか知らない真の値 = パラメータを見積もる

 パラメータの見積りを推定と呼ぶ

母集団( population ) 標本( sample )

神の世界

神の世界

ランダム

人間界

人間界

サンプリング

ランダム

サンプリング

(3)

統計モデルの例

 この統計モデルでは,すべての人の体重は等しく

,体重の測定値の違いは,全部誤差によるものだ という,現実にはありえない仮定をしている.

 β は身長が 1cm 増えるごとに増える体重 kg , α は

身長ゼロ cm のときの体重 kg

体重の測定値 Y = 真の体重 α+ 誤差 ε誤差 ε は正規分布

体重の測定値 Y = 真の体重 α+ 誤差 ε誤差 ε は正規分布

体重の測定値 Y

     = 切片 α+β× 身長 X+ 誤差 ε • 誤差 ε は正規分布

体重の測定値 Y

(4)

質的変数を使った統計モデル

 先の例では測定値 X,Y は量的変数でした

 質的変数である性別を使った統計モデル

は?

 「女性はすべて同じ体重 α ,男性はすべて同

じ体重 α + β とし,体重の測定値 Y はこれに

測定誤差 ε が加わったもの」という統計モデ

ルは

(女)体重の測定値 Y = α+ 誤差 ε

 (男)体重の測定値 Y= α + β +

誤差 ε

誤差 ε は正規分布

(女)体重の測定値 Y = α+ 誤差 ε

 (男)体重の測定値 Y= α + β +

誤差 ε

誤差 ε は正規分布

女: α 女: α

基準の女の体重 α

(5)

このモデルの意味は

 「体重は学歴と誤差で決まり,中卒・高卒・

大卒の人は,それぞれみんな同じ体重」とい う統計モデルは,

 中卒の体重を基準 α ととり,

 基準に対する高卒の体重の増分を β1

 基準に対する大卒の体重の増分を β2 とする

と,

(中卒)体重の測定値 Y= α+ 誤差 ε

 (高卒)体重の測定値 Y= α+β1+ 誤差 ε

 (大卒)体重の測定値 Y= α+β2+ 誤差 ε

誤差 ε は正規分布      (中卒)体重の測定値 Y= α+ 誤差 ε

 (高卒)体重の測定値 Y= α+β1+ 誤差 ε

 (大卒)体重の測定値 Y= α+β2+ 誤差 ε

(6)

質的変数を統計モデルに入れるに

 基準となるカテゴリー(中卒)を決め,

その他のカテゴリーは基準からの増分

(高卒: β1, 大卒: β2 )を使ってモデル

化することが多い.

β 1

β 1

中卒の体重 α

中卒の体重 α

β 2

β 2

高卒の体重 高卒の体重

大卒の体重 大卒の体重

β

β

女の体重 α

女の体重 α

(7)

 「体重は性別と身長 X と誤差で決まる.身長 1c m 増えるごとに体重は γkg 増え,男性は女性よ り βkg 重い」という統計モデルは,

 α は性別 = 女性で,身長 X=0cm のときの体重   ⇒ α は基準となる値(ベースライン値)

(女性)体重の測定値 Y= α+γX+ 誤差 ε

 (男性)体重の測定値 Y= α+β+γX+ 誤差 ε

誤差 ε は標準正規分布        

  

(女性)体重の測定値 Y= α+γX+ 誤差 ε

 (男性)体重の測定値 Y= α+β+γX+ 誤差 ε

誤差 ε は標準正規分布        

  

質的変数と量的変数を使った統計モデル

質的変数

(8)

 「体重は学歴と身長 X と誤差で決まる.身長 1cm 増えるごとに体重は γkg 増え,高卒は中卒より β1k g 重く,大卒は中卒より β2kg 重い」という統計モ デルは,

 α は学歴 = 中卒で,身長 X=0cm のときの体重   ⇒ α は基準となる値(ベースライン値)

(中卒)体重の測定値 Y= α+γX+ 誤差 ε

 (高卒)体重の測定値 Y= α+β1+γX+ 誤差 ε

 (大卒)体重の測定値 Y= α+β2+γX+ 誤差 ε

誤差 ε は正規分布      (中卒)体重の測定値 Y= α+γX+ 誤差

ε

 (高卒)体重の測定値 Y= α+β1+γX+ 誤差 ε

 (大卒)体重の測定値 Y= α+β2+γX+ 誤差 ε

誤差 ε は正規分布      

質的変数と量的変数を使った統計モデル

質的変数

(9)

統計モデルを分類しましょう

 量的変数 Y = α + β× 量的変数 X + ε

  回帰分析( Linear Regression )

 量的変数 Y = α + β1 + β2 + ε

  分散分析( ANOVA )

 量的変数 Y = α + β1 + β2 + γ× 量的変数 X + ε

  共分散分析( ANCOVA )

質的変数

質的変数

Y はどれも量的変数

 右辺が量的変数だけなら回帰分析  右辺が質的変数だけなら分散分析  右辺に両方あれば,共分散分析

Y はどれも量的変数

 右辺が量的変数だけなら回帰分析

 右辺が質的変数だけなら分散分析

(10)

R

でやってみましょう

 demo.csv を読み込んで,変数 d に代入

 d = read.csv(“demo.csv”)

 体重が性別だけで決まるという統計モデルは,

 lm(Wt~Sex,d)

 (Intercept) Sexm

 52.92 14.00

 体重が学歴だけで決まるという統計モデルは,

 lm(Wt~School, d)

 (Intercept) Schooljunior Schooluniv

 57.4039 -0.5616 1.3216

Y = α (女) + β (男) + ε

α の推定値 =52.92

β の推定値 =14.00

Y = α (女) + β (男) + ε

α の推定値 =52.92

β の推定値 =14.00

切片 α

切片 α

中卒の効果

中卒の効果 大卒の効果大卒の効果

(11)

中卒を基準にするには?

 levels(d$School )

 [1] "high" "junior" "univ"

 学歴因子の1番目が高卒” high” になっています

が,1番目の水準が基準となります.そこで,” high” と” junior” の順番を入れ替えるには,

 levels(d$School)=levels(d$School)[c(2,1,3)]

 とします.これで解析をやってみると,中卒が

基準になります.

 lm(Wt~School, d)

 (Intercept) Schoolhigh Schooluniv  57.4039 -0.5616 1.3216

切片 α

(12)

量的変数+質的変数の統計モデル

 体重が性別と身長+誤差で決まるモデル

 lm(Wt~Sex+Ht, d)

 (Intercept) Sexm Ht  -46.7456 5.7079 0.6342

 体重が学歴と身長+誤差で決まるモデル

 lm(Wt~School+Ht, d)

 (Intercept) Schoolhigh Schooluniv

Ht

 -84.6279 -0.8223 0.2648 0.8

806

Y = α + β (男) + γ× 体重 + 誤差

Y = α + β (男) + γ× 体重 + 誤差

切片 α

切片 α 男の効果 β

男の効果

β 身長の傾きγ

身長の傾き

γ

切片 α

切片 α 高卒の効果高卒の効果 大卒の効果大卒の効果 身長の傾き γ

身長の傾き

(13)

統計モデルをスッキリさせるには

 男なら X=1, 女なら X=0 というダミー変数を使えば,

 基準となるカテゴリをゼロ,それ以外のカテゴリを

1にする

(女)体重の測定値 Y = α+ 誤差 ε

 (男)体重の測定値 Y= α + β +

誤差 ε

誤差 ε は正規分布

(女)体重の測定値 Y = α+ 誤差 ε

 (男)体重の測定値 Y= α + β +

誤差 ε

誤差 ε は正規分布

体重の測定値 Y= α + βX + 誤差 ε誤差 ε は正規分布

(14)

統計モデルをスッキリさせるには

 カテゴリ数が 3 の場合は,以下のような 2 つのダミー

変数 X1, X2 を使ってモデル化する.

          ①基準の中卒はどちらもゼロ

          ②高卒は X1=1 ( X1 は高卒の変数)  ③ 大卒は X2=1 ( X2 は大卒の変数)

(中卒)体重の測定値 Y= α+ 誤差 ε

 (高卒)体重の測定値 Y= α+β1+ 誤差 ε

 (大卒)体重の測定値 Y= α+β2+ 誤差 ε

誤差 ε は正規分布      (中卒)体重の測定値 Y= α+ 誤差 ε

 (高卒)体重の測定値 Y= α+β1+ 誤差 ε

 (大卒)体重の測定値 Y= α+β2+ 誤差 ε

誤差 ε は正規分布      

  X1 X2

中卒 0 0

高卒 1 0

(15)

ダミー変数を使うと

1

式で書けます

(中卒)体重の測定値 Y= α+ 誤差 ε

 (高卒)体重の測定値 Y= α+β1+ 誤差 ε

 (大卒)体重の測定値 Y= α+β2+ 誤差 ε

誤差 ε は標準正規分布      (中卒)体重の測定値 Y= α+ 誤差 ε

 (高卒)体重の測定値 Y= α+β1+ 誤差 ε

 (大卒)体重の測定値 Y= α+β2+ 誤差 ε

誤差 ε は標準正規分布      

体重の測定値 Y= α+β1X1+β2X2+ 誤差 ε

誤差 ε は標準正規分布      体重の測定値 Y= α+β1X1+β2X2+ 誤差 ε

誤差 ε は標準正規分布      

  X1 X2

中卒 0 0

高卒 1 0

(16)

統計モデルを分類しましょう(再)

 量的変数 Y = α + β× 量的変数 Z + ε

  回帰分析( Linear Regression )

 量的変数 Y = α + β1X1 + β2X2 + ε

  分散分析( ANOVA )

 量的変数 Y = α + β1X1 + β2X2 + γ×Z + ε

  共分散分析( ANCOVA )

質的変数

質的変数

質的変数はダミー変数 X1, X2 を使って表す

質的変数はダミー変数 X1, X2 を使って表す

すべてまとめて線形モデル( LM )と呼ぶ

(17)

でも

R

ではダミー変数を作る必要なし

 ダミー変数をわざわざ作らなくても質的変数を関

数 lm に入れれば自動的に計算してくれる.

 例えば,質的変数  d$School

 [1] univ junior high high junior univ u

niv  

  (中略)

 Levels: junior high univ

の水準は junior, high, univ の3つで,基準を 1番目の junior にするという風に決まっている .

(18)

R

を使った

点推定

のまとめ

とすれば,パラメータの推定値が求まる

 質的変数は「基準からの増分」がパラメータ  量的変数は,その傾きがパラメータ

 切片は必ず入る

lm ( 量的変数 ~ 量的変数+質的変数,データ名)

(19)

データにはバラツキがある

 真の値 α とサンプ

ルから推定した α の推定値は区別す るために  と書 きます

 普通は, な

ので,幅をもって 推定します

54 56 58 60 62

0 .0 0 .1 0 .2 0 .3 0 .4 x d n o rm (x , 5 8 , 1 ) x d n o rm (x , 5 7 , 1 .1 ) α      

体重の測定値 Y = 真の体重 α+ 誤差 ε誤差 ε は正規分布

(20)

区間推定とは

 左図の灰色の部分

がちょうど 95% に

なる下限 L と上限 H を 95% 信頼区間( 9 5%CI )と呼ぶ 

 α を  と1点だけ

で推定するのを点

推定とよび,区間

推定と区別する.

54 56 58 60 62

0 .0 0 .1 0 .2 0 .3 0 .4 x d n o rm (x , 5 8 , 1 ) x d n o rm (x , 5 7 , 1 .1 )

54 56 58 60 62

(21)

信頼区間の意味

 「 α が 95 %入る区間」⇒☓

 「信頼区間を 100 個作れば,そのうち 95

個の区間には α が含まれる」⇒◯

パラメータは定数 動くのは信頼区間

(22)

R

でやってみましょう

 体重が性別だけで決まるという統計モデ

ルは,

 res=lm(Wt~Sex,d) ← いったん結果を res に代

 confint(res)

 2.5 % 97.5 %  (Intercept)52.40602 53.43771

 Sexm 13.14764 14.85048

 体重が学歴だけで決まるという統計モデ

ルは,

 res1=lm(Wt~School+Ht, d)  confint(res1)

Y = α (女) + β

(男) + ε

α の推定値 =52.92

β の推定値 =14.00

Y = α (女) + β

(男) + ε

α の推定値 =52.92

β の推定値 =14.00

下限 L

下限 L 上限上限 HH

2.50

% 97.50%

(Intercep

t) 56.53 58.282

Schoolhi

gh -2.41 1.2869

Schoolun

(23)

R

でやってみましょう

 体重が性別と身長+誤差で決まるモデル

 res2=lm(Wt~Sex+Ht, d)  confint(res2)

 体重が学歴と身長+誤差で決まるモデル

 res3=lm(Wt~School+Ht, d)  confint(res3)

Y = α + β (男) + γ× 体重 + 誤差

(24)

R

を使った推定のまとめ

 使う統計モデルを決める

 res = lm( 統計モデル,データ名)でいっ

たん推定結果を変数 res に入れる

 res の中身をみて,点推定値を求める  confint(res) で 95% 信頼区間を求める

 使う統計モデルを決める

 res = lm( 統計モデル,データ名)でいっ

たん推定結果を変数 res に入れる

 res の中身をみて,点推定値を求める

参照

関連したドキュメント

年限 授業時数又は総単位数 講義 演習 実習 実験 実技 1年 昼 930 単位時間. 1,330

【オランダ税関】 EU による ACXIS プロジェクト( AI を活用して、 X 線検査において自動で貨物内を検知するためのプロジェク

子どもの学習従事時間を Fig.1 に示した。BL 期には学習への注意喚起が 2 回あり,強 化子があっても学習従事時間が 30

世世 界界 のの 動動 きき 22 各各 国国 のの.

4-2

バゲット……… 適量 じゃがいも……… 1 個 ブロッコリー……… 60g にんじん……… 60g ウインナーソーセージ…… 4 本 ピザ用チーズ……… 100g  薄力粉……… 大さじ

Kwansei Gakuin Architecture

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.