実習資料統計ソフトRを使った統計学実習

(1)

情報・統計処理

統計パート　第

7 回

臨床試験管理センター西山毅（たけし）

nishiyama@minos.ocn.ne.jp

(2)

推定のまとめ

 神の世界 = 母集団について限られた情報しかもたな

いわれわれ人間は，統計モデルを通じて何とか神さ

ましか知らない真の値 = パラメータを見積もる

 パラメータの見積りを推定と呼ぶ

母集団（ population ）標本（ sample ）

神の世界

ランダム

_人間界

人間界

サンプリング

ランダム

サンプリング

統計モデル

(3)

推定のまとめ（続）

 res = lm( 統計モデル，データ名）でいっ

たん推定結果を変数 res に入れる

 res⇒ 点推定値

 confint(res)⇒95% 信頼区間

 res = lm( 統計モデル，データ名）でいっ

たん推定結果を変数 res に入れる

 res⇒ 点推定値

 confint(res)⇒95% 信頼区間

 使う統計モデルを決める

 Y=α+β1X1+β2X2+ 誤差 ε

 Y は量的変数

(4)

2011

年医師国家試験

 新しく発売された抗菌薬 A の肺炎に対する治療効果を調べるために

，新たに入院する肺炎患者を対象として，抗菌薬 A を投与した群（ A 群）と既存の抗菌薬 B を投与した群（ B 群）とに割りつけて，治療効果を入院期間で比較検討した．得られた結果を表に示す．

 この結果の解釈について正しいのはどれか．

a. A 群は B 群に比べて入院期間が平均で 3.6% 短い． b. A 群の入院期間の平均値の誤差は 3.6% 以内である．

c. A 群の方が B 群よりも入院期間が短くなる確率は 3.6% である． d. A 群の 96.4% の患者は入院期間が B 群の平均入院期間より短い． e. A 群と B 群とで入院期間に差がないのに，誤って差があるとする確

(5)

検定

とは

 男なら X=1, 女なら X=0 というダミー変数を使えば，

 体重に男女差があるか？

 ⇒β=0 or β≠0

パラメータに関する仮説が正しいかどうか手持ちの

データを使ってテスト（検定 test ）すること

• _{（女）体重の測定値} _{Y = α+} _誤差 _ε

　（男）体重の測定値 Y= α + β +

誤差 ε

• _誤差 _ε _{は正規分布}

• _{（女）体重の測定値} _{Y = α+} _誤差 _ε

　（男）体重の測定値 Y= α + β +

誤差 ε

• _{体重の測定値} _{Y= α + βX +} _誤差 _ε • _誤差 _ε _{は正規分布}

(6)

検定のコンセプト

① 研究で主張したいことを対立仮説 H1 とする ② その反対の否定したい仮説：帰無仮説 H0 も

立てる

③ H0 の世界のもとではサンプルデータが得ら

れる確率はスゴク小さい⇒ H1 と判断しよう

 まず言いたいことの反対を否定して，間接的

に主張が正しいと判断する点で検定は背理法

である

H0

(7)

さっきの例では

 第 1 ステップ：仮説をたてる

 示したいのは， H1:β≠0

 その反対の仮説 H0:β=0

 第 2 ステップ：検定統計量 T （ Y ）を決め

る

 この場合は，

• _{体重の測定値} _{Y= α + βX +} _誤差 _ε

（男 X=1 vs 女 X=0 ）

• _{体重の測定値} _{Y= α + βX +} _誤差 _ε

（男 X=1 vs 女 X=0 ）

(8)

この場合の

T

の分布は

 T の確率密度関数 f(t) は，サンプル数を

n とすると，

 ただし，

 なぜこの場合の検定統計量とその分布が

こうなるの？

　　　　⇒知らなくてもやっていけます

(9)

第２ステップの補足

 統計モデルと仮説を決めれば，「最適」な検

定統計量 T(Y) が理論的に導ける

 H0 のもとでの T(Y) の分布を考える

⇒H1 を考えない． H ０の場合のみを考えることに注意

検定統計量

T _（ Y _）

検定統計量

T _（ Y _）

 統計モデル

 仮説

 統計モデル

 仮説ブラック_ボックス

検定では H0 の場合だけを考える

(10)

２つのエラー

 H0 が正しいのに，間違って H1 を正しいと

判定する確率： α

 H １が正しいときに，間違って H0 を正し

いと判定する確率： β

 この表は縦向きにみる

 H1 が正しいときに，検定（ Test ）で H0 と

判定する確率 β

 H0 が正しいときに，

検定で H1 と判定する

確率 α

True

Te

s

t

’

(11)

２つのエラー（続）

 言葉で覚えると混乱するから式で覚えよう

 α = P(H1’ | H0)

 β = P(H0’ | H1)

 ◯ のもとで△となる確率 P （△ |□ ）

True

Te

s

t

’

 α と β はトレードオフ

 どちらか一方を決めれ

(12)

第３ステップ

 検定では， α の方を決める⇒自動的に β も決ま

る

 検定に先立って，あらかじめ決める α の値を有

意水準と呼ぶ

 慣例的に α=0.05 とすることが多い

 理論的な根拠は何もない

(13)

P

値

とは何か？

 H0: β=0 のもとでの T の分布は左図

 T(Y) の式より， T

が ±∞ に近いほど

H0 に矛盾して，

「 H1 っぽく」なる．

-4 -2 0 2 4

0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )

H1 H0 H1

T

(14)

P

値

とは何か？

 T （ Y ）が，

「 H1 っぽい」両端にきたら，

H1 と判定し，中心部にきたら H 0 と判定しよう．

 どこで線引きす

るか？

-4 -2 0 2 4

0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )

H1 H0 H1

T

(15)

P

値

とは何か？

 灰色の面積（確

率） =0.05 となる T の値（ T < -1.9 6, 1.96 < T ）を H 1 か H0 の区切りとしよう

 この部分の T をと

る場合は， H0 より

H1 である可能性が

高いから

-4 -2 0 2 4

0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )

H1 H0 H1

T

-4 -2 0 2 4

0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 9 )

-4 -2 0 2 4

(16)

-4 -2 0 2 4 0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )

-4 -2 0 2 4

0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )

T _{（データ）}

P

値

とは何か？

 T( データ）より H1

側の確率＝ P 値とよぶ

 T （データ） =2.1

では， P 値 =0.036

 α=0.05 の領域に

　 T （データ）が入る　　⇔ P 値 <0.05

(17)

第

５ ステップ

 P 値 <0.05⇒H1 と判定

 H0 を棄却すると言う

 P 値≧ 0.05⇒H0 と判定

 H0 を採択すると言う

 有意水準 α は検定前に決める値であり， P

値はサンプルデータから得られる点に注意

P

_値

<α⇒H1

(18)

検定手

順

のまとめ

 まず統計モデルを決め

 第１ステップ：仮説を決める

 第２ステップ：検定統計量 T （ Y ）を決める  第３ステップ：有意水準 α を決める

 第４ステップ： P 値を求める

 第５ステップ： H0 or H1 を判定する

 この中で我々がやらねばならないのは

 統計モデルを決める  仮説を決める

 有意水準を決める

(19)

検定手

順

のまとめ（続）

 さらに，慣れるまでは有意水準 α=0.05 と

しておけば良いから，実際にやることは，

 統計モデルをたて，仮説を決めるだけ．

　他は全部 R がやってくれる．

(20)

R

でやってみまし

ょ

う

 demo.csv を読み込んで，変数 d に代入

 d = read.csv(“demo.csv”)

 この統計モデルの解析結果を変数 res に代

入

 res=lm(Wt~Sex,d)

• _{体重の測定値} _{Y= α + βX +} _誤差 _ε

（男 X=1 / 女 X=0 ）

• _{体重の測定値} _{Y= α + βX +} _誤差 _ε

（男 X=1 / 女 X=0 ）

仮説 H0: β=0 vs H1:β≠0

(21)

R

でやってみまし

ょ

う

 summary(res)

 統計モデルしか R に指定していない．仮説設

定はどうなってるの？

 線形モデルの関数 lm では，  H0: α=0 vs H1:α≠0

 H0: β=0 vs H1: β≠0

　の仮説を自動的に設定してくれる．

P _値

P 値

α α

β β

線形モデルでは

H0: β=0 vs H1: β≠0

以外は使わない

線形モデルでは

H0: β=0 vs H1: β≠0

(22)

真の体重

α

に

目星

がついている場合

 実際の研究でこんな仮説を使うことはないが…

 これは関数 lm ではできないので，関数 t.test を使う

 t.test(d$Wt, mu=50)

 t = 30.1383, df = 1639, p-value < 2.2e-16  95 percent confidence interval:

 57.53596 58.58513  sample estimates:  mean of x

 58.06055

• _{体重の測定値} _{Y =} _真の体重 _α+ _誤差 _ε • _誤差 _ε _{は正規分布}

P 値

α の 95% 信頼区間

α の推定値

仮説 H0: α=50 (kg) vs H1:α≠50 (kg)

(23)

体重が

性別

と

身長

で決まるモデルでは

 R ではこの仮説設定はデフォルトでやって

くれるから，統計モデルだけ指定すれば O K

 res=lm(Wt~Sex+Ht, d)

 summary(res)

• _{体重の測定値} _{Y= α + βX + γ×} _身長 ₊

誤差 ε

（男 X=1 / _女 X=0 _）

• _{体重の測定値} _{Y= α + βX + γ×} _身長 ₊

誤差 ε

（男 X=1 / _女 X=0 _）

仮説 H0: β=0 vs H1:β≠0 H0: γ=0 vs H1:γ≠0

P 値

(24)

体重が

学歴

で決まるモデルでは

 levels(d$School ）

 [1] "high" "junior" "univ"

 高卒が基準になっている⇒中卒を基準にするには

 d$School=relevel(d$School, ref=“junior”)

• _{体重の測定値} _{Y= α+β}1X1+β2X2+ 誤差 ε

• _誤差 _ε _は標_準_正規分布 • _{体重の測定値} _{Y= α+β}1X1+β2X2+ 誤差 ε

• _誤差 _ε _は標_準_正規分布

　 X1 X2

中卒 0 0

高卒 1 0

大卒 0 1 仮説 H0: β1=0 vs

H1:β1≠0

H0: β2=0 vs

H1:β2≠0

仮説 H0: β1=0 vs

H1:β1≠0

H0: β2=0 vs

H1:β2≠0

ref _：

reference 基準

ref _：

(25)

体重が

学歴

で決まるモデルでは

 res=lm(Wt~School, d)

 summary(res)

 高卒の P 値 >0.05⇒H0 ： β =0 　

 「高卒であることは体重に影響しない」

 大卒の P 値 <0.05⇒H1 ： β ≠0 　

 「大卒であることは体重に影響する」

P _値 P _値 α

α β1 β1 β2 β2

推定値

(26)

仮説を変えてみると

 res=lm(Wt~School, d)  anova(res)

 質的変数のパラメータすべて =0 かどうかを一気

に検定することを分散分析（ ANOVA ）とよぶ

• _{体重の測定値} _{Y= α+β}1X1+β2X2+ 誤差 ε

• _誤差 _ε _は標_準_正規分布 • _{体重の測定値} _{Y= α+β}1X1+β2X2+ 誤差 ε

• _誤差 _ε _は標_準_正規分布

仮説 H0: β1=β2=0 vs H1:(β1=β2=0) でない

(27)

検定のまとめ

 統計モデルをたてる

 仮説 H0 vs H1 をたてる

 有意水準 α を決める（たいていは α=0.05 で OK ）  統計モデルと仮説を R に指定して P 値を求める

(28)

2011

年医師国家試験

 この P 値の意味は？

 統計モデル⇒おそらく， A 群 X=1 / B 群 X=0 の時

 入院期間 =α+βX+ 誤差

 仮説⇒おそらく， H0 ： β=0 vs H1:β≠0  P 値 =0.036

(29)

2011

年医師国家試験

 選択肢

a. A 群は B 群に比べて入院期間が平均で 3.6% 短い． b. A 群の入院期間の平均値の誤差は 3.6% 以内である． c. A 群の方が B 群よりも入院期間が短くなる確率は 3.

6% である．

d. A 群の 96.4% の患者は入院期間が B 群の平均入院期

間より短い．

e. A 群と B 群とで入院期間に差がないのに，誤って差

(30)

2011

年医師国家試験

 A 群と B 群とで入院期間に差がないのに，

誤って差があるとする確率は 3.6% である．

 厳密には下線部は誤り

 差がないのに（ H0 ），誤って差がある

（ H1 ）と判定する確率は，検定を行う前

に決めた有意水準 α=5% のハズ．

 P 値は，差がないときに（ H0 ），検定統

計量 T が観測値より H1 側の（大きな）値をとる確率

 P 値は，差がないときに（ H0 ），観察値

(31)

2011

年医師国家試験

 どうやらこの問題を作ったセンセイは， P

実習資料 統計ソフトRを使った統計学実習

情報・統計処理

統計パート 第

7

回

推定のまとめ

神の世界

神の世界

人間界

人間界

推定のまとめ（続）

2011

年医師国家試験

検定

とは

検定のコンセプト

H0

さっきの例では

この場合の

T

の分布は

第２ステップの補足

２つのエラー

True

Te

s

t

’

２つのエラー（続）

True

Te

s

t

’

’

第３ステップ

P

値

とは何か？

P

値

とは何か？

P

値

とは何か？

P

値

とは何か？

第

５

ステップ

P

値

<α⇒H1

検定手

順

のまとめ

検定手

順

のまとめ（続）

R

でやってみまし

ょ

う

R

でやってみまし

ょ

う

真の体重

α

に

目星

がついている場合

体重が

性別

と

身長

で決まるモデルでは

体重が

学歴

実習資料統計ソフトRを使った統計学実習

統計パート　第

_人間界

_値