• 検索結果がありません。

実習資料 統計ソフトRを使った統計学実習

N/A
N/A
Protected

Academic year: 2018

シェア "実習資料 統計ソフトRを使った統計学実習"

Copied!
31
0
0

読み込み中.... (全文を見る)

全文

(1)

情報・統計処理

     

統計パート 第

7

臨床試験管理センター西山毅(たけし)

nishiyama@minos.ocn.ne.jp

(2)

推定のまとめ

 神の世界 = 母集団について限られた情報しかもたな

いわれわれ人間は,統計モデルを通じて何とか神さ

ましか知らない真の値 = パラメータを見積もる

 パラメータの見積りを推定と呼ぶ

母集団( population ) 標本( sample )

神の世界

神の世界

ランダム

人間界

人間界

サンプリング

ランダム

サンプリング

統計モデル

(3)

推定のまとめ(続)

 res = lm( 統計モデル,データ名)でいっ

たん推定結果を変数 res に入れる

 res⇒ 点推定値

 confint(res)⇒95% 信頼区間

 res = lm( 統計モデル,データ名)でいっ

たん推定結果を変数 res に入れる

 res⇒ 点推定値

 confint(res)⇒95% 信頼区間

 使う統計モデルを決める

 Y=α+β1X1+β2X2+ 誤差 ε

 Y は量的変数

(4)

2011

年医師国家試験

 新しく発売された抗菌薬 A の肺炎に対する治療効果を調べるために

,新たに入院する肺炎患者を対象として,抗菌薬 A を投与した群 ( A 群)と既存の抗菌薬 B を投与した群( B 群)とに割りつけて, 治療効果を入院期間で比較検討した.得られた結果を表に示す.

 この結果の解釈について正しいのはどれか.

a. A 群は B 群に比べて入院期間が平均で 3.6% 短い. b. A 群の入院期間の平均値の誤差は 3.6% 以内である.

c. A 群の方が B 群よりも入院期間が短くなる確率は 3.6% である. d. A 群の 96.4% の患者は入院期間が B 群の平均入院期間より短い. e. A 群と B 群とで入院期間に差がないのに,誤って差があるとする確

(5)

検定

とは

 男なら X=1, 女なら X=0 というダミー変数を使え ば,

 体重に男女差があるか?

 ⇒β=0 or β≠0

パラメータに関する仮説が正しいかどうか手持ちの

データを使ってテスト(検定 test )すること

(女)体重の測定値 Y = α+ 誤差 ε

 (男)体重の測定値 Y= α + β +

誤差 ε

誤差 ε は正規分布

(女)体重の測定値 Y = α+ 誤差 ε

 (男)体重の測定値 Y= α + β +

誤差 ε

誤差 ε は正規分布

体重の測定値 Y= α + βX + 誤差 ε誤差 ε は正規分布

(6)

検定のコンセプト

① 研究で主張したいことを対立仮説 H1 とする ② その反対の否定したい仮説:帰無仮説 H0 も

立てる

③ H0 の世界のもとではサンプルデータが得ら

れる確率はスゴク小さい⇒ H1 と判断しよう

 まず言いたいことの反対を否定して,間接的

に主張が正しいと判断する点で検定は背理法

である

H0

(7)

さっきの例では

 第 1 ステップ:仮説をたてる

 示したいのは, H1:β≠0

 その反対の仮説 H0:β=0

 第 2 ステップ:検定統計量 T ( Y )を決め

 この場合は,

体重の測定値 Y= α + βX + 誤差 ε

(男 X=1 vs 女 X=0 )

誤差 ε は正規分布

体重の測定値 Y= α + βX + 誤差 ε

(男 X=1 vs 女 X=0 )

誤差 ε は正規分布

(8)

この場合の

T

の分布は

 T の確率密度関数 f(t) は,サンプル数を

n とすると,

 ただし,

 なぜこの場合の検定統計量とその分布が

こうなるの?

    ⇒知らなくてもやっていけます

 

(9)

第2ステップの補足

 統計モデルと仮説を決めれば,「最適」な検

定統計量 T(Y) が理論的に導ける

 H0 のもとでの T(Y) の分布を考える

⇒H1 を考えない. H 0の場合のみを考えること に注意

検定統計量

T Y

検定統計量

T Y

 統計モデル

 仮説

 統計モデル

 仮説 ブラックボックス

検定では H0 の場合だけを考える

(10)

2つのエラー

 H0 が正しいのに,間違って H1 を正しいと

判定する確率: α

 H 1が正しいときに,間違って H0 を正し

いと判定する確率: β

 この表は縦向きにみる

 H1 が正しいときに, 検定( Test )で H0 と

判定する確率 β

 H0 が正しいときに,

検定で H1 と判定する

確率 α

True

Te

s

t

(11)

2つのエラー(続)

 言葉で覚えると混乱するから式で覚えよう

 α = P(H1’ | H0)

 β = P(H0’ | H1)

 ◯ のもとで△となる確率 P (△ |□ )

True

Te

s

t

 α と β はトレードオフ

 どちらか一方を決めれ

(12)

第3ステップ

 検定では, α の方を決める⇒自動的に β も決ま

 検定に先立って,あらかじめ決める α の値を有

意水準と呼ぶ

 慣例的に α=0.05 とすることが多い

 理論的な根拠は何もない

(13)

P

とは何か?

 H0: β=0 のもとでの T の分布は左図

 T(Y) の式より, T

が ±∞ に近いほど

H0 に矛盾して,

「 H1 っぽく」なる .

-4 -2 0 2 4

0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )

H1 H0 H1

T

(14)

P

とは何か?

 T ( Y )が,

「 H1 っぽい」 両端にきたら,

H1 と判定し,中 心部にきたら H 0 と判定しよう .

 どこで線引きす

るか?

-4 -2 0 2 4

0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )

H1 H0 H1

T

(15)

P

とは何か?

 灰色の面積(確

率) =0.05 となる T の値( T < -1.9 6, 1.96 < T )を H 1 か H0 の区切りと しよう

 この部分の T をと

る場合は, H0 より

H1 である可能性が

高いから

-4 -2 0 2 4

0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )

H1 H0 H1

T

-4 -2 0 2 4

0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 9 )

-4 -2 0 2 4

(16)

-4 -2 0 2 4 0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )

-4 -2 0 2 4

0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )

T (データ)

P

とは何か?

 T( データ)より H1

側の確率= P 値とよ ぶ

 T (データ) =2.1

では, P 値 =0.036

 α=0.05 の領域に

  T (データ)が入る   ⇔ P 値 <0.05

(17)

ステップ

 P 値 <0.05⇒H1 と判定

 H0 を棄却すると言う

 P 値≧ 0.05⇒H0 と判定

 H0 を採択すると言う

 有意水準 α は検定前に決める値であり, P

値はサンプルデータから得られる点に注意

P

<α⇒H1

(18)

検定手

のまとめ

 まず統計モデルを決め

 第1ステップ:仮説を決める

 第2ステップ:検定統計量 T ( Y )を決める  第3ステップ:有意水準 α を決める

 第4ステップ: P 値を求める

 第5ステップ: H0 or H1 を判定する

 この中で我々がやらねばならないのは

 統計モデルを決める  仮説を決める

 有意水準を決める

(19)

検定手

のまとめ(続)

 さらに,慣れるまでは有意水準 α=0.05 と

しておけば良いから,実際にやることは ,

 統計モデルをたて,仮説を決めるだけ.

 他は全部 R がやってくれる.

(20)

R

でやってみまし

 demo.csv を読み込んで,変数 d に代入

 d = read.csv(“demo.csv”)

 この統計モデルの解析結果を変数 res に代

 res=lm(Wt~Sex,d)

体重の測定値 Y= α + βX + 誤差 ε

(男 X=1 / 女 X=0 )

誤差 ε は正規分布

体重の測定値 Y= α + βX + 誤差 ε

(男 X=1 / 女 X=0 )

誤差 ε は正規分布

仮説 H0: β=0 vs H1:β≠0

(21)

R

でやってみまし

 summary(res)

 統計モデルしか R に指定していない.仮説設

定はどうなってるの?

 線形モデルの関数 lm では,  H0: α=0 vs H1:α≠0

 H0: β=0 vs H1: β≠0

 の仮説を自動的に設定してくれる.

P

P 値

α α

β β

線形モデルでは

H0: β=0 vs H1: β≠0

以外は使わない

線形モデルでは

H0: β=0 vs H1: β≠0

(22)

真の体重

α

目星

がついている場合

 実際の研究でこんな仮説を使うことはないが…

 これは関数 lm ではできないので,関数 t.test を使う

 t.test(d$Wt, mu=50)

 t = 30.1383, df = 1639, p-value < 2.2e-16  95 percent confidence interval:

 57.53596 58.58513  sample estimates:  mean of x

 58.06055

体重の測定値 Y = 真の体重 α+ 誤差 ε誤差 ε は正規分布

体重の測定値 Y = 真の体重 α+ 誤差 ε誤差 ε は正規分布

P 値

P 値

α の 95% 信頼 区間

α の 95% 信頼 区間

α の推定値

α の推定値

仮説 H0: α=50 (kg) vs H1:α≠50 (kg)

(23)

体重が

性別

身長

で決まるモデルでは

 R ではこの仮説設定はデフォルトでやって

くれるから,統計モデルだけ指定すれば O K

 res=lm(Wt~Sex+Ht, d)

 summary(res)

体重の測定値 Y= α + βX + γ× 身長 +

誤差 ε

(男 X=1 / X=0

誤差 ε は正規分布

体重の測定値 Y= α + βX + γ× 身長 +

誤差 ε

(男 X=1 / X=0

誤差 ε は正規分布

仮説 H0: β=0 vs H1:β≠0 H0: γ=0 vs H1:γ≠0

仮説 H0: β=0 vs H1:β≠0 H0: γ=0 vs H1:γ≠0

P 値

(24)

体重が

学歴

で決まるモデルでは

 levels(d$School )

 [1] "high" "junior" "univ"

 高卒が基準になっている⇒中卒を基準にするには

 d$School=relevel(d$School, ref=“junior”)

体重の測定値 Y= α+β1X1+β2X2+ 誤差 ε

誤差 ε は標正規分布      体重の測定値 Y= α+β1X1+β2X2+ 誤差 ε

誤差 ε は標正規分布      

  X1 X2

中卒 0 0

高卒 1 0

大卒 0 1 仮説 H0: β1=0 vs

H1:β1≠0

H0: β2=0 vs

H1:β2≠0

仮説 H0: β1=0 vs

H1:β1≠0

H0: β2=0 vs

H1:β2≠0

ref

reference 基準

ref

(25)

体重が

学歴

で決まるモデルでは

 res=lm(Wt~School, d)

 summary(res)

 高卒の P 値 >0.05⇒H0 : β =0  

 「高卒であることは体重に影響しない」

 大卒の P 値 <0.05⇒H1 : β ≠0  

 「大卒であることは体重に影響する」

P P α

α β1 β1 β2 β2

推定値

(26)

仮説を変えてみると

 res=lm(Wt~School, d)  anova(res)

 質的変数のパラメータすべて =0 かどうかを一気

に検定することを分散分析( ANOVA )とよぶ

体重の測定値 Y= α+β1X1+β2X2+ 誤差 ε

誤差 ε は標正規分布      体重の測定値 Y= α+β1X1+β2X2+ 誤差 ε

誤差 ε は標正規分布      

仮説 H0: β1=β2=0 vs H1:(β1=β2=0) でない

仮説 H0: β1=β2=0 vs H1:(β1=β2=0) でない

(27)

検定のまとめ

 統計モデルをたてる

 仮説 H0 vs H1 をたてる

 有意水準 α を決める(たいていは α=0.05 で OK )  統計モデルと仮説を R に指定して P 値を求める

(28)

2011

年医師国家試験

 この P 値の意味は?

 統計モデル⇒おそらく, A 群 X=1 / B 群 X=0 の時

 入院期間 =α+βX+ 誤差

 仮説⇒おそらく, H0 : β=0 vs H1:β≠0  P 値 =0.036

(29)

2011

年医師国家試験

 選択肢

a. A 群は B 群に比べて入院期間が平均で 3.6% 短い. b. A 群の入院期間の平均値の誤差は 3.6% 以内である. c. A 群の方が B 群よりも入院期間が短くなる確率は 3.

6% である.

d. A 群の 96.4% の患者は入院期間が B 群の平均入院期

間より短い.

e. A 群と B 群とで入院期間に差がないのに,誤って差

(30)

2011

年医師国家試験

 A 群と B 群とで入院期間に差がないのに,

誤って差があるとする確率は 3.6% である .

 厳密には下線部は誤り

 差がないのに( H0 ),誤って差がある

( H1 )と判定する確率は,検定を行う前

に決めた有意水準 α=5% のハズ.

 P 値は,差がないときに( H0 ),検定統

計量 T が観測値より H1 側の(大きな)値 をとる確率

 P 値は,差がないときに( H0 ),観察値

(31)

2011

年医師国家試験

 どうやらこの問題を作ったセンセイは, P

参照

関連したドキュメント

Management:PDM)をもって物流と定義Lてい乱ω

区内の中学生を対象に デジタル仮想空間を 使った防災訓練を実 施。参加者は街を模し た仮想空間でアバター を操作して、防災に関

「文字詞」の定義というわけにはゆかないとこ ろがあるわけである。いま,仮りに上記の如く

 仮定2.癌の進行が信頼を持ってモニターできる

本節では本研究で実際にスレッドのトレースを行うた めに用いた Linux ftrace 及び ftrace を利用する Android Systrace について説明する.. 2.1

※各事業所が提出した地球温暖化対策計画書の平成28年度の排出実績が第二計画

□ ゼミに関することですが、ゼ ミシンポの説明ではプレゼ ンの練習を主にするとのこ とで、教授もプレゼンの練習

 講義後の時点において、性感染症に対する知識をもっと早く習得しておきたかったと思うか、その場