情報・統計処理
統計パート 第
7
回
臨床試験管理センター西山毅(たけし)
nishiyama@minos.ocn.ne.jp
推定のまとめ
神の世界 = 母集団について限られた情報しかもたな
いわれわれ人間は,統計モデルを通じて何とか神さ
ましか知らない真の値 = パラメータを見積もる
パラメータの見積りを推定と呼ぶ
母集団( population ) 標本( sample )
神の世界
神の世界
ランダム人間界
人間界
サンプリング
ランダム
サンプリング
統計モデル
推定のまとめ(続)
res = lm( 統計モデル,データ名)でいっ
たん推定結果を変数 res に入れる
res⇒ 点推定値
confint(res)⇒95% 信頼区間
res = lm( 統計モデル,データ名)でいっ
たん推定結果を変数 res に入れる
res⇒ 点推定値
confint(res)⇒95% 信頼区間
使う統計モデルを決める
Y=α+β1X1+β2X2+ 誤差 ε
Y は量的変数
2011
年医師国家試験
新しく発売された抗菌薬 A の肺炎に対する治療効果を調べるために
,新たに入院する肺炎患者を対象として,抗菌薬 A を投与した群 ( A 群)と既存の抗菌薬 B を投与した群( B 群)とに割りつけて, 治療効果を入院期間で比較検討した.得られた結果を表に示す.
この結果の解釈について正しいのはどれか.
a. A 群は B 群に比べて入院期間が平均で 3.6% 短い. b. A 群の入院期間の平均値の誤差は 3.6% 以内である.
c. A 群の方が B 群よりも入院期間が短くなる確率は 3.6% である. d. A 群の 96.4% の患者は入院期間が B 群の平均入院期間より短い. e. A 群と B 群とで入院期間に差がないのに,誤って差があるとする確
検定
とは
男なら X=1, 女なら X=0 というダミー変数を使え ば,
体重に男女差があるか?
⇒β=0 or β≠0
パラメータに関する仮説が正しいかどうか手持ちの
データを使ってテスト(検定 test )すること
• (女)体重の測定値 Y = α+ 誤差 ε
(男)体重の測定値 Y= α + β +
誤差 ε
• 誤差 ε は正規分布
• (女)体重の測定値 Y = α+ 誤差 ε
(男)体重の測定値 Y= α + β +
誤差 ε
• 誤差 ε は正規分布
• 体重の測定値 Y= α + βX + 誤差 ε • 誤差 ε は正規分布
検定のコンセプト
① 研究で主張したいことを対立仮説 H1 とする ② その反対の否定したい仮説:帰無仮説 H0 も
立てる
③ H0 の世界のもとではサンプルデータが得ら
れる確率はスゴク小さい⇒ H1 と判断しよう
まず言いたいことの反対を否定して,間接的
に主張が正しいと判断する点で検定は背理法
である
H0
さっきの例では
第 1 ステップ:仮説をたてる
示したいのは, H1:β≠0
その反対の仮説 H0:β=0
第 2 ステップ:検定統計量 T ( Y )を決め
る
この場合は,
• 体重の測定値 Y= α + βX + 誤差 ε
(男 X=1 vs 女 X=0 )
• 誤差 ε は正規分布
• 体重の測定値 Y= α + βX + 誤差 ε
(男 X=1 vs 女 X=0 )
• 誤差 ε は正規分布
この場合の
T
の分布は
T の確率密度関数 f(t) は,サンプル数を
n とすると,
ただし,
なぜこの場合の検定統計量とその分布が
こうなるの?
⇒知らなくてもやっていけます
第2ステップの補足
統計モデルと仮説を決めれば,「最適」な検
定統計量 T(Y) が理論的に導ける
H0 のもとでの T(Y) の分布を考える
⇒H1 を考えない. H 0の場合のみを考えること に注意
検定統計量
T ( Y )
検定統計量
T ( Y )
統計モデル
仮説
統計モデル
仮説 ブラックボックス
検定では H0 の場合だけを考える
2つのエラー
H0 が正しいのに,間違って H1 を正しいと
判定する確率: α
H 1が正しいときに,間違って H0 を正し
いと判定する確率: β
この表は縦向きにみる
H1 が正しいときに, 検定( Test )で H0 と
判定する確率 β
H0 が正しいときに,
検定で H1 と判定する
確率 α
True
Te
s
t
’
2つのエラー(続)
言葉で覚えると混乱するから式で覚えよう
α = P(H1’ | H0)
β = P(H0’ | H1)
◯ のもとで△となる確率 P (△ |□ )
True
Te
s
t
’
’
α と β はトレードオフ
どちらか一方を決めれ
第3ステップ
検定では, α の方を決める⇒自動的に β も決ま
る
検定に先立って,あらかじめ決める α の値を有
意水準と呼ぶ
慣例的に α=0.05 とすることが多い
理論的な根拠は何もない
P
値
とは何か?
H0: β=0 のもとでの T の分布は左図
T(Y) の式より, T
が ±∞ に近いほど
H0 に矛盾して,
「 H1 っぽく」なる .
-4 -2 0 2 4
0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )
H1 H0 H1
T
P
値
とは何か?
T ( Y )が,
「 H1 っぽい」 両端にきたら,
H1 と判定し,中 心部にきたら H 0 と判定しよう .
どこで線引きす
るか?
-4 -2 0 2 4
0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )
H1 H0 H1
T
P
値
とは何か?
灰色の面積(確
率) =0.05 となる T の値( T < -1.9 6, 1.96 < T )を H 1 か H0 の区切りと しよう
この部分の T をと
る場合は, H0 より
H1 である可能性が
高いから
-4 -2 0 2 4
0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )
H1 H0 H1
T
-4 -2 0 2 4
0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 9 )
-4 -2 0 2 4
-4 -2 0 2 4 0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )
-4 -2 0 2 4
0 .0 0 .1 0 .2 0 .3 0 .4 x d t( x, 1 6 3 8 )
T (データ)
P
値
とは何か?
T( データ)より H1
側の確率= P 値とよ ぶ
T (データ) =2.1
では, P 値 =0.036
α=0.05 の領域に
T (データ)が入る ⇔ P 値 <0.05
第
5
ステップ
P 値 <0.05⇒H1 と判定
H0 を棄却すると言う
P 値≧ 0.05⇒H0 と判定
H0 を採択すると言う
有意水準 α は検定前に決める値であり, P
値はサンプルデータから得られる点に注意
P
値
<α⇒H1
検定手
順
のまとめ
まず統計モデルを決め
第1ステップ:仮説を決める
第2ステップ:検定統計量 T ( Y )を決める 第3ステップ:有意水準 α を決める
第4ステップ: P 値を求める
第5ステップ: H0 or H1 を判定する
この中で我々がやらねばならないのは
統計モデルを決める 仮説を決める
有意水準を決める
検定手
順
のまとめ(続)
さらに,慣れるまでは有意水準 α=0.05 と
しておけば良いから,実際にやることは ,
統計モデルをたて,仮説を決めるだけ.
他は全部 R がやってくれる.
R
でやってみまし
ょ
う
demo.csv を読み込んで,変数 d に代入
d = read.csv(“demo.csv”)
この統計モデルの解析結果を変数 res に代
入
res=lm(Wt~Sex,d)
• 体重の測定値 Y= α + βX + 誤差 ε
(男 X=1 / 女 X=0 )
• 誤差 ε は正規分布
• 体重の測定値 Y= α + βX + 誤差 ε
(男 X=1 / 女 X=0 )
• 誤差 ε は正規分布
仮説 H0: β=0 vs H1:β≠0
R
でやってみまし
ょ
う
summary(res)
統計モデルしか R に指定していない.仮説設
定はどうなってるの?
線形モデルの関数 lm では, H0: α=0 vs H1:α≠0
H0: β=0 vs H1: β≠0
の仮説を自動的に設定してくれる.
P 値
P 値
α α
β β
線形モデルでは
H0: β=0 vs H1: β≠0
以外は使わない
線形モデルでは
H0: β=0 vs H1: β≠0
真の体重
α
に
目星
がついている場合
実際の研究でこんな仮説を使うことはないが…
これは関数 lm ではできないので,関数 t.test を使う
t.test(d$Wt, mu=50)
t = 30.1383, df = 1639, p-value < 2.2e-16 95 percent confidence interval:
57.53596 58.58513 sample estimates: mean of x
58.06055
• 体重の測定値 Y = 真の体重 α+ 誤差 ε • 誤差 ε は正規分布
• 体重の測定値 Y = 真の体重 α+ 誤差 ε • 誤差 ε は正規分布
P 値
P 値
α の 95% 信頼 区間
α の 95% 信頼 区間
α の推定値
α の推定値
仮説 H0: α=50 (kg) vs H1:α≠50 (kg)
体重が
性別
と
身長
で決まるモデルでは
R ではこの仮説設定はデフォルトでやって
くれるから,統計モデルだけ指定すれば O K
res=lm(Wt~Sex+Ht, d)
summary(res)
• 体重の測定値 Y= α + βX + γ× 身長 +
誤差 ε
(男 X=1 / 女 X=0 )
• 誤差 ε は正規分布
• 体重の測定値 Y= α + βX + γ× 身長 +
誤差 ε
(男 X=1 / 女 X=0 )
• 誤差 ε は正規分布
仮説 H0: β=0 vs H1:β≠0 H0: γ=0 vs H1:γ≠0
仮説 H0: β=0 vs H1:β≠0 H0: γ=0 vs H1:γ≠0
P 値
体重が
学歴
で決まるモデルでは
levels(d$School )
[1] "high" "junior" "univ"
高卒が基準になっている⇒中卒を基準にするには
d$School=relevel(d$School, ref=“junior”)
• 体重の測定値 Y= α+β1X1+β2X2+ 誤差 ε
• 誤差 ε は標準正規分布 • 体重の測定値 Y= α+β1X1+β2X2+ 誤差 ε
• 誤差 ε は標準正規分布
X1 X2
中卒 0 0
高卒 1 0
大卒 0 1 仮説 H0: β1=0 vs
H1:β1≠0
H0: β2=0 vs
H1:β2≠0
仮説 H0: β1=0 vs
H1:β1≠0
H0: β2=0 vs
H1:β2≠0
ref :
reference 基準
ref :
体重が
学歴
で決まるモデルでは
res=lm(Wt~School, d) summary(res)
高卒の P 値 >0.05⇒H0 : β =0
「高卒であることは体重に影響しない」
大卒の P 値 <0.05⇒H1 : β ≠0
「大卒であることは体重に影響する」
P 値 P 値 α
α β1 β1 β2 β2
推定値
仮説を変えてみると
res=lm(Wt~School, d) anova(res)
質的変数のパラメータすべて =0 かどうかを一気
に検定することを分散分析( ANOVA )とよぶ
• 体重の測定値 Y= α+β1X1+β2X2+ 誤差 ε
• 誤差 ε は標準正規分布 • 体重の測定値 Y= α+β1X1+β2X2+ 誤差 ε
• 誤差 ε は標準正規分布
仮説 H0: β1=β2=0 vs H1:(β1=β2=0) でない
仮説 H0: β1=β2=0 vs H1:(β1=β2=0) でない
検定のまとめ
統計モデルをたてる
仮説 H0 vs H1 をたてる
有意水準 α を決める(たいていは α=0.05 で OK ) 統計モデルと仮説を R に指定して P 値を求める
2011
年医師国家試験
この P 値の意味は?
統計モデル⇒おそらく, A 群 X=1 / B 群 X=0 の時
入院期間 =α+βX+ 誤差
仮説⇒おそらく, H0 : β=0 vs H1:β≠0 P 値 =0.036
2011
年医師国家試験
選択肢
a. A 群は B 群に比べて入院期間が平均で 3.6% 短い. b. A 群の入院期間の平均値の誤差は 3.6% 以内である. c. A 群の方が B 群よりも入院期間が短くなる確率は 3.
6% である.
d. A 群の 96.4% の患者は入院期間が B 群の平均入院期
間より短い.
e. A 群と B 群とで入院期間に差がないのに,誤って差
2011
年医師国家試験
A 群と B 群とで入院期間に差がないのに,
誤って差があるとする確率は 3.6% である .
厳密には下線部は誤り
差がないのに( H0 ),誤って差がある
( H1 )と判定する確率は,検定を行う前
に決めた有意水準 α=5% のハズ.
P 値は,差がないときに( H0 ),検定統
計量 T が観測値より H1 側の(大きな)値 をとる確率
P 値は,差がないときに( H0 ),観察値
2011
年医師国家試験
どうやらこの問題を作ったセンセイは, P