公衆衛生学:
統計学・第 3-4 回
-統計学的推測
-線形モデル
愛知医大 公衆衛生 西山毅(たけし)
2017 年 4 月 24 日
目次
推測統計学のコンセプト
推定
検定
演習①
線型モデル
演習②
課題
目次
推測統計学のコンセプト
推定
検定
演習①
線型モデル
演習②
課題
推測統計学とは
ここまでやったことが記述統計学です.こ
れからやるのが,統計学の中止となる推測
統計学です.
1922 年の Fisher RA” On the mathematical f oundations of theoretical statistics” が嚆 矢
標本(サンプル)と母集団とを区別し,標
本から母集団について調べる統計理論
推測統計学のコンセプト
母集団=神の世界のことが知りたいが,人間界で はその一部のサンプルしか手に入らない.
一部のサンプルから母集団のことを何とかうかが い知るというのが推測( inference )のコンセプト 母集団( population ) 標本( sample )
神の世界 神の世界 人間界 人間界
どうすればそんなことができる① ?
母集団=神の世界をある統計モデルで近似する
どのような統計モデルを使うかが統計解析の腕の見せ所
母集団( population )
神の世界 神の世界
統計 モデル
統計 モデル
≒
統計モデルとは
身長の測定値=真の身長+測定誤差
(誤差 は正規分布)
統計モデルを書くときの約束
X = α + 誤差( ε )
誤差も観測値でないので,ギリシャ文字 ε と書く 178.0=178.0 + 0
178.1=178.0 + 0.1 177.9=178.0 + (-0.1)
パラメータはギリシャ文字( α, β など)で書く 観測値はローマ字( X, Y など)で書く
パラメータはギリシャ文字( α, β など)で書く 観測値はローマ字( X, Y など)で書く
統計モデルとは
統計モデル=真の世界の代用品.
統計モデルは現実と完全に同じでない
現実のデータを上手く説明できる統計モデルを作 れれば,そのデータを生み出すメカニズムに対し て洞察が得られる
統計モデルは世界を見る枠組
統計モデルは世界を見る枠組
どうすればそんなことができる② ?
サンプルは母集団の一部をランダムに取って きたものとする
母集団( population )
統計 モ
デル
統計 モ
デル
≒
標本( sample ) サンプリン
グ
サンプリン グ
推測にもいろいろあります
X (身長の観測値)= α (真の身長)+誤差
X = 170.0cm, 172.5cm, 162.7cm,… のサンプル データを使って,
α を見積もる:推定( estimation )
α に関する仮説が成り立つか調べる:検定( tes t )
目次
推測統計学のコンセプト
推定
検定
演習①
線型モデル
演習②
課題
推定のコンセプト
神の世界 = 母集団について限られた情報しかもたないわ れわれ人間は,神の世界を統計モデルで近似することに よって,神さましか知らない真の値 = パラメータを見積 もる
統計 モ
デル
統計 モ
デル
≒
サンプリン グ
サンプリン グ
標本( sample ) α の見積も
り
α の見積も 母集団( population )り
推定の「良さ」の基準は外から与える
例えば,推定の「良さ」の基準には,
誤差の 2 乗の和を最小にする(最小二乗法)
尤度を最大にする(最尤法) など色々ある.
という統計モデルのもとでは, α の推定量はど ちらの基準を用いても, X の平均値となる.
• 身長の測定値 X = 真の身長 α+ 誤差 ε
• 誤差 ε は正規分布
• 身長の測定値 X = 真の身長 α+ 誤差 ε
• 誤差 ε は正規分布
推定量にもいろいろあります
最尤法では, σ
2の推定量
最小二乗法では,
σ
2の推定量
と推定量が異なる
• 身長の測定値 X = 真の身長 α+ 誤差 ε
• ε は正規分布 N(0, σ
2)
• 身長の測定値 X = 真の身長 α+ 誤差 ε
• ε は正規分布 N(0, σ
2)
同じ統計モデルを使っても,用いる「良さ」の基準 によって推定の結果が異なる
同じ統計モデルを使っても,用いる「良さ」の基準 によって推定の結果が異なる
推定の「良さ」の基準はどうするの?
EZR のデフォルトで OK
EZR のデフォルトで OK
どの推定法を使ったのかは知っておいた方が良 い
サンプルにはズレがある
真の分布(黒色)の中からサンプ ル(赤点)は均等に取れない
⇒α の推定値≠ α の真の値
⇒ 推定に幅を持たせる
区間推定 ( vs. 点推定)
• 身長の測定値 Y = 真の身長 α+ 誤差 ε
• 誤差 ε は正規分布
• 身長の測定値 Y = 真の身長 α+ 誤差 ε
• 誤差 ε は正規分布
信頼区間の意味
「 α が 95 %入る区間」⇒☓
「信頼区間を 100 個作れば,そのうち 95
個の区間には α が含まれる」⇒◯
パラメータは定数
動くのは信頼区間
パラメータは定数
動くのは信頼区間
推定のまとめ
統計モデルと,推定の「良さ」の基準で決まる
推定の「良さ」の基準は統計ソフト EZR でデフォ ルトの方法で OK
パラメータの点推定値がパラメータの真の値にぴっ たり一致することはまずないので,区間推定も行う
ふつうは 95 %信頼区間
パラメータの推定⇒
点推定値と 95% 信頼区間を求める
パラメータの推定⇒
点推定値と 95% 信頼区間を求める
??? Questions ???
目次
推測統計学のコンセプト
推定
検定
演習①
線型モデル
演習②
課題
検定のコンセプト
神さましか知らない真の値 = パラメータがあ
る値であるか判定することを検定という
統計 モ
デル
統計 モ
デル
≒
サンプリン グ
サンプリン グ
標本( sample ) α=0 かどう
か判定
α=0 かどう 母集団( population )か判定
検定のコンセプト
X (身長の観測値)= α (真の身長)+誤差
X = 170.0cm, 172.5cm, 162.7cm,… のサンプルデータ を使って,
H0:α=178cm という仮説が成り立つか判定する
H0 とデータが合致するかしないか?
合致しない→ H0 を否定( α≠178cm )
合致する→ H0 を受け入れる
最初に立てた仮説 H0:α=178cm を帰無仮説と呼ぶ
その反対側の仮説 H1:α≠178cm を対立仮説と呼ぶ
検定のコンセプト
パラメータについて帰無仮説 H0 を立てる
その反対側が対立仮説 H1
H0 が正しいと仮定した場合に,サンプルデータが得られる確 率を求める
すごく小さい⇒ H0 を否定して H1 と判断する
あまり小さくない⇒ H0 は否定できない
まず言いたいことの反対を否定して,間接的に主張が正しいと 判断する点で検定は背理法である
H0 H0 H1 H1
P 値とは
H0 が正しかったときに,サンプルデータ(かそれ より極端な値)が得られる確率= P 値と呼ぶ
H0 がサンプルデータに合致しない程度を表す
小さいほど, H0 とサンプルデータが合致しない
P 値が小さい→ H0 は否定
検定結果は P 値だけを見れば良い
P 値が検定前にあらかじめ決めた値 α より小さければ H 0 を否定(棄却)する
P 値はデータから決まる値だが, α (有意水準とよぶ) は検定する人が勝手に定めた値.
有意水準と P 値は別
物
有意水準と P 値は別
物
有意水準 α と P 値を区別しよう
検定前に有意水準 α を決める
P 値< α なら H0 を否定するという閾値のこと
検定前に解析者が自由に決める
実態としては,ほとんどの場合 α=0.05 が使われる
データを解析した(検定した)結果 P 値が得 られる
検定前 検定後
α P 値
H0 を否定 H0 を否定できず
検定のコンセプト(続)
検定結果の判定法
ほとんどの場合, α の値として 0.05 が使われる
P 値< 0.05→H0 を否定 =H1 が正しい
P 値≧ 0.05→H0 を否定できず( H0 か H1 かわからな い)
α は検定する人が検定前に決めておく.
ほとんど場合は α=0.05 が使われる.
検定では H0 を否定できるかどうかだけを見る
検定では H0 を否定できるかどうかだけを見る
t 検定
男女の真の体重 μ1 と μ2 が等しいかどうかの検定
この統計モデルと仮説についての検定を t 検定とよぶ
• (男)体重 Y1 = μ1 + 誤差 ε1 (女)体重 Y2 = μ2 + 誤差 ε2
• 誤差 ε1, ε2 は正規分布
• (男)体重 Y1 = μ1 + 誤差 ε1 (女)体重 Y2 = μ2 + 誤差 ε2
• 誤差 ε1, ε2 は正規分布
仮説 H0: μ1 = μ2 vs. H1:μ1 ≠ μ2 仮説 H0: μ1 = μ2 vs. H1:μ1 ≠ μ2
◯◯ 検定は,統計モデルと仮説のペアのこ
と
◯◯ 検定は,統計モデルと仮説のペアのこ
と
χ2 検定
質的変数の検定では χ2 検定を使う
母集団の男女数が等しいかどうかを調べる際は
,以下のような統計モデル・仮説を使う.
得られた P 値< 0.05 なら H0 を否定する
(統計モデル) 男の人数は 2 項分布する
(仮説) H0: # 男= # 女 vs. H1:# 男≠
# 女
(有意水準) α = 0.05
(統計モデル) 男の人数は 2 項分布する
(仮説) H0: # 男= # 女 vs. H1:# 男≠
# 女
(有意水準) α = 0.05
男 女
110
人 115人
χ2 検定(続)
2 重クロス表データでも χ2 検定を使う
得られた P 値< 0.05 なら H0 を否定する
(統計モデル) 省略 [ 知らなくても良 い ](仮説) H0: 性別と学歴は関連がない
vs. H1: 性別と学歴は関連あり
(有意水準) α = 0.05
(統計モデル) 省略 [ 知らなくても良 い ](仮説) H0: 性別と学歴は関連がない
vs. H1: 性別と学歴は関連あり
(有意水準) α = 0.05
関連とは?
性別と学歴に関係ないこと
性別側から見れば,男でも女でも中・高・大卒の割合が等 しい
学歴側から見れば,中卒でも高卒でも大卒でも,男女の割 合が等しい
両者がどれくらい離れているかが P 値に反映する.
関連がなくなるほど( H1 に近づくほど) P 値は小さくなる
中卒 高卒 大卒 男 4 6 10 女 3 9 8
中卒 高卒 大卒 男 3.5 7.5 9 女 3.5 7.5 9
観測値 関連なしのとき
検定のまとめ
統計モデルと仮説 H0/H1 で決まる
検定結果は p 値
H0 か H1 かは p 値と 0.05 の大小で判定する
P 値 <0.05→H0 を棄却
P 値≧ 0.05→H0 か H1 かわからない
検定に慣れるまでは,統計モデルと仮説 H0/H1 をノートに書き出そう
検定に慣れるまでは,統計モデルと仮説 H0/H1 をノートに書き出そう
実際には
統計ソフトでは推定も検定も同時に行われる
統計モデルだけ指定すれば推定値と P 値が得られる
推定の「良さ」の基準はデフォルトで決まっている
ほとんどが最尤推定法
検定の仮説 H0/H1 はデフォルトで決まっている
「差がない」「関連がない」場合を H0 とする
男女差がない,学歴と性別に関連がないなど
EZR では,ツールバーの「統計解析」に含まれる 選択肢はすべて様々な統計モデルを表している
EZR では統計モデルを指定するだけ で OK
EZR では統計モデルを指定するだけ で OK
??? Questions ???
演習①
demo.csv を読み込み以下の問いに答えなさい.
① 以下の統計モデルと仮説の検定を行いなさい. ただし,有意水準は 0.05 とする.
*t検定ではどんな場合も Welch test を使うべ き
• (男)体重 Y1 = μ1 + 誤差 ε1 (女)体重 Y2 = μ2 + 誤差 ε2
• 誤差 ε1, ε2 は正規分布
• (男)体重 Y1 = μ1 + 誤差 ε1 (女)体重 Y2 = μ2 + 誤差 ε2
• 誤差 ε1, ε2 は正規分布
仮説 H0: μ1 = μ2 vs. H1:μ1 ≠ μ2 仮説 H0: μ1 = μ2 vs. H1:μ1 ≠ μ2
演習①
② 以下の統計モデルと仮説の検定を行いなさい
.
ただし,有意水準は 0.05 とする
*どんな場合も Χ2 検定より Fisher 正確検定の方 が良い
EZR のデフォルト
(統計モデル) 省略 [ 知らなくても良 い ](仮説) H0: 性別と学歴は関連がない
vs. H1: 性別と学歴は関連あり
(統計モデル) 省略 [ 知らなくても良 い ](仮説) H0: 性別と学歴は関連がない
vs. H1: 性別と学歴は関連あり
目次
推測統計学のコンセプト
推定
検定
演習①
線型モデル
演習②
課題
線型モデル Linear Model (LM)
この統計モデルでは,すべての人の体重は α に等し く,体重の測定値の違いはすべて誤差によるもので あるという,現実にはあり得ない仮定をしています
.
この例では,
α の推定値= 58.1 ( 95 % CI : 57.5-58.6 )
H0:μ0≠0 の検定: P 値 <0.05 より H0 を棄却→ H1
• 体重 Y = α + 誤差 ε 誤差 ε は正規分布
• 体重 Y = α + 誤差 ε 誤差 ε は正規分布
右辺が量的変数1つの場合
この統計モデルは,体重は身長と誤差で決まるという モデルで,身長が 1cm 伸びるごとに体重が βkg 重くな ると仮定しています.
この例では,
仮説はデフォルトで H0:α=0 vs. H1:α≠0
H0:β=0 vs. H1:β≠ 0
α の推定値= -84.8, P 値 <0.05 より H0 を棄却→ H1
β の推定値= 0.88, P 値 <0.05 より H0 を棄却→ H1
• 体重 Y = α + β× 身長+誤差 ε 誤差 ε は正規分布
• 体重 Y = α + β× 身長+誤差 ε 誤差 ε は正規分布
右辺が質的変数1つの場合
説明変数に質的変数 Sex を使ったモデルです. 女性はすべて同じ体重 α をしており,測定値の 違いはすべて誤差のせいである.同様に,男性 もすべて同じ体重 α + β をしており,測定値の 違いはすべて誤差のせいであるという現実には 考えにくいモデルです.
(女性)体重 Y =α +誤差 ε
(男性)体重 Y =α + β + 誤差 ε 誤差 ε は正規分布
(女性)体重 Y =α +誤差 ε
(男性)体重 Y =α + β + 誤差 ε 誤差 ε は正規分布
(続)
質的変数を右辺に使った場合は,基準(この場 合は女)に対する増加分で質的変数の効果を表 します.
女女 男男
基準の女の体重 α からの増分 β
β1β1
中卒の体重 α 中卒の体重 α
β2β2 高卒の体重
高卒の体重
大卒の体重 大卒の体重
(中卒)体重 Y =α +誤差 ε
(高卒)体重 Y =α + β1 + 誤差 ε
(大卒)体重 Y =α + β2 + 誤差 ε 誤差 ε は正規分布
(中卒)体重 Y =α +誤差 ε
(高卒)体重 Y =α + β1 + 誤差 ε
(大卒)体重 Y =α + β2 + 誤差 ε 誤差 ε は正規分布
(続)
面倒くさいので
を以下のように書くことにします.
この(性別)変数は女の体重に対する男の増加 分を表すものとします
体重 Y =α +(性別)+誤差 ε 誤差 ε は正規分布
体重 Y =α +(性別)+誤差 ε 誤差 ε は正規分布
(女性)体重 Y =α +誤差 ε
(男性)体重 Y =α + β + 誤差 ε 誤差 ε は正規分布
(女性)体重 Y =α +誤差 ε
(男性)体重 Y =α + β + 誤差 ε 誤差 ε は正規分布
(続)
同じように
を以下のように書くことにします.
この(学歴)変数は中卒の体重に対する高卒また は大卒の増加分を表すものとします
体重の測定値 Y =α +(学歴)+誤差 ε 誤差 ε は正規分布
体重の測定値 Y =α +(学歴)+誤差 ε 誤差 ε は正規分布
(中卒)体重の測定値 Y =α +誤差 ε
(高卒)体重の測定値 Y =α + β1 + 誤差 ε
(大卒)体重の測定値 Y =α + β2 + 誤差 ε
誤差 ε は正規分布
(中卒)体重の測定値 Y =α +誤差 ε
(高卒)体重の測定値 Y =α + β1 + 誤差 ε
(大卒)体重の測定値 Y =α + β2 + 誤差 ε 誤差 ε は正規分布
(続)
例えば学歴の統計モデルの場合は,
この例では,
仮説はデフォルトで H0:α=0 vs. H1:α≠0
H0:β1=0 vs. H1:β1≠0, H0:β2=0 vs. H1:β2≠0
α の推定値= 56.8, P 値 <0.05 より H0 を棄却→ H1
β1 の推定値= 0.56, P 値≧ 0.05 より H0 を棄却でき ず
β2 の推定値= 1.88, P 値 <0.05 より H0 を棄却→ H1
体重 Y =α +(学歴)+誤差 ε 誤差 ε は正規分布
体重 Y =α +(学歴)+誤差 ε 誤差 ε は正規分布
右辺が量的変数と質的変数の場合
この例では,
仮説はデフォルトで H0:α=0 vs. H1:α≠0
H0:β=0 vs. H1:β≠0, H0: 性差 γ=0 vs. H1: 性差 γ≠0
体重 Y =α + β× 身長+(性別)+誤差 ε 誤差 ε は正規分布
体重 Y =α + β× 身長+(性別)+誤差 ε 誤差 ε は正規分布
演習②
demo.csv を読み込み以下の統計モデルについて 答えなさい.
① H0: 男女差あり vs H1 :男女差なしの検定を行 いなさい.ただし,有意水準は 0.05 とする.
② β を推定しなさい.
ふつうは独立変数 X が Y に及ぼす影響を調べた いので切片 α の推定や検定は行わない
体重 Y =α + β× 身長+(性別)+誤差 ε 誤差 ε は正規分布
体重 Y =α + β× 身長+(性別)+誤差 ε 誤差 ε は正規分布
この場合の結果の読み方
身長の係数 β=0.63 は何を表すのか?
男女差は γ=5.71 で吸収される
β=0.63 は性別の影響を除外した上での,身長が体重に 及ぼす影響力を表す
影響を除外した変数を右辺に入れれば良い 体重 = -46.7 + 0.63× 身長+(男 5.71/ 女 0 )+誤差
体重 = -46.7 + 0.63× 身長+(男 5.71/ 女 0 )+誤差
まとめ・線型モデル
量的変数= α + β× 量的変数+誤差
回帰分析
量的変数はいくつあっても OK
量的変数= α +(質的変数)+誤差
分散分析 ANOVA
質的変数が男女のように 2 水準なら t 検定となる
量的変数= α + β× 量的変数+(質的変数)+誤差
共分散分析 ANCOVA
以上すべての統計モデルをまとめて線型モデル Linear model と呼ぶ
??? Questions ???
課題
自分の番号のデータ”番号 .csv” を読み込み以 下の統計モデルについて答えなさい.
① Sleep に Depression が影響するか検定しなさ い.
② Sleep に Sex が影響するか検定しなさい.
③ β を推定しなさい.
④ 女性に対する男性の睡眠時間増加分を推定しな さい.
Sleep =α + β×Depression +
( Sex )+誤差
・・・誤差 ε は正規分布
Sleep =α + β×Depression +
( Sex )+誤差
・・・誤差 ε は正規分布
提出
解答は統計学課題用紙に記入してプリントア ウトして次回 5 月 8 日(月) 3 限に提出