講義資料 aichimeduniv

(1)

公衆衛生学：

　統計学・第 3-4 回

　

^{－統計学的推測}

　　－線形モデル

愛知医大公衆衛生　西山毅（たけし）

2017 _{年 4 月 24 日}

(2)

推測統計学のコンセプト



_推定



_検定



_演習①



_{線型モデル}



_演習②



_課題

(3)

推測統計学のコンセプト



_推定



_検定



_演習①



_{線型モデル}



_演習②



_課題

(4)

推測統計学とは



ここまでやったことが記述統計学です．こ

れからやるのが，統計学の中止となる推測

統計学です．

 1922 年の Fisher RA” On the mathematical f oundations of theoretical statistics” が嚆矢



標本（サンプル）と母集団とを区別し，標

本から母集団について調べる統計理論

(5)

推測統計学のコンセプト

 母集団＝神の世界のことが知りたいが，人間界ではその一部のサンプルしか手に入らない．

 一部のサンプルから母集団のことを何とかうかがい知るというのが推測（ inference ）のコンセプト母集団（ population ）標本（ sample ）

神の世界神の世界 _人間界人間界

(6)

どうすればそんなことができる① ？

 _{母集団＝神の世界を}ある統計モデルで近似する

 どのような統計モデルを使うかが統計解析の腕の見せ所

母集団（ population ）

神の世界神の世界

統計　モデル

≒

(7)

統計モデルとは

 身長の測定値＝真の身長＋測定誤差

　　　　　　（誤差は正規分布）

 統計モデルを書くときの約束

 X ＝ α + 誤差（ ε ）

 誤差も観測値でないので，ギリシャ文字 ε と書く 178.0=178.0 + 0

178.1=178.0 + 0.1 177.9=178.0 + (-0.1)

パラメータはギリシャ文字（ α, β など）で書く観測値はローマ字（ X, Y など）で書く

(8)

統計モデルとは

 統計モデル＝真の世界の代用品．

 統計モデルは現実と完全に同じでない

 現実のデータを上手く説明できる統計モデルを作れれば，そのデータを生み出すメカニズムに対して洞察が得られる

統計モデルは世界を見る枠組

(9)

どうすればそんなことができる② ？

 サンプルは母集団の一部をランダムに取ってきたものとする

母集団（ population ）

統計　モ

デル

統計　モ

デル

≒

標本（ sample ）サンプリン

グ

サンプリング

(10)

推測にもいろいろあります

 X （身長の観測値）＝ α （真の身長）＋誤差

 X = 170.0cm, 172.5cm, 162.7cm,… のサンプルデータを使って，

 α を見積もる：推定（ estimation ）

 α に関する仮説が成り立つか調べる：検定（ tes t ）

(11)

推測統計学のコンセプト



_推定



_検定



_演習①



_{線型モデル}



_演習②



_課題

(12)

推定のコンセプト

 神の世界 = 母集団について限られた情報しかもたないわれわれ人間は，神の世界を統計モデルで近似することによって，神さましか知らない真の値 = パラメータを見積もる

統計　モ

デル

統計　モ

デル

≒

サンプリング

標本（ sample ） α _の見積も

り

α _の見積も母集団（ population ）り

(13)

推定の「良さ」の基準は外から与える

 例えば，推定の「良さ」の基準には，

 誤差の 2 乗の和を最小にする（最小二乗法）

 尤度を最大にする（最尤法）　など色々ある．

 という統計モデルのもとでは， α の推定量はどちらの基準を用いても， X の平均値となる．

• 身長の測定値 X = 真の身長 α+ 誤差 ε

• _{誤差 ε は正規分布}

• 身長の測定値 X = 真の身長 α+ 誤差 ε

• _{誤差 ε は正規分布}

(14)

推定量にもいろいろあります



_{最尤法では， σ}

₂

_の推定量



_{最小二乗法では，}

　　　　　　 σ

²

の推定量

　　と推定量が異なる

• 身長の測定値 X = 真の身長 α+ 誤差 ε

• ε は正規分布 N(0, σ

²

⁾

• 身長の測定値 X = 真の身長 α+ 誤差 ε

• ε は正規分布 N(0, σ

²

⁾

同じ統計モデルを使っても，用いる「良さ」の基準によって推定の結果が異なる

(15)

推定の「良さ」の基準はどうするの？

EZR のデフォルトで OK

 どの推定法を使ったのかは知っておいた方が良い

(16)

サンプルにはズレがある

真の分布（黒色）の中からサンプル（赤点）は均等に取れない

⇒α の推定値≠ α の真の値

⇒ 推定に幅を持たせる

　　区間推定（ vs. 点推定）

• 身長の測定値 Y = 真の身長 α+ 誤差 ε

• _{誤差 ε は正規分布}

• 身長の測定値 Y = 真の身長 α+ 誤差 ε

• _{誤差 ε は正規分布}

(17)

信頼区間の意味



「 α が 95 ％入る区間」⇒☓



「信頼区間を 100 個作れば，そのうち 95

個の区間には α が含まれる」⇒◯

パラメータは定数

動くのは信頼区間

パラメータは定数

動くのは信頼区間

(18)

推定のまとめ

 統計モデルと，推定の「良さ」の基準で決まる

 推定の「良さ」の基準は統計ソフト EZR でデフォルトの方法で OK

 パラメータの点推定値がパラメータの真の値にぴったり一致することはまずないので，区間推定も行う

 ふつうは 95 ％信頼区間

パラメータの推定⇒

　　　　　　点推定値と 95% 信頼区間を求める

パラメータの推定⇒

　　　　　　点推定値と 95% 信頼区間を求める

(19)

？？？ Questions ？？？

(20)

推測統計学のコンセプト



_推定



_検定



_演習①



_{線型モデル}



_演習②



_課題

(21)

検定のコンセプト



神さましか知らない真の値 = パラメータがあ

る値であるか判定することを検定という

統計　モ

デル

統計　モ

デル

≒

サンプリング

標本（ sample ） α=0 _かどう

か判定

α=0 _かどう母集団（ population ）か判定

(22)

検定のコンセプト

 X （身長の観測値）＝ α （真の身長）＋誤差

X = 170.0cm, 172.5cm, 162.7cm,… のサンプルデータを使って，

H0:α=178cm という仮説が成り立つか判定する

H0 とデータが合致するかしないか？

合致しない→ H0 を否定（ α≠178cm ）

合致する→ H0 を受け入れる

最初に立てた仮説 H0:α=178cm を帰無仮説と呼ぶ

その反対側の仮説 H1:α≠178cm を対立仮説と呼ぶ

(23)

検定のコンセプト

 パラメータについて帰無仮説 H0 を立てる

その反対側が対立仮説 H1

 H0 が正しいと仮定した場合に，サンプルデータが得られる確率を求める

すごく小さい⇒ H0 を否定して H1 と判断する

あまり小さくない⇒ H0 は否定できない

 まず言いたいことの反対を否定して，間接的に主張が正しいと判断する点で検定は背理法である

H0 H0 _H1 H1

(24)

P 値とは

 H0 が正しかったときに，サンプルデータ（かそれより極端な値）が得られる確率＝ P 値と呼ぶ

 H0 がサンプルデータに合致しない程度を表す

 小さいほど， H0 とサンプルデータが合致しない

 P 値が小さい→ H0 は否定

 検定結果は P 値だけを見れば良い

 P 値が検定前にあらかじめ決めた値 α より小さければ H 0 を否定（棄却）する

 P 値はデータから決まる値だが， α （有意水準とよぶ）は検定する人が勝手に定めた値．

有意水準と P 値は別

物

有意水準と P 値は別

物

(25)

有意水準 α と P 値を区別しよう

 検定前に有意水準 α を決める

 P 値＜ α なら H0 を否定するという閾値のこと

 検定前に解析者が自由に決める

 実態としては，ほとんどの場合 α=0.05 が使われる

 データを解析した（検定した）結果 P 値が得られる

_検定前 _検定後

α P _値

H0 _を否定 H0 _{を否定できず}

(26)

検定のコンセプト（続）

 _{検定結果の判定法}

 ほとんどの場合， α の値として 0.05 が使われる

P 値＜ 0.05→H0 を否定 =H1 が正しい

P 値≧ 0.05→H0 を否定できず（ H0 か H1 かわからない）

 α は検定する人が検定前に決めておく．

 ほとんど場合は α=0.05 が使われる．

検定では H0 を否定できるかどうかだけを見る

(27)

t 検定

 男女の真の体重 μ1 と μ2 が等しいかどうかの検定

 この統計モデルと仮説についての検定を t 検定とよぶ

• （男）体重 Y1 = μ1 + 誤差 ε1 　（女）体重 Y2 = μ2 + 誤差 ε2

• 誤差 ε1, ε2 は正規分布

仮説 H0: μ1 = μ2 vs. H1:μ1 ≠ μ2 仮説 H0: μ1 = μ2 vs. H1:μ1 ≠ μ2

◯◯ 検定は，統計モデルと仮説のペアのこ

と

◯◯ 検定は，統計モデルと仮説のペアのこ

と

(28)

χ2 検定

 質的変数の検定では χ2 検定を使う

 母集団の男女数が等しいかどうかを調べる際は

，以下のような統計モデル・仮説を使う．

 得られた P 値＜ 0.05 なら H0 を否定する

（統計モデル）　男の人数は 2 項分布する

（仮説） H0: # 男＝ # 女 vs. H1:# 男≠

# _女

（有意水準） α ＝ 0.05

（統計モデル）　男の人数は 2 項分布する

（仮説） H0: # 男＝ # 女 vs. H1:# 男≠

# _女

（有意水準） α ＝ 0.05

男女

110

人 ¹¹⁵人

(29)

χ2 検定（続）

 2 重クロス表データでも χ2 検定を使う

 得られた P 値＜ 0.05 なら H0 を否定する

（統計モデル）　省略　 [ 知らなくても良い ]（仮説） H0: 性別と学歴は関連がない

　　　　　 vs. H1: 性別と学歴は関連あり

（有意水準） α ＝ 0.05

(30)

検定のまとめ

 統計モデルと仮説 H0/H1 で決まる

 _{検定結果は} _{p 値}

 H0 か H1 かは p 値と 0.05 の大小で判定する

 P 値 <0.05→H0 を棄却

 P 値≧ 0.05→H0 か H1 かわからない

検定に慣れるまでは，統計モデルと仮説 H0/H1 _{をノートに書き出そう}

(32)

実際には

 統計ソフトでは推定も検定も同時に行われる

 統計モデルだけ指定すれば推定値と P 値が得られる

 推定の「良さ」の基準はデフォルトで決まっている

 _{ほとんどが最尤推定法}

 検定の仮説 H0/H1 はデフォルトで決まっている

 「差がない」「関連がない」場合を H0 とする

 男女差がない，学歴と性別に関連がないなど

 EZR では，ツールバーの「統計解析」に含まれる選択肢はすべて様々な統計モデルを表している

EZR では統計モデルを指定するだけで OK

(33)

？？？ Questions ？？？

(34)

演習①

demo.csv を読み込み以下の問いに答えなさい．

① 以下の統計モデルと仮説の検定を行いなさい．　　ただし，有意水準は 0.05 とする．

　　　＊ｔ検定ではどんな場合も Welch test を使うべき

仮説 H0: μ1 = μ2 vs. H1:μ1 ≠ μ2 仮説 H0: μ1 = μ2 vs. H1:μ1 ≠ μ2

(35)

演習①

② 以下の統計モデルと仮説の検定を行いなさい

．

　　ただし，有意水準は 0.05 とする

　＊どんな場合も Χ² 検定より Fisher 正確検定の方が良い

 _{EZR のデフォルト}

(36)

推測統計学のコンセプト



_推定



_検定



_演習①



_{線型モデル}



_演習②



_課題

(37)

線型モデル Linear Model (LM)

 この統計モデルでは，すべての人の体重は α に等しく，体重の測定値の違いはすべて誤差によるものであるという，現実にはあり得ない仮定をしています

．

 _{この例では，}

 α の推定値＝ 58.1 （ 95 ％ CI ： 57.5-58.6 ）

 H0:μ0≠0 の検定： P 値 <0.05 より H0 を棄却→ H1

• 体重 Y = α + 誤差 ε 　誤差 ε は正規分布

(38)

右辺が量的変数１つの場合

 この統計モデルは，体重は身長と誤差で決まるというモデルで，身長が 1cm 伸びるごとに体重が βkg 重くなると仮定しています．

 仮説はデフォルトで H0:α=0 vs. H1:α≠0

H0:β=0 vs. H1:β≠ 0

 α の推定値＝ -84.8, P 値 <0.05 より H0 を棄却→ H1

 β の推定値＝ 0.88, P 値 <0.05 より H0 を棄却→ H1

• 体重 Y = α + β× 身長＋誤差 ε 　誤差 ε は正規分布

(39)

右辺が質的変数１つの場合

 説明変数に質的変数 Sex を使ったモデルです．女性はすべて同じ体重 α をしており，測定値の違いはすべて誤差のせいである．同様に，男性もすべて同じ体重 α ＋ β をしており，測定値の違いはすべて誤差のせいであるという現実には考えにくいモデルです．

（女性）体重 Y =α ＋誤差 ε

（男性）体重 Y =α + β + 誤差 ε 　　誤差 ε は正規分布

(40)

（続）

 質的変数を右辺に使った場合は，基準（この場合は女）に対する増加分で質的変数の効果を表します．

女女男男

基準の女の体重 α _{からの増分 β}

β1β1

中卒の体重 α 中卒の体重 α

β2β2 高卒の体重

高卒の体重

大卒の体重大卒の体重

（中卒）体重 Y =α ＋誤差 ε

（高卒）体重 Y =α + β1 + 誤差 ε

（大卒）体重 Y =α + β2 + 誤差 ε 　　誤差 ε は正規分布

（中卒）体重 Y =α ＋誤差 ε

（高卒）体重 Y =α + β1 + 誤差 ε

（大卒）体重 Y =α + β2 + 誤差 ε 　　誤差 ε は正規分布

(41)

（続）

 _{面倒くさいので}

 を以下のように書くことにします．

 この（性別）変数は女の体重に対する男の増加分を表すものとします

体重 Y =α ＋（性別）＋誤差 ε 　　誤差 ε は正規分布

(42)

（続）

 _{同じように}

 を以下のように書くことにします．

 この（学歴）変数は中卒の体重に対する高卒または大卒の増加分を表すものとします

体重の測定値 Y =α ＋（学歴）＋誤差 ε 　　誤差 ε は正規分布

（中卒）体重の測定値 Y =α ＋誤差 ε

（高卒）体重の測定値 Y =α + β1 + 誤差 ε

（大卒）体重の測定値 Y =α + β2 + 誤差 ε

　　誤差 ε は正規分布

（中卒）体重の測定値 Y =α ＋誤差 ε

（高卒）体重の測定値 Y =α + β1 + 誤差 ε

（大卒）体重の測定値 Y =α + β2 + 誤差 ε　　誤差 ε は正規分布

(43)

（続）

 例えば学歴の統計モデルの場合は，

 _{この例では，}

H0:β1=0 vs. H1:β1≠0, H0:β2=0 vs. H1:β2≠0

 α の推定値＝ 56.8, P 値 <0.05 より H0 を棄却→ H1

 β1 の推定値＝ 0.56, P 値≧ 0.05 より H0 を棄却できず

 β2 の推定値＝ 1.88, P 値 <0.05 より H0 を棄却→ H1

体重 Y =α ＋（学歴）＋誤差 ε 　　誤差 ε は正規分布

(44)

右辺が量的変数と質的変数の場合

H0:β=0 vs. H1:β≠0, H0: 性差 γ=0 vs. H1: 性差 γ≠0

体重 Y =α ＋ β× 身長＋（性別）＋誤差 ε 　　誤差 ε は正規分布

(45)

演習②

demo.csv を読み込み以下の統計モデルについて答えなさい．

① H0: 男女差あり vs H1 ：男女差なしの検定を行いなさい．ただし，有意水準は 0.05 とする．

② _{β を推定しなさい．}

ふつうは独立変数 X が Y に及ぼす影響を調べたいので切片 α の推定や検定は行わない

体重 Y =α ＋ β× 身長＋（性別）＋誤差 ε 　　誤差 ε は正規分布

(46)

この場合の結果の読み方

 身長の係数 β=0.63 は何を表すのか？

 男女差は γ=5.71 で吸収される

 _β=0.63 は性別の影響を除外した上での，身長が体重に及ぼす影響力を表す

 影響を除外した変数を右辺に入れれば良い体重 = -46.7 ＋ 0.63× 身長＋（男 5.71/ 女 0 _）＋誤差

体重 = -46.7 ＋ 0.63× 身長＋（男 5.71/ 女 0 _）＋誤差

(47)

まとめ・線型モデル

 量的変数＝ α ＋ β× 量的変数＋誤差

 _回帰分析

 量的変数はいくつあっても OK

 量的変数＝ α ＋（質的変数）＋誤差

 _{分散分析 ANOVA}

 質的変数が男女のように 2 水準なら t 検定となる

 量的変数＝ α ＋ β× 量的変数＋（質的変数）＋誤差

 共分散分析 ANCOVA

以上すべての統計モデルをまとめて線型モデル Linear model と呼ぶ

(48)

？？？ Questions ？？？

(49)

課題

自分の番号のデータ”番号 .csv” を読み込み以下の統計モデルについて答えなさい．

① Sleep に Depression が影響するか検定しなさい．

② Sleep に Sex が影響するか検定しなさい．

③ _{β を推定しなさい．}

④ 女性に対する男性の睡眠時間増加分を推定しなさい．

Sleep =α ＋ β×Depression ＋

（ Sex ）＋誤差

・・・誤差 ε は正規分布

Sleep =α ＋ β×Depression ＋

（ Sex ）＋誤差

・・・誤差 ε は正規分布

(50)

提出

 解答は統計学課題用紙に記入してプリントアウトして次回 5 月 8 日（月） 3 限に提出

講義資料 aichimeduniv

公衆衛生学：

統計学・第 3-4 回

愛知医大 公衆衛生 西山毅（たけし）

目次

推測統計学のコンセプト

推定

検定

演習①

線型モデル

演習②

課題

目次

推測統計学のコンセプト

推定

検定

演習①

線型モデル

演習②

課題

推測統計学とは

ここまでやったことが記述統計学です．こ

れからやるのが，統計学の中止となる推測

統計学です．

標本（サンプル）と母集団とを区別し，標

本から母集団について調べる統計理論

推測統計学のコンセプト

神の世界 神の世界 人間界 人間界

どうすればそんなことができる① ？

神の世界 神の世界

統計 モデル

統計 モデル

≒

統計モデルとは

統計モデルとは

統計モデルは世界を見る枠組

統計モデルは世界を見る枠組

どうすればそんなことができる② ？

統計 モ

デル

統計 モ

デル

≒

推測にもいろいろあります

目次

推測統計学のコンセプト

推定

検定

演習①

線型モデル

演習②

課題

推定のコンセプト

統計 モ

デル

統計 モ

デル

≒

推定の「良さ」の基準は外から与える

• 身長の測定値 X = 真の身長 α+ 誤差 ε

• 誤差 ε は正規分布

• 身長の測定値 X = 真の身長 α+ 誤差 ε

• 誤差 ε は正規分布

推定量にもいろいろあります

最尤法では， σ

の推定量

最小二乗法では，

σ

の推定量

と推定量が異なる

• 身長の測定値 X = 真の身長 α+ 誤差 ε

• ε は正規分布 N(0, σ

)

• 身長の測定値 X = 真の身長 α+ 誤差 ε

• ε は正規分布 N(0, σ

)

推定の「良さ」の基準はどうするの？

EZR のデフォルトで OK

EZR のデフォルトで OK

サンプルにはズレがある

　統計学・第 3-4 回

愛知医大公衆衛生　西山毅（たけし）

_推定

_検定

_演習①

_{線型モデル}

_演習②

_課題

_推定

_検定

_演習①

_{線型モデル}

_演習②

_課題

神の世界神の世界 _人間界人間界

神の世界神の世界

統計　モデル

統計　モデル

統計　モ

統計　モ

_推定

_検定

_演習①

_{線型モデル}

_演習②

_課題

統計　モ

統計　モ

• _{誤差 ε は正規分布}

• _{誤差 ε は正規分布}

_{最尤法では， σ}

_の推定量

_{最小二乗法では，}

　　　　　　 σ

　　と推定量が異なる

⁾

⁾

• _{誤差 ε は正規分布}

• _{誤差 ε は正規分布}

　　　　　　点推定値と 95% 信頼区間を求める

　　　　　　点推定値と 95% 信頼区間を求める

_推定

_検定

_演習①

_{線型モデル}

_演習②

_課題

統計　モ

統計　モ

H0 H0 _H1 H1

_検定前 _検定後

α P _値

_推定

_検定

_演習①

_{線型モデル}

_演習②

_課題