• 検索結果がありません。

講義資料 aichimeduniv

N/A
N/A
Protected

Academic year: 2018

シェア "講義資料 aichimeduniv"

Copied!
50
0
0

読み込み中.... (全文を見る)

全文

(1)

公衆衛生学:

 統計学・第 3-4 回

 

-統計学的推測

  -線形モデル

愛知医大 公衆衛生 西山毅(たけし)

2017 年 4 月 24 日

(2)

目次

推測統計学のコンセプト

推定

検定

演習①

線型モデル

演習②

課題

(3)

目次

推測統計学のコンセプト

推定

検定

演習①

線型モデル

演習②

課題

(4)

推測統計学とは

ここまでやったことが記述統計学です.こ

れからやるのが,統計学の中止となる推測

統計学です.

1922 年の Fisher RA” On the mathematical f oundations of theoretical statistics” が嚆

標本(サンプル)と母集団とを区別し,標

本から母集団について調べる統計理論

(5)

推測統計学のコンセプト

母集団=神の世界のことが知りたいが,人間界で はその一部のサンプルしか手に入らない.

一部のサンプルから母集団のことを何とかうかが い知るというのが推測( inference )のコンセプト 母集団( population ) 標本( sample )

神の世界 神の世界 人間界 人間界

(6)

どうすればそんなことができる① ?

母集団=神の世界をある統計モデルで近似する

どのような統計モデルを使うかが統計解析の腕の見せ所

母集団( population )

神の世界 神の世界

統計  モデル

統計  モデル

(7)

統計モデルとは

身長の測定値=真の身長+測定誤差

      (誤差 は正規分布)

統計モデルを書くときの約束

X = α + 誤差( ε )

誤差も観測値でないので,ギリシャ文字 ε と書く 178.0=178.0 + 0

178.1=178.0 + 0.1 177.9=178.0 + (-0.1)

パラメータはギリシャ文字( α, β など)で書く 観測値はローマ字( X, Y など)で書く

パラメータはギリシャ文字( α, β など)で書く 観測値はローマ字( X, Y など)で書く

(8)

統計モデルとは

統計モデル=真の世界の代用品.

統計モデルは現実と完全に同じでない

現実のデータを上手く説明できる統計モデルを作 れれば,そのデータを生み出すメカニズムに対し て洞察が得られる

統計モデルは世界を見る枠組

統計モデルは世界を見る枠組

(9)

どうすればそんなことができる② ?

サンプルは母集団の一部をランダムに取って きたものとする

母集団( population )

統計  モ

デル

統計  モ

デル

標本( sample ) サンプリン

サンプリン グ

(10)

推測にもいろいろあります

X (身長の観測値)= α (真の身長)+誤差

X = 170.0cm, 172.5cm, 162.7cm,… のサンプル データを使って,

α を見積もる:推定( estimation )

α に関する仮説が成り立つか調べる:検定( tes t )

(11)

目次

推測統計学のコンセプト

推定

検定

演習①

線型モデル

演習②

課題

(12)

推定のコンセプト

神の世界 = 母集団について限られた情報しかもたないわ れわれ人間は,神の世界を統計モデルで近似することに よって,神さましか知らない真の値 = パラメータを見積 もる

統計  モ

デル

統計  モ

デル

サンプリン グ

サンプリン グ

標本( sample ) α の見積も

α の見積も 母集団( population )り

(13)

推定の「良さ」の基準は外から与える

例えば,推定の「良さ」の基準には,

誤差の 2 乗の和を最小にする(最小二乗法)

尤度を最大にする(最尤法)  など色々ある.

という統計モデルのもとでは, α の推定量はど ちらの基準を用いても, X の平均値となる.

• 身長の測定値 X = 真の身長 α+ 誤差 ε

誤差 ε は正規分布

• 身長の測定値 X = 真の身長 α+ 誤差 ε

誤差 ε は正規分布

 

(14)

推定量にもいろいろあります

最尤法では, σ

2

の推定量

最小二乗法では,

       σ

2

の推定量

  と推定量が異なる

• 身長の測定値 X = 真の身長 α+ 誤差 ε

• ε は正規分布 N(0, σ

2

)

• 身長の測定値 X = 真の身長 α+ 誤差 ε

• ε は正規分布 N(0, σ

2

)

 

 

同じ統計モデルを使っても,用いる「良さ」の基準 によって推定の結果が異なる

同じ統計モデルを使っても,用いる「良さ」の基準 によって推定の結果が異なる

(15)

推定の「良さ」の基準はどうするの?

EZR のデフォルトで OK

EZR のデフォルトで OK

 どの推定法を使ったのかは知っておいた方が良 い

(16)

サンプルにはズレがある

真の分布(黒色)の中からサンプ ル(赤点)は均等に取れない

⇒α の推定値≠ α の真の値

⇒ 推定に幅を持たせる

  区間推定 ( vs. 点推定)

• 身長の測定値 Y = 真の身長 α+ 誤差 ε

誤差 ε は正規分布

• 身長の測定値 Y = 真の身長 α+ 誤差 ε

誤差 ε は正規分布

   

(17)

信頼区間の意味

「 α が 95 %入る区間」⇒☓

「信頼区間を 100 個作れば,そのうち 95

個の区間には α が含まれる」⇒◯

パラメータは定数

動くのは信頼区間

パラメータは定数

動くのは信頼区間

(18)

推定のまとめ

統計モデルと,推定の「良さ」の基準で決まる

推定の「良さ」の基準は統計ソフト EZR でデフォ ルトの方法で OK

パラメータの点推定値がパラメータの真の値にぴっ たり一致することはまずないので,区間推定も行う

ふつうは 95 %信頼区間

パラメータの推定⇒

      点推定値と 95% 信頼区間を求める

パラメータの推定⇒

      点推定値と 95% 信頼区間を求める

(19)

??? Questions ???

(20)

目次

推測統計学のコンセプト

推定

検定

演習①

線型モデル

演習②

課題

(21)

検定のコンセプト

神さましか知らない真の値 = パラメータがあ

る値であるか判定することを検定という

統計  モ

デル

統計  モ

デル

サンプリン グ

サンプリン グ

標本( sample ) α=0 かどう

か判定

α=0 かどう 母集団( population )か判定

(22)

検定のコンセプト

X (身長の観測値)= α (真の身長)+誤差

X = 170.0cm, 172.5cm, 162.7cm,… のサンプルデータ を使って,

H0:α=178cm という仮説が成り立つか判定する

H0 とデータが合致するかしないか?

合致しない→ H0 を否定( α≠178cm )

合致する→ H0 を受け入れる

最初に立てた仮説 H0:α=178cm を帰無仮説と呼ぶ

その反対側の仮説 H1:α≠178cm を対立仮説と呼ぶ

(23)

検定のコンセプト

パラメータについて帰無仮説 H0 を立てる

その反対側が対立仮説 H1

H0 が正しいと仮定した場合に,サンプルデータが得られる確 率を求める

すごく小さい⇒ H0 を否定して H1 と判断する

あまり小さくない⇒ H0 は否定できない

まず言いたいことの反対を否定して,間接的に主張が正しいと 判断する点で検定は背理法である

H0 H0 H1 H1

(24)

P 値とは

H0 が正しかったときに,サンプルデータ(かそれ より極端な値)が得られる確率= P 値と呼ぶ

H0 がサンプルデータに合致しない程度を表す

小さいほど, H0 とサンプルデータが合致しない

P 値が小さい→ H0 は否定

検定結果は P 値だけを見れば良い

P 値が検定前にあらかじめ決めた値 α より小さければ H 0 を否定(棄却)する

P 値はデータから決まる値だが, α (有意水準とよぶ) は検定する人が勝手に定めた値.

有意水準と P 値は別

有意水準と P 値は別

(25)

有意水準 α と P 値を区別しよう

検定前に有意水準 α を決める

P 値< α なら H0 を否定するという閾値のこと

検定前に解析者が自由に決める

実態としては,ほとんどの場合 α=0.05 が使われる

データを解析した(検定した)結果 P 値が得 られる

検定前 検定後

α P

H0 を否定 H0 を否定できず

(26)

検定のコンセプト(続)

検定結果の判定法

ほとんどの場合, α の値として 0.05 が使われる

P 値< 0.05→H0 を否定 =H1 が正しい

P 値≧ 0.05→H0 を否定できず( H0 か H1 かわからな い)

α は検定する人が検定前に決めておく.

ほとんど場合は α=0.05 が使われる.

検定では H0 を否定できるかどうかだけを見る

検定では H0 を否定できるかどうかだけを見る

(27)

t 検定

男女の真の体重 μ1 と μ2 が等しいかどうかの検定

この統計モデルと仮説についての検定を t 検定とよぶ

• (男)体重 Y1 = μ1 + 誤差 ε1  (女)体重 Y2 = μ2 + 誤差 ε2

• 誤差 ε1, ε2 は正規分布

• (男)体重 Y1 = μ1 + 誤差 ε1  (女)体重 Y2 = μ2 + 誤差 ε2

• 誤差 ε1, ε2 は正規分布

仮説 H0: μ1 = μ2 vs. H1:μ1 ≠ μ2 仮説 H0: μ1 = μ2 vs. H1:μ1 ≠ μ2

◯◯ 検定は,統計モデルと仮説のペアのこ

◯◯ 検定は,統計モデルと仮説のペアのこ

(28)

χ2 検定

質的変数の検定では χ2 検定を使う

母集団の男女数が等しいかどうかを調べる際は

,以下のような統計モデル・仮説を使う.

得られた P 値< 0.05 なら H0 を否定する

(統計モデル) 男の人数は 2 項分布する

(仮説) H0: # 男= # 女 vs. H1:# 男≠

#

(有意水準) α = 0.05

(統計モデル) 男の人数は 2 項分布する

(仮説) H0: # 男= # 女 vs. H1:# 男≠

#

(有意水準) α = 0.05

110

115

(29)

χ2 検定(続)

2 重クロス表データでも χ2 検定を使う

得られた P 値< 0.05 なら H0 を否定する

(統計モデル) 省略  [ 知らなくても良 い ](仮説) H0: 性別と学歴は関連がない

      vs. H1: 性別と学歴は関連あり

(有意水準) α = 0.05

(統計モデル) 省略  [ 知らなくても良 い ](仮説) H0: 性別と学歴は関連がない

      vs. H1: 性別と学歴は関連あり

(有意水準) α = 0.05

(30)

関連とは?

性別と学歴に関係ないこと

性別側から見れば,男でも女でも中・高・大卒の割合が等 しい

学歴側から見れば,中卒でも高卒でも大卒でも,男女の割 合が等しい

両者がどれくらい離れているかが P 値に反映する.

関連がなくなるほど( H1 に近づくほど) P 値は小さくなる

  中卒 高卒 大卒 4 6 10 3 9 8

  中卒 高卒 大卒 男 3.5 7.5 9 女 3.5 7.5 9

観測値 関連なしのとき

(31)

検定のまとめ

統計モデルと仮説 H0/H1 で決まる

検定結果は p 値

H0 か H1 かは p 値と 0.05 の大小で判定する

P 値 <0.05→H0 を棄却

P 値≧ 0.05→H0 か H1 かわからない

検定に慣れるまでは,統計モデルと仮説 H0/H1 をノートに書き出そう

検定に慣れるまでは,統計モデルと仮説 H0/H1 をノートに書き出そう

(32)

実際には

統計ソフトでは推定も検定も同時に行われる

統計モデルだけ指定すれば推定値と P 値が得られる

推定の「良さ」の基準はデフォルトで決まっている

ほとんどが最尤推定法

検定の仮説 H0/H1 はデフォルトで決まっている

「差がない」「関連がない」場合を H0 とする

男女差がない,学歴と性別に関連がないなど

EZR では,ツールバーの「統計解析」に含まれる 選択肢はすべて様々な統計モデルを表している

EZR では統計モデルを指定するだけ で OK

EZR では統計モデルを指定するだけ で OK

(33)

??? Questions ???

(34)

演習①

demo.csv を読み込み以下の問いに答えなさい.

以下の統計モデルと仮説の検定を行いなさい.   ただし,有意水準は 0.05 とする.

  

   *t検定ではどんな場合も Welch test を使うべ

• (男)体重 Y1 = μ1 + 誤差 ε1  (女)体重 Y2 = μ2 + 誤差 ε2

• 誤差 ε1, ε2 は正規分布

• (男)体重 Y1 = μ1 + 誤差 ε1  (女)体重 Y2 = μ2 + 誤差 ε2

• 誤差 ε1, ε2 は正規分布

仮説 H0: μ1 = μ2 vs. H1:μ1 ≠ μ2 仮説 H0: μ1 = μ2 vs. H1:μ1 ≠ μ2

(35)

演習①

以下の統計モデルと仮説の検定を行いなさい

  ただし,有意水準は 0.05 とする

 *どんな場合も Χ2 検定より Fisher 正確検定の方 が良い

EZR のデフォルト

(統計モデル) 省略  [ 知らなくても良 い ](仮説) H0: 性別と学歴は関連がない

      vs. H1: 性別と学歴は関連あり

(統計モデル) 省略  [ 知らなくても良 い ](仮説) H0: 性別と学歴は関連がない

      vs. H1: 性別と学歴は関連あり

(36)

目次

推測統計学のコンセプト

推定

検定

演習①

線型モデル

演習②

課題

(37)

線型モデル Linear Model (LM)

この統計モデルでは,すべての人の体重は α に等し く,体重の測定値の違いはすべて誤差によるもので あるという,現実にはあり得ない仮定をしています

この例では,

α の推定値= 58.1 ( 95 % CI : 57.5-58.6 )

H0:μ0≠0 の検定: P 値 <0.05 より H0 を棄却→ H1

• 体重 Y = α + 誤差 ε  誤差 ε は正規分布

• 体重 Y = α + 誤差 ε  誤差 ε は正規分布

(38)

右辺が量的変数1つの場合

この統計モデルは,体重は身長と誤差で決まるという モデルで,身長が 1cm 伸びるごとに体重が βkg 重くな ると仮定しています.

この例では,

仮説はデフォルトで H0:α=0 vs. H1:α≠0

H0:β=0 vs. H1:β≠ 0

α の推定値= -84.8, P 値 <0.05 より H0 を棄却→ H1

β の推定値= 0.88, P 値 <0.05 より H0 を棄却→ H1

• 体重 Y = α + β× 身長+誤差 ε  誤差 ε は正規分布

• 体重 Y = α + β× 身長+誤差 ε  誤差 ε は正規分布

(39)

右辺が質的変数1つの場合

説明変数に質的変数 Sex を使ったモデルです. 女性はすべて同じ体重 α をしており,測定値の 違いはすべて誤差のせいである.同様に,男性 もすべて同じ体重 α + β をしており,測定値の 違いはすべて誤差のせいであるという現実には 考えにくいモデルです.

(女性)体重 Y =α +誤差 ε

(男性)体重 Y =α + β + 誤差 ε   誤差 ε は正規分布

(女性)体重 Y =α +誤差 ε

(男性)体重 Y =α + β + 誤差 ε   誤差 ε は正規分布

(40)

(続)

質的変数を右辺に使った場合は,基準(この場 合は女)に対する増加分で質的変数の効果を表 します.

基準の女の体重 α からの増分 β

β1β1

中卒の体重 α 中卒の体重 α

β2β2 高卒の体重

高卒の体重

大卒の体重 大卒の体重

(中卒)体重 Y =α +誤差 ε

(高卒)体重 Y =α + β1 + 誤差 ε

(大卒)体重 Y =α + β2 + 誤差 ε   誤差 ε は正規分布

(中卒)体重 Y =α +誤差 ε

(高卒)体重 Y =α + β1 + 誤差 ε

(大卒)体重 Y =α + β2 + 誤差 ε   誤差 ε は正規分布

(41)

(続)

面倒くさいので

を以下のように書くことにします.

この(性別)変数は女の体重に対する男の増加 分を表すものとします

体重 Y =α +(性別)+誤差 ε   誤差 ε は正規分布

体重 Y =α +(性別)+誤差 ε   誤差 ε は正規分布

(女性)体重 Y =α +誤差 ε

(男性)体重 Y =α + β + 誤差 ε   誤差 ε は正規分布

(女性)体重 Y =α +誤差 ε

(男性)体重 Y =α + β + 誤差 ε   誤差 ε は正規分布

(42)

(続)

同じように

を以下のように書くことにします.

この(学歴)変数は中卒の体重に対する高卒また は大卒の増加分を表すものとします

体重の測定値 Y =α +(学歴)+誤差 ε   誤差 ε は正規分布

体重の測定値 Y =α +(学歴)+誤差 ε   誤差 ε は正規分布

(中卒)体重の測定値 Y =α +誤差 ε

(高卒)体重の測定値 Y =α + β1 + 誤差 ε

(大卒)体重の測定値 Y =α + β2 + 誤差 ε

  誤差 ε は正規分布

(中卒)体重の測定値 Y =α +誤差 ε

(高卒)体重の測定値 Y =α + β1 + 誤差 ε

(大卒)体重の測定値 Y =α + β2 + 誤差 ε  誤差 ε は正規分布

(43)

(続)

例えば学歴の統計モデルの場合は,

この例では,

仮説はデフォルトで H0:α=0 vs. H1:α≠0

H0:β1=0 vs. H1:β1≠0, H0:β2=0 vs. H1:β2≠0

α の推定値= 56.8, P 値 <0.05 より H0 を棄却→ H1

β1 の推定値= 0.56, P 値≧ 0.05 より H0 を棄却でき

β2 の推定値= 1.88, P 値 <0.05 より H0 を棄却→ H1

体重 Y =α +(学歴)+誤差 ε   誤差 ε は正規分布

体重 Y =α +(学歴)+誤差 ε   誤差 ε は正規分布

(44)

右辺が量的変数と質的変数の場合

この例では,

仮説はデフォルトで H0:α=0 vs. H1:α≠0

H0:β=0 vs. H1:β≠0, H0: 性差 γ=0 vs. H1: 性差 γ≠0

体重 Y =α + β× 身長+(性別)+誤差 ε   誤差 ε は正規分布

体重 Y =α + β× 身長+(性別)+誤差 ε   誤差 ε は正規分布

(45)

演習②

demo.csv を読み込み以下の統計モデルについて 答えなさい.

H0: 男女差あり vs H1 :男女差なしの検定を行 いなさい.ただし,有意水準は 0.05 とする.

β を推定しなさい.

ふつうは独立変数 X が Y に及ぼす影響を調べた いので切片 α の推定や検定は行わない

体重 Y =α + β× 身長+(性別)+誤差 ε   誤差 ε は正規分布

体重 Y =α + β× 身長+(性別)+誤差 ε   誤差 ε は正規分布

(46)

この場合の結果の読み方

身長の係数 β=0.63 は何を表すのか?

男女差は γ=5.71 で吸収される

β=0.63 は性別の影響を除外した上での,身長が体重に 及ぼす影響力を表す

影響を除外した変数を右辺に入れれば良い 体重 = -46.7 + 0.63× 身長+(男 5.71/ 女 0 )+誤差

体重 = -46.7 + 0.63× 身長+(男 5.71/ 女 0 )+誤差

(47)

まとめ・線型モデル

量的変数= α + β× 量的変数+誤差

回帰分析

量的変数はいくつあっても OK

量的変数= α +(質的変数)+誤差

分散分析 ANOVA

質的変数が男女のように 2 水準なら t 検定となる

量的変数= α + β× 量的変数+(質的変数)+誤差

共分散分析 ANCOVA

以上すべての統計モデルをまとめて線型モデル Linear model と呼ぶ

(48)

??? Questions ???

(49)

課題

自分の番号のデータ”番号 .csv” を読み込み以 下の統計モデルについて答えなさい.

Sleep に Depression が影響するか検定しなさ い.

Sleep に Sex が影響するか検定しなさい.

β を推定しなさい.

女性に対する男性の睡眠時間増加分を推定しな さい.

Sleep =α + β×Depression +

( Sex )+誤差

・・・誤差 ε は正規分布

Sleep =α + β×Depression +

( Sex )+誤差

・・・誤差 ε は正規分布

(50)

提出

解答は統計学課題用紙に記入してプリントア ウトして次回 5 月 8 日(月) 3 限に提出

参照

Outline

関連したドキュメント

睡眠を十分とらないと身体にこたえる 社会的な人とのつき合いは大切にしている

る、関与していることに伴う、または関与することとなる重大なリスクがある、と合理的に 判断される者を特定したリストを指します 51 。Entity

身体主義にもとづく,主格の認知意味論 69

 CKD 患者のエネルギー必要量は 常人と同程度でよく,年齢,性別,身体活動度により概ね 25~35kcal kg 体重

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

(2011)

【会長】

委 員:重症心身障害児の実数は、なかなか統計が取れないという特徴があり ます。理由として、出生後