• 検索結果がありません。

PowerPoint プレゼンテーション

N/A
N/A
Protected

Academic year: 2021

シェア "PowerPoint プレゼンテーション"

Copied!
77
0
0

読み込み中.... (全文を見る)

全文

(1)

学位論文作成のための疫学、

統計解析の実際

徳島大学大学院 医歯薬学研究部 社会医学系・予防医学分野 有澤 孝吉 (e-mail: [email protected])

(2)

本日の講義の内容(SPSSを用いて) 記述統計(データのまとめ方) 代表値、ばらつき 正規確率プロット、正規性の検定 標準偏差、不偏標準偏差、標準誤差の区別 中心極限定理 母平均の区間推定(母集団の標準偏差が既知の場合) 母平均の区間推定(母集団の標準偏差が未知の場合) t-分布 平均値の差の検定(独立2群) (分散が等しい場合、等しくない場合) 等分散のF検定 平均値の差の検定(対応のある2群) ノンパラメトリック法(Wilcoxonの順位和検定、Wilcoxonの 符号付き順位検定) 相関

(3)

1.記述統計など

データのまとめ方 (正規分布に従う場合) 平均値、分散、標準偏差 (正規分布に従わない場合) 中央値、 25パーセンンタイル、75パーセンンタイル値、 範囲

中心とばらつき

を示すこと

(4)

正規分布~直線に乗る 正規確率プロット

正規性の検定:Shapiro-Wilk test, Kolmogorov-Smirnov test

148 149 150 151 152 153 154 147 148 149 150 151 152 153 154

(5)

幹葉

表示

箱ひげ

(Rosner 2010) 25% 50% 75% IQR 1.5×IQR はずれ値

(6)

(分散)

(不偏分散)

(7)

標準偏差(分散の平方根) 不偏標準偏差(不偏分散の平方根) 母集団の標準偏差の推定値となる 標準誤差(推定量の標準偏差) 母集団の平均値の推定の場合は、 s / n1/2 他の例:回帰係数の標準誤差

用語の使い分け

s

s

(8)
(9)
(10)

母集団 平均 μ 標準偏差 σ 標本 サンプルサイズ n 標本平均 x1 標準偏差 s1 繰り返し無作為抽出 100回、200回--- 標本平均 x2 標準偏差 s2 標本平均 x200 標準偏差 s200

(11)

-5 0 5 10 15 20 25 50 70 90 100 110 114 125 140 160 180 母集団の分布 標本平均(n=1)の分布 標本平均(n=10)の分布 標本平均(n=30)の分布 母集団1000人 抽出は各200回 nが増えると ばらつきは 小さくなる 標本平均xの 平均は母平均 μに一致

(12)

標本平均 x の分布 μ μ +1.96σ/n1/2 μ -1.96σ/n1/2 95% 標本平均の分布は正規分布に従う 標本平均の平均はμに一致 標本平均の標準偏差はσ/n1/2 (nが大きいとき、 母集団の分布に 関わらず) (中心極限定理)

(13)

母集団の標準偏差σが既知の場合、 母集団の平均μの95%信頼区間は (x – 1.96 × σ / n 1/2 , x + 1.96 × σ / n 1/2 で与えられる。

母集団の平均値の区間推定

(14)

母集団の標準偏差σが未知の場合、 母集団の平均μの95%信頼区間は (x - tn-1, 0.975 ×s / n 1/2 , x + tn-1, 0.975 ×s / n 1/2 ) で与えられる。 ① σの推定値としてのsを使用 ② 1.96がtn-1, 0.975 にかわる

母集団の平均値の区間推定

(15)

t分布

(16)

標本平均151.02、不偏標準偏差1.53、n=9 母平均の95%信頼区間は次のように与え られる。 (151.02 – 2.306×1.53 / 9 1/2 , 151.02 + 2.306 ×1.523 / 9 1/2 = (149.84, 152.20)

母集団の平均値の区間推定(例)

t

8, 0.975

= 2.306

(17)

-分布

d.f.

0.975

t

8, 0.975

= 2.306

Rosner, 1994

(18)

2. 2群の比較

t-検定 (1) 独立な2群の平均値の差の検定 (a)二つの集団の等分散性が仮定できる時 (two-sample t-test) (b) 二つの集団の等分散性が仮定できない時 (Satterthwaite’s method, Welch’ t-test)

(2) 対応のある2群の平均値の差の検定 (paired t-test)

(19)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85

等分散

(20)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 10 3 10 9 11 5 12 1 12 7 13 3 13 9 14 5 15 1 15 7 16 3 16 9 17 5 18 1 18 7 19 3 19 9 20 5 21 1 21 7 22 3 22 9 23 5 24 1 24 7 25 3 25 9 26 5 27 1 27 7 28 3 28 9

不等分散

(21)
(22)

独立2群のt-検定(等分散)における棄却域

(23)
(24)

等分散のF検定

帰無仮説H

0

:σ

12

= σ

22

対立仮説H

1

: σ

12

≠ σ

22

F= s

12 /

s

22

が自由度n

1

-1、 n

2

-1の

F分布の下側2.5%に対応する値

F

n1-1, n2-1, 0.025

より 小さいか、上側2.5%

に対応する値 F

n1-1, n2-1, 0.975

より

大きい場合、 帰無仮説は棄却され、

2群の分散は等しくないと結論される。

(25)

等分散のF検定における棄却域

(26)

ノンパラメトリック法

(正規分布を仮定しない。測定値の順位を用いる)

Wilcoxonの順位和検定 Wilcoxon rank sum test (独立な2群の比較)

(27)
(28)

対応のあるt検定

2群あるいは2回の測定値の差の平均をd、差 の不偏標準偏差をsdとする。また、ペアの数を nとする。

検定統計量

t= d/ (sd /n1/2) であり、 この絶対値がt分布表の自由度n-1の 上側2.5%に対応する値tn-1, 0.975より大きい場合、 帰無仮説は棄却され、2回の測定値の間に有意 差があると結論される。 1標本のt-検定と同じである

(29)

ノンパラメトリック法

(正規分布を仮定しない。測定値の順位を用いる)

Wilcoxonの符号付き順位検定 Wilcoxon signed rank test

(30)
(31)

3. 相関

相関 Pearson correlation coefficient

二つの連続変数の直線的な相関の程度を 表す

順位相関 Spearman rank correlation

(ノンパラメトリック法、順位に基づく解析、 正規分布を仮定しない)

(32)

相関係数 Correlation coefficient

(33)

(Rosner 2005) 強い正の相関

弱い負の相関 強い負の相関

(34)

母相関係数の検定

帰無仮説H

0

:ρ=0、対立仮説H

1

:ρ≠0

検定統計量 t= (r-0)/{(1- r

2

)/(n-2)}

1/2

tの絶対値が t

n-2, 0.975

より大きい場合、

帰無仮説は棄却され、二つの変数の間

に有意な相関があると結論される。

(35)
(36)

本日の授業 3群以上の平均値の差の検定 (一元配置分散分析法) 多重比較(Bonferroni法、Scheffe法) ノンパラメトリック法(Kruskal-Wallis test) 単回帰分析(回帰係数のt検定、F検定) 重回帰分析(回帰係数のt検定、F検定) 2群の割合の検定 独立2群 カイ2乗検定 対応のある2群 マクネマー検定 補足 2項検定とマクネマー検定

(37)

分散分析法 3群以上の平均値の差の検定 多重比較 いくつかの比較を行なう際に、有意水準αの 補正を行なうもの (3群以上の平均値の差の検定にt-検定を 繰り返して行うことはできない)

Bonferroni、 Scheffe 、 Tukeyなど

(38)

分散分析法 Analysis of variance, ANOVA 3群以上の平均値の差の検定 正規性 等分散性 を満たすことが必要 全体変動=群間変動 + 群内変動 =要因による変動+誤差による変動 帰無仮説H0:各群の平均値がすべて等しい

(39)

群間変動大、郡内変動小の場合

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 10 3 10 9 11 5 12 1 12 7 13 3 13 9 14 5 15 1 15 7 16 3 16 9 17 5 18 1 18 7 19 3 19 9 20 5 21 1 21 7 22 3 22 9 23 5 24 1 24 7 25 3 25 9 26 5 27 1 27 7 28 3

(40)

群間変動小、郡内変動大の場合

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 10 3 10 9 11 5 12 1 12 7 13 3 13 9 14 5 15 1 15 7 16 3 16 9 17 5 18 1 18 7 19 3 19 9 20 5 21 1 21 7 22 3 22 9 23 5 24 1 24 7 25 3 25 9 26 5 27 1 27 7 28 3

(41)

(個々のデ-タ ー全体平均) = (個々のデ-タ ー個々の群平均) + (個々の群の平均 ー全体平均) 全体変動=(個々のデ-タ ー全体平均)2 の総和 群内変動=(個々のデ-タ ー個々の群平均)2 の総和 群間変動=(個々の群平均 ー全体平均) 2 の総和 両辺を二乗して総和をとる SSB SSA

(42)

(Rosner 2005)

H0:各群の平均値がすべて等しい

SS, 平方和; MS, 平均平方

A

(43)

一元配置分散分析のためのF検定における棄却域

(44)

Bonferroni’s method

1.一回当たりの有意水準を調整する

α

*

= 0.05/

n

C

2

2.込みにした分散として、群内平均

平方を用いる。

3.自由度はn-群の数となる。

(45)
(46)

(Rosner 2010)

{(n1-1)s12 + (n

2-1)S22 + (n3-1)S32}/(n1 + n2 + n3 -3)

例:0.05/3

(47)
(48)
(49)

ノンパラメトリック法

Kruskal-Wallis test(3群以上の比較)

等分散性 必要なし

正規性 必要なし

(50)
(51)

従属変数と独立変数の回帰式を推定し、 従属変数が独立変数によってどのくらい説明 できるかを定量的に分析する。 回帰係数~xが1単位の変化すると、yがどの 位変化することが期待されるかを示す。 回帰直線を生のデータの散布図とともに示す ことが望ましい。 回帰直線は、実測点と予測点の誤差(残差)の 2乗の和が最小になるように求められる(最小2 乗法)。

5.回帰

(52)

Rosner 1994

残差

回帰直線 最小2乗法で求める

(53)

回帰係数の有意性の検定

帰無仮説H

0

:β=0、対立仮説H

1

:β≠0

回帰係数の推定値bをその標準誤差

se (b)で割った値tの絶対値が、

自由度n-2のt分布表の上側2.5%

に対応する値t

n-2,0.975

より大きれば、

帰無仮説は棄却され、yとxとの間に

有意な関連があると結論される。

(54)

= b/s.e.(b)

(55)

寄与率、決定係数

従属変数の変動のどの位の割合を独立変 数xで説明できるかを表す指標 相関係数の2乗となる。 Model SS/Total SS モデルのあてはまりのよさの指標

(56)
(57)

Model Sum of Squares Error Sum of Squares

Total Sum of Squares

Σ( yi – y )2

Σ( yi – yi )2

(58)

F-検定による回帰係数の有意性の検定

帰無仮説H0:β=0、対立仮説H1:β≠ 0

(y実測値ー y平均) = (y期待値ー y平均)+(y実測値ー y期待値) 両辺を2乗して総和を求める

Σ(y実測値ー y平均)2 = Σ(y期待値ー y平均)2+Σ(y実測値ー y期待値)2

Total SS = model SS + residual SS

帰無仮説のもとで、F = model MS/residual MSが自由度1、n-2のF分布に従う ことを利用して、回帰係数の有意性の検定を行う。

F > F1,n-2, 1-αならば帰無仮説を棄却する。

(59)

残差について確認すること

1.残差の正規性の確認

(P-P プロット)

2.残差の分散均一性の確認

(従属変数の予測値あるいは独立変数

と残差の散布図を描いてみる)

SPSS: *zresisのヒストグラム、P-Pプロット

*zresid vs. *zpred の散布図作成

(60)
(61)

6.重回帰分析

y=β0 + β1 x1+ β2x2 + ---+βkxk + ε 従属変数は数量データ。独立変数はカテゴカル データ(1,0)でもよい。 偏回帰係数βiは、実測値と予測値の誤差(残差)の 2乗の和が最少になるように求められる(最小2乗法) 。 他の独立変数の影響を調整した際、xiが1単位変化し た場合のyの変化量を示す。

(62)

回帰係数の有意性の検定

帰無仮説H

0

i

=0、対立仮説H

1

i

≠0

回帰係数の推定値b

i

をその標準誤差

se (b

i

)で割った値tの絶対値が、

自由度n-p-1のt分布表の上側2.5%

に対応する値t

n-p-1,0.975

より大きれば、

帰無仮説は棄却され、yとx

i

との間に

有意な関連があると結論される。

(63)

標準化偏回帰係数

Standardized regression coefficient

標準化偏回帰係数 bs bs = b × (sx/sy) xiが1標準偏差増加した場合にyがどの位 増加するかを示す(単位はyの標準偏差) (他のすべての独立変数の影響を調整した 後で)

(64)

F-検定による回帰係数の有意性の検定(1)

帰無仮説H0:すべてのβi =0、対立仮説H1:少なくとも一つのβi ≠ 0

(y実測値ー y平均) = (y期待値ー y平均)+(y実測値ー y期待値) 両辺を2乗して総和を求める

Σ(y実測値ー y平均)2 = Σ(y期待値ー y平均)2+Σ(y実測値ー y期待値)2

Total SS = model SS + residual SS

帰無仮説のもとで、F = model MS/residual MSが自由度k、n-k-1のF分布に従う ことを利用して、回帰係数の有意性の検定を行う。

F > Fk,n—k-1, 1-αならば帰無仮説を棄却する。

(65)
(66)

Partial F-testによる偏回帰係数の検定

(67)

共線性の検討

Variance Inflation Factor < 10 であることを 確認

(68)

7. 質的データ(カテゴリカルデータ)の解析

分割表 (1) カイ2乗検定 カイ2乗値=N(ad-bc)2/{(a+b)(c+d)(a+c)(b+d)}を求め (ただしN=a+b+c+d)、これが3.84より大きければ 疾患と曝露との関連は統計学的に有意であると 判断される。 曝露+ 曝露- 合計 疾患群 a b a+b 非疾患群 c d c+d 合計 a+c b+d a+b+c+d=N 分子にN( |ad-bc | - N/2)2を使う場合もある (Yatesの補正)

(69)
(70)

カイ2乗検定の例

牛乳抗体の有無別の死亡率を比較した ところ、以下のような結果が得られた。 死亡+ 死亡- 合計 抗体+ 29 80 109 抗体- 10 94 104 合計 39 174 213

抗体+,死亡+の期待値=39*109/213=19.96

(71)

χ2=(29×94-10×80)2×213 /(39×174×109×104) =10.27 であり、この値は自由度1のχ2分布の上側5% 点3.84より大きい。よって、2群の間で発病率に 有意差がある(p=0.0014)。 牛乳抗体+群は、抗体-群より死亡率が有意 に高い。 Yatesの補正有ありの場合9.17

(72)

カイ2乗検定(2) a のセルの期待度数は、(a+c)×(a+b)/N b のセルの期待度数は、(b+d)×(a+b)/N c のセルの期待度数は、(a+c)×(c+d)/N d のセルの期待度数は、(b+d)×(c+d)/N χ2 = ∑{(期待度数ー実測度数)2/期待度数} を用いてもよい。 ( 2) Fisherの直接確率法(帰無仮説のもとでの 期待値の一つ以上が5より小さい場合)

(73)

演習 7

式を書く

=chidist(x,1)

(74)

割合の検定 2要因 (帰無仮説のもとでの期待値の1つ以上が5未満の場合) 曝露+ 曝露- 合計 疾患群 a b n1 非疾患群 c d n2 合計 m1 m2 N Fisherの直接確率法を用いる 周辺度数が与えられているという条件のもとで、現在の度数とそ れより偏った度数の組み合わせが起きる条件付き確率を求める p = m1Ca×m2Cb/NCn1 = n1!n2!m1!m2!/(N!a!b!c!d!) 超幾何分布 Hypergeometric distribution (丹後、古川 医学への統計学)

(75)

壺の中に赤い玉がm

1

個、白い玉がm

2

個入っている(N = m

1

+ m

2

)。

いま、壺の中からn

1

個の玉を取り出し

た時、赤い玉がa個、白い玉がb個とな

る確率は、p =

m1

C

a

×

m2

C

b

/

N

C

n1

で求められる。

(76)

片側 P = 0.0013+0.0244 = 0.0257 両側 P = 0.0257×2 = 0.0514 有意差 なし 新薬と対照との間で、副作用あり の割合に有意差があるかどうか を検定したい。 P =hypgeom.dist(a,m1,n1,N,false) (丹後、古川 医学への統計学) 期待値=5*19/28=3.39 <5

(77)

参照

Outline

関連したドキュメント

そのため本研究では,数理的解析手法の一つである サポートベクタマシン 2) (Support Vector

医師の臨床研修については、医療法等の一部を改正する法律(平成 12 年法律第 141 号。以下 「改正法」という。 )による医師法(昭和 23

標準法測定値(参考値)は公益財団法人日本乳業技術協会により以下の方法にて測定した。 乳脂肪分 ゲルベル法 全乳固形分 常圧乾燥法

旧法··· 改正法第3条による改正前の法人税法 旧措法 ··· 改正法第15条による改正前の租税特別措置法 旧措令 ···

12―1 法第 12 条において準用する定率法第 20 条の 3 及び令第 37 条において 準用する定率法施行令第 61 条の 2 の規定の適用については、定率法基本通達 20 の 3―1、20 の 3―2

・関  関 関税法以 税法以 税法以 税法以 税法以外の関 外の関 外の関 外の関 外の関係法令 係法令 係法令 係法令 係法令に係る に係る に係る に係る 係る許可 許可・ 許可・

高(法 のり 肩と法 のり 尻との高低差をいい、擁壁を設置する場合は、法 のり 高と擁壁の高さとを合

電子式の検知機を用い て、配管等から漏れるフ ロンを検知する方法。検 知機の精度によるが、他