• 検索結果がありません。

     カイ二乗検定と分散分析

N/A
N/A
Protected

Academic year: 2021

シェア "     カイ二乗検定と分散分析"

Copied!
52
0
0

読み込み中.... (全文を見る)

全文

(1)

生物統計学演習

担当 茅野 光範

 (かやの みつのり)!

      帯広畜産大学 !

      グローバルアグロメディシン研究センター!       研究室: 総合研究棟号館 N2302-6!

      E-mail: [email protected]

1

4

回目: いろいろな検定

     カイ二乗検定と分散分析

(2)

講義の予定 全

4

1回目 ガイダンス&エクセルに慣れる

     (ヒストグラムを描く、平均や分散を求める)

2回目 散布図と相関係数、回帰直線

3回目 確率分布と信頼区間、t-検定

4回目 いろいろな検定: カイ二乗検定と分散分析

(3)

前回の内容:

復習

確率分布と信頼区間、t-検定 確率分布と信頼区間

  正規分布を描く

  いろいろな分布の裾確率、%点などを求める   信頼区間を求める

t-

検定

  

t-

検定を行う

t-

検定を行い、遺伝子をランキングする

3

(4)

前半で使う

Excel

関数: 正規分布の場合

•  NORM.DIST

  

4

つ目の引数:関数形式

=“FALSE”

の場合には、

  与えた値での関数(正規分布)の高さを返す   

•  NORM.INV

  

4

つ目の引数:関数形式

=“TRUE”

の場合には、

  与えた値より左側の面積を返す

復習

(5)

t

検定(平均値の差の検定)

 結果の表示

X

組と

Y

組のテストの点数

  X組 Y組 点数 59 45

  79 42   51 47   54 24   54 32   53 38   46 42   54 50 平均値 56.25 40.00 下限 47.42 32.40 上限 65.08 47.60

点数

60 50 40 30 20

棒グラフに星をつける

X

組と

Y

組に有意差あり

X

Y

*

p<0.05

p

!)

n=8 n=8

5

復習

(6)

p

値:平均値が等しい確率!!

p

値が小さい(例:

p<0.05

⇒平均値は異なる!

p

値が大きい(例

: p>0.05

⇒平均値が異なるとは言えない(?)

復習

(7)

エクセルで

t

検定を行う

T.TEST

配列

1”, “

配列

2”,”

尾部

”,”

検定種類

)だけで

OK

配列

1

: グループ1のデータ 配列

2

: グループ2のデータ 尾部: 

1 --

片側検定

    

2 --

両側検定 検定の種類

1: t

検定(対応あり)

2: t

検定(等分散)

3: t

検定(非等分散。

         ウェルチの方法 )

7

復習

(8)

t

検定の前提条件

それぞれのクラスで、データは 正規分布に従っているとする!

確認方法

1

:ヒストグラムで視覚的に

確認方法

2

q-q

プロット

(教科書p.29-30

で視覚的に

そうでない場合は、別の検定をする

例:マン・ホイットニーの

U

検定  教科書

6.3.1

Excel

復習

(9)

後半の課題: 課題

4, 5, 6

課題

4

: 雌羊の体重に対する餌の影響

      

point

: データ数が増えると

p

値が下がる

課題

5

: 牛の乳量に対する処置の影響       

point

: 対応ありの

t

検定を行う

課題

6

: アルツハイマー関連遺伝子を

t

検定で       ランキングする

      

point

: 

t-

検定(単純な作業)の繰り返しで、

       最先端のデータ解析にも太刀打ちできる

復習

9

(10)

[

参考

]

: 検定の多重性

検定を繰り返し行う時には、有意水準に注意が必要  対応策: 

Boferroni

補正や

Tukey

の方法などを使う        (独立な検定の場合) (複数群の

t-

検定)

例(Boferroni補正) 0.05/(検定の数)以下のp-値が出たら有意とする

遺伝子1と遺伝子2の発現量についてそれぞれt検定を行った。

遺伝子1について、平均値の差が無い場合に、求めた平均値の差が出る 確率は5%以下である。遺伝子2についても同様である。しかし、遺伝子1と 遺伝子2のどちらも平均値に差がない場合に、少なくとも1つの遺伝子で平 均値に差が出てしまう確率は5%よりも大きい(約10%)。

⇒ それぞれのt-検定の有意水準を2.5%(=5%/検定の数)として、

復習

(11)

今日の内容

先週の復習

  確率分布と信頼区間、t-検定

カイ二乗検定

  独立性の検定

分散分析

  一元配置分散分析

二元配置分散分析

11

(12)

カイ二乗検定

独立性の検定

  

教科書

6.2.5

(13)

カイ二乗検定

例: 薬の効果はあったのか?

13

参考書: 「医学への統計学」朝倉書店1993年  「逆引き統計学」講談社2009        「生物統計学入門」(ハーバード大学講義テキスト) 丸善2005

       「バイオ実験室の統計学」(エクセルで学ぶ生物統計の基本) 画像出典:ウィキペディア

治癒(人)

治った 治らな かった

症例数 薬あり 45 15 60 薬なし 20 20 40 65 35 100 p=0.010

薬あり(飲んだ) 個体1 個体2 個体3 ・・・ 個体60

治癒 × ×

薬なし(飲まなかった) 個体1 個体2 個体3 ・・・ 個体40

治癒 × × ×

観測データ

言い換えると,右表で行と列は独立か?

(14)

例: 薬の効果がない

表の人数が全て同じ=行にも列にも関係ない

(各行の合計,各行の合計が等しいとする)

治った 治らなかった 計 薬飲んだ

25 25 50

薬飲まなかった

25 25 50

50 50 100 (

人)

表の人数(

25

人)を,期待度数と呼ぶことにする

(15)

エクセルで カイ二乗検定

手順

  

1.

期待度数を計算する

    薬の効果が無い場合の表(度数)

  

2. CHISQ.TEST

***, ***

)を使う

15

(16)

エクセルで カイ二乗検定

1

期待度数を計算する: 地道に計算する

(17)

エクセルで カイ二乗検定

2

CHISQ.TEST

実測値範囲

”, “

期待値範囲

)とする

17

実測値範囲: データ

期待値範囲: 期待度数

(18)

検定の方針

1.

行と列が独立のとき,

  期待される人数(期待度数)を求める

2.

データとの差がどのくらいあるかを調べる

期待度数 治った 治らなかった 計

薬飲んだ

?? ?? 60

薬飲まなかった

?? ?? 40

65 35 100

(19)

検定の方針

期待度数 治った 治らなかった 計 薬飲んだ

39 21 60

薬飲まなかった

26 16 40

65 35 100

データ 治った 治らなかった 計 薬飲んだ

45 15 60

薬飲まなかった

20 20 40

65 35 100

比べる  差があるか

?

19

(20)

期待度数の求め方(概要)

期待度数(各セル)= 行の度数合計

×

列の度数合計

集団全体の度数合計

期待人数 治った 治らなかった 計

薬飲んだ

?? ?? 60

薬飲まなかった

?? ?? 40

65 35 100

(21)

期待度数の求め方

1 / 2

• 

薬を飲んで治った人の期待度数   ⇒ 

60 × 65/100 = 39

• 

薬を飲んだのに治らなかった人の期待度数   ⇒ 

60 × 35/100 = 21

期待度数 治った 治らなかった 計 薬飲んだ

39 21 60

薬飲まなかった

?? ?? 40

65 35 100

21

×

 

35/100

×

 

65/100

(22)

期待度数の求め方

2 / 2

• 

薬を飲まないで治った人の期待度数   ⇒ 

40 × 65/100 = 26

• 

薬を飲まないで治らなかった人の期待度数   ⇒ 

40 × 35/100 = 16

期待度数 治った 治らなかった 計 薬飲んだ

39 21 60

薬飲まなかった

26 16 40

× 35/100

×

 

65/100

(23)

χ 2 = (45 39)2

39 + (15 21)2

21 + (20 26)2

26 + (20 16)2 16

期待度数 治った 治らなかった 計 薬飲んだ

39 21 60

薬飲まなかった

26 16 40

65 35 100

データ 治った 治らなかった 計 薬飲んだ

45 15 60

薬飲まなかった

20 20 40

65 35 100 23

(24)

χ 2 = (45 39)2

39 + (15 21)2

21 + (20 26)2

26 + (20 16)2 16

~ χ12

(近似的)

0.51.01.52.0

y

χ12

χ 2

χ2=6.593

p

=0.010<0.05

ただし、各度数は

小さすぎないとする 例

:5

以上

χ12(0.05)=3.84

棄却域

(25)

カイ二乗検定の注意

どんなデータに使うのか?

1.

2択や3択等のデータしかない場合に、

  カイ二乗検定を行う

2.

具体的な数字(身長、体重、得点など)があれば   

t

検定等をすればいい

どんなときに使えるのか?(前提条件)

3.

各セル(マス)に5以上のデータがあるとする

   そうでない場合は、イェーツの補正か、

   フィッシャーの正確確率検定(

Fisher’s exact

   

test)

を行う

(26)

課題

1

アルコール依存症に関わる候補遺伝子のノックアウト実験

(下表、マウスの実験)について、この遺伝子がアルコール の嗜好に関わるかどうかをカイ二乗検定を使って検定する。

「アルコール入り/なし」は、それぞれのマウスがアルコー ル入り/なしのうちどちらの飲み物を選んだかを意味する。

データファイル: ファイルサーバーの

「生物統計学演習4_data_配布用.xlsx」の「カイ二乗検定」

アルコール依存症の候補遺伝子のノックアウト実験(匹)

  アルコール入り アルコール無し 計

野生型 18 9 27

ノックアウト 12 13 25

計 30 22 52

(27)

課題

2

27!

腸チフスに対する予防接種の効果(下表)について、

この予防接種が腸チフスの感染予防に効いているかどうか をカイ二乗検定によって検定する。

データファイル: ファイルサーバーの

「生物統計学演習4_data_配布用.xlsx」の「カイ二乗検定」

腸チフスに対する予防接種の効果(人)

  腸チフス 腸チフスでない 計

予防接種受けた 56 6759 6815 予防接種受けていない 272 11396 11668 計 328 18155 18483

(「数理統計学」内田老鶴圃 例6.11

(28)

課題

3

受胎率と受精方法の関係(下表)について、これらの方法の 受胎率に差があるかどうかをカイ二乗検定を使って検定す る。

データファイル: ファイルサーバーの

「生物統計学演習4_data_配布用.xlsx」の「カイ二乗検定」

(「Stahshcs for Veterinary and Animal Science」 例9.5.4

受胎率と受精方法の関係(頭)

  方法1 方法2 方法3 計

受胎した 275 192 261 728

受胎しない 78 64 123 265

計 353 256 384 993

(29)

参考課題

29!

農場ごとの乳房炎の発生件数(下表)について、農場によっ て乳房炎の発生頻度に差があるかどうかをカイ二乗検定に より検定する。

データファイル: ファイルサーバーの

「生物統計学演習4_data_配布用.xlsx」の「カイ二乗検定」

農場ごとの乳房炎の発生件数

  農場A 農場B 農場C 計

乳房炎 36 29 10 75 乳房炎でない 60 103 62 225 計 96 132 72 300

(「Biostahshcs for Animal Science」例6.6

(30)

分散分析

(ANOVA: Analysis of Variance)

一元配置分散分析 (

1-way or single factor)

二元配置分散分析 (

2-way or two-factor)

  

教科書

7.2

(31)

分散分析 (

ANOVA: ANalysis Of Variance)

複数の平均値の差の検定

例:薬の違いによって

  マウスの体重に差があるか?

  (一元配置分散分析)

31

薬1 2 3 体重(g) 50.6

47.5 43.4

55.0 49.4 47.8

47.7 44.8 60.7

観測データ

参考書: 「医学への統計学」朝倉書店1993年  「逆引き統計学」講談社2009        「生物統計学入門」(ハーバード大学講義テキスト) 丸善2005

       「バイオ実験室の統計学」(エクセルで学ぶ生物統計の基本)

体重 (g)

投与群1 投与群2 投与群3

・・・ ・・・ ・・・

(32)

一元配置分散分析のモデル

体重 (g) μ a1

a2 a3

xi = μ + ai +

(誤差)

        

μ

:全体の平均         

ai

:群

i

の効果 帰無仮説:

  

a1 = a2 = a3 = 0

対立仮説:

  少なくとも一つの

i

で   

ai

0

仮定: データは正規分布に従う

(33)

33

「分散分析:

 一元配置」

の実行

(34)

「分散分析:一元配置」の実行結果

一番大事

なのは

p-

(35)

二元配置分散分析(

2-way ANOVA

データの形式        平均値の折れ線グラフ

酵母菌の培養実験のデータ

系統 温度

25

35

45

S. cerevisiae 12 37 38

 

12 38 42

 

11 39 40

S. exiguus 7 19 18

 

8 22 16

 

8 23 19 0

5 10 15 20 25 30 35 40 45

25 35 45

S. cerevisiae S. exiguus

例: 酵母菌の系統や温度設定によって増殖に差があるか?

   (繰り返しのある二元配置分散分析)

35

表中の値:酵母の1時間当たりのCO2生産量(ml)

(参考書 例7.6

(36)

二元配置分散分析のモデル

xijk = μ + ai + bj + cij +

(誤差)

 

μ

:全体の平均

 

ai

:要因

A

(系統、縦方向)の効果  

bj

:要因

B

(温度、横方向)の効果  

cij

:要因

A

B

の効果

以下をそれぞれ検定する  

Ha:

全ての

i

で、

ai=0

 

Hb:

全ての

j

で、

bj=0

 

Hab:

全ての

i, j

で、

cij=0

仮定: データは正規分布に従う、各群で分散は等しい

0 5 10 15 20 25 30 35 40 45

25 35 45

S. cerevisiae S. exiguus

36

μ

(37)

「分散分析:繰り返しのある二元配置」

の実行  (各群のデータ数は等しいとする)

37

(38)

結果

一番大事 なのは

p-

温度

系統

(39)

データのパターン

1, 2 / 5

パターン

1

系統(青と赤)でも

温度(横軸)でも差がない


10 15 20 25 30 35 40 45 50

25 35 45

パターン

2

系統(青と赤)についてだ け差がある

39

xij = μ + (誤差)

10 15 20 25 30 35 40 45 50

25℃ 35℃ 45℃

xij = μ + ai + (誤差)

ai = bj =cij = 0

bj =cij = 0

a1 a2

μ

(40)

データのパターン

3, 4 / 5

パターン

3

温度(横軸)について だけ差がある


パターン

4

系統(青と赤)と温度(横 軸)の交互作用だけある

15 20 25 30 35 40 45 50

15 20 25 30 35 40 45 50

xij = μ + cij + (誤差)

xij = μ + bj + (誤差)

ai = cij = 0

ai = bj = 0

μ b1

b2 b3

(41)

データのパターン

5 / 5

系統(青と赤)でも、温度(横軸)でも差があり、

交互作用もある

0 5 10 15 20 25 30 35 40 45

25 35 45

S. cerevisiae S. exiguus

41

xij = μ + ai + bj + cij + (誤差)

(42)

分散分析

ANOVA

の前提条件

1.

各クラスでデータは正規分布に従う

2. 

各クラスの分散は等しい

3. 

(エクセルで二元配置の場合は)各クラスの データ数は等しい

3.

が満たされないときは、別のソフトなら対応でき るかもしれない。そういうソフトを探す。

1,2が満たされないときは、

Kruskal-Wallis

検定な

(43)

一元配置分散分析の 代わりに使う検定

Tukey

の検定(どこの平均値が違うのかの検定)

など。

*一元配置分散分析では、

 「どこかの平均値が他と違う」ことしか言えない

 それで十分な時は、一元配置分散分析を使え

ばよい

(44)

課題

4

妊婦の喫煙状況と乳幼児の出生体重の関係(下表)につい て、妊婦の喫煙状況が出生体重に影響を与えるかを分散 分析を用いて検定する。

データファイル: ファイルサーバーの

「生物統計学演習4_data_配布用.xlsx」の「分散分析」

出生体重への妊娠時の喫煙の影響   体重(g)

喫煙

2585 3583 3084 2767 2812 3130 2722 3810 3583          

以前に

喫煙

3402 3084 3130 2585 3583 3447 3765  

非喫煙

3447 3130 3175 3084 3538 3493 2903 3357 3719 3901 3402 3402 3402 2540

(教科書 例7.5改)

(45)

課題

5

45!

4種類のニワトリ(

A,B,C,D

)のかけ合わせによる卵の重さ

(下表)について、ニワトリの種類

AB, AC, BC, BD

によって

卵の重さに差があるかどうかを分散分析によって検定する。

データファイル: ファイルサーバーの

「生物統計学演習4_data_配布用.xlsx」の「分散分析」

4種類のニワトリ(A,B,C,D)の かけ合わせによる卵の重さ

  卵の重さ(g)           AB 58 51 56 52 54 57 58 60     AC 59 62 64 60 62   BC 56 57 56 55   BD 59 55 50 64 57 53 57 53 56 55

(「Biostahshcs for animal science」練習問題11.1

(46)

課題

6

2

系統の酵母菌を温度設定を変えてそれぞれ培養した結果

(下表)について、酵母菌の系統や温度設定によって、酵母 菌の増殖に差があるかどうかを分散分析によって検定する。

データファイル: ファイルサーバーの

「生物統計学演習4_data_配布用.xlsx」の「分散分析」

酵母菌の培養実験のデータ

系統 温度

25

35

45

S. cerevisiae 12 37 38

 

12 38 42

 

11 39 40

S. exiguus 7 19 18

 

8 22 16

 

8 23 19

また、下図のように各実験条 件における平均値を系統ごと に色分けして折れ線グラフで 表示する

10 20 30 40

50 S. cerevisiae

S. exiguus

(47)

参考課題

グルコース量の経時変化のデータ(下表)について、二元配 置分散分析により、グルコース量への処置の影響、経時変 化、処置と経時変化の交互作用の有無を分散分析により       検定する

データファイル: ファイルサーバーの

「生物統計学演習4_data_配布用.xlsx」の「分散分析」

Kodama et al., PNAS 2012, Vol.109 (18),

Fig.4Aを参考に乱数によりデータ生成した

70 75 80 85 90 95 100 105 110 115

Day0 Day1 Day3 Day5

グルコース量(%)の経時変化   Day0 Day1 Day3 Day5 Control 100.0 100.6 67.0 96.7   100.0 95.8 89.0 84.2   100.0 96.4 79.9 81.9   100.0 93.5 80.5 76.6   100.0 82.7 83.2 86.9   100.0 107.6 90.6 79.4 処置群 100.0 107.7 103.6 126.7   100.0 110.8 107.6 107.2   100.0 102.5 121.3 105.4   100.0 104.0 104.8 109.2   100.0 108.2 108.8 108.7

  100.0 109.5 108.5 112.8 47

(48)

講義の予定 全

4

1回目 ガイダンス&エクセルに慣れる

     (ヒストグラムを描く、平均や分散を求める)

2回目 散布図と相関係数、回帰直線

3回目 確率分布と信頼区間、t-検定

4回目 いろいろな検定: カイ二乗検定と分散分析

(49)

おわりに

1/3

演習で扱った統計手法

エクセルを使えば、比較的簡単にできる!

1. 

図: ヒストグラム、棒グラフ、散布図

2. 

統計量の計算 (平均値、分散、標準偏差、標準誤差)

3. 

相関係数の計算 (

Pearson

Spearman

4. 

回帰分析    (単回帰分析、重回帰分析)

5.  t

検定      (対応あり/なし)

6. 

カイ二乗検定 (独立性の検定)

7. 

分散分析    (一元配置、二元配置)

49!

(50)

おわりに

2/3

演習で扱えなかった統計手法

統計ソフトを使えば、比較的簡単にできる 例: エクセル統計、

SAS

R

など

1. 

ロジスティック回帰(

Y

0/1

の場合の回帰分析)

2. 

クラスター分析  (似たデータ(変数)をまとめる)

3.

主成分分析    (多変数をまとめる)

4.

ノンパラメトリック検定 (マンホイットニーの検定など)

5.

多重比較法    (

Bonferroni

Tukey

の方法など)

(51)

おわりに

3/3

p

値にだまされない!

 ⇒ データ数が多ければ

p

値は低くなる  ⇒ 

(1)

図を描いて確認することが必要

  

(2)

平均値の差や割合などの直感的な値も

      計算してみることが必要

どの統計手法を使えば良いか吟味する  ⇒ 注意点: 前提を満たしているか?

      結論を導くために必要十分な方法か?

51!

(52)

期末試験の予定

平成

28

2

12

日(金) 

8:45

10

15

解答要領の説明:

10

分、問題配布:

10

分、

解答時間:

60

分、解答回収:

10

分


参照

関連したドキュメント

「1 建設分野の課題と BIM/CIM」では、建設分野を取り巻く課題や BIM/CIM を行う理由等 の社会的背景や社会的要求を学習する。「2

タップします。 6通知設定が「ON」になっ ているのを確認して「た めしに実行する」ボタン をタップします。.

S SIEM Security Information and Event Management の 略。様々な機器のログを収集し、セキュリティ上の脅 威を検知・分析するもの。. SNS

て当期の損金の額に算入することができるか否かなどが争われた事件におい

定性分析のみ 1 検体あたり約 3~6 万円 定性及び定量分析 1 検体あたり約 4~10 万円

産業廃棄物を適正に処理するには、環境への有害物質の排出(水系・大気系・土壌系)を 管理することが必要であり、 「産業廃棄物に含まれる金属等の検定方法」 (昭和

(1)  研究課題に関して、 資料を収集し、 実験、 測定、 調査、 実践を行い、 分析する能力を身につけて いる.

V1:上げ調整を行なった場合の増分価格(円/kWh) を設定 V2:下げ調整を行なった場合の減分価格(円/kWh) を設定 ロ