カイ二乗検定と分散分析

(1)

生物統計学演習

担当　茅野光範

　(かやの　みつのり)^!

　　　　　　帯広畜産大学　!

　　　　　　グローバルアグロメディシン研究センター! 　　　　　　研究室: 総合研究棟Ⅰ号館 N2302-6!

　　　　　　E-mail: [email protected]

1

4

回目：いろいろな検定

　　　　　カイ二乗検定と分散分析

(2)

講義の予定　全

4

回

1回目　ガイダンス＆エクセルに慣れる

　　　　（ヒストグラムを描く、平均や分散を求める）

2回目　散布図と相関係数、回帰直線

3回目確率分布と信頼区間、t-検定

4回目いろいろな検定：　カイ二乗検定と分散分析

(3)

前回の内容：

復習

確率分布と信頼区間、t-検定確率分布と信頼区間

　　正規分布を描く

　　いろいろな分布の裾確率、％点などを求める　　信頼区間を求める

t-

検定

　　

t-

検定を行う

t-

検定を行い、遺伝子をランキングする

3

(4)

前半で使う

Excel

関数：　正規分布の場合

•  NORM.DIST

　　

4

つ目の引数：関数形式

=“FALSE”

の場合には、

　　与えた値での関数（正規分布）の高さを返す　　

•  NORM.INV

　　

4

つ目の引数：関数形式

=“TRUE”

の場合には、

　　与えた値より左側の面積を返す

復習

(5)

t

検定（平均値の差の検定）

　結果の表示

X

組と

Y

組のテストの点数

　 X組 Y組点数 59 45

　 79 42 　 51 47 　 54 24 　 54 32 　 53 38 　 46 42 　 54 50 平均値 56.25 40.00 下限 47.42 32.40 上限 65.08 47.60

点数

60 50 40 30 20

棒グラフに星をつける

X

組と

Y

組に有意差あり

X

組

Y

組

*

p<0.05

（

p

値

!)

n=8 n=8

5

復習

(6)

p

値：平均値が等しい確率！！

p

値が小さい（例：

p<0.05

）

⇒平均値は異なる！

p

値が大きい（例

: p>0.05

）

⇒平均値が異なるとは言えない（？）

復習

(7)

エクセルで

t

検定を行う

T.TEST

（

”

配列

1”, “

配列

2”,”

尾部

”,”

検定種類

”

）だけで

OK

配列

1

：　グループ１のデータ配列

2

：　グループ２のデータ尾部：　

1 --

片側検定

　　　　

2 --

両側検定検定の種類

1: t

検定（対応あり）

2: t

検定（等分散）

3: t

検定（非等分散。

　　　　　　　　ウェルチの方法）

7

復習

(8)

t

検定の前提条件

それぞれのクラスで、データは正規分布に従っているとする！

確認方法

1

：ヒストグラムで視覚的に

確認方法

2

：

q-q

プロット

^（教科書_p.29-30^）

で視覚的に

そうでない場合は、別の検定をする

例：マン・ホイットニーの

U

検定　教科書

6.3.1

節

Excel

復習

(9)

後半の課題：　課題

4, 5, 6

課題

4

：　雌羊の体重に対する餌の影響

　　　　　　

point

：　データ数が増えると

p

値が下がる

課題

5

：　牛の乳量に対する処置の影響　　　　　　

point

：　対応ありの

t

検定を行う

課題

6

：　アルツハイマー関連遺伝子を

t

検定で　　　　　　ランキングする

　　　　　　

point

：　

t-

検定（単純な作業）の繰り返しで、

　　　　　　　最先端のデータ解析にも太刀打ちできる

復習

9

(10)

[

参考

]

：　検定の多重性

検定を繰り返し行う時には、有意水準に注意が必要　対応策：　

Boferroni

補正や

Tukey

の方法などを使う　　　　　　（独立な検定の場合）　（複数群の

t-

検定）

例（Boferroni補正） 0.05/（検定の数）以下のp-値が出たら有意とする

遺伝子1と遺伝子2の発現量についてそれぞれt検定を行った。

遺伝子1について、平均値の差が無い場合に、求めた平均値の差が出る確率は5%以下である。遺伝子2についても同様である。しかし、遺伝子1と遺伝子2のどちらも平均値に差がない場合に、少なくとも1つの遺伝子で平均値に差が出てしまう確率は5%よりも大きい（約10%）。

⇒ それぞれのt-検定の有意水準を2.5％（=5%／検定の数）として、

復習

(11)

今日の内容

先週の復習

　　確率分布と信頼区間、t-検定

カイ二乗検定

　　独立性の検定

分散分析

　　一元配置分散分析

二元配置分散分析

11

(12)

カイ二乗検定

独立性の検定

　　

教科書

6.2.5

節

(13)

カイ二乗検定

例：　薬の効果はあったのか？

13

参考書：　「医学への統計学」朝倉書店1993年　　「逆引き統計学」講談社2009年　　　　　　「生物統計学入門」（ハーバード大学講義テキスト）丸善2005年

　　　　　　「バイオ実験室の統計学」（エクセルで学ぶ生物統計の基本）画像出典：ウィキペディア

治癒（人）

治った治らなかった

症例数薬あり 45 15 60 薬なし 20 20 40 計 65 35 100 p=0.010

薬あり（飲んだ）個体１個体2 個体3 ・・・個体60

治癒〇 × 〇 ×

薬なし（飲まなかった）個体１個体2 個体3 ・・・個体40

治癒〇 × × ×

観測データ

言い換えると，右表で行と列は独立か？

(14)

例：　薬の効果がない

表の人数が全て同じ＝行にも列にも関係ない

（各行の合計，各行の合計が等しいとする）

治った治らなかった計薬飲んだ

25 25 50

薬飲まなかった

25 25 50

計

50 50 100 ₍

人）

表の人数（

25

人）を，期待度数と呼ぶことにする

(15)

エクセルでカイ二乗検定

手順

　　

1.

期待度数を計算する

　　　　薬の効果が無い場合の表（度数）

　　

2. CHISQ.TEST

（

***, ***

）を使う

15

(16)

エクセルでカイ二乗検定

1

期待度数を計算する：　地道に計算する

(17)

エクセルでカイ二乗検定

2

CHISQ.TEST

（

”

実測値範囲

”, “

期待値範囲

”

）とする

17

実測値範囲：　データ

期待値範囲：　期待度数

(18)

検定の方針

1. 

行と列が独立のとき，

　　期待される人数（期待度数）を求める

2.

データとの差がどのくらいあるかを調べる

期待度数治った治らなかった計

薬飲んだ

?? ?? 60

薬飲まなかった

?? ?? 40

計

65 35 100

(19)

検定の方針

期待度数治った治らなかった計薬飲んだ

39 21 60

薬飲まなかった

26 16 40

計

65 35 100

データ治った治らなかった計薬飲んだ

45 15 60

薬飲まなかった

20 20 40

計

65 35 100

比べる　差があるか

?

19

(20)

期待度数の求め方（概要）

期待度数（各セル）＝ ^{行の度数合計}

^×

^{列の度数合計}

集団全体の度数合計

期待人数治った治らなかった計

薬飲んだ

?? ?? 60

薬飲まなかった

?? ?? 40

計

65 35 100

(21)

期待度数の求め方

1 / 2

• 

薬を飲んで治った人の期待度数　　⇒　

60 × 65/100 = 39

人

• 

薬を飲んだのに治らなかった人の期待度数　　⇒　

60 × 35/100 = 21

人

期待度数治った治らなかった計薬飲んだ

39 21 60

薬飲まなかった

?? ?? 40

計

65 35 100

21

×

　

35/100

×

　

65/100

(22)

期待度数の求め方

2 / 2

• 

薬を飲まないで治った人の期待度数　　⇒　

40 × 65/100 = 26

人

• 

薬を飲まないで治らなかった人の期待度数　　⇒　

40 × 35/100 = 16

人

期待度数治った治らなかった計薬飲んだ

39 21 60

薬飲まなかった

26 16 40

× 35/100

×

　

65/100

(23)

χ ² = (45− 39)²

39 + (15 − 21)²

21 + (20 − 26)²

26 + (20 −16)² 16

期待度数治った治らなかった計薬飲んだ

39 21 60

薬飲まなかった

26 16 40

計

65 35 100

データ治った治らなかった計薬飲んだ

45 15 60

薬飲まなかった

20 20 40

計

65 35 100 ₂₃

(24)

χ ² = (45− 39)²

39 + (15 − 21)²

21 + (20 − 26)²

26 + (20 −16)² 16

~ χ₁²

^{（近似的）}

0.51.01.52.0

y

χ₁²

χ ²

χ²=6.593

p

値

=0.010<0.05

ただし、各度数は

小さすぎないとする　例

:5

以上

χ₁²(0.05)=3.84

棄却域

(25)

カイ二乗検定の注意

どんなデータに使うのか？

1. 

２択や３択等のデータしかない場合に、

　　カイ二乗検定を行う

2. 

具体的な数字（身長、体重、得点など）があれば　　

t

検定等をすればいい

どんなときに使えるのか？（前提条件）

3.

各セル（マス）に５以上のデータがあるとする

　　　そうでない場合は、イェーツの補正か、

　　　フィッシャーの正確確率検定（

Fisher’s exact

　　　

test)

を行う

(26)

課題

1

アルコール依存症に関わる候補遺伝子のノックアウト実験

（下表、マウスの実験）について、この遺伝子がアルコールの嗜好に関わるかどうかをカイ二乗検定を使って検定する。

「アルコール入り／なし」は、それぞれのマウスがアルコール入り／なしのうちどちらの飲み物を選んだかを意味する。

データファイル：　ファイルサーバーの

「生物統計学演習4_data_配布用.xlsx」の「カイ二乗検定」

アルコール依存症の候補遺伝子のノックアウト実験（匹）

　アルコール入りアルコール無し計

野生型 18 9 27

ノックアウト 12 13 25

計 30 22 52

(27)

課題

2

27!

腸チフスに対する予防接種の効果（下表）について、

この予防接種が腸チフスの感染予防に効いているかどうかをカイ二乗検定によって検定する。

腸チフスに対する予防接種の効果（人）

　腸チフス腸チフスでない計

予防接種受けた 56 6759 6815 予防接種受けていない 272 11396 11668 計 328 18155 18483

（「数理統計学」内田老鶴圃例6.11）

(28)

課題

3

受胎率と受精方法の関係（下表）について、これらの方法の受胎率に差があるかどうかをカイ二乗検定を使って検定する。

（「Stahshcs for Veterinary and Animal Science」例9.5.4）

受胎率と受精方法の関係（頭）

　方法１方法２方法３計

受胎した 275 192 261 728

受胎しない 78 64 123 265

計 353 256 384 993

(29)

参考課題

29!

農場ごとの乳房炎の発生件数（下表）について、農場によって乳房炎の発生頻度に差があるかどうかをカイ二乗検定により検定する。

農場ごとの乳房炎の発生件数

　農場A 農場B 農場C 計

乳房炎 36 29 10 75 乳房炎でない 60 103 62 225 計 96 132 72 300

（「Biostahshcs for Animal Science」例6.6）

(30)

分散分析

(ANOVA: Analysis of Variance)

一元配置分散分析（

1-way or single factor)

二元配置分散分析（

2-way or two-factor)

　　

教科書

7.2

節

(31)

分散分析（

ANOVA: ANalysis Of Variance)

複数の平均値の差の検定

例：薬の違いによって

　　マウスの体重に差があるか？

　　（一元配置分散分析）

31

群薬１薬2 薬3 体重(g) 50.6

47.5 43.4

55.0 49.4 47.8

47.7 44.8 60.7

観測データ

参考書：　「医学への統計学」朝倉書店1993年　　「逆引き統計学」講談社2009年　　　　　　「生物統計学入門」（ハーバード大学講義テキスト）丸善2005年

　　　　　　「バイオ実験室の統計学」（エクセルで学ぶ生物統計の基本）

体重 (g)

投与群1 投与群2 投与群３

・・・・・・・・・

(32)

一元配置分散分析のモデル

体重 (g) μ a₁

a₂ a₃

x_i_ｊ = μ + a_i +

（誤差）

　　　　　　　　

μ

：全体の平均　　　　　　　　

a_i

：群

i

の効果帰無仮説：

　　

a₁ = a₂ = a₃ = 0

対立仮説：

　　少なくとも一つの

i

で　　

a_i

≠

0

仮定：　データは正規分布に従う

(33)

33

「分散分析：

　一元配置」

の実行

(34)

「分散分析：一元配置」の実行結果

一番大事

なのは

p-

値

(35)

二元配置分散分析（

2-way ANOVA

）

データの形式　　　　　　　　平均値の折れ線グラフ

酵母菌の培養実験のデータ

系統温度

25

℃

35

℃

45

℃

S. cerevisiae 12 37 38

　

12 38 42

　

11 39 40

S. exiguus 7 19 18

　

8 22 16

　

8 23 19 ⁰

5 10 15 20 25 30 35 40 45

25℃ 35℃ 45℃

S. cerevisiae S. exiguus

例：　酵母菌の系統や温度設定によって増殖に差があるか？

　　　（繰り返しのある二元配置分散分析）

35

表中の値：酵母の1時間当たりのCO₂生産量（ml)

（参考書　例7.6）

(36)

二元配置分散分析のモデル

x_ijk = μ + a_i + b_j + c_ij +

（誤差）

　

μ

：全体の平均

　

a_i

：要因

A

（系統、縦方向）の効果　

b_j

：要因

B

（温度、横方向）の効果　

c_ij

：要因

A

と

B

の効果

以下をそれぞれ検定する　

Ha:

全ての

i

で、

a_i=0

　

Hb:

全ての

j

で、

b_j=0

　

Hab:

全ての

i, j

で、

c_ij=0

仮定：　データは正規分布に従う、各群で分散は等しい

0 5 10 15 20 25 30 35 40 45

25℃ 35℃ 45℃

36

μ

(37)

「分散分析：繰り返しのある二元配置」

の実行　（各群のデータ数は等しいとする）

37

(38)

結果

一番大事なのは

p-

値

温度

系統

(39)

データのパターン

1, 2 / 5

パターン

1

：

系統（青と赤）でも

温度（横軸）でも差がない 

10 15 20 25 30 35 40 45 50

25℃ 35℃ 45℃

パターン

2

：

系統（青と赤）についてだけ差がある

39

x_ij = μ + ^（誤差）

10 15 20 25 30 35 40 45 50

25℃ 35℃ 45℃

x_ij = μ + a_i + ^（誤差）

a_i= b_j =c_ij = 0

b_j =c_ij = 0

a₁ a₂

μ

(40)

データのパターン

3, 4 / 5

パターン

3

：

温度（横軸）についてだけ差がある 

パターン

4

：

系統（青と赤）と温度（横軸）の交互作用だけある

15 20 25 30 35 40 45 50

x_ij = μ + c_ij + ^（誤差）

x_ij = μ + b_j + ^（誤差）

a_i= c_ij = 0

a_i= b_j = 0

μ b₁

b₂ b₃

(41)

データのパターン

5 / 5

系統（青と赤）でも、温度（横軸）でも差があり、

交互作用もある

0 5 10 15 20 25 30 35 40 45

25℃ 35℃ 45℃

41

x_ij = μ + a_i + b_j + c_ij + ^（誤差）

(42)

分散分析

ANOVA

の前提条件

1. 

各クラスでデータは正規分布に従う

2. 

各クラスの分散は等しい

3. 

（エクセルで二元配置の場合は）各クラスのデータ数は等しい

3.

が満たされないときは、別のソフトなら対応できるかもしれない。そういうソフトを探す。

１，２が満たされないときは、

Kruskal-Wallis

検定な

(43)

一元配置分散分析の代わりに使う検定

Tukey

の検定（どこの平均値が違うのかの検定）

など。

＊一元配置分散分析では、

　「どこかの平均値が他と違う」ことしか言えない

　それで十分な時は、一元配置分散分析を使え

ばよい

(44)

課題

4

妊婦の喫煙状況と乳幼児の出生体重の関係（下表）について、妊婦の喫煙状況が出生体重に影響を与えるかを分散分析を用いて検定する。

「生物統計学演習4_data_配布用.xlsx」の「分散分析」

出生体重への妊娠時の喫煙の影響　体重（g)

喫煙

2585 3583 3084 2767 2812 3130 2722 3810 3583 　　　　　

以前に

喫煙

3402 3084 3130 2585 3583 3447 3765 　

非喫煙

3447 3130 3175 3084 3538 3493 2903 3357 3719 3901 3402 3402 3402 2540

（教科書例7.5改）

(45)

課題

5

45!

４種類のニワトリ（

A,B,C,D

）のかけ合わせによる卵の重さ

（下表）について、ニワトリの種類

AB, AC, BC, BD

によって

卵の重さに差があるかどうかを分散分析によって検定する。

４種類のニワトリ（A,B,C,D）のかけ合わせによる卵の重さ

　卵の重さ（g) 　　　　　 AB 58 51 56 52 54 57 58 60 　　 AC 59 62 64 60 62 　 BC 56 57 56 55 　 BD 59 55 50 64 57 53 57 53 56 55

（「Biostahshcs for animal science」練習問題11.1）

(46)

課題

6

2

系統の酵母菌を温度設定を変えてそれぞれ培養した結果

（下表）について、酵母菌の系統や温度設定によって、酵母菌の増殖に差があるかどうかを分散分析によって検定する。

酵母菌の培養実験のデータ

系統温度

25

℃

35

℃

45

℃

S. cerevisiae 12 37 38

　

12 38 42

　

11 39 40

S. exiguus 7 19 18

　

8 22 16

　

8 23 19

また、下図のように各実験条件における平均値を系統ごとに色分けして折れ線グラフで表示する

10 20 30 40

50 S. cerevisiae

S. exiguus

(47)

参考課題

グルコース量の経時変化のデータ（下表）について、二元配置分散分析により、グルコース量への処置の影響、経時変化、処置と経時変化の交互作用の有無を分散分析により　　　　　　検定する

Kodama et al., PNAS 2012, Vol.109 (18),

Fig.4Aを参考に乱数によりデータ生成した

70 75 80 85 90 95 100 105 110 115

Day0 Day1 Day3 Day5

グルコース量（%）の経時変化　 Day0 Day1 Day3 Day5 Control 100.0 100.6 67.0 96.7 　 100.0 95.8 89.0 84.2 　 100.0 96.4 79.9 81.9 　 100.0 93.5 80.5 76.6 　 100.0 82.7 83.2 86.9 　 100.0 107.6 90.6 79.4 処置群 100.0 107.7 103.6 126.7 　 100.0 110.8 107.6 107.2 　 100.0 102.5 121.3 105.4 　 100.0 104.0 104.8 109.2 　 100.0 108.2 108.8 108.7

　 100.0 109.5 108.5 112.8 ⁴⁷

(48)

講義の予定　全

4

回

1回目　ガイダンス＆エクセルに慣れる

　　　　（ヒストグラムを描く、平均や分散を求める）

2回目　散布図と相関係数、回帰直線

3回目確率分布と信頼区間、t-検定

4回目いろいろな検定：　カイ二乗検定と分散分析

(49)

おわりに

1/3

演習で扱った統計手法

エクセルを使えば、比較的簡単にできる！

1. 

図：　ヒストグラム、棒グラフ、散布図

2. 

統計量の計算（平均値、分散、標準偏差、標準誤差）

3. 

相関係数の計算（

Pearson

、

Spearman

）

4. 

回帰分析　　　（単回帰分析、重回帰分析）

5.  t

検定　　　　　（対応あり／なし）

6. 

カイ二乗検定（独立性の検定）

7. 

分散分析　　　（一元配置、二元配置）

49!

(50)

おわりに

2/3

演習で扱えなかった統計手法

統計ソフトを使えば、比較的簡単にできる例：　エクセル統計、

SAS

、

R

など

1. 

ロジスティック回帰（

Y

が

0/1

の場合の回帰分析）

2. 

クラスター分析　　（似たデータ（変数）をまとめる）

3. 

主成分分析　　　　（多変数をまとめる）

4. 

ノンパラメトリック検定　（マンホイットニーの検定など）

5. 

多重比較法　　　　（

Bonferroni

、

Tukey

の方法など）

(51)

おわりに

3/3

p

値にだまされない！

　⇒　データ数が多ければ

p

値は低くなる　⇒　

(1)

図を描いて確認することが必要

　　

(2)

平均値の差や割合などの直感的な値も

　　　　　計算してみることが必要

どの統計手法を使えば良いか吟味する　⇒　注意点：　前提を満たしているか？

　　　　　　結論を導くために必要十分な方法か？

51!

(52)

期末試験の予定

平成

28

年

2

月

12

日（金）　

8:45

～

10

：

15

解答要領の説明：

10

分、問題配布：

10

分、

解答時間：

60

分、解答回収：

10

カイ二乗検定と分散分析

生物統計学演習

担当 茅野 光範

回目： いろいろな検定

カイ二乗検定と分散分析

講義の予定 全

回

1回目 ガイダンス＆エクセルに慣れる

（ヒストグラムを描く、平均や分散を求める）

2回目 散布図と相関係数、回帰直線

前回の内容：

復習

確率分布と信頼区間、t-検定 確率分布と信頼区間

正規分布を描く

いろいろな分布の裾確率、％点などを求める 信頼区間を求める

検定

検定を行う

検定を行い、遺伝子をランキングする

前半で使う

関数： 正規分布の場合

つ目の引数：関数形式

の場合には、

与えた値での関数（正規分布）の高さを返す

つ目の引数：関数形式

の場合には、

与えた値より左側の面積を返す

復習

検定（平均値の差の検定）

結果の表示

組と

組のテストの点数

X組 Y組 点数 59 45

79 42 51 47 54 24 54 32 53 38 46 42 54 50 平均値 56.25 40.00 下限 47.42 32.40 上限 65.08 47.60

点数

棒グラフに星をつける

組と

組に有意差あり

組

組

（

値

復習

値：平均値が等しい確率！！

値が小さい（例：

）

⇒平均値は異なる！

値が大きい（例

）

⇒平均値が異なるとは言えない（？）

復習

エクセルで

検定を行う

（

配列

配列

尾部

検定種類

）だけで

配列

： グループ１のデータ 配列

： グループ２のデータ 尾部：

片側検定

両側検定 検定の種類

検定（対応あり）

検定（等分散）

検定（非等分散。

ウェルチの方法 ）

復習

検定の前提条件

それぞれのクラスで、データは 正規分布に従っているとする！

確認方法

：ヒストグラムで視覚的に

確認方法

：

プロット

で視覚的に

そうでない場合は、別の検定をする

例：マン・ホイットニーの

検定 教科書

節

　　　　　カイ二乗検定と分散分析

担当　茅野光範

回目：いろいろな検定

　　　　　カイ二乗検定と分散分析

講義の予定　全

1回目　ガイダンス＆エクセルに慣れる

　　　　（ヒストグラムを描く、平均や分散を求める）

2回目　散布図と相関係数、回帰直線

確率分布と信頼区間、t-検定確率分布と信頼区間

　　正規分布を描く

　　いろいろな分布の裾確率、％点などを求める　　信頼区間を求める

関数：　正規分布の場合

　　与えた値での関数（正規分布）の高さを返す　　

　　与えた値より左側の面積を返す

　結果の表示

　 X組 Y組点数 59 45

　 79 42 　 51 47 　 54 24 　 54 32 　 53 38 　 46 42 　 54 50 平均値 56.25 40.00 下限 47.42 32.40 上限 65.08 47.60

：　グループ１のデータ配列

：　グループ２のデータ尾部：　

両側検定検定の種類

　　　　　　　　ウェルチの方法）

それぞれのクラスで、データは正規分布に従っているとする！

検定　教科書

後半の課題：　課題

：　雌羊の体重に対する餌の影響

：　データ数が増えると

：　牛の乳量に対する処置の影響　　　　　　

：　対応ありの

：　アルツハイマー関連遺伝子を

検定で　　　　　　ランキングする

：　

　　　　　　　最先端のデータ解析にも太刀打ちできる

：　検定の多重性

検定を繰り返し行う時には、有意水準に注意が必要　対応策：　

の方法などを使う　　　　　　（独立な検定の場合）　（複数群の

　　確率分布と信頼区間、t-検定

　　独立性の検定

　　一元配置分散分析

例：　薬の効果はあったのか？

例：　薬の効果がない

治った治らなかった計薬飲んだ

エクセルでカイ二乗検定

　　　　薬の効果が無い場合の表（度数）

エクセルでカイ二乗検定

期待度数を計算する：　地道に計算する

エクセルでカイ二乗検定

実測値範囲：　データ