計数データに対する Pearson のカイ 2 乗検定 chisq.test()

3.2 パラメトリック検定関数

3.2.3 計数データに対する Pearson のカイ 2 乗検定 chisq.test()

chisq.test()

は分割表に対するカイ

2

乗検定を実行する．

書式：

chisq.test(x, y=NULL, correct=TRUE, p=rep(1/length(x),length(x)), simulate.p.value=FALSE, B=2000)

引数：

x

ベクトルもしくは行列

y

ベクトル．もし

x

が行列なら無視される

correct

論理値．検定統計量の計算において連続補正を行うか？

p x

と同じ長さの確率値のベクトル

simulate.p.value

論理値．

p

値をモンテカルロシミュレーションで求めるか？

B

モンテカルロシミュレーションの繰りかえし数

返り値：クラス

"htest"

のオブジェクトで，次の成分を持つリスト：

statistic

カイ

2

乗検定統計量の値

parameter

検定統計量の近似カイ

2

乗分布の自由度．

p

値がモンテカルロシミュレー

ションで与えられる場合は

NA p.value

検定の

p

値

method

文字列で，実行された検定のタイプと，モンテカルロシミュレーションもしく

は連続補正が使われたかどうかを示す

data.name

データの名前を与える文字列

observed

観測度数

expected

帰無仮説下での期待度数

residuals Pearson

残差

(observed-expected)/sqrt(expected)

x

が一行または一列の行列であるか，

x

がベクトルで

y

が与えられないと，

x

は一元配置の分割表とされる．この場合，仮説は母集団確率が

p

で与えられたものに等しいか，または

p

が与えられなければ，全て等しいかどうか，とされる．

もし

x

が行と列をそれぞれ少なくとも

2

以上持てば，それは二元配置の分割表と見なされ，したがってその項目は非負整数でなければならない．さもなければ，

x

と

y

は同じ長さのベクトルか因子でなければならない．不完全な観測例は取り除かれ，オブジェクトは因子オブジェクトに強制変換され，それらから分割表が計算される．それから，二元配置分割表の同時分布が行と列の周辺分布の積であるという帰無仮説に対する

Pearson

のカイ

2

乗検定が実行される．もし

simulate.p.value = FALSE

なら，

p

値は検定統計量の漸近カイ

2

乗分布から計算される．連続補正は

2 × 2

分割表で

correct = TRUE

の時だけ行われる．さもなければ，もし

simulate.p.value = TRUE

なら，

p

値は

B

回のモンテカルロシミュレーションで計算される．これは与えられた周辺和を持つ全ての分割表の集合からのランダムサンプリングにより行われ，周辺和が正のときだけ使える．

# 6種類の殺虫剤の効き目データInsectSpraysを使用．帰無仮説「殺虫剤毎の効き目が同じ」

> chisq.test(InsectSprays$count > 7, InsectSprays$spray) Pearson’s Chi-squared test

data: InsectSprays$count > 7 and InsectSprays$spray

X-squared = 60.9915, df = 5, p-value = 7.582e-12 # 強く否定される

> x <- matrix(c(12, 5, 7, 7), nc = 2)

> chisq.test(x)$p.value # カイ2乗分布近似によるp値

[1] 0.4233054 # シミュレーションでp値を計算する

> chisq.test(x, simulate.p.value = TRUE, B = 10000)$p.value

[1] 0.2957704 # モンテカルロ法によるp値(大きく異なる!)

# 母集団確率の検定．表形式データ

> x <- c(A = 20, B = 15, C = 25) # 一元配置分割表データ

> chisq.test(x) # chisq.test(as.table(x))と同じ

Chi-squared test for given probabilities data: x

X-squared = 2.5, df = 2, p-value = 0.2865

# 母集団確率の検定．生データ

> x <- trunc(5 * runif(100))

> chisq.test(table(x)) # 生データはtable()関数でまず分割表に

Chi-squared test for given probabilities data: table(x)

X-squared = 4.6, df = 4, p-value = 0.3309

3.2.4 対になった二標本間の関連／相関の検定 cor.test()

cor.test()

は対になった標本^*1間の関連度の検定を，

Pearson

の相関係数

(

通常の意味の相関係数

)

，

Kendall

の

(

ランク相関係数

) τ

，または

Spearman

の

(

ランク相関係数

) ρ

を用いて実行する．

*1対になった二標本x={xi},y={yi}とは，各対(xi, yi)がi= 1, . . . , n番目の対象の二つの属性を表すデータ値であることを意味する．xi, yⁱ間は独立である必要は無いが，対間は独立である必要がある．つまり二次元の独立データがn個ある状況になる．

書式：

#

既定の

S3

メソッド

cor.test(x, y, alternative = c("two.sided", "less", "greater"), method = c("pearson", "kendall", "spearman"),

exact = NULL, conf.level = 0.95, ...)

#

クラス

"formula"

に対する

S3

メソッド

cor.test(formula, data, subset, na.action, ...)

引数：

x, y

データ値の数値ベクトル．

x

と

y

は同じ長さを持たねばならない

alternative

対立仮説を指定する．

"two.sided", "greater"

もしくは

"less"

のいずれか．頭文字を指定するだけで良い．

"greater"

は正の連関，

"less"

は負の連関を意味する

method

文字列で，どの相関係数を使うかを指示する．

"pearson", "kendall"

もしくは

"spearman"

のどれかで，頭文字だけで良い

exact

論理値．正確な

p

値を使うかどうか指定する．

Kendall

の

τ

の場合だけ意味がある．既定の

NULL

の意味は以下を参照せよ

conf.level

信頼区間の信頼係数．現在，少なくとも

4

組以上の完全なペアがあると

きの

Pearson

の相関係数だけに意味がある

formula

形式

~u+v

のモデル式で，

u

と

v

は一つの標本のデータ値を与える数値ベク

トル．二つの標本は同じ長さでなければならない

data

モデル式中の変数を含むオプションのデータフレーム

subset

観測値の部分集合を指示するオプションのベクトル

na.action

欠損値処理を指示する関数．既定

getOption("na.action") ...

メソッドに

(

から

)

引き渡される追加引数

.

返り値：クラス

"htest"

のオブジェクトで，次の成分を持つリスト：

statistic

検定統計量の値

parameter

検定統計量が

t

分布に従う場合のその自由度

p.value

検定の

p

値

estimate

連関度の推定値．用いた手法に応じて

"cor", "tau"

または

"rho"

null.value

帰無仮説の下での連関度の値で，常に

0 alternative

対立仮説を表す文字列

method

連関をどのように計ったかを示す文字列

data.name

データの名前を与える文字列

conf.int

連関度の信頼区間．現在，少なくとも

4

組以上の完全なペアがあるときの

Pearson

の相関係数だけに与えられる

三つの手法は，それぞれ対になった標本間の関連度を推定し，それが

0

であるという検定を行う．これらは異なった関連度を計算し，全て範囲

[ − 1, 1]

にあり，値

0

は関連の無いことを意味する．これらは時おり無相関性の検定と呼ばれるが，この言葉はしばしば既定の手法に限定される．

もし

method

が

"pearson"

ならば，検定統計量は

Pearson

の積率相関係数

cor(x, y)

であり，もし標本が独立な正規分布に従うなら，帰無分布は自由度

length(x)-2

の

t

分布に従う．もし最低

4

対の完全データがあれば，漸近信頼区間が

Fisher

の

Z

変換で与えられる．

もし

method

が

"kendall"

もしくは

"spearman"

ならば，

Kendall

の

τ

もしくは

Spearman

の

ρ

統計量がランクに基づく関連度を推定するのに使われる．これらの検定

はもしデータが二変量正規分布に従わない場合でも使うことができる．

Kendall

の検定は，既定

(exact

が

NULL)

の場合，もし有限な値の対標本が

50

組以下

で，タイが無ければ，正確な

p

値が計算される．さもなければ，検定統計量は平均

0

で単位分散にスケール化された推定値であり，近似的に正規分布に従う．

Spearman

の検定では，

p

値はアルゴリズム

AS 89

を用いて計算される．

# まぐろの缶詰9ロットに対しHunterのL明度と，消費者グループの得点採点

# (1から6の整数で80組の平均)を比較する

> x <- c(44.4, 45.9, 41.9, 53.3, 44.7, 44.1, 50.7, 45.2, 60.1)

> y <- c( 2.6, 3.1, 2.5, 5.0, 3.6, 4.0, 5.2, 2.8, 3.8)

# 興味のある対立仮説「HunterのL値は消費者の採点と正の連関」

> cor.test(x, y, method = "kendall", alternative = "greater") Kendall’s rank correlation tau

data: x and y

T = 26, p-value = 0.05972 # 5%有意でない

alternative hypothesis: true tau is greater than 0

sample estimates: tau 0.4444444 # Kendallのランク相関係数(τ統計量)値

# 大標本近似を用いる

> cor.test(x, y, method = "kendall", alternative = "greater", exact = FALSE)

Kendall’s rank correlation tau data: x and y

z = 1.6681, p-value = 0.04765 # 5%有意

alternative hypothesis: true tau is greater than 0 sample estimates: tau 0.4444444

# Spearmanのランク相関係数(ρ統計量)値を指定

> cor.test(x, y, method = "spearm", alternative = "g") Spearman’s rank correlation rho

data: x and y

S = 48, p-value = 0.0484 # 5%有意

alternative hypothesis: true rho is greater than 0 sample estimates: rho 0.6

# Pearsonの(普通の意味の)相関係数値を指定

> cor.test(x, y, alternative = "g") Pearson’s product-moment correlation data: x and y

t = 1.8411, df = 7, p-value = 0.05409 # 5%有意でない alternative hypothesis: true correlation is greater than 0

95 percent confidence interval: # 相関係数の95%信頼区間

-0.02223023 1.00000000 sample estimates: cor 0.5711816

# モデル式による指定．米国最高裁判事の評価データUSJudgeRatingsを使用

> pairs(USJudgeRatings) # 散布行列図を描く

# 法律家との接触度と法的公正さの連関を検定(関連無しの結論)

> cor.test(~ CONT + INTG, data = USJudgeRatings) Pearson’s product-moment correlation data: CONT and INTG

t = -0.8605, df = 41, p-value = 0.3945

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval: # 相関係数の95%信頼区間

-0.4168591 0.1741182

sample estimates: cor -0.1331909 # Pearsonの(普通の意味の)相関係数値

ドキュメント内ためになった他の人のサイト script of (ページ 63-68)