3.2 パラメトリック検定関数
3.2.3 計数データに対する Pearson のカイ 2 乗検定 chisq.test()
chisq.test()
は分割表に対するカイ2
乗検定を実行する.書式:
chisq.test(x, y=NULL, correct=TRUE, p=rep(1/length(x),length(x)), simulate.p.value=FALSE, B=2000)
引数:
x
ベクトルもしくは行列y
ベクトル.もしx
が行列なら無視されるcorrect
論理値.検定統計量の計算において連続補正を行うか?p x
と同じ長さの確率値のベクトルsimulate.p.value
論理値.p
値をモンテカルロシミュレーションで求めるか?B
モンテカルロシミュレーションの繰りかえし数返り値: クラス
"htest"
のオブジェクトで,次の成分を持つリスト:statistic
カイ2
乗検定統計量の値parameter
検定統計量の近似カイ2
乗分布の自由度.p
値がモンテカルロシミュレーションで与えられる場合は
NA p.value
検定のp
値method
文字列で,実行された検定のタイプと,モンテカルロシミュレーションもしくは連続補正が使われたかどうかを示す
data.name
データの名前を与える文字列observed
観測度数expected
帰無仮説下での期待度数residuals Pearson
残差(observed-expected)/sqrt(expected)
x
が一行または一列の行列であるか,x
がベクトルでy
が与えられないと,x
は一元配 置の分割表とされる.この場合,仮説は母集団確率がp
で与えられたものに等しいか,ま たはp
が与えられなければ,全て等しいかどうか,とされる.もし
x
が行と列をそれぞれ少なくとも2
以上持てば,それは二元配置の分割表と見な され,したがってその項目は非負整数でなければならない.さもなければ,x
とy
は同じ 長さのベクトルか因子でなければならない.不完全な観測例は取り除かれ,オブジェクト は因子オブジェクトに強制変換され,それらから分割表が計算される.それから,二元配 置分割表の同時分布が行と列の周辺分布の積であるという帰無仮説に対するPearson
の カイ2
乗検定が実行される.もしsimulate.p.value = FALSE
なら,p
値は検定統計 量の漸近カイ2
乗分布から計算される.連続補正は2 × 2
分割表でcorrect = TRUE
の 時だけ行われる.さもなければ,もしsimulate.p.value = TRUE
なら,p
値はB
回の モンテカルロシミュレーションで計算される.これは 与えられた周辺和を持つ全ての分 割表の集合からのランダムサンプリングにより行われ,周辺和が正のときだけ使える.# 6種類の殺虫剤の効き目データInsectSpraysを使用.帰無仮説「殺虫剤毎の効き目が同じ」
> chisq.test(InsectSprays$count > 7, InsectSprays$spray) Pearson’s Chi-squared test
data: InsectSprays$count > 7 and InsectSprays$spray
X-squared = 60.9915, df = 5, p-value = 7.582e-12 # 強く否定される
> x <- matrix(c(12, 5, 7, 7), nc = 2)
> chisq.test(x)$p.value # カイ2乗分布近似によるp値
[1] 0.4233054 # シミュレーションでp値を計算する
> chisq.test(x, simulate.p.value = TRUE, B = 10000)$p.value
[1] 0.2957704 # モンテカルロ法によるp値(大きく異なる!)
# 母集団確率の検定.表形式データ
> x <- c(A = 20, B = 15, C = 25) # 一元配置分割表データ
> chisq.test(x) # chisq.test(as.table(x))と同じ
Chi-squared test for given probabilities data: x
X-squared = 2.5, df = 2, p-value = 0.2865
# 母集団確率の検定.生データ
> x <- trunc(5 * runif(100))
> chisq.test(table(x)) # 生データはtable()関数でまず分割表に
Chi-squared test for given probabilities data: table(x)
X-squared = 4.6, df = 4, p-value = 0.3309
3.2.4 対になった二標本間の関連/相関の検定 cor.test()
cor.test()
は対になった標本*1間の関連度の検定を,Pearson
の相関係数(
通常の意 味の相関係数)
,Kendall
の(
ランク相関係数) τ
,またはSpearman
の(
ランク相関係数) ρ
を用いて実行する.*1対になった二標本x={xi},y={yi}とは,各対(xi, yi)がi= 1, . . . , n番目の対象の二つの属性を 表すデータ値であることを意味する.xi, yi間は独立である必要は無いが,対間は独立である必要があ る.つまり二次元の独立データがn個ある状況になる.
書式:
#
既定のS3
メソッドcor.test(x, y, alternative = c("two.sided", "less", "greater"), method = c("pearson", "kendall", "spearman"),
exact = NULL, conf.level = 0.95, ...)
#
クラス"formula"
に対するS3
メソッドcor.test(formula, data, subset, na.action, ...)
引数:
x, y
データ値の数値ベクトル.x
とy
は同じ長さを持たねばならないalternative
対立仮説を指定する."two.sided", "greater"
もしくは"less"
の いずれか.頭文字を指定するだけで良い."greater"
は正の連関,"less"
は 負の連関を意味するmethod
文字列で,どの相関係数を使うかを指示する."pearson", "kendall"
もし くは"spearman"
のどれかで,頭文字だけで良いexact
論理値.正確なp
値を使うかどうか指定する.Kendall
のτ
の場合だけ意味が ある.既定のNULL
の意味は以下を参照せよconf.level
信頼区間の信頼係数.現在,少なくとも4
組以上の完全なペアがあるときの
Pearson
の相関係数だけに意味があるformula
形式~u+v
のモデル式で,u
とv
は一つの標本のデータ値を与える数値ベクトル.二つの標本は同じ長さでなければならない
data
モデル式中の変数を含むオプションのデータフレームsubset
観測値の部分集合を指示するオプションのベクトルna.action
欠損値処理を指示する関数.既定getOption("na.action") ...
メソッドに(
から)
引き渡される追加引数.
返り値: クラス
"htest"
のオブジェクトで,次の成分を持つリスト:statistic
検定統計量の値parameter
検定統計量がt
分布に従う場合のその自由度p.value
検定のp
値estimate
連関度の推定値.用いた手法に応じて"cor", "tau"
または"rho"
null.value
帰無仮説の下での連関度の値で,常に0
alternative
対立仮説を表す文字列method
連関をどのように計ったかを示す文字列data.name
データの名前を与える文字列conf.int
連関度の信頼区間.現在,少なくとも4
組以上の完全なペアがあるときのPearson
の相関係数だけに与えられる三つの手法は,それぞれ対になった標本間の関連度を推定し,それが
0
であるという検 定を行う.これらは異なった関連度を計算し,全て範囲[ − 1, 1]
にあり,値0
は関連の無 いことを意味する.これらは時おり無相関性の検定と呼ばれるが,この言葉はしばしば既 定の手法に限定される.もし
method
が"pearson"
ならば,検定統計量はPearson
の積率相関係数cor(x, y)
であり,もし標本が独立な正規分布に従うなら,帰無分布は自由度length(x)-2
のt
分布に従う.もし最低4
対の完全データがあれば,漸近信頼区間がFisher
のZ
変換で 与えられる.もし
method
が"kendall"
もしくは"spearman"
ならば,Kendall
のτ
もしくはSpearman
のρ
統計量がランクに基づく関連度を推定するのに使われる.これらの検定はもしデータが二変量正規分布に従わない場合でも使うことができる.
Kendall
の検定は,既定(exact
がNULL)
の場合,もし有限な値の対標本が50
組以下で,タイが無ければ,正確な
p
値が計算される.さもなければ,検定統計量は平均0
で 単位分散にスケール化された推定値であり,近似的に正規分布に従う.Spearman
の検定 では,p
値はアルゴリズムAS 89
を用いて計算される.# まぐろの缶詰9ロットに対しHunterのL明度と,消費者グループの得点採点
# (1から6の整数で80組の平均)を比較する
> x <- c(44.4, 45.9, 41.9, 53.3, 44.7, 44.1, 50.7, 45.2, 60.1)
> y <- c( 2.6, 3.1, 2.5, 5.0, 3.6, 4.0, 5.2, 2.8, 3.8)
# 興味のある対立仮説「HunterのL値は消費者の採点と正の連関」
> cor.test(x, y, method = "kendall", alternative = "greater") Kendall’s rank correlation tau
data: x and y
T = 26, p-value = 0.05972 # 5%有意でない
alternative hypothesis: true tau is greater than 0
sample estimates: tau 0.4444444 # Kendallのランク相関係数(τ統計量)値
# 大標本近似を用いる
> cor.test(x, y, method = "kendall", alternative = "greater", exact = FALSE)
Kendall’s rank correlation tau data: x and y
z = 1.6681, p-value = 0.04765 # 5%有意
alternative hypothesis: true tau is greater than 0 sample estimates: tau 0.4444444
# Spearmanのランク相関係数(ρ統計量)値を指定
> cor.test(x, y, method = "spearm", alternative = "g") Spearman’s rank correlation rho
data: x and y
S = 48, p-value = 0.0484 # 5%有意
alternative hypothesis: true rho is greater than 0 sample estimates: rho 0.6
# Pearsonの(普通の意味の)相関係数値を指定
> cor.test(x, y, alternative = "g") Pearson’s product-moment correlation data: x and y
t = 1.8411, df = 7, p-value = 0.05409 # 5%有意でない alternative hypothesis: true correlation is greater than 0
95 percent confidence interval: # 相関係数の95%信頼区間
-0.02223023 1.00000000 sample estimates: cor 0.5711816
# モデル式による指定.米国最高裁判事の評価データUSJudgeRatingsを使用
> pairs(USJudgeRatings) # 散布行列図を描く
# 法律家との接触度と法的公正さの連関を検定(関連無しの結論)
> cor.test(~ CONT + INTG, data = USJudgeRatings) Pearson’s product-moment correlation data: CONT and INTG
t = -0.8605, df = 41, p-value = 0.3945
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval: # 相関係数の95%信頼区間
-0.4168591 0.1741182
sample estimates: cor -0.1331909 # Pearsonの(普通の意味の)相関係数値