1/X
Chapter 9: Linear correlation
Cohen, B. H. (2007). In B. H. Cohen (Ed.), Explaining
2/X
概要
• 相関係数とは何か • 相関係数の数式 • 〃 検定 • 〃 注意点 • フィッシャーのZ変換 • 信頼区間 • 相関係数の差の検定3/X
相関係数とは何か
• 二つの変数それぞれの「集団内での相対的位 置」を求めたときの,二つの変数間の直線的関 係を表す指標 – 二変数をそれぞれzスコア化すると,両変数のzス コアがどれだけ対応するか,と簡単に定義できる。 – 完全な正の相関のとき,集団内の個人は2つの変数 で同じzスコアを取る。 – 完全な相関 = 一方の変数でもう一方を完全に予測4/X
相関係数の数式
• 相関係数の式として,様々な変形式が用いら れてきた – 手計算を簡単にするための式 – 式の表すものを捉えやすい式5/X
相関係数の数式
• 本文には書かれていないが,一般的には以下 – 1/(N-1)は1/NでもOK。どうせ分母と分子で打ち消される http://www.weblio.jp/content/%E3%83%94%E3%82%A2%E3%82 %BD%E3%83%B3%E3%81%AE%E7%A9%8D%E7%8E%87%E7%9 B%B8%E9%96%A2%E4%BF%82%E6%95%B06/X
相関係数の数式
• 共分散を見ることで,どのようなときにrの値 が正(負)になることに貢献するのかわかる • 平均値を基準に4区画(象限)に分けたとき, 右上・左下は「正」に,右下・左上は「負」 の相関係数に貢献 Yの平均値 ←Xの平均値Ai = (Xi - Xの平均)(Yi - Yの平均)
共分散 = 1/N * Σ Ai
Ai > 0 Ai > 0 Ai < 0 Ai < 0
7/X
8/X
相関係数の検定
• 母相関係数ρ=0とした場合のrの分布はどのよ うなものか(=帰無分布)をまず考える • 統計学的に,ρ=0でサンプルサイズが十分に 大きい時,分布は平均0,標準誤差が1/√Nと なることが分かっている。 • サンプルサイズが十分に大きくないときには, 標準誤差は以下の式となる (p170)。9/X
相関係数の検定
• そして相関係数の有意性は以下のt値から求め ることができる (p271)。 • ρ0は0なので,式変形後,式9.6が一般的に知 られるt値の式である。10/X
相関係数の検定
• rの臨界値を求める。自由度(とα)の関数 • t値を求めて検定はするものの,t値はrとNの 関数なので,臨界値をrの値から求めることが できる。 Table A.511/X
相関係数の検定
• 相関係数の自由度はN-2 – なぜなのか – N=2で相関を計算すると何が起きるか。直線は必 ず2点を通れるので,rの絶対値が1(=一方の変 数でもう一方の変数が完全に予測可能)に。 – つまり,このときの相関係数は母相関係数につい て何の情報も与えない。 – 仮に自由度を母相関係数についての情報量だとす ると,N-2が自由度というのは直観的に理解可能 r = 112/X
相関係数の注意点1
• 相関係数の解釈には注意が必要 • 線形の関係しか捉えられない – 二次関数的関係は捉えられない – Fig.9.3, 9.413/X
相関係数の注意点2
• 限定された母集団 – 母相関係数:ρ(ロー) – 母集団全体からランダムサンプリングすれば,rは ρをバイアスなく測定するが,大抵は,サンプル の範囲が限定されているなどによって,バイアス を受ける。 – → 切断効果14/X
相関係数の注意点2
• 切断効果 – Fig.9.5 – 変数の分散が限定されることで,母集団には存在 する相関関係が歪められること – 多くの場合は,相関が小さくなる – 母集団の分布が曲線の場合には,強くなる場合が ある。15/X
16/X
相関係数の注意点3
• 外れ値の影響を強く受ける – 相関係数は外れ値の影響を強く受ける。特に,両 方の変数が外れ値になる値(bivariate outliers) の影響が大きい。図9.6では,元々強い負の相関 だった者が,若干正の相関になってしまう。17/X
相関係数の注意点4
• 相関は因果を意味しない – 因果が逆であったりする。運動するから元気なの か,元気な人が運動しているのか。 – 第三変数。楽天的だから運動もして元気。この場 合にも,運動と元気の間には相関が生じる – このことは,2群の実験でも同じことである。運 動群と非運動群を分けても,そこに第三変数であ る楽天的な傾向の介在は防げていない。(群分け ではなくて,運動量を「操作」すれば別)18/X
相関係数の注意点5
• 相関係数のインフレ? – 先ほど述べたように,N=2のとき,rが必ず1にな るという相関係数のインフレが起こる。 – しかしこれは,N=3, N = 11のときでも,本来は r=0となるはずの期待値が,rの期待値は√(1/(N-1))で与えられるので,それぞれ0.707, 0.316と なるという形で残る。 – なにぃっ!?っと思ってシミュレーションしてみた19/X
シミュレーション
• 相関係数が大体0になる分布を生成 – N = 10000 – r = -0.006538254 – これを母集団と見なす -2 0 2 -4 -2 0 2 4 x y ここからnずつサンプリング して,相関係数を計算。そ れを100回くり返した平均 相関係数をプロット20/X 0 20 40 60 80 100 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 vec fr am e2 平均相関係数 n = サンプルサイズ あれ? ばらつきは大きいけど 別にバイアスはないような……
ρ = 0
どうも,rを絶対値にしたとき の話らしい (p272)21/X
シミュレーション
• ここから,nの数ずつサンプリングして,相関 係数を計算。それを100回くり返した平均相 関係数の絶対値をプロットする。•
ρ = 0
平均相関係数 n = サンプルサイズ 0 20 40 60 80 100 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 vec fr am e222/X
シミュレーション
• つまり,自分に都合の良い相関係数のときだ け論文中に取り上げて議論してしまった場合 には,上記のバイアスをモロに受ける。 • サンプルサイズが少ないと,母相関係数とは かなりズレた相関係数が得られる23/X
相関係数の注意点6
• 相関係数の前提
– 独立無作為サンプリング
– どちらの変数も正規分布
– 二変量正規分布(bivariate normal distribution)
– ただしサンプルサイズが大きい時には,2変数の
24/X
相関係数の検定力分析
• 相関係数の検定についても検定力を求めるこ とができる • 基本は独立な二群の平均値差の検定と同じ • ただし,t値とr値を混同しないこと。前者は 効果量とサンプルサイズに依拠し,後者は効 果量そのもの25/X
相関係数の検定力分析
• 検定力分析をするためには,t検定のときのよ うに,δ(前はtの期待値であった)が必要で ある。これは,母相関係数ρに√(N-1)をかけ たものである。 • 式9.726/X
相関係数の検定力分析
• 必要な参加者数を求める場合(式9.8) • Table A.3を用いる • 検定力が85%欲しいならば,δは3.00必要で, そのためにはNは74.5必要だとわかる。 (p279)27/X
フィッシャーのZ変換
• ρ = 0のとき,分布はほぼ正規分布に近似す ることができる。しかし例えばρ = .8のとき, 1以上の値が取れないため,分布が歪む • これを修正するのがフィッシャーのZ変換。 • Table A.6を用いる • Zに変換すれば,zスコアと同様の扱いができ, 検定や信頼区間を出すのに便利28/X
相関係数の信頼区間
1. rをZに変換して正規分布するようにする。 2. 信頼水準を決める。95%。 3. zの95%信頼水準の臨界値は絶対値1.96 4. Zの標準誤差をこの式で計算する。 5. 臨界値と標準誤差の積にZを足す(引く) 6. それぞれの値が信頼区間の上限と下限になる。29/X
相関係数の信頼区間
• さらに,ここで計算された値はあくまでもZ の値なので,これをrに再変換する。
30/X
相関係数の検定
• 特定の相関係数よりも大きいか小さいかの検 定は,ρ = 0以外の帰無分布を考えるので, 本来は分布の歪みを考えなくてはならない • しかしフィッシャーのZ変換を用いたz検定を 行うことで対応することができる。 • 以下の式でzを計算し,検定にかける31/X