4. 相関・回帰
(correlation/regression)
• 4.0 相関関係とは? • 4.1 相関係数 correlation coefficient • 4.2 自己相関 auto-correlation • 4.3 相互相関 cross-correlation • 4.4 相関解析の実例 applications • 4.5 相関の有意性 significance of correlation – 相関係数の検定 test of correlation coefficient – 等価自由度 effective degree of freedom• 4.6 回帰 regressions – 回帰係数
– 回帰係数の区間推定
• 4.7 回帰分析の実例 applications
4.1 相関係数
Correlation coefficient 共分散 covariance 分散 variance 4.1 相関関数は、-1≤
r≤
1の値を取る。 2相関係数と散布図
x y,z
例1:
例2: 相関係数がゼロだからといって、2つの変数の間に何も関係 が無い訳ではない。Æ 相関係数は2つの変数の間の線形関係 (1次式)の強さを表している。 xとyの平均はそれぞれ 3と5だから、 相関係数rの分子は、 (2-3)(2-5)+(5-3)(5-5)+(0-3)(10-5)+(4-3)(2-5) +(1-3)(5-5)+(6-3)(10-5)+(3-3)(1-5) = 3-15-3+15 = 0 Æ r = 0 石村 (1989) より抜粋 5
4.2 自己相関関数
(auto-correlation function)
アンサンブル平均 定常確率過程ではアンサンブル平均による自己相関関数が時間平均 によるもので置き換えることができて(x(t) の平均値が t によらず一定、 自己相関も t によらず τ のみに依存) 時間平均 R(τ): R(τ)= R(-τ) Æ τ= 0 について左右対称 |R(τ)| ≤ 1 「メモリーの持続特性」を表す。 4.2 τ:lag Covariance function Autocorrelation function ラグ相関 関数 自己共分散関数 6ずらす
ずらして
かけあわせる
x(t-τ)
代表的な時系列関数と自己相関関数の形
日野 (1977)
white noise Cf.イサカの例 日野 (1977) 2 2 2 ある時点での結果が前の時点での 結果に依存しないランダムな過程 で生成されるもの 微小ラグ隔たるとき 前の性質をある割合 で保存 10
x(t)=asin(2πft+θ)+r(t)
日野 (1977)
3
自己相関関数の例:ニューヨーク州イサカの
自己相関関数の例:ニューヨーク州イサカの
1987
1987
年
年
1
1
月の日最高気温(華氏)
月の日最高気温(華氏)
Wilks (2006) 上段:xi+τ 下段:xi 12自己相関関数の例:ニューヨーク州イサカの
自己相関関数の例:ニューヨーク州イサカの
1987
1987
年
年
1
1
月の日最高気温(華氏)
月の日最高気温(華氏)
(自己相関関数)= (ラグ自己共分散)/ (分散) rxx(3): 平均からかなりずれた値が端にあると良くない。 rxx(2): 分母と分子の計算に異なるデータ範囲を使っているので、誤差が大きくなる 可能性がある。分子の計算に使われていない部分で、平均からのずれが小さい と、極端な場合には相関係数の絶対値が>1となることさえあり得る。 134.3 相互相関関数
(cross-correlation function)
異なる変数間でのラグ相関を求める Rxy(0)=1にはならない。 左右対称にはならない。 4.3 相互相関関数 相互相関係数 14相互相関関数の計算式
図Cダーウィンと世界各地の年平均海面
気圧偏差の相関係数(x10)。
係数が正の値のところはダーウィンの気圧が通常より高いときにその場所の気圧も通常より高い傾向にあり、係数 が負の値のところはダーウィンの気圧が通常より高いとき、逆に通常より低い傾向にある。数字の大きさがその傾 向の程度を示す。(Trenberth and Shea,1987)
4.4 相関解析の実例 季節変化を除去して考えている 南方振動の発見 4.4 一点相関図(同時相関) タヒチ 16
Mawson Davis Casey Vernadsky
original 0.669 0.679 0.648 0.699 high-passed 0.685 0.638 0.634 0.611 high ln tide 0 618 0 564 0 557 0 548
Original time series High-passed time series 相関解析の実例:南極の水位の変動
自己相関関数・相互相関関数
0 10 20 30 40 50 60 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Lag (day) Correlation coefficient Syowa-Syowa Syowa-Mawson 昭和での位相 が進んでいる 19自己相関関数・相互相関関数
-60 -40 -20 0 20 40 60 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Lag (day) Correlation coefficient Syowa-Syowa Syowa-Mawson Syowa lead Mawson lead 20相関解析の例
その2
AAOと海洋応答
Antarctic Oscillation 10-day bins 気圧のパターン AAO Index 気圧パターン変動の時係数 21AAO index HIGH AAO index LOW L L H H L H L H Westerly anomaly Easterly Anomaly Northward Ekman drift Southward Ekman drift
Sea level LOW Sea level HIGH Negatively-correlated!
23
4.5 相関の有意性
4.5.1 相関係数の検定
(test of correlation coefficient)無相関の検定 母相関係数
ρ
=0 のときは、標本数 n の相関係数 r は次の T について、(近似的に)自由度 n-2 の t 分布に従うことが 知られている。 母相関係数に関する検定は一般に母相関係数ρ
=0 という 帰無仮説を検定する。したがって、上の式の T を求めて t 検定すればよい。 (面倒な計算をしなくてもよいように検定の表がある。) 4.5 T24
無相関の検定の例:
標本数n
が14で、相関係数r
が 0.361 のデータを考える。 T この式から T を計算すると、1.438 となる。 この1.438という値は 左図の棄却域には 入っていないので、 検定の結果として、 有意水準1%では、 相関があるとは 言えない。26
両側検定 (two-sided test) Emery and Thomson (2001)
27 サンプル数 n(自由度
ν
= n-2)のときに標本の相関係数が 表の値よりも大きければ、母相関係数 ρ= 0 という帰無仮説 が棄却され、有意な相関があるといえる。 注意) 相関係数の検定はあくまでも母相関係数が 0 でな い(すなわち相関が弱いとしてもある)ことを判断するだけ で、帰無仮説が棄却されたからといって「相関が強い」わけ ではない。Æ 相関係数が 0.5 未満では余り意味がない。 例: n=7 で r=0.70: n=12で r=0.65: n=17で r=0.65: どちらの有意水準でも有意な相関なし 有意水準 5% でのみ有意な相関あり どちらの有意水準でも有意な相関あり28
相関係数の例
その3
NAOの持続性
冬のNAOが夏の大気 循環に影響する! Icelandic Low Azores High Ogi et al.(2003) Color: Confidence level29
Low SST
High Sea ice cover
冬季の北大西洋振動 (NAO) インデックスと海面水温(コンター) 海氷分布(ハッチ)、積雪との相関係数
3-4月 5-7月
30
•
以上はサンプリングがランダムになさ
れている(自由度が保証されている)場合
に適用される。
•
実際には、すべてのデータが独立とは
限らない。
31
4.5.2 有効自由度
(effective degrees of freedom)
• 大気海洋データは、時・空間的に相関をもっている ため 「
ν
(自由度)= N(データ数)」にはならない。 • 時系列がランダムである場合は自由度ν
= N でよ いが、特定の狭帯域波や長周期波が含まれている場 合には自由度は著しく下がる。 松山・谷本 (2005) ・気温の季節変化を表すにはおおよそ1ヶ月に1個のサンプリングで12個のデータ もあれば明確な季節変化を表現できる。仮に1時間に1回のデータを持っていたと しても365×24個のデータから季節変化を表現することにあまり意味はない。むし ろ、春夏秋冬に1個ずつであっても、ある程度季節変化を表現することはできる。 ・毎時の気温365日間のデータについて季節変化を対象とした場合、自由度は2か ら多くても10以下と言える。逆に、日々の変化を対象にした場合は自由度は数百 程度あると考えてよい。32 b. 三角 関数成分 +ノイズ 三角関数は振幅と位相で決まる ので、自由度は 2 しかない。 有効自由度 =6 Æ高い係数 でも有意で はない a. ノイズ のみ Chelton (1982) 有効自由度 =50 Æ低い係数 でも有意 青矢印は90% の信頼限界
Daily-sampled time series
33
有効自由度
(effective degrees of freedom) の推定
実効的に独立な標本間の時間(有効無相関時間)と
呼ばれる T
eで、データのサンプル数 N を割って、
有効自由度(有効標本数)N
eを求める。
Æ N
e=N/T
e 自己相関関数 からIntegral time scale を求める。Emery and Thomson (1999)
34
比較的簡便な方法は、自己相関関数がはじめて
0.2~0.3程度になるラグ時間を特徴的な時間スケール
と定め、時系列全体の長さをこの時間スケールで
割ることである(松山・谷本, 2005)。
また、自己相関関数が初めてゼロとなるラグ時間を
目安とすることもある。
35
無相関時間(したがって有効自由度)は、現象に内在する 量ではなく、標本の長さにも、またどの統計解析を行うか にも依存する。
36
相関係数についての注意点
はずれ値の影響が大きい。 Æ 散布図でのチェックが重要。r = 0.806
r = 0.960
r = -0.503
下の2つの場合は、上の場合に、はずれ値のデータを1つ加えただけ37
相関係数についての注意点
相関は2つの量(AとBとする)の関係を示すもので、相関が 高いからと言って直接に因果関係を表すものではない。 例えば、AとBの相関が高い場合、Aが原因でBが結果という 場合もあり得るが、その他にも以下のような場合がある。 Æ 擬似関係(因果関係にない) 1. 他の量Cが両者の原因となって(CÆAとCÆB)、AとBに相関 が生じる。 2. Aにおける違いが、媒介するDに違いを生みだし、それが原 因となってBを生成するので、AとBに相関が生じる。 AÆDÆBと書けるが、AとBの間には因果関係はない。 3. AとBにはともにトレンドがある。 伊藤・見延 (2010) を参照。38
1の例:
2月の水蒸気量とサクラの
開花日の高い負の相関
C=2月の気温
A=サクラの開花日
B=2月の水蒸気量
擬似相関の例
伊藤・見延 (2010) より2の例:
昼間の日射
Æ気温Æ湿度
という関係
D=気温
A=昼間の日射
B=湿度
39
4.6 回帰
4.6 左図のような2つのデータ xi と yi がある時、 説明変数 x から目的変数 y を最も良く表す 直線を引くには、yi と a+bxi の残差の二乗和 が最小となるようにすれば良い。 相関:2つの変数に関係があるかどうか。 回帰:ある変数によって、もう一つの変数を説明できるか。41
決定係数
(correlation of determination)
y x}
}{
r が 0.5, 0.6, 0.7 であれば、説明 出来る割合は各々約 1/4, 1/3, 1/2 となる。よって、r > 0.7 の場合は 支配的と言える。42
43
4.7 回帰分析の実例 その1
von Storch and Zwiers (1999)
赤道西太平洋の水温と南方振動指数 (1933年から84年までの624個の月平均) (SO Index) = -0.09 + 0.15 * (SST Index) r = 0.67 Æ r2 = 0.455 4.7
44
回帰係数の区間推定の例:
(SO Index)
46 回帰分析の実例 その2 海水面の上昇 Antonov et al. (2002) 説明変数:時間 Æ目的変数:トレンド(増加率) 回帰係数 決定係数
}
⇒47