• 検索結果がありません。

PowerPoint プレゼンテーション

N/A
N/A
Protected

Academic year: 2021

シェア "PowerPoint プレゼンテーション"

Copied!
47
0
0

読み込み中.... (全文を見る)

全文

(1)

4. 相関・回帰

(correlation/regression)

• 4.0 相関関係とは? • 4.1 相関係数 correlation coefficient • 4.2 自己相関 auto-correlation • 4.3 相互相関 cross-correlation • 4.4 相関解析の実例 applications • 4.5 相関の有意性 significance of correlation – 相関係数の検定 test of correlation coefficient – 等価自由度 effective degree of freedom

• 4.6 回帰 regressions – 回帰係数

– 回帰係数の区間推定

• 4.7 回帰分析の実例 applications

(2)

4.1 相関係数

Correlation coefficient 共分散 covariance 分散 variance 4.1 相関関数は、-1

r

1の値を取る。 2

(3)

相関係数と散布図

(4)

x y,z

例1:

(5)

例2: 相関係数がゼロだからといって、2つの変数の間に何も関係 が無い訳ではない。Æ 相関係数は2つの変数の間の線形関係 (1次式)の強さを表している。 xとyの平均はそれぞれ 3と5だから、 相関係数rの分子は、 (2-3)(2-5)+(5-3)(5-5)+(0-3)(10-5)+(4-3)(2-5) +(1-3)(5-5)+(6-3)(10-5)+(3-3)(1-5) = 3-15-3+15 = 0 Æ r = 0 石村 (1989) より抜粋 5

(6)

4.2 自己相関関数

(auto-correlation function)

アンサンブル平均 定常確率過程ではアンサンブル平均による自己相関関数が時間平均 によるもので置き換えることができて(x(t) の平均値が t によらず一定、 自己相関も t によらず τ のみに依存) 時間平均 R(τ): R(τ)= R(-τ) Æ τ= 0 について左右対称 |R(τ)| ≤ 1 「メモリーの持続特性」を表す。 4.2 τ:lag Covariance function Autocorrelation function ラグ相関 関数 自己共分散関数 6

(7)

ずらす

ずらして

かけあわせる

x(t-τ)

(8)

代表的な時系列関数と自己相関関数の形

(9)

日野 (1977)

(10)

white noise Cf.イサカの例 日野 (1977) 2 2 2 ある時点での結果が前の時点での 結果に依存しないランダムな過程 で生成されるもの 微小ラグ隔たるとき 前の性質をある割合 で保存 10

(11)

x(t)=asin(2πft+θ)+r(t)

日野 (1977)

3

(12)

自己相関関数の例:ニューヨーク州イサカの

自己相関関数の例:ニューヨーク州イサカの

1987

1987

1

1

月の日最高気温(華氏)

月の日最高気温(華氏)

Wilks (2006) 上段:xi+τ 下段:xi 12

(13)

自己相関関数の例:ニューヨーク州イサカの

自己相関関数の例:ニューヨーク州イサカの

1987

1987

1

1

月の日最高気温(華氏)

月の日最高気温(華氏)

(自己相関関数)= (ラグ自己共分散)/ (分散) rxx(3): 平均からかなりずれた値が端にあると良くない。 rxx(2): 分母と分子の計算に異なるデータ範囲を使っているので、誤差が大きくなる 可能性がある。分子の計算に使われていない部分で、平均からのずれが小さい と、極端な場合には相関係数の絶対値が>1となることさえあり得る。 13

(14)

4.3 相互相関関数

(cross-correlation function)

異なる変数間でのラグ相関を求める Rxy(0)=1にはならない。 左右対称にはならない。 4.3 相互相関関数 相互相関係数 14

(15)

相互相関関数の計算式

(16)

図Cダーウィンと世界各地の年平均海面

気圧偏差の相関係数(x10)。

係数が正の値のところはダーウィンの気圧が通常より高いときにその場所の気圧も通常より高い傾向にあり、係数 が負の値のところはダーウィンの気圧が通常より高いとき、逆に通常より低い傾向にある。数字の大きさがその傾 向の程度を示す。(Trenberth and Shea,1987)

4.4 相関解析の実例 季節変化を除去して考えている 南方振動の発見 4.4 一点相関図(同時相関) タヒチ 16

(17)
(18)

Mawson Davis Casey Vernadsky

original 0.669 0.679 0.648 0.699 high-passed 0.685 0.638 0.634 0.611 high ln tide 0 618 0 564 0 557 0 548

Original time series High-passed time series 相関解析の実例:南極の水位の変動

(19)

自己相関関数・相互相関関数

0 10 20 30 40 50 60 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Lag (day) Correlation coefficient Syowa-Syowa Syowa-Mawson 昭和での位相 が進んでいる 19

(20)

自己相関関数・相互相関関数

-60 -40 -20 0 20 40 60 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Lag (day) Correlation coefficient Syowa-Syowa Syowa-Mawson Syowa lead Mawson lead 20

(21)

相関解析の例

その2

AAOと海洋応答

Antarctic Oscillation 10-day bins 気圧のパターン AAO Index 気圧パターン変動の時係数 21

(22)

AAO index HIGH AAO index LOW L L H H L H L H Westerly anomaly Easterly Anomaly Northward Ekman drift Southward Ekman drift

Sea level LOW Sea level HIGH Negatively-correlated!

(23)

23

4.5 相関の有意性

4.5.1 相関係数の検定

(test of correlation coefficient)

無相関の検定 母相関係数

ρ

=0 のときは、標本数 n の相関係数 r は次の T について、(近似的に)自由度 n-2 の t 分布に従うことが 知られている。 母相関係数に関する検定は一般に母相関係数

ρ

=0 という 帰無仮説を検定する。したがって、上の式の T を求めて t 検定すればよい。 (面倒な計算をしなくてもよいように検定の表がある。) 4.5 T

(24)

24

無相関の検定の例:

標本数

n

が14で、相関係数

r

が 0.361 のデータを考える。 T この式から T を計算すると、1.438 となる。 この1.438という値は 左図の棄却域には 入っていないので、 検定の結果として、 有意水準1%では、 相関があるとは 言えない。

(25)
(26)

26

両側検定 (two-sided test) Emery and Thomson (2001)

(27)

27 サンプル数 n(自由度

ν

= n-2)のときに標本の相関係数が 表の値よりも大きければ、母相関係数 ρ= 0 という帰無仮説 が棄却され、有意な相関があるといえる。 注意) 相関係数の検定はあくまでも母相関係数が 0 でな い(すなわち相関が弱いとしてもある)ことを判断するだけ で、帰無仮説が棄却されたからといって「相関が強い」わけ ではない。Æ 相関係数が 0.5 未満では余り意味がない。 例: n=7 で r=0.70: n=12で r=0.65: n=17で r=0.65: どちらの有意水準でも有意な相関なし 有意水準 5% でのみ有意な相関あり どちらの有意水準でも有意な相関あり

(28)

28

相関係数の例

その3

NAOの持続性

冬のNAOが夏の大気 循環に影響する! Icelandic Low Azores High Ogi et al.(2003) Color: Confidence level

(29)

29

Low SST

High Sea ice cover

冬季の北大西洋振動 (NAO) インデックスと海面水温(コンター) 海氷分布(ハッチ)、積雪との相関係数

3-4月 5-7月

(30)

30

以上はサンプリングがランダムになさ

れている(自由度が保証されている)場合

に適用される。

実際には、すべてのデータが独立とは

限らない。

(31)

31

4.5.2 有効自由度

(effective degrees of freedom)

• 大気海洋データは、時・空間的に相関をもっている ため 「

ν

(自由度)= N(データ数)」にはならない。 • 時系列がランダムである場合は自由度

ν

N でよ いが、特定の狭帯域波や長周期波が含まれている場 合には自由度は著しく下がる。 松山・谷本 (2005) ・気温の季節変化を表すにはおおよそ1ヶ月に1個のサンプリングで12個のデータ もあれば明確な季節変化を表現できる。仮に1時間に1回のデータを持っていたと しても365×24個のデータから季節変化を表現することにあまり意味はない。むし ろ、春夏秋冬に1個ずつであっても、ある程度季節変化を表現することはできる。 ・毎時の気温365日間のデータについて季節変化を対象とした場合、自由度は2か ら多くても10以下と言える。逆に、日々の変化を対象にした場合は自由度は数百 程度あると考えてよい。

(32)

32 b. 三角 関数成分 +ノイズ 三角関数は振幅と位相で決まる ので、自由度は 2 しかない。 有効自由度 =6 Æ高い係数 でも有意で はない a. ノイズ のみ Chelton (1982) 有効自由度 =50 Æ低い係数 でも有意 青矢印は90% の信頼限界

Daily-sampled time series

(33)

33

有効自由度

(effective degrees of freedom) の推定

実効的に独立な標本間の時間(有効無相関時間)と

呼ばれる T

e

で、データのサンプル数 N を割って、

有効自由度(有効標本数)N

e

を求める。

Æ N

e

=N/T

e 自己相関関数 からIntegral time scale を求める。

Emery and Thomson (1999)

(34)

34

比較的簡便な方法は、自己相関関数がはじめて

0.2~0.3程度になるラグ時間を特徴的な時間スケール

と定め、時系列全体の長さをこの時間スケールで

割ることである(松山・谷本, 2005)。

また、自己相関関数が初めてゼロとなるラグ時間を

目安とすることもある。

(35)

35

無相関時間(したがって有効自由度)は、現象に内在する 量ではなく、標本の長さにも、またどの統計解析を行うか にも依存する。

(36)

36

相関係数についての注意点

はずれ値の影響が大きい。 Æ 散布図でのチェックが重要。

r = 0.806

r = 0.960

r = -0.503

下の2つの場合は、上の場合に、はずれ値のデータを1つ加えただけ

(37)

37

相関係数についての注意点

相関は2つの量(AとBとする)の関係を示すもので、相関が 高いからと言って直接に因果関係を表すものではない。 例えば、AとBの相関が高い場合、Aが原因でBが結果という 場合もあり得るが、その他にも以下のような場合がある。 Æ 擬似関係(因果関係にない) 1. 他の量Cが両者の原因となって(CÆAとCÆB)、AとBに相関 が生じる。 2. Aにおける違いが、媒介するDに違いを生みだし、それが原 因となってBを生成するので、AとBに相関が生じる。 AÆDÆBと書けるが、AとBの間には因果関係はない。 3. AとBにはともにトレンドがある。 伊藤・見延 (2010) を参照。

(38)

38

1の例:

2月の水蒸気量とサクラの

開花日の高い負の相関

C=2月の気温

A=サクラの開花日

B=2月の水蒸気量

擬似相関の例

伊藤・見延 (2010) より

2の例:

昼間の日射

Æ気温Æ湿度

という関係

D=気温

A=昼間の日射

B=湿度

(39)

39

4.6 回帰

4.6 左図のような2つのデータ xi と yi がある時、 説明変数 x から目的変数 y を最も良く表す 直線を引くには、yi と a+bxi の残差の二乗和 が最小となるようにすれば良い。 相関:2つの変数に関係があるかどうか。 回帰:ある変数によって、もう一つの変数を説明できるか。

(40)
(41)

41

決定係数

(correlation of determination)

y x

}

}

{

r が 0.5, 0.6, 0.7 であれば、説明 出来る割合は各々約 1/4, 1/3, 1/2 となる。よって、r > 0.7 の場合は 支配的と言える。

(42)

42

(43)

43

4.7 回帰分析の実例 その1

von Storch and Zwiers (1999)

赤道西太平洋の水温と南方振動指数 (1933年から84年までの624個の月平均) (SO Index) = -0.09 + 0.15 * (SST Index) r = 0.67 Æ r2 = 0.455 4.7

(44)

44

回帰係数の区間推定の例:

(SO Index)

(45)
(46)

46 回帰分析の実例 その2 海水面の上昇 Antonov et al. (2002) 説明変数:時間 Æ目的変数:トレンド(増加率) 回帰係数 決定係数

}

(47)

47

まとめ

相関係数は変数同士の関連の強さを示す指標。

変数の周期性を調べたい場合、相関関数を用

いることがある。(→

スペクトル解析)

無相関の検定は

t 検定により行うことができ

る。

相関関係と因果関係は別物である。

擬似相関

spurious correlation

回帰係数は目的変数を直線であてはめたとき

の傾きを示す。

参照

関連したドキュメント

ドリフト流がステップ上段方向のときは拡散係数の小さいD2構造がテラス上を

(2)-1 無医地区、準無医地区、医師少数区域、少数スポットの関係について

東京都は他の道府県とは値が離れているように見える。相関係数はこう

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

(火力発電のCO 2 排出係数) - 調整後CO 2 排出係数 0.573 全電源のCO 2 排出係数

彩度(P.100) 色の鮮やかさを 0 から 14 程度までの数値で表したもの。色味の

(火力発電のCO 2 排出係数) - 調整後CO 2 排出係数 0.521 全電源のCO 2 排出係数