4.5 相関の有意性
4.5.2 有効自由度
(effective degrees of freedom)
•
大気海洋データは、時・空間的に相関をもっている ため「
ν
(自由度)=N
(データ数)」にはならない。•
時系列がランダムである場合は自由度ν
=N
でよ いが、特定の狭帯域波や長周期波が含まれている場 合には自由度は著しく下がる。松山・谷本 (2005)
・気温の季節変化を表すにはおおよそ1ヶ月に1個のサンプリングで12個のデータ もあれば明確な季節変化を表現できる。仮に1時間に1回のデータを持っていたと しても365×24個のデータから季節変化を表現することにあまり意味はない。むし ろ、春夏秋冬に1個ずつであっても、ある程度季節変化を表現することはできる。
・毎時の気温365日間のデータについて季節変化を対象とした場合、自由度は2か ら多くても10以下と言える。逆に、日々の変化を対象にした場合は自由度は数百 程度あると考えてよい。
32
b. 三角 関数成分
+ノイズ
三角関数は振幅と位相で決まる ので、自由度は 2 しかない。
有効自由度
=6
Æ
高い係数 でも有意で はないa. ノイズ のみ
Chelton (1982)
有効自由度
=50
Æ
低い係数 でも有意 青矢印は90%
の信頼限界
Daily-sampled time series
Seasonal signal
33
有効自由度 (effective degrees of freedom) の推定 実効的に独立な標本間の時間(有効無相関時間)と 呼ばれる T
eで、データのサンプル数 N を割って、
有効自由度(有効標本数) N
eを求める。
Æ N
e=N/T
e自己相関関数 から
Integral time scale
を求める。Emery and Thomson (1999)
34
比較的簡便な方法は、自己相関関数がはじめて
0.2~0.3 程度になるラグ時間を特徴的な時間スケール と定め、時系列全体の長さをこの時間スケールで
割ることである(松山・谷本 , 2005 )。
また、自己相関関数が初めてゼロとなるラグ時間を
目安とすることもある。
35
無相関時間(したがって有効自由度)は、現象に内在する 量ではなく、標本の長さにも、またどの統計解析を行うか にも依存する。
詳細については、伊藤・見延 (2010)を参照
36
相関係数についての注意点
はずれ値の影響が大きい。
Æ
散布図でのチェックが重要。r = 0.806
r = 0.960 r = -0.503
下の2つの場合は、上の場合に、はずれ値のデータを1つ加えただけ
37
相関係数についての注意点
相関は
2
つの量(A
とB
とする)の関係を示すもので、相関が 高いからと言って直接に因果関係を表すものではない。例えば、
A
とB
の相関が高い場合、A
が原因でB
が結果という 場合もあり得るが、その他にも以下のような場合がある。Æ
擬似関係(因果関係にない)1.
他の量C
が両者の原因となって(CÆA
とCÆB)
、A
とB
に相関 が生じる。2. A
における違いが、媒介するD
に違いを生みだし、それが原 因となってB
を生成するので、A
とB
に相関が生じる。AÆDÆB
と書けるが、A
とB
の間には因果関係はない。3. A
とB
にはともにトレンドがある。伊藤・見延
(2010)
を参照。38
1 の例:
2 月の水蒸気量とサクラの 開花日の高い負の相関
C=2 月の気温
A= サクラの開花日 B=2 月の水蒸気量
擬似相関の例
伊藤・見延(2010) より
2 の例:
昼間の日射 Æ 気温 Æ 湿度 という関係
D= 気温
A= 昼間の日射
B= 湿度
39
4.6 回帰 4.6
左図のような2つのデータ xi と yi がある時、
説明変数 x から目的変数 y を最も良く表す 直線を引くには、yi と a+bxi の残差の二乗和 が最小となるようにすれば良い。
相関:
2
つの変数に関係があるかどうか。回帰:ある変数によって、もう一つの変数を説明できるか。
40
41
決定係数
(correlation of determination)
y
x
} }
{
r が 0.5, 0.6, 0.7 であれば、説明 出来る割合は各々約 1/4, 1/3, 1/2 となる。よって、r > 0.7 の場合は 支配的と言える。
42
回帰係数の区間推定
43