粕谷英一
複数の時系列データの間の関係を探る
ランダムウォークから得られた時系列データ
ランダムウォークから得られた時系列データ
ランダムウォークから得られた時系列データ
ランダムウォークから得られた時系列データ
独立
時系列その1 時系列その2x
t=
x
t-1+N(0,σ^2)
平均0の正規分布y
t=
y
t-1+N(0,σ^2)
平均0の正規分布n=20 type1error(5%)=0.4703 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 n(時系列の長さ)=20 誤って有意な相関と判定する率(5%水準)=0.4703 相関係数rの検定 pの値(有意確率) 独立な2つのランダムウォーク 相関係数を計算して、検定した p値 [データ生成→検定]を繰り返して p値 のヒストグラム
0 20 40 60 80 100 -5 0 5 random walk time va ria bl e 0 20 40 60 80 100 -4 -2 0 2 4 6 8 10 random walk time va ria bl e 0 20 40 60 80 100 -2 -1 0 1 2 3 i.i.d. normal time va ria bl e ランダム・ウォーク
x
t=
x
t-1+N(0,σ^2)
x
t=N(0,σ^2)
正規分布 独立なデータランダム・ウォーク:似た値が続きやすい
ある値が登場する 確率は、 前の値が何でも、 変わらない経済時系列での研究
spurious regression spurious correlation
Granger & Newbold, 1974 Phillips, 1986 Journal of Econometrics, 33: 311-340. Journal of Econometrics, 2: 111-120. 見せかけの相関 見せかけの回帰 2つの独立なランダム・ウォーク ←より広い意味で、 変な相関全般を指すこと もある
ある時点と次の時点の差(差分、階差)を使う
・2つのランダムウォークの相関:再訪 ・使う方法の説明 順位相関ではだめですか ランダムウォークの動きの大きさ(分散)がちがうと 正規分布でないと ランダムウォークと周期的変数だと ・サンプルサイズが大きくなると ・経済時系列でわかっていること ・回帰の場合 目次
時系列 x 時系列 y 相関を検定 互いに独立 データ生成 相関係数r 10000回行う 5%水準で有意と判定される回数を数える 互いに独立なプロセスで生成されたデータ →有意な相関という判定:誤り サンプルサイズ(n) 時系列の長さ 誤って有意と判定してしまう:第1種の誤り(第1種の過誤) とくに言わなければ、ランダム・ウォーク
p値 (有意確率)のヒストグラム n=20 type1error(5%)=0.4703 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000
histgram of p value for r
p (difference) F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 100 200 300 400 500
resource output type error for r=0
p for r F re q u e n cy 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 p値 (有意確率) 甘すぎる きびしすぎる (鈍感) うまく行っている 有意水準として宣言した通りの第1種の誤りの率 妥当でない 検定の資格がない 2つの無相関な正規分布からの独立なデータ →相関係数の検定
n=20 type1error(5%)=0.4703 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 n(時系列の長さ)=20 誤って有意な相関と判定する率(5%水準)=0.4703 相関係数rの検定 pの値(有意確率) 独立な2つのランダムウォーク [データ生成→検定]を10000回繰り返して p値 のヒストグラム 甘すぎる 妥当でない
相関係数のヒストグラム
histgram of correlation coefficient r
r F re qu en cy -1.0 -0.5 0.0 0.5 1.0 0 100 200 300 400 500 600
histgram of correlation coefficient r
r (difference) F re qu en cy -0.4 -0.2 0.0 0.2 0.4 0 500 1000 1500 ランダム・ウォーク 正規分布からの 独立なデータ 相関係数 r -1.0 +1.0 -0.4 +0.4
順位相関係数でもほとんど変わらない n=20 type1error(5%)=0.4173 no trend p for tau F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 p値 (有意確率) n(時系列の長さ)=20 n=20 type1error(5%)=0.4703 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 順位相関係数τ 相関係数r 誤って有意な相関と 判定する率(5%水準) =0.4173
分散が異なっても、起こる sd=1and5 n=100 type1error=0.7610 p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 ランダムウォークの正規分布の分散 yは、xの25倍 p値 (有意確率)
正規分布でなくとも、起こる:一様分布の場合
type1error=0.7695 unif vs normal
p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 8000
type1error=0.7593 unif vs unif
p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 n(時系列の長さ)=100 両方(x,y)とも一様分布 正規分布と一様分布 pの値(有意確率)
type1error=0.0497 RW vs iid p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 100 200 300 400 500 片方がランダム・ウォーク 片方が正規分布からの独立なデータ n(時系列の長さ)=100 pの値(有意確率)
このときは、問題なし
片方が周期的変数、もう片方がランダムウォーク 0 20 40 60 80 100 -1 .0 -0 .5 0.0 0.5 1.0
sine curve 1 cycle
time va ria bl e 0 20 40 60 80 100 -1 .0 -0 .5 0.0 0.5 1.0
sine curve 4cycles
time va ria bl e 0 20 40 60 80 100 -1 .0 -0 .5 0.0 0.5 1.0
sine curve 2cycles
time va ria bl e 4周期 2周期 1周期 ここではサインカーブを使った
type1error=0.8541 RW vs sine1cycles p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 8000 type1error=0.6461 RW vs sine2cycles p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 3000 5000 type1error=0.2764 RW vs sine4cycles p value for r F re q u e n cy 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 0 20 40 60 80 100 -1 .0 -0 .5 0.0 0.5 1.0
sine curve 1 cycle
time va ria bl e 0 20 40 60 80 100 -1 .0 -0 .5 0.0 0.5 1.0
sine curve 4cycles
time va ria bl e 0 20 40 60 80 100 -1 .0 -0 .5 0.0 0.5 1.0
sine curve 2cycles
time va ria bl e p値 (有意確率) 4周期 2周期 1周期 第1種の誤りの率 (5%水準) 第1種の誤りの率 (5%水準) 第1種の誤りの率 (5%水準) 0.2764 0.6461 0.8541
type1error=0.8693 RW vs sine1/4cycle p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 8000 0 20 40 60 80 100 0.0 0.2 0.4 0.6 0.8 1.0
sine curve quarter cycle
time va ria bl e 1/4周期 p値 (有意確率) 第1種の誤りの率 (5%水準) 0.8693 片方がサインカーブの1/4周期分 もう片方がランダムウォーク
0 20 40 60 80 100 -5 0 5 random walk time va ria bl e 0 20 40 60 80 100 -4 -2 0 2 4 6 8 10 random walk time va ria bl e 0 20 40 60 80 100 -2 -1 0 1 2 3 i.i.d. normal time va ria bl e ランダム・ウォーク
x
t=
x
t-1+N(0,σ^2)
x
t=N(0,σ^2)
正規分布 独立なデータランダム・ウォーク:似た値が続きやすい
ある値が登場する 確率は、 前の値が何でも、 変わらないサンプルサイズの影響 時系列の長さ n=20 type1error(5%)=0.4703 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 n=10000 type1error(5%)=0.9755 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 8000 10000 n=20 n=10000 p値 (有意確率) 第1種の誤りの率 (5%水準) 0.4703 第1種の誤りの率 (5%水準) 0.9755
0 2000 4000 6000 8000 10000 0.0 0.2 0.4 0.6 0.8 1.0 sample size (n) typ e1 e rro r ra te (5 % ) サンプルサイズ(n) 時系列の長さ 5%水準で検 定した時の 第1種の誤り の率 0.8 1.0 0.05
n=10000 type1error(5%)=0.9755 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 8000 10000 n=10000 p値 (有意確率) 第1種の誤りの率 (5%水準) 0.9755
0.00 0.01 0.02 0.03 0.04 0.05 0.0 0.2 0.4 0.6 0.8 1.0 n=10000 level of significance typ e1 e rro r ra te 第1種の 誤りの率 0.9515 0.9688 0.9755 0.9602 有意水準 5% 1% 0.1% 0.01% n=10000
サンプル・サイズが大きいと、
さらに悪化する
経済時系列での研究
spurious regression spurious correlation
Granger & Newbold, 1974 Phillips, 1986 Journal of Econometrics, 33: 311-340. Journal of Econometrics, 2: 111-120. 見せかけの相関 見せかけの回帰 単位根過程
定常過程
非定常過程
期待値が一定
時間間隔が同じなら、
自己相関係数の期待値が
どこでも一定
経済時系列単位根過程
定常過程
非定常過程
ランダムウォーク
x
t=θ
xx
t-1+N(0,σ^2)
θ
xの絶対値<
1
θ
x=
1
経済時系列単位根過程
定常過程
非定常過程
例
感じがちがう
経済時系列0 20 40 60 80 100 -6 -4 -2 0 2 4 coef=0.98 time va ria bl e 0 20 40 60 80 100 -4 -2 0 2 coef=0.95 time va ria bl e 0 20 40 60 80 100 0 5 10 15 coef=1.01 time va ria bl e 0 20 40 60 80 100 -3 0 -2 5 -2 0 -1 5 -1 0 -5 0 coef=1.02 time va ria bl e 0 20 40 60 80 100 -4 -2 0 2 4 6 8 10 random walk time va ria bl e θx =0.00 θx =0.95 θx =0.98 θx =1.00 θx =1.01 θx =1.02 時間 時間
定
常
非
定
常
ランダムウォーク 0 20 40 60 80 100 -2 -1 0 1 2 3 i.i.d. normal time va ria bl e 正規分布からの 独立なデータ2つの単位根過程 たとえば、ランダム・ウォーク spurious correlation 見せかけの相関 強い相関が出やすい
定常過程
Granger et al (2001) Applied Economics, 33: 899-904.
定常過程
ランダムウォーク
x
t=θ
xx
t-1+N(0,σ^2)
θ
xの絶対値<
1
type1error=0.674 theta=0.98 p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 3000 5000 7000 type1error=0.6028 theta=0.95 p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 5000 6000 type1error=0.5029 theta=0.90 p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 5000
θx=0.98
θx=0.95
θx=0.90
誤って有意な相関と 判定する率(5%水準) =0.6740 誤って有意な相関と 判定する率(5%水準) =0.6028 誤って有意な相関と 判定する率(5%水準) =0.5029 n=100回帰
y
t=α+β
x
ty
t=α+β
x
t+ε
t 回帰式 回帰モデルとしてはε
tは平均0で分散一定の正規分布にしたがう 時系列データを回帰する(してしまう)とどうなる回帰
y
t=α+β
x
ty
t=α+β
x
t+ε
t 回帰式 回帰モデルとしてはε
tは平均0で分散一定の正規分布にしたがう 正規分布からの独立なデータ(回帰分析が仮定している条件)パラメーターα、βのばらつきは、
サンプルサイズが大きいと、小さくなる
傾きのヒストグラム
Distribution of b n=100 RW b F re qu en cy -4 -2 0 2 4 0 100 200 300 400 500 600 700 Distribution of b n=1000 RW b F re qu en cy -4 -2 0 2 4 0 200 400 600 Distribution of b n=2000 RW b F re qu en cy -4 -2 0 2 4 0 200 400 600 n=100 n=1000 n=2000 傾き 傾き 傾きDistribution of a n=100 RW a F re qu en cy -40 -20 0 20 40 0 200 400 600 800 1000 Distribution of a n=1000 RW a F re qu en cy -50 0 50 0 50 100 150 200 250 300 Distribution of a n=2000 RW a F re qu en cy -150 -100 -50 0 50 100 150 0 50 100 150 200
切片
n=100 n=1000 n=2000 +50 -50 +20 -20 -100 +100500 1000 1500 2000 0 100 200 300 400 500 sample size (n) va r(a ) 500 1000 1500 2000 0.0 0.1 0.2 0.3 0.4 0.5 sample size (n) va r(b ) 傾きの分散 切片の分散 サンプル・サイズ 2000 2000 時系列の長さ
2つのランダムウォーク(互いに独立)
回帰すると、変な結果
検定:第1種の誤りが過大 サンプル・サイズが大きくなるとさらに悪化 係数の推定値 傾き:サンプル・サイズが増えても、ばらつきが減らない 切片:サンプル・サイズが増えると、ばらつきが増える spurious regression 見せかけの回帰まとめ
似たデータが続けて出やすい
そこは、相関も回帰も、常識的な働きをしない
時系列
今回は ランダムウォークごとき魔界
時系列データをそのまま使うと、x ランダム・ウォーク y 各時点の資源量+新たに得た量 y 放出された量 閾値を超えたら、放出して次時点の資源量はゼロになる 閾値以下なら、放出せず、 次時点の資源量は各時点の資源量+新たに得た量 独立な正規乱数
x ランダム・ウォーク 手持ちの資源量が閾値を超えたら、全部、放出する y 放出された量 放出すると次時点の資源量はゼロになる 手持ちの資源量が閾値以下なら、放出せず、 次時点の資源量は各時点の資源量+新たに得た量 独立な正規乱数 各時点で、新たに資源を受け取る
0 20 40 60 80 100
0
5
10
15
resource output time series
time ou tp ut (re so urce ) 0 20 40 60 80 100 0 5 10 15
resource output time series
time ou tp ut (re so urce ) 時間 時間 放 出 量
y
左右のグラフとも、同一の例(グラフの描き方がちがうだけ) 例resource output type error for r=0 p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000
resource output correlation
r F re qu en cy -1.0 -0.5 0.0 0.5 1.0 0 500 1000 1500 xとyの間の相関係数の分布