• 検索結果がありません。

自由集会時系列part2web.key

N/A
N/A
Protected

Academic year: 2021

シェア "自由集会時系列part2web.key"

Copied!
45
0
0

読み込み中.... (全文を見る)

全文

(1)

粕谷英一

複数の時系列データの間の関係を探る

(2)

ランダムウォークから得られた時系列データ

ランダムウォークから得られた時系列データ

(3)

ランダムウォークから得られた時系列データ

ランダムウォークから得られた時系列データ

独立

時系列その1 時系列その2

x

t

=

x

t-1

+N(0,σ^2)

平均0の正規分布

y

t

=

y

t-1

+N(0,σ^2)

平均0の正規分布

(4)

n=20 type1error(5%)=0.4703 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 n(時系列の長さ)=20 誤って有意な相関と判定する率(5%水準)=0.4703 相関係数rの検定 pの値(有意確率) 独立な2つのランダムウォーク 相関係数を計算して、検定した p値 [データ生成→検定]を繰り返して p値 のヒストグラム

(5)

0 20 40 60 80 100 -5 0 5 random walk time va ria bl e 0 20 40 60 80 100 -4 -2 0 2 4 6 8 10 random walk time va ria bl e 0 20 40 60 80 100 -2 -1 0 1 2 3 i.i.d. normal time va ria bl e ランダム・ウォーク

x

t

=

x

t-1

+N(0,σ^2)

x

t

=N(0,σ^2)

正規分布 独立なデータ

ランダム・ウォーク:似た値が続きやすい

ある値が登場する 確率は、 前の値が何でも、 変わらない

(6)

経済時系列での研究

spurious regression spurious correlation

Granger & Newbold, 1974 Phillips, 1986 Journal of Econometrics, 33: 311-340. Journal of Econometrics, 2: 111-120. 見せかけの相関 見せかけの回帰 2つの独立なランダム・ウォーク ←より広い意味で、 変な相関全般を指すこと もある

ある時点と次の時点の差(差分、階差)を使う

(7)

・2つのランダムウォークの相関:再訪 ・使う方法の説明 順位相関ではだめですか ランダムウォークの動きの大きさ(分散)がちがうと 正規分布でないと ランダムウォークと周期的変数だと ・サンプルサイズが大きくなると ・経済時系列でわかっていること ・回帰の場合 目次

(8)

時系列 x 時系列 y 相関を検定 互いに独立 データ生成 相関係数r 10000回行う 5%水準で有意と判定される回数を数える 互いに独立なプロセスで生成されたデータ →有意な相関という判定:誤り サンプルサイズ(n) 時系列の長さ 誤って有意と判定してしまう:第1種の誤り(第1種の過誤) とくに言わなければ、ランダム・ウォーク

(9)

p値 (有意確率)のヒストグラム n=20 type1error(5%)=0.4703 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000

histgram of p value for r

p (difference) F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 100 200 300 400 500

resource output type error for r=0

p for r F re q u e n cy 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 p値 (有意確率) 甘すぎる きびしすぎる (鈍感) うまく行っている 有意水準として宣言した通りの第1種の誤りの率 妥当でない 検定の資格がない 2つの無相関な正規分布からの独立なデータ →相関係数の検定

(10)

n=20 type1error(5%)=0.4703 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 n(時系列の長さ)=20 誤って有意な相関と判定する率(5%水準)=0.4703 相関係数rの検定 pの値(有意確率) 独立な2つのランダムウォーク [データ生成→検定]を10000回繰り返して p値 のヒストグラム 甘すぎる 妥当でない

(11)

相関係数のヒストグラム

histgram of correlation coefficient r

r F re qu en cy -1.0 -0.5 0.0 0.5 1.0 0 100 200 300 400 500 600

histgram of correlation coefficient r

r (difference) F re qu en cy -0.4 -0.2 0.0 0.2 0.4 0 500 1000 1500 ランダム・ウォーク 正規分布からの 独立なデータ 相関係数 r -1.0 +1.0 -0.4 +0.4

(12)

順位相関係数でもほとんど変わらない n=20 type1error(5%)=0.4173 no trend p for tau F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 p値 (有意確率) n(時系列の長さ)=20 n=20 type1error(5%)=0.4703 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 順位相関係数τ 相関係数r 誤って有意な相関と 判定する率(5%水準) =0.4173

(13)

分散が異なっても、起こる sd=1and5 n=100 type1error=0.7610 p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 ランダムウォークの正規分布の分散 yは、xの25倍 p値 (有意確率)

(14)

正規分布でなくとも、起こる:一様分布の場合

type1error=0.7695 unif vs normal

p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 8000

type1error=0.7593 unif vs unif

p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 n(時系列の長さ)=100 両方(x,y)とも一様分布 正規分布と一様分布 pの値(有意確率)

(15)

type1error=0.0497 RW vs iid p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 100 200 300 400 500 片方がランダム・ウォーク 片方が正規分布からの独立なデータ n(時系列の長さ)=100 pの値(有意確率)

このときは、問題なし

(16)

片方が周期的変数、もう片方がランダムウォーク 0 20 40 60 80 100 -1 .0 -0 .5 0.0 0.5 1.0

sine curve 1 cycle

time va ria bl e 0 20 40 60 80 100 -1 .0 -0 .5 0.0 0.5 1.0

sine curve 4cycles

time va ria bl e 0 20 40 60 80 100 -1 .0 -0 .5 0.0 0.5 1.0

sine curve 2cycles

time va ria bl e 4周期 2周期 1周期 ここではサインカーブを使った

(17)

type1error=0.8541 RW vs sine1cycles p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 8000 type1error=0.6461 RW vs sine2cycles p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 3000 5000 type1error=0.2764 RW vs sine4cycles p value for r F re q u e n cy 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 0 20 40 60 80 100 -1 .0 -0 .5 0.0 0.5 1.0

sine curve 1 cycle

time va ria bl e 0 20 40 60 80 100 -1 .0 -0 .5 0.0 0.5 1.0

sine curve 4cycles

time va ria bl e 0 20 40 60 80 100 -1 .0 -0 .5 0.0 0.5 1.0

sine curve 2cycles

time va ria bl e p値 (有意確率) 4周期 2周期 1周期 第1種の誤りの率 (5%水準) 第1種の誤りの率 (5%水準) 第1種の誤りの率 (5%水準) 0.2764 0.6461 0.8541

(18)

type1error=0.8693 RW vs sine1/4cycle p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 8000 0 20 40 60 80 100 0.0 0.2 0.4 0.6 0.8 1.0

sine curve quarter cycle

time va ria bl e 1/4周期 p値 (有意確率) 第1種の誤りの率 (5%水準) 0.8693 片方がサインカーブの1/4周期分 もう片方がランダムウォーク

(19)

0 20 40 60 80 100 -5 0 5 random walk time va ria bl e 0 20 40 60 80 100 -4 -2 0 2 4 6 8 10 random walk time va ria bl e 0 20 40 60 80 100 -2 -1 0 1 2 3 i.i.d. normal time va ria bl e ランダム・ウォーク

x

t

=

x

t-1

+N(0,σ^2)

x

t

=N(0,σ^2)

正規分布 独立なデータ

ランダム・ウォーク:似た値が続きやすい

ある値が登場する 確率は、 前の値が何でも、 変わらない

(20)
(21)

サンプルサイズの影響 時系列の長さ n=20 type1error(5%)=0.4703 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 n=10000 type1error(5%)=0.9755 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 8000 10000 n=20 n=10000 p値 (有意確率) 第1種の誤りの率 (5%水準) 0.4703 第1種の誤りの率 (5%水準) 0.9755

(22)

0 2000 4000 6000 8000 10000 0.0 0.2 0.4 0.6 0.8 1.0 sample size (n) typ e1 e rro r ra te (5 % ) サンプルサイズ(n) 時系列の長さ 5%水準で検 定した時の 第1種の誤り の率 0.8 1.0 0.05

(23)

n=10000 type1error(5%)=0.9755 no trend p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000 8000 10000 n=10000 p値 (有意確率) 第1種の誤りの率 (5%水準) 0.9755

(24)

0.00 0.01 0.02 0.03 0.04 0.05 0.0 0.2 0.4 0.6 0.8 1.0 n=10000 level of significance typ e1 e rro r ra te 第1種の 誤りの率 0.9515 0.9688 0.9755 0.9602 有意水準 5% 1% 0.1% 0.01% n=10000

(25)

サンプル・サイズが大きいと、

さらに悪化する

(26)

経済時系列での研究

spurious regression spurious correlation

Granger & Newbold, 1974 Phillips, 1986 Journal of Econometrics, 33: 311-340. Journal of Econometrics, 2: 111-120. 見せかけの相関 見せかけの回帰 単位根過程

(27)

定常過程

非定常過程

期待値が一定

時間間隔が同じなら、

自己相関係数の期待値が

どこでも一定

経済時系列

(28)

単位根過程

定常過程

非定常過程

ランダムウォーク

x

t

x

x

t-1

+N(0,σ^2)

θ

x

の絶対値<

1

θ

x

1

経済時系列

(29)

単位根過程

定常過程

非定常過程

感じがちがう

経済時系列

(30)

0 20 40 60 80 100 -6 -4 -2 0 2 4 coef=0.98 time va ria bl e 0 20 40 60 80 100 -4 -2 0 2 coef=0.95 time va ria bl e 0 20 40 60 80 100 0 5 10 15 coef=1.01 time va ria bl e 0 20 40 60 80 100 -3 0 -2 5 -2 0 -1 5 -1 0 -5 0 coef=1.02 time va ria bl e 0 20 40 60 80 100 -4 -2 0 2 4 6 8 10 random walk time va ria bl e θx =0.00 θx =0.95 θx =0.98 θx =1.00 θx =1.01 θx =1.02 時間 時間

ランダムウォーク 0 20 40 60 80 100 -2 -1 0 1 2 3 i.i.d. normal time va ria bl e 正規分布からの 独立なデータ

(31)

2つの単位根過程 たとえば、ランダム・ウォーク spurious correlation 見せかけの相関 強い相関が出やすい

定常過程

Granger et al (2001) Applied Economics, 33: 899-904.

(32)

定常過程

ランダムウォーク

x

t

x

x

t-1

+N(0,σ^2)

θ

x

の絶対値<

1

(33)

type1error=0.674 theta=0.98 p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 3000 5000 7000 type1error=0.6028 theta=0.95 p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 5000 6000 type1error=0.5029 theta=0.90 p value for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 5000

θx=0.98

θx=0.95

θx=0.90

誤って有意な相関と 判定する率(5%水準) =0.6740 誤って有意な相関と 判定する率(5%水準) =0.6028 誤って有意な相関と 判定する率(5%水準) =0.5029 n=100

(34)

回帰

y

t

=α+β

x

t

y

t

=α+β

x

t+

ε

t 回帰式 回帰モデルとしては

ε

tは平均0で分散一定の正規分布にしたがう 時系列データを回帰する(してしまう)とどうなる

(35)

回帰

y

t

=α+β

x

t

y

t

=α+β

x

t+

ε

t 回帰式 回帰モデルとしては

ε

tは平均0で分散一定の正規分布にしたがう 正規分布からの独立なデータ(回帰分析が仮定している条件)

パラメーターα、βのばらつきは、

サンプルサイズが大きいと、小さくなる

(36)

傾きのヒストグラム

Distribution of b n=100 RW b F re qu en cy -4 -2 0 2 4 0 100 200 300 400 500 600 700 Distribution of b n=1000 RW b F re qu en cy -4 -2 0 2 4 0 200 400 600 Distribution of b n=2000 RW b F re qu en cy -4 -2 0 2 4 0 200 400 600 n=100 n=1000 n=2000 傾き 傾き 傾き

(37)

Distribution of a n=100 RW a F re qu en cy -40 -20 0 20 40 0 200 400 600 800 1000 Distribution of a n=1000 RW a F re qu en cy -50 0 50 0 50 100 150 200 250 300 Distribution of a n=2000 RW a F re qu en cy -150 -100 -50 0 50 100 150 0 50 100 150 200

切片

n=100 n=1000 n=2000 +50 -50 +20 -20 -100 +100

(38)

500 1000 1500 2000 0 100 200 300 400 500 sample size (n) va r(a ) 500 1000 1500 2000 0.0 0.1 0.2 0.3 0.4 0.5 sample size (n) va r(b ) 傾きの分散 切片の分散 サンプル・サイズ 2000 2000 時系列の長さ

(39)

2つのランダムウォーク(互いに独立)

回帰すると、変な結果

検定:第1種の誤りが過大 サンプル・サイズが大きくなるとさらに悪化 係数の推定値 傾き:サンプル・サイズが増えても、ばらつきが減らない 切片:サンプル・サイズが増えると、ばらつきが増える spurious regression 見せかけの回帰

(40)

まとめ

似たデータが続けて出やすい

そこは、相関も回帰も、常識的な働きをしない

時系列

今回は ランダムウォークごとき

魔界

時系列データをそのまま使うと、

(41)
(42)

x ランダム・ウォーク y  各時点の資源量+新たに得た量 y 放出された量 閾値を超えたら、放出して次時点の資源量はゼロになる 閾値以下なら、放出せず、 次時点の資源量は各時点の資源量+新たに得た量 独立な正規乱数

(43)

x ランダム・ウォーク 手持ちの資源量が閾値を超えたら、全部、放出する y 放出された量 放出すると次時点の資源量はゼロになる 手持ちの資源量が閾値以下なら、放出せず、 次時点の資源量は各時点の資源量+新たに得た量 独立な正規乱数 各時点で、新たに資源を受け取る

(44)

0 20 40 60 80 100

0

5

10

15

resource output time series

time ou tp ut (re so urce ) 0 20 40 60 80 100 0 5 10 15

resource output time series

time ou tp ut (re so urce ) 時間 時間 放 出 量

y

左右のグラフとも、同一の例(グラフの描き方がちがうだけ) 例

(45)

resource output type error for r=0 p for r F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000

resource output correlation

r F re qu en cy -1.0 -0.5 0.0 0.5 1.0 0 500 1000 1500 xとyの間の相関係数の分布

r

pの値(有意確率) xとyの間の相関係数を 検定した、pの値の分布 +1.0 -1.0 1 0

非常に鈍感

参照

関連したドキュメント

地盤の破壊の進行性を無視することによる解析結果の誤差は、すべり面の総回転角度が大きいほ

<警告> •

スキルに国境がないIT系の職種にお いては、英語力のある人材とない人 材の差が大きいので、一定レベル以

Instagram 等 Flickr 以外にも多くの画像共有サイトがあるにも 関わらず, Flickr を利用する研究が多いことには, 大きく分けて 2

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

2)海を取り巻く国際社会の動向

脱型時期などの違いが強度発現に大きな差を及ぼすと

基本目標2 一 人 ひとり が いきいきと活 動するに ぎわいのあるま ち づくり1.