• 検索結果がありません。

今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか

N/A
N/A
Protected

Academic year: 2021

シェア "今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか"

Copied!
56
0
0

読み込み中.... (全文を見る)

全文

(1)

2015-11-17 道総研 統計学講義 1/56

時系列データ解析でよく見る

『あぶない』モデリング

(2)

今日の要点

あぶない

」時系列データ解析は

やめましょう!

(危

1)

時系列データの GLM あてはめ

(危

2)

時系列Y

t

〜 時系列 X

t

各時刻の個体数 〜 気温 とか

統計モデル

のあてはめ

(3)
(4)

(危

2)

時系列Y

t

〜 時系列 X

t

「相関は因果関係ではない」

問題の一部:

にせの回帰

(5)

2015-11-17 道総研 統計学講義 5/56

「見せかけの回帰」

spurious regression

(6)

2015-11-17 道総研 統計学講義 6/56

時系列データの統計モデリング

・安易に「回帰」してはいけない

・ランダムウォークモデルが基本

・統計モデルが生成する時系列

パターンを意識する

・階層ベイズモデルで推定

状態空間モデル

(7)
(8)

2015-11-17 道総研 統計学講義 8/56

このような時系列データがあったとしましょう

y

t

y は何か連続値と

しましょう

(今日でてくる y は

連続値ばかり,と

いうことで)

(9)

2015-11-17 道総研 統計学講義 9/56

時系列データの統計モデリング入門

glm(y ~ t)

…とモデル

をあてはめてみた

y

t

(10)

2015-11-17 道総研 統計学講義 10/56

「やったー

ゆーい

だ!!」……??

これはまちがい→

> summary(glm(formula = y ~ t))

Deviance Residuals:

Min 1Q Median 3Q Max

-2.1295 -1.0583 -0.0817 0.9860 2.0188

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -414.5655 71.4761 -5.80 6.6e-06

t 0.2339 0.0357 6.55 1.1e-06

(11)

2015-11-17 道総研 統計学講義 11/56

時系列の各点は独立ではない

ゆーいな傾き

(偽)

が「ぞろぞろ」でます

傾きの検定やめて

AIC モデル選択

しても同様になる

検定とかモデル選択とかそういう問題ではない

統計モデルがおかしい

?

(12)

2015-11-17 道総研 統計学講義 12/56

時系列の「ずれ」

GLM のずれ

ずれかたが

ちがってる?

(13)

2015-11-17 道総研 統計学講義 13/56

時系列の「ずれ」

GLM のずれ

直線からのずれがちがう!

(14)

時系列の基本モデルのひとつ

ランダムウォーク (乱歩)

(15)

2015-11-17 道総研 統計学講義 15/56

変数

Y

時間

t

ランダムウォーク

もっとも単純な

モデル

正規分布

Y

1

Y

1

Y

1

Y

2

Y

2

Y

3

(16)

2015-11-17 道総研 統計学講義 16/56

ランダムウォークなサンプル時系列

とりあえず 1000 本ほど生成してみました

(17)

2015-11-17 道総研 統計学講義 17/56

例外的な時系列というのはありえる

たとえば

t

= 100

でかなり外れている

50 本

「めったにない」

(18)

2015-11-17 道総研 統計学講義 18/56

しかし直線回帰 GLM あてはめると…

ほとんどすべての場合で「ゆーい」!

統計モデルがおかしい!

(19)

2015-11-17 道総研 統計学講義 19/56

ちょっとでも傾いてたら「ゆーい」

実際には

こんなデータ

なのに

R の glm() は

こんなデータ

だとみなしている

情報が少ない

情報が多い

各データ点が

独立ではない

(20)

時間的自己相関

(略称:自己相関,時間相関)

(21)

2015-11-17 道総研 統計学講義 21/56

R の ts クラス: 時系列をあつかう

plot(ts(Y))

plot(acf(ts(Y)))

自己相関ない

これはたんなる

100 個の正規乱数

(22)

2015-11-17 道総研 統計学講義 22/56

自己相関減衰の様子を図示

plot(ts(Y))

plot(acf(ts(Y)))

(23)

2015-11-17 道総研 統計学講義 23/56

変数

Y

時間

t

「時間相関がある」とは?

正規分布

Y

1

Y

1

Y

1

Y

2

Y

2

Y

3

と は

似ている!

(24)

時間的自己相関

(25)

2015-11-17 道総研 統計学講義 25/56

各点独立のデータをナナメにすると?

plot(ts(Y))

plot(acf(ts(Y)))

自己相関あり

え?

これを

ナナメに

したもの

なんだけど…

(26)

2015-11-17 道総研 統計学講義 26/56

各点独立のデータをナナメにすると?

plot(ts(Y))

plot(acf(ts(Y)))

自己相関あり

これを

ナナメに

したもの

(27)

2015-11-17 道総研 統計学講義 27/56

自己相関係数みても区別がつかない

(これは下とは区別つくけど)

「傾向のある変化」

を推定する手段がない

統計モデル

を選べないから

(28)

2015-11-17 道総研 統計学講義 28/56

変数

Y

時間

t

ランダムウォーク

もっとも単純な

モデル

正規分布

Y

1

Y

1

Y

1

Y

2

Y

2

Y

3

(29)

2015-11-17 道総研 統計学講義 29/56

時系列データの「差分」をみよう

(30)

状態空間モデル

でたちむかう

時系列データ解析

いろいろな時系列データを

統一的にあつかえないか?

(31)

2015-11-17 道総研 統計学講義 31/56

「統計モデル」とは何か?

どんな統計解析においても

統計モデルが使用されている

観察によってデータ化された

現象を説

明するため

に作られる

確率分布

が基本的な部品であり,これ

はデータにみられるばらつきを表現す

る手段である

データとモデルを対応づける手つづき

が準備されていて,モデルがデータに

どれぐらい良くあてはまっているかを

定量的に評価できる

(32)

2015-11-17 道総研 統計学講義 32/56

「統計モデル」のしくみを理解しよう!

もうすこし「わかった」ような気分?

体サイズ

種子数

種子数の平均値はサイズ

x と

ともに増大する

平均値が増大するとばらつきが

変化する

どのように変化

するのか?

数式で書くとどうなる?

どのようにばらつく

のか?

確率分布?

統計モデルをデータにうまくあてはめる

どのようにあてはめる

のが妥当なのか? パラメーター推定法?

(33)

2015-11-17 道総研 統計学講義 33/56

時系列データ解析の教科書,ねえ……

モデルがあれこれ多すぎる

経済学よりのモデルばかり

なんでも正規分布

なんとかならないかな?

状態空間モデル

,どうでしょう?

(34)

2015-11-17 道総研 統計学講義 34/56

変数

Y

時間

t

ランダムウォーク

もっとも単純な

モデル

正規分布

Y

1

Y

1

Y

1

Y

2

Y

2

Y

3

(35)

2015-11-17 道総研 統計学講義 35/56

観測データ

時間

t

状態空間モデル

二種類のσをもつ

Y

1

Y

2

Y

3

y

1

y

2

y

3

y

4

観測できない世界 (状態空間)

状態変数の変化

観測の誤差

(36)

2015-11-17 道総研 統計学講義 36/56

(37)

2015-11-17 道総研 統計学講義 37/56

傾き

も追加

(38)

2015-11-17 道総研 統計学講義 38/56

傾き

(39)

2015-11-17 道総研 統計学講義 39/56

状態空間モデル + GLM

この部分にポアソン分布や

二項分布をいれる

(40)

2015-11-17 道総研 統計学講義 40/56

状態空間モデル + GLM

他にも季節変動などを

入れることができます

今日は省略… すみません

(41)

2015-11-17 道総研 統計学講義 41/56

全データ

個体 3 のデータ 個体 3 のデータ 個体 3 のデータ 時刻 3 のデータ 時刻 2 のデータ 時刻 1 のデータ

{y

1

, y

2

, y

3

, ...., y

100

}

局所的パラメータ

大域的パラメータ

階層ベイズモデルとは?

一定の時間変化 時系列のばらつき

多数の「似たようなパラメーター」たちに

「適切」な制約を加えて推定できる

(たくさんの時点・個体・調査地……)

(42)

2015-11-17 道総研 統計学講義 42/56

どうやてモデルをあてはめる?

R の状態空間モデルの

package いろいろある

library(dlm)

library(KFAS)

しかしより一般化したモデルに

ついての理解が必要かも

伊東さんが

紹介

(43)

2015-11-17 道総研 統計学講義 43/56

たとえば JAGS で

BUGS 言語でこの単純な

(44)

2015-11-17 道総研 統計学講義 44/56

model

{

    

Tau.Noninformative

 <­ 

0.0001

    

Y[1]

 ~ dnorm(

y[1]

tau[2]

)

    y[1] ~ dnorm(

0

Tau.Noninformative

)

    for (t in 

2

:

N.Y

) {

        

Y[t]

 ~ dnorm(y[t], 

tau[2]

)

        y[t] ~ dnorm(m[t], 

tau[1]

)

        m[t] <­ 

delta

 + y[t ­ 1]

    }

    

delta

 ~ dnorm(

0

Tau.Noninformative

)

    for (k in 

1

:

2

) {

        

tau[k] <­ 1 / (s[k] * s[k])

        

s[k] ~ dunif(

0

10000

)

    }

(45)

2015-11-17 道総研 統計学講義 45/56

1000 個の架空データを推定

いろいろなランダムウォークが生成される

(46)

状態空間モデル

かたむきゼロ

」ランダムウォーク

な架空データにあてはめる

(47)

2015-11-17 道総研 統計学講義 47/56

「傾き」δの事後分布を見る

真の

δ

は 0

1000回中

63回ずれた

横線は

95%区間

(48)

状態空間モデル

かたむきあり

」ランダムウォーク

な架空データにあてはめる

(49)

2015-11-17 道総研 統計学講義 49/56

「傾き」δの事後分布を見る

真の

δ

は 1

1000回中

1回ずれた

横線は

95%区間

(50)

2015-11-17 道総研 統計学講義 50/56

「傾き」δの事後分布を見る

真の

δ

は 1

1000回中

62回ずれた

横線は

95%区間

(51)

2015-11-17 道総研 統計学講義 51/56

とりあえずの結論

ひとつの状態空間

モデルを使って

右の4状態は

区別可能でしょう

(52)

(危

2)

時系列データ X

t

と 時系列データ Y

t

Y

t

~ X

t

うたがわしい

回帰

(53)

2015-11-17 道総研 統計学講義 53/56

Grenger 因果???

時系列データ解析の

教科書にはよく登場する

複数の時系列感の「相関」

を調べる方法

……

あまり生態学の役には立たないかも

(54)
(55)

2015-11-17 道総研 統計学講義 55/56

時系列の「ずれ」

GLM のずれ

時間的な相関はデータの

情報量を減少させる

(56)

2015-11-17 道総研 統計学講義 56/56

時系列データの統計モデリング

・安易に「回帰」してはいけない

・ランダムウォークモデルが基本

・統計モデルが生成する時系列

パターンを意識する

・階層ベイズモデルで推定

状態空間モデル

参照

関連したドキュメント

主食については戦後の農地解放まで大きな変化はなかったが、戦時中は農民や地主な

しかしマレーシア第2の都市ジョージタウンでの比率 は大きく異なる。ペナン州全体の統計でもマレー系 40%、華人系

[r]

CIとDIは共通の指標を採用しており、採用系列数は先行指数 11、一致指数 10、遅行指数9 の 30 系列である(2017

『国民経済計算年報』から「国内家計最終消費支出」と「家計国民可処分 所得」の 1970 年〜 1996 年の年次データ (

・カメラには、日付 / 時刻などの設定を保持するためのリチ ウム充電池が内蔵されています。カメラにバッテリーを入

の繰返しになるのでここでは省略する︒ 列記されている

吸着塔の交換頻度は,滞留水の水質や処理容量にも依るが,現在の運転状 態においてセシウム吸着装置では 2 系列運転において 1 系列あたり 2,3 日に