• 検索結果がありません。

今回 次回の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか これは次回)

N/A
N/A
Protected

Academic year: 2021

シェア "今回 次回の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか これは次回)"

Copied!
59
0
0

読み込み中.... (全文を見る)

全文

(1)

2017-07-03 kubostat2017 (h) 1/59

生態学の時系列データ解析でよく見る

『あぶない』モデリング

久保拓弥

mailto:[email protected]

statistical model for

time-series data

(2)

今回・次回の要点

あぶない

」時系列データ解析は

やめましょう!

(危

1)

時系列データの GLM あてはめ

(危

2)

時系列Y

t

〜 時系列 X

t

各時刻の個体数 〜 気温 とか

(これは次回)

統計モデル

のあてはめ

Danger!!

(3)

(危

1)

時系列データを GLM で

Do NOT apply GLM to time-series data!

(4)

(危

Danger! time-series Y ~ time-series X

2)

時系列Y

t

〜 時系列 X

t

「見せかけの回帰」

spurious regression

Time_series y ~ Time_series x

(5)

2017-07-03 kubostat2017 (h) 5/59

時系列データの統計モデリング

・安易に「回帰」してはいけない

・ランダムウォークモデルが基本

・統計モデルが生成する時系列

パターンを意識する

・階層ベイズモデルで推定

状態空間モデル

(6)
(7)

2017-07-03 kubostat2017 (h) 7/59

このような時系列データがあったとしましょう

y

t

y は何か連続値と

しましょう

(今日でてくる y は

連続値ばかり,と

いうことで)

(8)

2017-07-03 kubostat2017 (h) 8/59

時系列データの統計モデリング入門

glm(y ~ t)

…とモデル

をあてはめてみた

y

t

(9)

2017-07-03 kubostat2017 (h) 9/59

「やったー

ゆーい

だ!!」……??

これはまちがい→

> summary(glm(formula = y ~ t))

Deviance Residuals:

Min 1Q Median 3Q Max

-2.1295 -1.0583 -0.0817 0.9860 2.0188

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -414.5655 71.4761 -5.80 6.6e-06

t 0.2339 0.0357 6.55 1.1e-06

(10)

2017-07-03 kubostat2017 (h) 10/59

時系列の各点は独立ではない

ゆーいな傾き

(偽)

が「ぞろぞろ」でます

傾きの検定やめて

AIC モデル選択

しても同様になる

検定とかモデル選択とかそういう問題ではない

統計モデルがおかしい

?

(11)

2017-07-03 kubostat2017 (h) 11/59

時系列の「ずれ」

GLM のずれ

ずれかたが

ちがってる?

(12)

2017-07-03 kubostat2017 (h) 12/59

時系列の「ずれ」

GLM のずれ

直線からのずれがちがう!

(13)

時系列の基本モデルのひとつ

ランダムウォーク (乱歩)

(14)

2017-07-03 kubostat2017 (h) 14/59

変数

Y

時間

t

ランダムウォーク

もっとも単純な

モデル

正規分布

Y

1

Y

1

Y

1

Y

2

Y

2

Y

3

(15)

2017-07-03 kubostat2017 (h) 15/59

ランダムウォークなサンプル時系列

とりあえず 1000 本ほど生成してみました

長さ 100

(16)

2017-07-03 kubostat2017 (h) 16/59

例外的な時系列というのはありえる

たとえば

t

= 100

でかなり外れている

50 本

「めったにない」

ランダムウォーク??

(17)

2017-07-03 kubostat2017 (h) 17/59

しかし直線回帰 GLM あてはめると…

ほとんどすべての場合で「ゆーい」!

統計モデルがおかしい!

時間

t

を説明変数とする GLM はダメそう

significant? no!

(18)

2017-07-03 kubostat2017 (h) 18/59

ちょっとでも傾いてたら「ゆーい」

実際には

こんなデータ

なのに

R の glm() は

こんなデータ

だとみなしている

情報が少ない

情報が多い

各データ点が

独立ではない

(19)

時間的自己相関

(略称:自己相関,時間相関)

を調べたらいいの?

(20)

2017-07-03 kubostat2017 (h) 20/59

R の ts クラス: 時系列をあつかう

plot(ts(Y))

plot(acf(ts(Y)))

自己相関ない

これはたんなる

100 個の正規乱数

(21)

2017-07-03 kubostat2017 (h) 21/59

自己相関減衰の様子を図示

plot(ts(Y))

plot(acf(ts(Y)))

(22)

2017-07-03 kubostat2017 (h) 22/59

変数

Y

時間

t

「時間相関がある」とは?

正規分布

Y

1

Y

1

Y

1

Y

2

Y

2

Y

3

と は

似ている!

(23)

時間的自己相関

いつも役にたつわけではない?

temporal auto-correlation coefficient

(24)

2017-07-03 kubostat2017 (h) 24/59

各点独立のデータをナナメにすると?

plot(ts(Y))

plot(acf(ts(Y)))

自己相関あり

え?

これを

ナナメに

したもの

なんだけど…

(25)

2017-07-03 kubostat2017 (h) 25/59

各点独立のデータをナナメにすると?

plot(ts(Y))

plot(acf(ts(Y)))

自己相関あり

これを

ナナメに

したもの

(26)

2017-07-03 kubostat2017 (h) 26/59

自己相関係数みても区別がつかない

(これは下とは区別つくけど)

「傾向のある変化」

を推定する手段がない

統計モデル

を選べないから

(27)

2017-07-03 kubostat2017 (h) 27/59

変数

Y

時間

t

ランダムウォーク

もっとも単純な

モデル

正規分布

Y

1

Y

1

Y

1

Y

2

Y

2

Y

3

(28)

状態空間モデル

でたちむかう

時系列データ解析

いろいろな時系列データを

統一的にあつかえないか?

(29)

2017-07-03 kubostat2017 (h) 29/59

変数

Y

時間

t

ランダムウォーク

もっとも単純な

モデル

正規分布

Y

1

Y

1

Y

1

Y

2

Y

2

Y

3

(30)

2017-07-03 kubostat2017 (h) 30/59

観測データ

時間

t

状態空間モデル

二種類のσをもつ

Y

1

Y

2

Y

3

y

1

y

2

y

3

y

4

観測できない世界 (状態空間)

状態変数の変化

観測の誤差

(31)

2017-07-03 kubostat2017 (h) 31/59

(32)

階層ベイズモデルだ!

状態空間モデルは…

state-space model is ...

(33)

2017-07-03 kubostat2017 (h) 33/59

全データ

個体 3 のデータ 個体 3 のデータ 個体 3 のデータ 時刻 3 のデータ 時刻 2 のデータ 時刻 1 のデータ

{y

1

, y

2

, y

3

, ...., y

100

}

局所的パラメータ

大域的パラメータ

階層ベイズモデルとは?

一定の時間変化 時系列のばらつき

多数の「似たようなパラメーター」たちに

「適切」な制約を加えて推定できる

(たくさんの時点・個体・調査地……)

(34)

2017-07-03 kubostat2017 (h) 34/59

どうやてモデルをあてはめる?

R の状態空間モデルの

package いろいろある

library(dlm)

library(KFAS)

しかしより一般化したモデルに

ついての理解が必要かも

(35)

2017-07-03 kubostat2017 (h) 35/59

こういう問題も JAGS で

BUGS 言語でこの単純な

(36)

2017-07-03 kubostat2017 (h) 36/59

model

{

    

Tau.Noninformative

 <­ 

0.0001

    

Y[1]

 ~ dnorm(

y[1]

, tau[2])

    y[1] ~ dnorm(

0

Tau.Noninformative

)

    for (t in 

2

:

N.Y

) {

        

Y[t]

 ~ dnorm(y[t], tau[2])

        y[t] ~ dnorm(m[t], 

tau[1]

)

        m[t] <­ 

delta

 + y[t ­ 1]

    }

    

delta

 ~ dnorm(

0

Tau.Noninformative

)

    for (k in 

1

:

2

) {

        

tau[k] <­ 1 / (s[k] * s[k])

        

s[k] ~ dunif(

0

10000

)

    }

(37)

「ばらばら解析」の回避

気象庁のデータ解析?

状態空間モデルを使う利点

(38)

2016-08-09 38/59

気象庁の長期変化傾向(トレンド)の解説

http://www.data.jma.go.jp/cpdinfo/temp/an_wld.html

(39)

2016-08-09 39/59

気象庁の長期変化傾向(トレンド)の解説

(40)

2016-08-09 40/59

(41)

2016-08-09 41/59

「とりあえず,直線回帰」の危険性

> summary(glm(GL ~ year, data = d))

Coefficients:

       Estimate Std. Error t value Pr(>|t|)

(Intercept) ­1.41e+01   6.21e­01   ­22.6   <2e­16

year         7.03e­03   3.18e­04    22.1   <2e­16

確率 1京ぶんの

2?

時間相関その他ばらつきを

無視して「長期傾向」を推定

100年

あたり

0.70℃

Do NOT apply GLM!

(42)

2016-08-09 42/59

直線あてはめ (GLM) が予測した「温暖化」

> summary(glm(GL ~ year, data = d))

Coefficients:

       Estimate Std. Error t value Pr(>|t|)

(Intercept) ­1.41e+01   6.21e­01   ­22.6   <2e­16

year         7.03e­03   3.18e­04    22.1   <2e­16

100年

あたり

0.70℃

Do NOT apply GLM!

(43)

2016-08-09 kubostat2016i 43/59

状態空間モデル:すべてを同時に推定

ランダムウォーク+各年独立なノイズ

(44)

2016-08-09 kubostat2016i 44/59

状態空間モデル:すべてを同時に推定

ランダムウォーク+各年独立なノイズ

時間

Y

1

Y

2

Y

3

Y

1

Y

2

Y

3

trend δ

+ “trend”

(45)

2016-08-09 kubostat2016i 45/59

状態空間モデル:すべてを同時に推定

時間

Y

1

Y

2

Y

3

trend δ

    Y[1] ~ dnorm(y[1], tau[2])

    

y[1]

 ~ dnorm(0.0, Tau.Noninformative)

    for (t in 2:N.Y) {

        Y[t] ~ dnorm(

y[t]

, tau[2])

        

y[t]

 ~ dnorm(m[t], tau[1])

        m[t] <­ 

delta

 + 

y[t ­ 1]

    }

    

delta

 ~ dnorm(0, Tau.Noninformative)

    for (k in 1:2) {

        tau[k] <­ 1.0 / (s[k] * s[k])

        s[k] ~ dunif(0, 1.0E+4)

    }

(46)

2016-08-09 46/59

状態空間モデルが予測した「温暖化」

> summary(glm(GL ~ year, data = d))

Coefficients:

       Estimate Std. Error t value Pr(>|t|)

(Intercept) ­1.41e+01   6.21e­01   ­22.6   <2e­16

year         7.03e­03   3.18e­04    22.1   <2e­16

100 年あたり0.84℃

事後分布の

95%区間

内にゼロあり

100年

あたり

0.70℃

GLM

状態空間モデル

GLM under-estimates standard-errors!

(47)

2016-08-09 47/59

観測値間に相関あり→サンプルサイズが小さくなる

100 年あたり0.84℃

事後分布の

95%区間

内にゼロあり

100年

あたり

0.70℃

GLM

状態空間モデル

(48)

疑わしい回帰

spurious regression

時系列どうしの回帰

(49)

2016-08-09 kubostat2016i 49/59

時系列データの統計モデリング

でやめたほうがいいこと

・GLM: Y(t) ~ t とか Y(t) ~ X(t)

・段階的解析:観測値の四則演算

・「残差」の再解析

・「対応」の無視 − 再測は時系列

(50)

2016-08-09 kubostat2016i 50/59

「見せかけの回帰」

spurious regression

(51)

2016-08-09 51/59

ノイズの大きな時系列にうもれたワナ?

時間的自己相関のない時系列?

Y

X

しかし glm(Y ~ X) とすると…

「ゆーい」に

なりやすい

(52)

疑わしい回帰

spurious regression

状態空間モデル (SSM)で

あつかえないか?

(53)

2016-08-09 53/59

二変量正規分布とランダムウォーク

ρ = 0.0

(54)

2016-08-09 54/59

二変量正規分布を部品とする状態空間モデル

(55)

2016-08-09 55/59

階層ベイズモデルである

状態空間モデル

から得られた事後分布

ふたつの時系列データの変動が

相関しているかどうかを特定できる

(56)
(57)

2017-07-03 kubostat2017 (h) 57/59

時系列の「ずれ」

GLM のずれ

時間的な相関はデータの

情報量を減少させる

(58)

2017-07-03 kubostat2017 (h) 58/59

時系列データの統計モデリング

・安易に「回帰」してはいけない

・ランダムウォークモデルが基本

・統計モデルが生成する時系列

パターンを意識する

・階層ベイズモデルで推定

状態空間モデル

(59)

2017-07-03 59/59

おしまい

Hierarchical Bayesian Model

Generalized Linear Mixed Model

Generalized

Linear Model

Linear Model

The Evolution of Linear Models

MSE

MLE

MCMC

Parameter Estimation

(GLM)

(GLMM)

(HBM)

データ解析は

階層ベイズモデルで!

参照

関連したドキュメント

しかしマレーシア第2の都市ジョージタウンでの比率 は大きく異なる。ペナン州全体の統計でもマレー系 40%、華人系

[r]

※年 1 回の認証ができていれば、次回認証の時期まで Trend Micro Apex One (Mac) サーバーと 通信する必要はありません。学内ネットワークに接続しなくても Trend Micro Apex

CIとDIは共通の指標を採用しており、採用系列数は先行指数 11、一致指数 10、遅行指数9 の 30 系列である(2017

『国民経済計算年報』から「国内家計最終消費支出」と「家計国民可処分 所得」の 1970 年〜 1996 年の年次データ (

16 単列 GIS配管との干渉回避 17 単列 DG連絡ダクトとの干渉回避 18~20 単列 電気・通信ケーブル,K排水路,.

の繰返しになるのでここでは省略する︒ 列記されている

吸着塔の交換頻度は,滞留水の水質や処理容量にも依るが,現在の運転状 態においてセシウム吸着装置では 2 系列運転において 1 系列あたり 2,3 日に