• 検索結果がありません。

関連ベクターマシンに基づく非線形回帰モデリング

N/A
N/A
Protected

Academic year: 2021

シェア "関連ベクターマシンに基づく非線形回帰モデリング"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

関連ベクターマシンに基づく非線形回帰モデリング

Nonlinear Regression Modeling via the Relevance Vector Machine

数学専攻 松田和己

Kazuki Matsuda

1 はじめに

近年の計算機システムの飛躍的な向上は

,

データネットワークの発展と相まって

,

医学

,

薬学

,

環境科学

,

経済学

,

マーケティングなどの諸分野において

,

大量かつ多様なデータの 獲得・蓄積を可能にした

.

集約されたデータベースから

,

背後の現象構造を解明し

,

有益 な情報を効率的に抽出するためには

,

より有用な多変量解析手法の研究・開発が不可欠で ある

.

関連ベクターマシン

(RVM, Tipping, 2001)

,

カーネル関数を用いたベイズアプロー チによる学習機であり

,

データの一部に依存する疎なモデルを構築する手法として

,

回帰・

判別問題に広く応用されている

. RVM

に基づく非線形回帰モデリングでは

,

通常のモデ リング手法と同様に

,

モデル選択の問題が本質となる

. RVM

回帰モデルに対しては

,

広く 利用されている情報量規準

AIC

BIC

などによる安定的なモデル評価が困難であり

,

デルの評価基準として有効に機能しない

.

この問題に対して

,

予測分布に基づくモデルの 評価を検討し

,

数値実験による比較検証を行う

.

また

, RVM

回帰モデルの評価・選択プロ セスを克服する方法について提案する

.

大規模な自然災害などは

,

関連する現象に対して

,

不連続な構造変化を与えることが考 えられる

.

このような変化点を持つデータに対しては

,

変化点を適切に捉えることが重要 となる

.

これに対して

, Tateishi and Konishi(2011)

, RVM

回帰に基づく変化点探索手 法を提案している

.

この手法をより有用な手法とするための修正を提案し

,

修正手法の有 用性を検証する

.

最後に

, 2011

3

月に発生した東日本大震災に関するデータに対して不 連続なモデルによる当てはめを実行する

.

1

(2)

2 RVM 回帰モデリング

説明変数

y

1

次元目的変数

x

に関して観測された

n

組のデータを

{ (y i , x i ); i =

1, 2, · · · , n }

とする

. RVM

に基づく回帰モデリングでは

,

非線形なモデルを構成する方法

として広く利用される基底展開法に対して

,

基底関数にガウス型カーネル関数を利用した 次のようなモデルを考える

.

y i = w 0 +

n

j=1

w j exp {

(x i x j ) 2 2h 2

}

+ ε i i = 1, 2, · · · , n. (2.1)

ただし

, w j (j = 0, 1, · · · , n)

は各基底関数の重みを調整する係数パラメータで

, h 2

はガウ

ス型カーネル関数の広がりの程度を調整するパラメータである

.

また

, ε i (i = 1, 2, · · · , n)

は互いに無相関に正規分布

N (0, β −1 )

に従う誤差項であり

, β

は誤差の散らばりを調整す る分散パラメータである

.

このとき

,

係数パラメータベクトル

w = (w 0 , w 1 , · · · , w n ) T

対して

, ARD(Automatic Relevance Determination)

事前分布

p(w | α) =

n

j=0

N (w j ; 0, α j 1 ) (2.2)

による推定を実行すると

,

大部分の係数は

0

と推定され

,

疎なモデルが構築される

.

ここ

, α j (j = 0, 1, · · · , n)

は各係数パラメータ

w j

に対応する超パラメータである

.

このとき

,

モデル選択の問題として

,

ガウス型カーネル関数に含まれる調整パラメー

h 2

に対して最適な値を決定する必要がある

.

しかしながら

, RVM

に基づいて構成さ れた疎なモデルは

,

調整パラメータ

h 2

に対する変動が大きく

,

モデル評価規準として広 く用いられている情報量規準

AIC, BIC

などは評価基準として有効に機能しない

.

この 問題に対して

,

予測分布に基づいて導出される予測情報量規準

PIC

によるモデル評価を 検討し

,

数値実験により他のモデル評価基準との比較検証を行う

.

また

, RVM

回帰モデ ルの評価・選択のプロセスを克服し

,

さらに

,

より柔軟なモデルを構築する手法として

, Multi-Overlapping RVM

を提案する

.

3 RVM に基づく変化点探索

大規模な自然現象や企業の倒産

,

物質の化学変化などは

,

関連する現象に対して突発的 な変化を与え

,

不連続な変化点を生じさせると考えられる

.

現象構造が不連続性を内包す る場合

,

変化点を適切に捉えることが重要となる

.

2

(3)

Tateishi and Konishi(2011)

, RVM

回帰を用いて変化点推定を行い

,

その結果を利用 することで

,

不連続な回帰構造を構築する手法を提案した

.

この手法についてより有用な 手法とするための修正を提案する

.

また

, 2011

3

11

日に発生した東日本大震災に関 連するデータへの適用を考える

.

以下は

, 2011

3

15

日に茨城県東海村で観測された

10

分ごとの放射線量データへの適用結果である

.

0 20 40 60 80 100 120 140

0500100015002000250030003500

x

y

0 20 40 60 80 100 120 140

0500100015002000250030003500

x

y

1

に茨城県東海村で観測された

10

分ごとの放射線量データ

(

)

と適用結果

(

)

参考文献

[1] Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle, 2nd Inter. Symp. Information Theory (eds. by B. N. Petrov and F. Csaki), Akademiai Kiado, Budapest, 267 ― 281. (Reproduced in Breakthroughs in Statistics, Vol. I, Foundations and Basic Theory (eds. S. Kotz and N. L. Johnson), Springer-Verlag, New York, (1992) 610 624.) [2] Akaike, H. (1977). On entropy maximization principle, Applications of Statistics (Krishinaiah,

P.R., ed.), North-Holland, 27(41).

[3] Akaike, H. (1978). A Bayesian analysis of the minimum AIC procedure. Annals of the Institute of Statistical Mathematics. 30, 9-14.

[4] Akaike, H. (1979). A Bayesian extension of the minimum AIC procedure of autoregressive model fitting. Biometrika, 66, 237-242.

[5] Ando, T., Konishi, S. and Imoto, S. (2008). Nonlinear regression modeling via regularized radial basis function networks. Journal of Statistical Planning and Inference, 138, 3616 3633.

[6] Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.

[7] Burnham, K. P. and Anderson, D. R. (2002). Model Selection and Multimodel Inference. A Practical Information-Theoretic Approach, 2nd ed., Springer.

[8] Craven, P. and Wahba, G. (1979). Smoothing noisy data with spline functions: Estimating the correct degree of smoothing by the method of generalized cross-validation, Numerische Mathe- matik. 31, 377-403.

[9] Davison, A. C. (1986). Approximate predictive likelihood. Biometrika, 73, 323 32.

[10] de Boor, C. (2001). A Practical Guide to Splines. Springer.

[11] Denison, D. G. T., Holmes, C. C., Mallick, B. K. and Smith A. F. M. (2002). “Bayesian Methods for Nonlinear Classification and Regression”. Wiley

3

(4)

[12] Efron, B., Hastie, T., Johnstone, I. and Tibshirani, R. (2004). Least angle regression (with discussion), Ann. Statist., 32, 407 499.

[13] Friedman, J., Hastie, T. and Tibshirani, R. (2009). Regularization paths for generalized linear models via coordinate descent, Technical Report, Stanford University.

[14] Gijbels, I., Lambert, A. and Qiu, P. (2007). Jump-preserving regression and smoothing using local linear fitting: a compromise. Annals of the Institute of Statistical Mathematics, 59, 235 272.

[15] Hastie, T. and Tibshirani, R. (1990). Generalized Additive Models, London, Chapman & Hall.

[16] Hastie, T., Tibshirani, R. and Friedman, J. (2009). The Elements of Statistical Learning (2nd edition). Springer Verlag, New York.

[17] Imoto, S. and Konishi, S. (2003). Selection of smoothing parameter in B-spline nonparametric regression models using information criteria. Annals of the Institute of Statistical Mathematics, 55, 671 687.

[18] Kawano, S. and Konishi, S. (2007). Nonlinear regression modeling via regularized Gaussian basis functions. Bull. Inform. Cybern., 39, 83 ― 96.

[19] Kitagawa, G. (1997). Information criteria for the predictive evaluation of bayesian models.

Communications in Statistics-Theory and Methods, 26, 2223 2246.

[20] Konishi, S., Ando, T. and Imoto, S. (2004). Bayesian information criteria and smoothing pa- rameter selection in radial basis function networks. Biometrika, 91, 27 ― 43.

[21] Konishi, S. and Kitagawa, G. (1996). Generalised information criteria in model selection.

Biometrika, 83, 875 890.

[22] Konishi, S. and Kitagawa, G. (2008). Information Criteria and Statistical Modeling. Springer.

[23] Kullback, S. and Leibler, R. A. (1951). On information and sufficiency, The Annals of Mathe- matical Statistics, 22, 79 86.

[24] Loader, C. R. (1996). Change point estimation using nonparametric regression. Annals of Statis- tics, 24, 1667 ― 1678.

[25] MacKay, D. J. C. (1994). Bayesian methods for backpropagation networks. In E. Domany, J. L.

van Hemmen, and K. Schulten (Eds.), Models of Neural Networks III, Chapter 6, pp. 211254.

Springer.

[26] Muller, H. G. (1992). Change-points in nonparametric regression analysis. Annals of Statistics, 20, 737 761.

[27] Neal, R. M. (1996). Bayesian Learning for Neural Networks. Springer.

[28] Qiu, P. (2003). A jump-preserving curve fitting procedure based on local piecewise-linear kernel estimation. Journal of Nonparametric Statistics, 15, 437 453.

[29] Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6, 461 464.

[30] Speckman, P. L. (1997). Detection of change-points in nonparametric regression. Unpublished manuscript.

[31] Stone, M. (1974). Cross-validatory choice and assessment of statistical predictions (with discus- sion), J. Roy. Statist. Soc. B, 36, 111 ― 147.

[32] Tateishi, S. and Konishi, S. (2011). Nonlinear regression modeling and detecting change points via the relevance vector machine. Computational Statistics, 26, 477-490.

[33] Tibshirani, R. (1996). Regression shrinkage and selection via the lasso, J. Roy. Statist. Soc. Ser.

B, 58, 267 ― 288.

[34] Tipping, M.E. (2001). Sparse Bayesian learning and the relevance vector machine. Journal of Machine Learning Research, 1, 211 244.

4

参照

関連したドキュメント

In recent communications we have shown that the dynamics of economic systems can be derived from information asymmetry with respect to Fisher information and that this form

tandem queue effect may be detected by traffic simulation methods, it is necessary to directly observe the two successive (upstream and local) overall sojourn times for a local

The system consists of five components namely: Data Converter, Initial Microdata Analyzer, Disclosure Method Selection, Disclosure Risk and Information Loss Analyzer, and

Besides, we offer some additional interesting properties on the ω-diffusion equations and the ω-elastic equations on graphs such as the minimum and max- imum property, the

The last sections present two simple applications showing how the EB property may be used in the contexts where it holds: in Section 7 we give an alternative proof of

By means of a new univalence criterion for the analytic functions in the open unit disk U based upon the Becker , s criterion, but which doesn’t contain |z|, we give another

By iterating this procedure, we produce cellular bases for B–M–W algebras on which a large Abelian subalgebra, generated by elements which generalise the Jucys–Murphy elements from

Li, “Simplified exponential stability analysis for recurrent neural networks with discrete and distributed time-varying delays,” Applied Mathematics and Computation, vol..