関連ベクターマシンに基づく非線形回帰モデリング
Nonlinear Regression Modeling via the Relevance Vector Machine
数学専攻 松田和己
Kazuki Matsuda
1 はじめに
近年の計算機システムの飛躍的な向上は
,
データネットワークの発展と相まって,
医学,
薬学,
環境科学,
経済学,
マーケティングなどの諸分野において,
大量かつ多様なデータの 獲得・蓄積を可能にした.
集約されたデータベースから,
背後の現象構造を解明し,
有益 な情報を効率的に抽出するためには,
より有用な多変量解析手法の研究・開発が不可欠で ある.
関連ベクターマシン
(RVM, Tipping, 2001)
は,
カーネル関数を用いたベイズアプロー チによる学習機であり,
データの一部に依存する疎なモデルを構築する手法として,
回帰・判別問題に広く応用されている
. RVM
に基づく非線形回帰モデリングでは,
通常のモデ リング手法と同様に,
モデル選択の問題が本質となる. RVM
回帰モデルに対しては,
広く 利用されている情報量規準AIC
やBIC
などによる安定的なモデル評価が困難であり,
モ デルの評価基準として有効に機能しない.
この問題に対して,
予測分布に基づくモデルの 評価を検討し,
数値実験による比較検証を行う.
また, RVM
回帰モデルの評価・選択プロ セスを克服する方法について提案する.
大規模な自然災害などは
,
関連する現象に対して,
不連続な構造変化を与えることが考 えられる.
このような変化点を持つデータに対しては,
変化点を適切に捉えることが重要 となる.
これに対して, Tateishi and Konishi(2011)
は, RVM
回帰に基づく変化点探索手 法を提案している.
この手法をより有用な手法とするための修正を提案し,
修正手法の有 用性を検証する.
最後に, 2011
年3
月に発生した東日本大震災に関するデータに対して不 連続なモデルによる当てはめを実行する.
1
2 RVM 回帰モデリング
説明変数
y
と1
次元目的変数x
に関して観測されたn
組のデータを{ (y i , x i ); i =
1, 2, · · · , n }
とする. RVM
に基づく回帰モデリングでは,
非線形なモデルを構成する方法として広く利用される基底展開法に対して
,
基底関数にガウス型カーネル関数を利用した 次のようなモデルを考える.
y i = w 0 +
∑ n
j=1
w j exp {
− (x i − x j ) 2 2h 2
}
+ ε i i = 1, 2, · · · , n. (2.1)
ただし
, w j (j = 0, 1, · · · , n)
は各基底関数の重みを調整する係数パラメータで, h 2
はガウス型カーネル関数の広がりの程度を調整するパラメータである
.
また, ε i (i = 1, 2, · · · , n)
は互いに無相関に正規分布N (0, β −1 )
に従う誤差項であり, β
は誤差の散らばりを調整す る分散パラメータである.
このとき,
係数パラメータベクトルw = (w 0 , w 1 , · · · , w n ) T
に 対して, ARD(Automatic Relevance Determination)
事前分布p(w | α) =
∏ n
j=0
N (w j ; 0, α − j 1 ) (2.2)
による推定を実行すると,
大部分の係数は0
と推定され,
疎なモデルが構築される.
ここで
, α j (j = 0, 1, · · · , n)
は各係数パラメータw j
に対応する超パラメータである.
このとき
,
モデル選択の問題として,
ガウス型カーネル関数に含まれる調整パラメー タh 2
に対して最適な値を決定する必要がある.
しかしながら, RVM
に基づいて構成さ れた疎なモデルは,
調整パラメータh 2
に対する変動が大きく,
モデル評価規準として広 く用いられている情報量規準AIC, BIC
などは評価基準として有効に機能しない.
この 問題に対して,
予測分布に基づいて導出される予測情報量規準PIC
によるモデル評価を 検討し,
数値実験により他のモデル評価基準との比較検証を行う.
また, RVM
回帰モデ ルの評価・選択のプロセスを克服し,
さらに,
より柔軟なモデルを構築する手法として, Multi-Overlapping RVM
を提案する.
3 RVM に基づく変化点探索
大規模な自然現象や企業の倒産
,
物質の化学変化などは,
関連する現象に対して突発的 な変化を与え,
不連続な変化点を生じさせると考えられる.
現象構造が不連続性を内包す る場合,
変化点を適切に捉えることが重要となる.
2
Tateishi and Konishi(2011)
は, RVM
回帰を用いて変化点推定を行い,
その結果を利用 することで,
不連続な回帰構造を構築する手法を提案した.
この手法についてより有用な 手法とするための修正を提案する.
また, 2011
年3
月11
日に発生した東日本大震災に関 連するデータへの適用を考える.
以下は, 2011
年3
月15
日に茨城県東海村で観測された10
分ごとの放射線量データへの適用結果である.
0 20 40 60 80 100 120 140
0500100015002000250030003500
x
y
0 20 40 60 80 100 120 140
0500100015002000250030003500
x
y
図