• 検索結果がありません。

L p ノルム正則化法による回帰モデリング Regression modeling via L p norm regularization

N/A
N/A
Protected

Academic year: 2021

シェア "L p ノルム正則化法による回帰モデリング Regression modeling via L p norm regularization"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

L p ノルム正則化法による回帰モデリング Regression modeling via L p norm regularization

中央大学大学院 理工学研究科  数学専攻 西 真人 Nishi, Masato

1 はじめに

現象の結果と関連する複数の要因(説明変数)を結びつける回帰モデリングは,最小2乗法や最 尤法によってモデルを推定し,モデル評価基準によって変数選択を実行することによって,予測能 力の高いモデルを構築することができる.しかしながら,データ数に比して多数の説明変数をもつ 大規模モデルや説明変数間に強い相関がある多重共線性を有する線形回帰モデルは,最小2乗法や 最尤法は有効に機能せず予測能力の高いモデルは得られない.このような問題に対処するために,

損失関数に

L

1タイプのペナルティ項(正則化項)など様々な正則化項を課した目的関数の最小化 によってモデルを推定する方法が,一般に正則化法と呼ばれる手法である.

リッジ回帰は,正則化項として回帰係数の2乗和を課した推定法で,回帰係数を縮小推定するこ とによって,推定量の分散を減少させ,バイアスの微小な増加と引き換えに,推定の精度を上げる ことができるという特徴がある.しかし,リッジ回帰は回帰係数を

0

に向かって縮小推定するが,

回帰係数を完全に

0

と推定しないので,説明変数の個数が多いとき,解釈のしやすいスパースなモ デルが得られないという問題がある.一方, subset selectionは解釈のしやすいモデルを得ることが できるが,回帰係数の推定量の分散を減少させない.リッジ回帰と

subset selection

両者の特徴を 融合させた手法として, Lassoがある.

Lasso

は,正則化項として回帰係数の絶対値(L1ノルム)の和を用いた推定法で,推定の精度と

モデルの解釈のしやすさを改良する手法として

, Tibshirani (1996)

によって提唱された

. Lasso

は 回帰係数を縮小推定することによって,推定量の分散を減少させ,それと同時に回帰係数を完全に

0

と推定することによって,解釈のしやすいモデルを得ることができる.つまり

Lasso

の特徴は,

モデルの推定と変数選択が同時にできる点にある.しかし, Lassoには次のような欠点がある.(1) 次元数

p

とデータ数

n

に対して

p > n

のとき,高々

n

個の変数までしか選択できない,(2)相関 の強い変数のグループが含まれるとき,その中の1つだけを選択する傾向がある,

(3)

オラクル性 を持たない. 問題点

(1), (2)

を改善する手法として, Zou and Hastie (2005)によって

Elastic net

が提唱され,

(3)

を改善する手法として

Zou (2006)

によって

Adaptive lasso

が提唱された.さら に, Elastic netと

Adaptive lasso

の特徴を融合させた手法として, Zou and Zhang (2009)によって

Adaptive elastic net

が提唱された.本論文では,様々な正則化法の特徴を理論的に述べ,正則化

法の有用性を示す.

2 線形回帰モデル

目的変数

y

p

次元の説明変数ベクトル

x = (x

1

, x

2

, · · · , x

p

)

T に関して観測された

n

組のデー タ

{ (x

i

, y

i

); i = 1, 2, · · · , n }

に基づく線形回帰モデル

y

i

= β

0

+ β

1

x

i1

+ · · · + β

p

x

ip

+ ϵ

i

i = 1, 2, · · · , n (2.1)

1

(2)

を想定する.ここで,データは,p個の説明変数に関する

i

番目の実験点

x

i

= (x

i1

, x

i2

, · · · , x

ip

)

T で観測されたデータが

y

i であることを示す.また,

ϵ

iは互いに無相関で

E[ϵ

i

] = 0, E[ϵ

2i

] = σ

2と する.以後,

y = (y

1

, y

2

, · · · , y

n

)

T

, β = (β

1

, β

2

, · · · , β

p

)

T

, X = [x

1

, x

2

, · · · x

n

]

T とし,

X

は標準化 してあるとする.

3 様々な正則化法

リッジ回帰

(Hoerl and Kennard, 1970)

回帰係数のリッジ回帰推定量は,正則化項に

β

T

β

を付与した

β ˆ

ridge

= arg min

β

{ (y Xβ)

T

(y Xβ) + λβ

T

β }

(3.1)

によって与えられる.多重共線性(説明変数間の相関が高い)があるとき, det(XT

X ) 0

となり,

det(X

T

X) 0 cov( ˆ β

ols

) = σ

2

(X

T

X )

1

→ ∞

となる.よって

β ˆ

olsが不安定な推定量になっ てしまう.つまり,最小2乗推定量は偏り

(バイアス)

はないが,多重共線性を持つとき,分散が大 きくなるため,それに伴って平均2乗誤差(MSE)も大きくなってしまう.この問題を解決する一 つの方法として,

(3.1)

式のリッジ回帰が用いられる.

Lasso (Tibshirani, 1996)

回帰係数の

Lasso

推定量は,正則化項に

p j=1

| β

j

|

を付与した

β ˆ

lasso

= arg min

β

 

 (y Xβ)

T

(y Xβ) + λ

p j=1

| β

j

|

 

 (3.2)

によって与えられる. Lassoは推定と変数選択を同時にでき,スパースなモデルを構築することが できる.

Elastic net (Zou and Hastie, 2005)

回帰係数の

Elastic net

推定量は,正則化項に

λ

2

β

T

β + λ

1

p j=1

| β

j

|

を付与した

β ˆ

elastic net

= (1 + λ

2

) arg min

β

(y Xβ)

T

(y Xβ) + λ

2

β

T

β + λ

1

p j=1

| β

j

| (3.3)

によって与えられる.

補題

1

データ

(y, X )

を次のように

(y

*

, X

*

)

に変形する.

X

(n+p)* ×p

= (1 + λ

2

)

12

(

X λ

2

I

)

, y

*(n+p)

= (

y 0

)

. (3.4)

また

, γ = λ

1

1 + λ

2

, β

*

= √

1 + λ

2

β

とし

,

L(λ

1

, λ

2

, β) = (y Xβ)

T

(y Xβ) + λ

2

β

T

β + λ

1

p j=1

| β

j

| (3.5)

2

(3)

とする.ここで,(y*

X

*

β

*

)

T

(y

*

X

β

*

) = (y Xβ)

T

(y Xβ) + λ

2

β

T

β

となるので, (3.5) 式は

L(γ, β) = L(γ, β

*

) = (y

*

X

*

β

*

)

T

(y

*

X

*

β

:

) + γ

p j=1

| β

j*

| (3.6)

と変形できる..このとき,Elastic net推定量は

β ˆ

*

= arg min

β*

L(γ, β

*

) (3.7)

β ˆ

elastic net

= (√

1 + λ

2

) β ˆ

*

(3.8)

と表される

.

X

(n+p)* ×p

(n + p) × p

の行列で階数が

p

なので, Elastic net推定量は「p > nのとき,高々n 個の変数までしか選択できない」という

Lasso

の欠点を改良している.

定理1

β(λ ˆ

1

, λ

2

)

Elastic net

推定量とし, ˆ

β

i

1

, λ

2

) ˆ β

j

1

, λ

2

) > 0

とする.

D

λ12

(i, j) = 1

| y |

1

β ˆ

i

1

, λ

2

) β ˆ

j

1

, λ

2

)

と定義すると

D

λ12

(i, j) 1

λ

2

√ 2(1 ρ) (3.9)

が成り立つ.ただし,

ρ = x

Ti

x

jとする.よって, Elastic netは

grouping effect

を持つ.

Adaptive lasso (Zou, 2006)

β

n-consist(一致性)推定量 β ˆ

を使って重みをつける.重み

w = (w

1

, w

2

, · · · , w

p

)

の推定 量は

ˆ w = 1

β ˆ

γ

   

(3.10)

によって与えられる.ただし,

γ > 0

とする.

n-consist

推定量

β ˆ

β ˆ β = O (

1n

)

を満たす推

定量である.回帰係数の

Adaptive lasso

推定量は正則化項に

λ

p j=1

ˆ

w

j

| β

j

|

を付与した

β ˆ

Alasso

= arg min

β

(y Xβ)

T

(y Xβ) + λ

p j=1

ˆ

w

j

| β

j

| (3.11)

によって与えられる.Adaptive lassoは次の条件を満たす.よって,オラクル性を持つ.

1.

変数選択の一致性  

P

( { j : ˆ β

Alasso

} = Λ )

n

→∞

1 . (3.12)

2.

漸近正規性  

n

( β ˆ

AlassoΛ

β

Λ

)

d

N (

0, σ

2

× C

111

)

. (3.13)

ただし,

Λ = { 1, 2, · · · , p

0

}

は,真のモデルの

0

でない回帰係数の添え字の集合とし,

1

n X

T

X

n→∞

C

で,C

=

( C

11

C

12

C

21

C

22

)

とする.また,C11は,p0

× p

0行列とする.

3

(4)

Adaptive elastic net (Zou and Zhang, 2009)

Elastic net

推定量を使って重みをつける.

ˆ w

j

= (

β ˆ

elastic net

j

+ 1

n )

γ

(3.14)

ただし

, γ > 0

とする

. Adaptive elastic net

推定量は,次の式によって与えられる.

β ˆ

AdaEnet

= (1 + λ

2

)

 

 arg min

β

(y Xβ)

T

(y Xβ) + λ

2

β

T

β + λ

1

p j=1

ˆ w

j

| β

j

|

 

. (3.15)

Adaptive lasso

は説明変数の個数が多いときに不安定である.一方, Elastic netはオラクル性を持

たないという欠点がある.そこで, Adaptive lassoと

Elastic net

を組み合わせた

Adaptive elastic net

がある.

4 まとめ

修士論文では様々な

L

1タイプの正則化法の性質,特徴を理論的に研究し,高次元データの分析 における有用性を検証した.その結果,

Elastic net

は説明変数間の相関が考慮でき,高次元に対応 できる.Adaptive lassoは変数選択の一致性を持つ.Adaptive elastic netは,これらの望ましい 性質を持つことなどが理論的に明らかになった.

参考文献

[1]

川野秀一,廣瀬慧,立石正平,小西貞則

(2010).

「回帰モデリングと

L

1型正則化法の最近の展 開」

.

日本統計学会誌

39. 211-242.

[2]

小西貞則

(2010).「多変量解析入門」.

岩波書店.

[3] Konishi, S. (2014). Introduction to Multivariate Analysis: Linear and Nonlinear Modeling.

Chapman & Hall, New York.

[4] Hoerl, A. E. and Kennard, R. W. (1970). Ridge regression: biased estimation for nonorthog- onal problems. Technometrics 12, 55-67.

[5] Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society Series B 58, 267-288.

[6] Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net.

Journal of the Royal Statistical Society Series B 67, 301-320.

[7] Zou, H. (2006). The adaptive lasso and its oracle properties. J. Am. Statist. Assoc 101, 1418-1429.

[8] Zou, H. and Zhang, H. H. (2009). On the adaptive elastic-net with a diverging number of parameters. Ann. Statist 37, 1733-1751.

4

参照

関連したドキュメント

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

ヒュームがこのような表現をとるのは当然の ことながら、「人間は理性によって感情を支配

つまり、p 型の語が p 型の語を修飾するという関係になっている。しかし、p 型の語同士の Merge

Q7 

と判示している︒更に︑最後に︑﹁本件が同法の範囲内にないとすれば︑

2) ‘disorder’が「ordinary ではない / 不調 」を意味するのに対して、‘disability’には「able ではない」すなわち

られる。デブリ粒子径に係る係数は,ベースケースでは MAAP 推奨範囲( ~ )の うちおよそ中間となる

自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から