GAMとその周辺

(1)

GAM

とその周辺

田中祐輔

1∗

_伊庭克拓

2

_竹澤邦夫

3

_辻谷将明

4 1

_{大阪電気通信大学大学院工学研究科}

2

_{東京ＣＲＯ (株) DM 統計解析部}

3

_{独立行政法人農業・食品産業技術総合研究機構中央農業総合研究センター}

4

_{大阪電気通信大学情報通信工学部}

1 はじめに

近年のコンピュータ技術の飛躍的進歩や多様なデータの収集と蓄積によって，非線形性をもつ統計的多変量データ解析が脚光を浴びつつある．特に，平滑化スプライン，カーネルマシン，サポートベクターマシン (SVM:Support Vector Machine)などのマシン・ラーニング [6] が有力な武器になりつつある．本稿では，GAM の一種である平滑化スプラインによる判別モデルを取上げ [2, 4, 23]，シミュレーション研究を試みる [8]． 平滑化スプラインによるアプローチの利点は，i) 共 変量の非線形性を摘出し，ii) グラフ化により非線形構 造を視覚的に把握できる．更に，iii) モデルの未知パラ メータの最尤解が一意で，計算に要する時間が短い，などが挙げられる．しかし，平滑化スプラインは未知パラメータを推定するだけでは不十分であり，予測精度の高い平滑化スプラインを得るためには，最適な平滑化パラメータを決定しなければならない．局所評点化法を用いて，最適な平滑化パラメータをグリッド検索すると， ill-conditionに落込み，解が収束しないという欠点がある．その難点を回避するため，R では Wood[20, 22, 23] のアルゴリズムを採用している．本稿では，(１例消去) クロス・バリデーション (CV) 法による平滑化パラメータの決定について考察する． 2群判別問題の適用例として，共変量間に交互作用効果があると考えられるマサバ卵データ (表 1) を解析する [24]．これは，北大西洋のビスケー湾におけるマサバ資源に関する 634 例の調査データである．応答変数には egg(卵の有無) を取上げ，共変量として， lon(経度)，lat(緯度)，b.depth(√海底までの深さ;m)， c.dist(200m等深線からの距離;degree)，temp.surf (海 面温度) を考える．経緯度は調査地点を表す．海の状態 (深さ，水温など) は経緯度に対して逐一変化し，加法的な変化はせず，凹凸のあるねじれた構造をもつ．すなわち，経緯度に 2 因子交互作用があると考えられる．また， 200m等深線からの距離 (c.dist) は調査地点から大陸棚 ∗_{連絡先：大阪電気通信大学大学院工学研究科} 〒 572-8530 大阪府寝屋川市初町 18-8 E-mail: so3bs [email protected]

端までの距離の代用であり，(緯度)1 度=60 分，(緯度)1 分=1 海里=1852m から，距離は c.dist× 60 × 1852(m) と算出できる．

表 1: マサバ卵データ

No. lon lat b.depth c.dist temp.surf 群

1 -4.65 44.57 65.89 0.84 15.00 0 2 -4.48 44.57 65.83 0.86 15.40 0 . . . . . . . . . . . . . . . . . . . . . 334 -7.27 48.25 13.15 0.37 13.40 1 . . . . . . . . . . . . . . . . . . . . . 633 -3.72 47.25 10.00 1.00 16.40 1 634 -3.25 47.25 8.00 1.26 16.70 0

2 ロジスティック判別

2.1 平滑化スプライン

(1)

局所評点化法

2値応答 yiがベルヌーイ分布 B(1, πi)，すなわち， E[yi] = πi, V ar[yi] = πi(1− πi) に従うとき，n 組のデータを (x(i), yi) , i = 1,· · · , n と

する．x(i) = (x1(i),· · · , xI(i)) T は I 個の要素から成 る共変量ベクトルである．この x(i) を用い共変量の データ行列 x を x = (x(1),· · · , x(n))T とした, 平滑化スプライン ηi ∆ = ln ( πi 1− πi ) =

α + s1(x1(i)) + s2(x2(i)) +· · · + sI(xI(i)),

i = 1, 2, . . . , n (1)

に関する局所評点化法は，次の通りである ([4] の 2.3 節，[5] の 6.3 節)．

人工知能学会研究会資料 SIG-DMSM-A803-07 (3/3)

(2)

[ステップ 1(初期化)] ˆ sj(xj(i))≡ 0, j = 1, 2, . . . , I, i = 1, 2, . . . , n ˆ α = ln ( ¯ y 1− ¯y ) , y =¯ n ∑ i=1 yi / n [ステップ 2] ˆ ηi= ˆα, πˆi= 1 1 + exp(−ˆηi) [ステップ 3(反復)]    zi= ˆηi+ yi− ˆπi ˆ πi(1− ˆπi) :調整従属変数 wi = ˆπi(1− ˆπi) :重み として，(x(1), z1), (x(2), z2), . . . , (x(n), zn)に後 退当てはめ法を適用し，i = 1, 2, . . . , I について ˆ siを算出する．そして，ˆπiを推定する． [ステップ 4(収束判定)] 逸脱度 Dev(y, ˆπ) =−2 n ∑ i=1 {yiln ˆπi+ (1−yi) ln(1− ˆπi)} (2) が収束するまで [ステップ 3] を繰返す．ここに， y = (y1,· · · , yn) ′ とする． [ステップ 3] で用いられている後退当てはめ法は，I = 2の場合，以下の通りである： [ステップ 1(初期化)] zi= α + s1(x1(i)) + s2(x2(i))について，ˆs[0]₂ (x2(i))≡ 0 とする． [ステップ 2] x1(i)に対して，zi−ˆs [0] 2 (x2(i))− ˆα を平滑 化する．すなわち，yiを yi ∆ = zi− ˆs [0] 2 (x2(i))− ˆα とし， “ x1(1), z1− ˆs[0]2 (x2(1))− ˆα ” ,“x1(2), z2− ˆs[0]2 (x2(2))− ˆα ” , . . . ,“x1(n), zn− ˆs[0]2 (x2(n))− ˆα ” について，ˆs[1]₁ を算出する． [ステップ 3] x2(i)に対して，zi− ˆs [1] 1 (x1(i))− ˆα を平滑化し，ˆs[1]₂ を算出する． [ステップ 4] x1(i)に対して，zi− ˆs [1] 2 (x2(i))− ˆα を平滑化し，ˆs[2]₁ を算出する． [ステップ 5] ˆs[k]₁ (x1(i)), ˆs[k]₂ (x2(i))が収束するまで繰返す．なお，3 次の平滑化スプラインを用いると局所評点化法は，ペナルティ付き対数尤度 n ∑ i=1 {yiln πi+ (1− yi) ln(1− πi)} −n 2 I ∑ j=1 λj { s′′_j(t)}2dt (3) の最大化と等価である．SAS や S-Plus では，局所評点化法が採用されている．

(2) Wood

法

Wood[20, 22, 23]は，最適な平滑化パラメータ λ を 求めるアルゴリズムを提案している．B-スプライン関 数 f1(x1i), f2(x2i), . . .に基づくロジスティック・モデル ηi ∆ = ln ( πi 1− πi ) = X β n×m m×1 (4) を考える．例えば，I=2 なら s1(x) = q1 ∑ j=1 βjb1j(x), s2(x) = q2 ∑ j=1 βq1+jb2j(x) β = (β1, . . . , βq1, βq1+1, βq1+2, . . . , βq1+q2) X =      b11(x11)· · · b1,q1(x1n) b2,q1+1(x21)· · · b2,q1+q2(x2n) b11(x12)· · · b1,q1(x1n) b2,q1+1(x22)· · · b2,q1+q2(x2n) • · · · • • · · · • b11(x1n)· · · b1,q1(x1n) b2,q1+1(x22)· · · b2,q1+q2(x2n)      となる．ここに，q1, q2 は節点の個数である。対数尤度は l(y, X, β) = n ∑ i=1 {yiln πi+ (1− yi) ln(1− πi)} (5) で与えられる．ここに， πi= 1 1 + exp(−Xiβ) とする．ペナルティ付き対数尤度は lp= l(y, X, β)− 1 2 m ∑ i=1 λiβTSiβ (6) となる ([23] の p.168)．ただし，Siは (非負定) ペナルティ行列である．(6) 式のペナルティ付き対数尤度を最 大にする β をスコア法で求めることができる [20, 21]． (6)式は最小化 1 n n ∑ i=1 { (yi− πi)2 V ar[yi] } + m ∑ i=1 λiβTSiβ (7) と同等である ([23] の 4.3 節)1_{．スコア法の第 k 反復に} おいて，平滑化スプラインを用いた GAM の場合， { 重み : W[k]= Cov[y]の逆行列 調整従属変数 : z = Xβ + W[k]−1_(y_{− π)} 1₍₆₎_式より_−2l p=−2Pni=1li(ti,Xi,˛) +Pmi=1λi˛TSi˛ となる．よって，(6) 式の最大化は，(2) 式より，−2lp= Dev(y, ˆı)+ Pm i=1λi˛TSi˛ の最小化と同等になる．

(3)

とし，付録 A の (A.8) 式にペナルティ項を付けた        最小化 °°°√W[k]_(z− Xβ)°°_°2 +∑I_i=1λiβTSiβ w.r.t. β 制約式 Cβ = 0 (8) を解けばよい ([23] の p.185)．このとき，制約式の係 数 C は，∑m_j=1βj= 0, ∑m j=1βjxj= 0を意味する．こ の制約式に QR 分解 CT = U ( P 0 ) を施し，U を U ≡ (D : B) に分解する．β = BβBとおくと Cβ = ( PT₀) ( DT BT ) BβB= 0を満たす ([23] の 1.8.1 節)． (8)式は ˜z =√W[k]_{z, ˜}_{X =}√_W[_{k]XB, ˜}_S i= BTSiB とおくと最小化 °°°˜z − ˜XβB°°° 2 +∑λiβBTS˜iβB w.r.t. βB となり，ハット行列は ˜ Hλ= ˜X ( ˜ XTX +˜ ∑λiS˜i )−1 ˜ XT (9) と書ける [20]． ˜y =√W[k]_y_{とおくと，GCV 規準は} Vg= n∥˜y − ˜Hλy˜∥2 { n− tr( ˜Hλ) }2 (10) で与えられる．y の予測値 ˆyは ˆ y =√W[k]−1_H˜_λ_y_˜ ₍₁₁₎ から推定すればよい．なお，R では (10) 式の残差平方和を逸脱度で置換えた GCV 逸脱度 (Generalized Cross-Validated deviance) Vg= nDev(y, ˆπ) { n− tr( ˜Hλ) }2 (12) が採用されている ([5] の p.159，[23] の p.178，[13] の p.376)． ペナルティ付き対数尤度を最大化する λ = (λ1, λ2, . . . , λm)を求める際，(9) 式の ˜Hλに未知パラメータ λ が 含まれており，(9) 式が最小になる λ をニュートン・ラフ ソン法で求める ([23] の 4.6 節)．ς = (ς1, ς2, . . . , ςm)≡ (ln λ1, ln λ2, . . . , ln λm)とおくと，更新式 ς[k]= ς[k−1]− ( ∂2Vg ∂ςi∂ςj )−1 ς=ς[k−1] ( ∂Vg ∂ςi ) ς=ς[k−1] (13) を得る．∂Vg ∂ςi および ∂ 2_V g ∂ςi∂ςj の導出については，[15] に詳しい. 次に，予測変数が 2 個の場合につて，B-スプライン 関数の有意性検定について述べる． ηi ∆ = ln ( πi 1− πi ) = s1(x1i) + s2(x2i) = X β n×q q×1 (14) において，β = (β1; β2) = (β1, β2,· · · , βq1; βq1+1,· · · , βq1+q2)の例えば，最初の予測変数に関する帰無仮説 H0: β1= 0(i.e., β1= β2=· · · = βq1 = 0) を検定しよう．ベルヌーイ分布の場合，overdispersion は発生しないから，逸脱度に基づく尤度比検定を推奨する (overdispersion については，付録 B を参照せよ)． (14)式のモデルに関する逸脱度を Dev(1)，モデルの残 差自由度を ν1，帰無仮説のもとでのそれらを Dev(0) および ν0 とすると Dev(0)− Dev(1) ∼ χ2_ν₀_−ν₁ (15) となる ([2] の p.30). なお，R では，(14)，(15) 式に基づく F 検定 (Wald 検定) が採用されている2_．

2.2 薄板平滑化スプライン

n組のデータ (x(i), yi) , i = 1,· · · , n について，共変 量間に交互作用がある場合 ln ( πi 1− πi ) =∑ α<β sαβ(xα(i), xβ(i)), i = 1, 2,· · · , n (16) を考える [3, 18, 19]．ここで，(16) 式の右辺を s(x)≡∑ α<β sαβ(xα(i), xβ(i)), i = 1, 2,· · · , n (17) とおく．sαβ(xα(i), xβ(i))は薄い弾性体の板を曲げた形に似ていることに由来し，薄板スプライン(thin plate spline)と呼ばれている． 2値応答ベクトル y = (y1, y2,· · · , yn) T について，ペナルティー付き対数尤度 n ∑ i=1 { yis(x(i))− ln(1 + es(x(i))) } −n 2λJmI(η) (18) が最大になる s を推定する．ここに，∑ni=1{yis(x(i))− ln(1 + es(x(i))₎} _{は対数尤度である}3_．J mI(η)は揺動 (wiggliness)を測るペナルティー関数，λ は平滑化パラ 2_R_{のマニュアルはウェヴサイト} http://gd.tuwien.ac.at/languages/R/doc/packages/mgcv.pdf から得られる 3₍₃₎_{式の対数尤度は}Pn i=1{yiln πi+ (1− yi) ln(1− πi)} = Pn i=1{yiln “ _π i 1−πi ” + ln(1− πi)} =Pni=1{yis(x(i))− ln(1 + πi 1−πi)} と書ける．

(4)

メータである．揺動のペナルティーは JmI = ∫ · · ·∫_ℜI ∑ ν1+···+νI=m m! ν1!···νI! ( ∂ms ∂xν1₁ ···∂xνI_I )2 dx1· · · dxI (19) と定義する．揺動のペナルティに関する偏微分の階数 mは 2m > I を満たす整数値である．このとき，(18) 式が最大になる関数は s (x) = n ∑ i=1 ciηmI(∥x − x(i)∥) + M ∑ j=1 djϕj(x) (20) と表せる．ここに，c と d は T′c = 0, Tij = ϕj(x(i)) を満たす未知パラメータで，M = ( m + I− 1 I ) 個 の関数 ϕi(x)は線形独立な多項式である．更に ηmI(r) =        (−1)m+1+I/2 22m−1_πI/2_(m− 1)!(m − I/2)!r 2m−I_log(r) _{r :} 偶数 Γ(I/2− m) 22m_πI/2_(m− 1)!r 2m−I _{r :} 奇数 (21) となる ([3] の 4.4 節，[23] の 4.1.5 節)． 例えば、m = I = 2 の場合，(19) 式の JmIは， J22= ∫+_∞ −∞ ∫+_∞ −∞ {( ∂2s(x1,x2) ∂x2 1 )2 + 2 ( ∂2s(x1,x2) ∂x1∂x2 )2 + ( ∂2s(x1,x2) ∂x2 2 )2} dx1dx2 (22) となり，(20) 式において，T′c = 0より，ϕ1(x) = 1, ϕ2(x) = x1, ϕ3(x) = x2を得，(18) 式を最大にする解は η (x1, x2) = d0+ d1x1+ d2x2 + n ∑ i=1 ci· Gi(x1− x1(i), x2− x2(i)) (23) と表せる． (21)式より Gi(x1− x1(i), x2− x2(i)) = {_t2 i 8π· log(ti) , t > 0 0 , t = 0 (24) である. ただし， ti= √ (x1− x1(i))2+ (x2− x2(i))2 (25) である．データ数が n のとき，(23) 式には，n + 3 個 の未知パラメータが含まれている． 3個の不足するデータは 3 つの条件 n ∑ i=1 ci= 0, n ∑ i=1 cix1(i) = 0, n ∑ i=1 cix2(i) = 0 (26) に対応する ([13] の 4.3 節)． ちなみに，m = 2, I = 1 の場合，(19) 式の JmIは， J21= ∫ +∞ −∞ ( ∂2s (x) ∂x2 )2 dx (27) を得る．(20) 式において，TT_{c = 0}_{より ϕ1(x) = 1,} ϕ2(x) = xを得，(18) 式を最大にする解は s (x) = d0+ d1x + n ∑ i=1 ci|x − xi|3 (28) と表せる．データ数が n のとき，(28) 式には，n + 2 個の未知パラメータが含まれている．2 個の不足するデータは 2 つの条件 n ∑ i=1 ci= 0, n ∑ i=1 cixi= 0 (29) に対応する [12].

2.3 リサンプリング法

グループ化されていない 2 値データ (すなわち，ベルヌーイ分布) の場合，(2) 式の逸脱度に対する漸近カイ二乗性は成立たない ([1] の 3.8.3 節，[10]，[14],[15],[16])．そこで，ブートストラップ法 [9] を援用し，(2) 式の棄却点を算出する: [ステップ 1] 初期標本 X = (X<1>_{, X}<2>_{, . . . , X}<n>₎ からリサンプリング（ペア・サンプリング）によ り，B 個のブートストラップ標本 X∗= (X<1>∗, X<2>∗, . . . , X<n>∗) を生成する． [ステップ 2] b(= 1, . . . , B) 番目のブートストラップ標 本を Xb∗とし，逸脱度 Dev(b) =−2 ln L ( X_b∗;β(Xˆ_b∗) ) (30) を計算する．ここに， ˆβ(X_b∗)は b 番目のブート ストラップ標本 X_b∗から推定される回帰係数で， その推定値から算出される Xb∗の対数尤度が ln L ( X_b∗;β(Xˆ_b∗) ) である．

(5)

[ステップ 3] Dev≥ Dev∗なら，有意水準 α でモデル は妥当でないとみなす．ここに，Dev は初期標本 に対する (2) 式の逸脱度で， Dev∗= Dev(b)を小さい順に並べたときの 第 j 番目の値，α = 1− j/(B + 1) とする．

2.4 適用例

2群判別問題の実際例として，5 個の共変量から成る表 1 のマサバ卵データを取上げる．このデータについて，交互作用スプラインモデル ln ( p 1− p )

= s(lon, lat) + s(b.depth)

+s(c.dist) + s(temp.surf ) を当てはめる．すなわち，lon と lat とに薄板平滑化ス プラインを用いる．このモデルについて，(１例消去)CV 法による厳密解法を採用し、自由度 (平滑化パラメータ) の最適選択を 行う．Wood 法 (GCV 規準) との比較結果を表 2 に示 す．なお，厳密解法で最適化を行った結果より GCV を，Wood 法で最適化を行った結果より CV をそれぞ れ再計算している．同表から，Wood 法による結果で は，厳密解法に比べて GCV が小さくなり，逸脱度も かなり小さくなる．よって，データへの当てはまりが 良いといえる．しかし，厳密解法に比べて CV が大き い．図 1 に s(c.dist) の推定値を示す．図 1(b) は Wood 法による結果であり，図 1(a) の厳密解法と比べて，推 定値曲線の凹凸が多く，GCV 規準による最適 df 値の 選択ではデータへの過剰当てはめの傾向が見られる．次に，CV 法による厳密解法の結果について考察を 加える．図 2 は，b.depth に対する平滑化スプラインの 推定値 (実線) である．実線の周りの領域は，推定値からその標準偏差の 2 倍離れた位置を示している．同図 では，b.depth に対する非線形性が顕著に現れており， マサバが生息する最適な海域が，海底 900m 程度の海域であることが分かる．図 3(a) に経緯度に対する薄板平滑化スプラインの推定値 (曲面) を示す．また，図 3(b) にその等高線図を示す．図 3(a) より，薄板平滑化スプラインは共変量が 2 (a) CV法による厳密解法 (b) Wood法 図 1: s(c.dist) の推定値 !" #$ % &'( )* ' 図 2: s(b.depth) の推定値 個の場合，滑らかな曲面をもってデータ構造を表現する．次に，図 3(b) は，白い部分に近づくほどマサバ卵が捕れやすく，黒い部分に近づくほど捕れにくいことを表す．ここから，フランス西岸のビスケー湾ではマサバがあまり生息しておらず，そこから北西の沖合に多く生息している傾向が見られる．平滑化スプラインを適用した効果を調べるため，各共変量に関する尤度比検定を行なう． • s(lon, lat) Dev(0)− Dev(1) = 521.23 − 438.68 = 82.54 df = 625.59− 614.51 = 11.08 82.54 > 24.85 = χ2 11.08(0.01) 表 2: 最適 df 値の比較

s(lon, lat) s(b.depth) s(c.dist) s(temp.surf ) CV GCV 逸脱度 CV法による厳密解法 12.22 2.69 1.89 1.69 0.76 0.74 438.68 Wood法 (GCV 規準) 20.74 2.40 8.04 3.86 0.83 0.72 406.54

(6)

(a) 3次元プロット ! " # $% (b)等高線図 図 3: s(lon, lat) の推定値 • s(b.depth) Dev(0)− Dev(1) = 447.08 − 438.68 = 8.40 df = 616.72− 614.51 = 2.21 8.40 > 6.38 = χ2 2.21(0.05) • s(c.dist) Dev(0)− Dev(1) = 446.83 − 438.68 = 8.15 df = 615.95− 614.51 = 1.44 8.15 > 7.85 = χ2_1.44(0.01) • s(temp.surf) Dev(0)− Dev(1) = 442.66 − 438.68 = 3.98 df = 615.91− 614.51 = 1.40 3.98 > 3.51 = χ2 1.40(0.10) より，各共変量は有意である．これらの結果より，経度 (-15∼-10 度)，緯度 (48∼55 度) の座標において，海底までの深さ 900m 程度の海域で産卵される可能性が高い，つまり，マサバの生息範囲がこの辺りに集中していることが分かる．このように平滑化スプラインを適用することによって，母集団構造の非線形性を摘出し，その非線形構造を視覚的に把握するグラフ表現が可能になる．ペア・サンプリングに基づく逸脱度のブートストラッピングに対するヒストグラムを図 4 に与えておく．同 図より，Dev∗ = 454.70 > 438.68 = Devを得，モデルは妥当とみなす. 次に一つの観測値を除去することによるモデル適合度への影響を調べるため逸脱度に関する DIFDEV(Diﬀere nce of Deviance)

∆Dev[d]= Dev− Dev[d] (31)

! " # $ 図 4: ブートストラップされた逸脱度のヒストグラム を用いる ([7] の 5.3 節)．ここに，Dev と Dev[d]は，そ れぞれ初期標本および d 番目の個体を除去したときの 逸脱度である．Dev の自由度 df = n− p, Dev[d] の 自由度 df = n− p − 1 より，∆Dev[d]の自由度 df = n− p − (n − p − 1) = 1 となる．よって，∆Dev[d]は自由度 1 のカイ二乗分布に従う．図 5 に DIFDEV をプロットしておく．同図から，有意水準 1% で No.601 が影響観測値であることが分かる．この観測値を除去後の逸脱度は 429.92 と減少する．

(7)

図 5: DIFDEV

3 シミュレーション

3.1 シミュレーション設計

本稿のシミュレーションでは，各観測値の共変量を x = (x1, x2)Tの 2 個とし，それぞれ [−1, +1] 区間の一 様乱数として生成する．そして，生成した x = (x1, x2)T を p = 1 1 + exp{−f(x1, x2)} (32) に代入して，各観測値を 2 つの群に分ける．f (x1, x2) は任意の非線形関数を用いることができる．f (x1, x2) として，Vach モデル [17] を変型した f (x1, x2) = sin(2πx1) + αx1x2+ sin(2πx2) (33) を採用する．(33) 式の α は，第 2 項を共変量間の積に よる交互作用項と見なし，交互作用効果の大きさを調 整する．ここでは，α = 1, 10 とする．p は 0≤ p ≤ 1 と なり，p の 3 次元プロット (x1, x2, p)は図 6,7 のようになる．同図より，交互作用効果が大きくなるほど，データ構造にはねじれた形状が顕著になる．各観測値は，ベルヌーイ乱数 y∼ Bin(1, p), y = { 1(第 1 群) 0(第 2 群) (34) に基づいて 2 つの群に分割される．よって，シミュレー ション・データは共変量 x = (x1, x2)T_{と 2 値応答 y と} をもつ観測値から成る．本稿ではモデルへのサンプル・サイズの影響を調べ るため，サイズを 100, 200, 400, 600, 800, 1000 例と変化 させた訓練標本を生成する．次に，構築したモデルの未知の標本に対する判別精度を評価するため，同サイズの検証標本を生成する． 図 6: 3 次元プロット (α = 1) 図 7: 3 次元プロット (α = 10) 図 8 に，α = 10 における 1000 例のシミュレーショ ン・データを示す．図 8(a) は，図 7 の 3 次元プロット を p に関する等高線図に置き直したものである．同図 の白の部分は確率 p が高い部分を，黒の部分は低い部 分をそれぞれ表す．散布図は図 8(b) のように表わされ， 図 8(a) の等高線図の白の部分，すなわち，確率 p が高 い右上と左下部分に第 1 群に属する個体が集まる．ま た，灰色の確率 p が 0.5 付近では，群がばらつく傾向 が見られる．

3.2 性能評価

生成したシミュレーション・データを用いて，以下の 2 つのモデルの非線形性をもつデータへの有効性を比較検討する． • 主効果スプラインモデル ln ( p 1−p ) = s(x1) + s(x2) • 交互作用 (薄板) スプラインモデル ln ( p 1−p ) = s(x1, x2) 他のマシン・ラーニングの手法として，ニューラルネットワーク，および従来手法として，線形判別モデ

(8)

(a)等高線図 (b)散布図 図 8: シミュレーション・データ (α = 10) ルとロジスティック判別モデルを取上げる．シミュレーション・データは，1000 例の訓練標本と検証標本とを 1 組とし，各標本に対して，直前のサイズを含む形で 100 例から 1000 例までの 6 サイズを設定する． そして，交互作用効果を調整した α = 1, 10 について， 個体を変えた各 100 組のデータを生成する．α = 1, 10 の 2 パターンについて，それぞれ 100 試行のシミュレーションを行った結果について考察する．なお，各試行における最適な平滑化パラメータの決定には Wood 法を用いる．また，ニューラルネットワークの最適な隠れユニット数は，すべての試行において，100,200 例では 5 個，400,600,800,1000 例では 6 個とする．

(1)

α = 1

α = 1において，図 9 にサンプル・サイズを変えたときの，種々のモデルの下での誤判別率を示す．各サイズについて，図の左から主効果スプライン，交互作用スプライン，ニューラルネットワーク，線形判別，ロジスティック判別の結果である．図 9(a) はモデルの構築に用いたデータ (訓練標本) に対する判別結果であり，図 9(b) は未知のデータ (検証標本) の結果である．また，箱ひげ図のひげの長さは，箱の長さの 1.5 倍とし，その上端・下端はひげの長さ以内の最大値・最小値である．図 9(b) より，検証標本において，主効果スプライン，交互作用スプラインの誤判別率がもっとも小さく，将来のデータに対する判別精度がもっとも良い．また，ニューラルネットワークにおいても誤判別率は小さくなり，これらのモデルはデータの非線形構造を近似できている．それに対して，従来手法の線形判別，ロジスティック判別は，全体的に他のモデルと比べて判別精度に劣る．よって，非線形性をもつデータに対して，従来手法よりも有効であることが確認できる．次に，サンプル・サイズについて考察を加える．主効果スプライン，交互作用スプライン，ニューラルネットワークでは，100,200 例において，図 9(a) の訓練標本の誤判別率が他のサイズと比べて小さい．それに対して，図 9(b) の検証標本では誤判別率が大きくなる．よって，サイズが小さい場合には，モデル構築に利用するデータへの過剰当てはめの傾向が見られる．しかし，このときスプラインモデルにおいて，逆に非常に強い (a)訓練標本 (b)検証標本 図 9: 誤判別率に関する箱ひげ図 (α = 1)

(9)

平滑化，すなわち，平滑化パラメータに大きな値が選ばれるケースも見られる．その際の判別精度は，線形判別，ロジスティック判別の結果と類似する．これらの傾向は，100,200 例における訓練標本の誤判別率のばらつきが大きいことに表れており，サイズが小さい場合には，モデル構築がデータによる影響を強く受ける． 400例では，検証標本の誤判別率が減少する．その後，サイズが大きくなるに従い，緩やかに減少し，判別精度の向上が確認できる．また，誤判別率のばらつきも小さくなり，安定したモデルが得られている．更に，訓練標本の誤判別率は，サイズが大きくなるに従い，検証標本の結果へと近づく．よって，サンプル・サイズが十分に大きい場合には，モデル構築に用いるデータから，構築したモデルの将来のデータに対する判別精度を評価できる．

(2)

α = 10

α = 10において，図 10 にサンプル・サイズを変えたときの，種々のモデルの下での誤判別率を示す．同図より，2 因子交互作用効果が大きくなると，主効果スプラインの誤判別率は大きくなる．その判別精度は，線形判別，ロジスティック判別と類似している．一方，交互作用スプライン，ニューラルネットワークの判別精度は良い．この結果より，この 2 つのモデルは，交互作用効果を考慮したモデルを構築できることが分かる． また，サンプル・サイズによる傾向は，α = 1 の場 合と同様である．

3.3 モデル評価

構築したモデルの真のモデルへの近似精度を比較検 討する．ここでは，確率 p と推定値 ˆpとの平均二乗誤差に基づく比較を行う．また，各モデルについて，推定値 ˆpに関する 3 次元プロットを取上げ，視覚的に考 察する．評価対象として，α = 1, 10 から，それぞれ 1 組のシミュレーション・データを用いて構築したモデルを取上げる．

(1)

α = 1

α = 1について，図 11 はサンプル・サイズに対する種々のモデルの平均二乗誤差を示す．また，図 13 に 100,400,1000例における推定値 ˆpに関する 3 次元プロットを示す．図 11 より，主効果スプライン，交互作用スプライン，ニューラルネットワークは，サイズが大きくなると共に真のモデルとの誤差が小さくなる．ここでは主効果スプラインがもっとも近似精度が良いといえる．それに対して，線形判別，ロジスティック判別は，誤差がサイズが大きくなると共に緩やかに大きくなる．また，図 13 より，図 6 の真のモデルと比べて，主効果スプライン，交互作用スプライン，ニューラルネットワークは，100 例ではデータのもつ非線形な構造を表現できていないが，400,1000 例では非線形構造を的確に表現している．一方，線形判別，ロジスティック判別は，真のモデルを近似できておらず，サイズに対してモデルが大きく変化する様態が見られない． (a)訓練標本 (b)検証標本 図 10: 誤判別率に関する箱ひげ図 (α = 10)

(10)

図 11: サンプル・サイズに対する平均二乗誤差 (α = 1)

(2)

α = 10

α = 10において，図 12 にサンプル・サイズに対する種々のモデルの平均二乗誤差を示す．また，図 14 に 100,400,1000例における推定値 ˆpに関する 3 次元プロットを示す．図 12 より，2 因子交互作用効果が大きくなるため，主効果スプラインでは，真のモデルとの誤差が大きくなり，その結果は線形判別，ロジスティック判別と類似する．一方，交互作用スプライン，ニューラルネットワークは，真のモデルとの誤差が小さく，交互作用を含むデータ構造を近似している．また，図 14 より，図 7 の真のモデルと比べて，主効果スプラインは交互作用を含むデータ構造を表現できず，平面に近いモデルとなる．交互作用スプライン，ニューラルネットワークは，このようなデータ構造を近似している．2 変量間の積による交互作用効果は，ねじれた構造をもって表現される．また，100 例において推定値 ˆpが 0 または 1 に近い値となり，過学習の傾向が見られる． 図 12: サンプル・サイズに対する平均二乗誤差 (α = 10)

4 結び

本稿では，2 群判別問題を例とし，一般化加法モデル (GAM)の一種である平滑化スプラインについて，自由度 (平滑化パラメータ) の最適選択とシミュレーションを行った．平滑化スプラインは最適な自由度の決定が必要となるが，データのもつ非線形な構造を抽出し，グラフ化により視覚的に把握することができる．この非線形性の可視化は，他のマシン・ラーニングの手法であるニューラルネットや SVM などでは不可能であり，平滑化スプラインを用いる利点である．シミュレーションにおいては，シミュレーション・データを用いて，非線形性をもつデータに対して，従来の解析手法よりも有効であることを示した．また，サンプル・サイズについて，サイズが大きくなると共に未知のデータに対する判別精度は向上する．しかし，サイズが小さい場合には安定したモデルが得られないことに留意する必要がある．更に，薄板平滑化スプラインおよびニューラルネットワークを適用することによる 2 因子交互作用のモデル化が有効であることを確認した．

(11)

(a)主効果スプライン (100 例) (b)主効果スプライン (400 例) (c)主効果スプライン (1000 例) (d)交互作用スプライン (100 例) (e)交互作用スプライン (400 例) (f)交互作用スプライン (1000 例) (g)ニューラルネット (100 例) (h)ニューラルネット (400 例) (i)ニューラルネット (1000 例) (j)線形判別 (100 例) (k)線形判別 (400 例) (l)線形判別 (1000 例) (m)ロジスティック判別 (100 例) (n)ロジスティック判別 (400 例) (o)ロジスティック判別 (1000 例) 図 13: 推定値 ˆpに関する 3D プロット (α = 1)

(12)

(a)主効果スプライン (100 例) (b)主効果スプライン (400 例) (c)主効果スプライン (1000 例) (d)交互作用スプライン (100 例) (e)交互作用スプライン (400 例) (f)交互作用スプライン (1000 例) (g)ニューラルネット (100 例) (h)ニューラルネット (400 例) (i)ニューラルネット (1000 例) (j)線形判別 (100 例) (k)線形判別 (400 例) (l)線形判別 (1000 例) (m)ロジスティック判別 (100 例) (n)ロジスティック判別 (400 例) (o)ロジスティック判別 (1000 例) 図 14: 推定値 ˆpに関する 3D プロット (α = 10)

(13)

謝辞

本稿をまとめるに当たり，日本科学技術連盟 DE・O 部会におきましては，大変貴重なご意見を頂きました．ここに記して厚く御礼申し上げます．

参考文献

[1] Collett,D.(2003): Modelling Binary Data, 2nd ed., Chapman and Hall, London.

[2] Faraway,J.J.(2006) Extending the Linear Model

with R Generalized linear,Mixed Eﬀects and Nonparametric Regression Models, New York,

Chapman & Hall.

[3] Gu, C.(2002): Smoothing Spline ANOVA

Mod-els, Springer, New York.

[4] Hastie, T.J. and Tibshirani, R.J. (1987): Gen-eralized additive models: Some applications, J.

Amer. Stat. Assoc. 82, 371-386

[5] Hastie, T.J. and Tibshirani, R.J.(1990):

Gener-alized Additive Models, Chapman and Hall,

Lon-don.

[6] Hastie, T., Tibshirani, R. and Freidman, J. (2001): The Elements of Statistical Learn-ing: Data Mining, Inference, and Prediction, Springer, New York.

[7] Hosmer,D.W. and Lemshow,S. (2000):Applied Logistic Regression, John Wiley, New York. [8] 伊庭克拓，辻谷将明 (2006): ニューロ判別モデル

に関するシミュレーション研究，大阪電気通信大 学研究論集 (自然科学編), 41, 13-39

[9] Ishiguro, M., Sakamoto, Y. and Kitagawa, G. (1997): Bootstrapping log likelihood and EIC, An extension of AIC. Ann. Inst. Stat. Math. 49, 411-434.

[10] Landwehr, J.M, Pregibon,D. and Shoe-maker,A.C.(1984): Graphical methods for assessing logistic regression models. J. Amer.

Stat. Assoc. 79, 61-71.

[11] Ruppert,D., Wand, M.P., and Caroll,R.J.(2003): Semiparametric Regression, Cambridge Univ. Press,Cambridge.

[12] 桜井明 (1993):C によるスプライン関数，東京電機大学出版局．

[13] Takezawa, K.(2006): Introduction to Nonpara-metric Regression, John Wiley.

[14] Tsujitani, M. and Koshimizu,T.(2000)：Neural Discriminant Analysis. IEEE Trans. Neural

Net-works 11, 1394-1401.

[15] 辻谷将明，外山信夫 (2007):R による GAM 入門, 行動計量学, 34, 111-131.

[16] M.Tsujitani and M.Sakon(2009): Analysis of survival data having time-dependent covari-ates.IEEE transactions on Neural Networks, in Press. ”

[17] Vach, W., Roβner, R., and Schumacher, M.(1996): Neural betworks and logistic regres-sion:Part II, Comput.Statist. & Data Analy., 21, 683-701.

[18] Wang, Y., Wahba, G., Gu, C., and Klein, R., and Klein, B.(1997): Using smoothing spline ANOVA to examine the relation of risk factors to the in-cidence and progression of diabetic retinopathy,

Statist. Medicine, 16, 1357-1376.

[19] Wang, Y.(1997): GRKPAK: Fitting smoothing spline ANOVA models for exponential families,

Commun. Statist.-Simulat. Comput., 26,

765-782.

[20] Wood,S.N. (2000): Modelling and smoothing parameter estimation with multiple quadratic penalties,J. Roy. Statist. Soc. B, 62, 413-428. [21] Wood,S.N. and Nicole H.Augustin(2002): GAMs

with integrated model slection using pe-nalized regression splines and applications to environmental modelling, Ecological

Mod-elling, 157, 157-177.

[22] Wood,S.N.(2004):Stable and eﬃcient multiple smoothing parameter estimation for generalized additive models, J.Amer.Stat.Asoc.,99,673-686. [23] Wood,S.N.(2006) Generalized Additive Models

An Introduction with R, New York, Chapman &

Hall.

[24] Wood,S.N.(2008):Fast stable direct ﬁtting and smoothness selection for generalized additive models, J.Roy. Statsit.Soc. B,70,495-518.

(14)

A

ロジスティク判別モデルのパラメー

タ推定とハット行列

ペナルティ項をもたない (A.1) 式の対数尤度につい て，未知パラメータ β を推定する．Newton-Raphson 法の更新式は β[k+1] = β[k]− [ ∂2_l(β) ∂β∂β ]−1_{∂l (β)} ∂β (A.1) で与えられる．対角要素 π[k]₍₁_{− π}[k]₎_{をもつ n}_{× n 対} 角行列を W[k]_{とすると，} ∂l (β) ∂β = X T_(y_{− π)} _(A.2) ∂2_l(β) ∂β∂β =−X T_W[k]_X _(A.3) より，( A.1) 式は β[k+1]= β[k]+ (XTW[k]X)−1XT(y− π) = (XTW[k]X)−1XTW[k] {Xβ[k]_{+ W}[k]₋₁_(y_{− π)} (A.4)} となり，調整従属変数 z を z = Xβ[k]+ W[k]−1(y− π) (A.5) とおくと β[k+1] = (XTW[k]X)−1XTW[k]z (A.6) と書ける．これは，反復再重み付き最小二乗法 IRLS(Iter atively Reweighted Least Squares)と呼ばれている． (A.5)式は W[k](z− Xβ[k]) = y− π (A.7) と書換えられるから，最小化 °°° √ W[k]_(z_{− Xβ)}°°_°2 _(A.8) と同等である ([6] の p.99). 今，ˆπ≡ π ( X ˆβ ) について π(X ˆβ)− π(Xβ) ≈ H(y − π) (A.9) となるようなハット行列 H を求めよう．(A.4) 式から ˆ β− β ≈ (XTW[k]X)−1XT(y− π) (A.10) を得，π(X ˆβ)を π(Xβ) の周りで Taylor 近似すると π(X ˆβ)−π(Xβ) ≈ W[k]X(XTW[k]X)−1XT(y−π) (A.11) となる ([11] の p.212)．

B

Overdispersion

ni回中 1 の生ずる回数 Yi(確率変数) が yiである確 率は二項分布 N (yi, πi) ( ni yi ) πyi i (1− π yi i ) ni−yi_{, y} i= 0, 1, . . . , ni (B.1) となる．二項分布では { E [Yi] = πi V ar [Yi] = niπi(1− πi) (B.2) となる．このとき，K の予測変数 x1, x2, ..., xKをもつロジスティック回帰モデルを考える．これは，同じ予 測変数 xkをもつ niの個体は同じ期待値 πi，同じ分散 niπi(1− πi)をもつと仮定している．しかし，同じ予 測変数 xkをもつ niの個体間には個体差があり，i 番目 の実際の応答確率 piは πiの周りに変動し { E [pi] = πi V ar [pi] = ϕπi(1− πi) (B.3) であると仮定する．ここに，ϕ (≥ 0) は未知のスケール・ パラメータである．このとき，piのもとでの Yiの条件付き分散は V ar [Yi|pi] = nipi(1− pi) (B.4) で与えられる．よって， V ar [Yi] = E{V ar [Yi|pi]} + V ar {E [Yi|pi]} = niπi(1− πi){1 + (ni− 1) ϕ} (B.5) となり，Yiの分散は niπi(1− πi)より大きくなる．これ を overdispersion という．しかし，本稿のように ni= 1 のベルヌーイ分布の場合，(B.5) 式は V ar [Yi] = πi(1− πi) (B.6) となり，二値応答データは ϕ に関するいかなる情報も 与えない ([1] の 6.2 節)．

GAMとその周辺

GAM

とその周辺

田中祐輔

伊庭克拓

竹澤邦夫

辻谷将明

大阪電気通信大学大学院 工学研究科

東京ＣＲＯ (株) DM 統計解析部

独立行政法人 農業・食品産業技術総合研究機構 中央農業総合研究センター

大阪電気通信大学 情報通信工学部

1

はじめに

2

ロジスティック判別

2.1

平滑化スプライン

(1)

局所評点化法

(2) Wood

法

2.2

薄板平滑化スプライン

2.3

リサンプリング法

2.4

適用例

3

シミュレーション

3.1

シミュレーション設計

3.2

性能評価

(1)

α = 1

(2)

α = 10

3.3

モデル評価

(1)

α = 1

(2)

α = 10

4

結び

謝辞

参考文献

A

ロジスティク判別モデルのパラメー

タ推定とハット行列

B

Overdispersion

_伊庭克拓

_竹澤邦夫

_辻谷将明

_{大阪電気通信大学大学院工学研究科}

_{東京ＣＲＯ (株) DM 統計解析部}

_{独立行政法人農業・食品産業技術総合研究機構中央農業総合研究センター}

_{大阪電気通信大学情報通信工学部}