229 頁∼ 256 頁
深層学習の統計理論
鈴木 大慈
∗Statistical Theory of Deep Learning
Taiji Suzuki∗ 本稿では深層学習がなぜうまくいくのかという疑問に答えるべくその統計理論を紹介する.特 にその関数近似能力および推定能力に関して議論し,深層学習には対象の関数に合わせた適応的 推定が可能であることを紹介する.そのため,深層学習の万能近似能力を紹介した後,Barron ク ラスや非等方的 Besov 空間における推定理論とミニマックス最適性を議論し,線形推定量と比 べて次元の呪いを回避できることや関数の滑らかさの非一様性への適応性といった優れた性質を 持っていることを紹介する.最後に,パラメータがサンプルサイズよりも多いニューラルネット ワークがいかに汎化するかをカーネル法の観点から解析した汎化誤差理論を紹介する.
In this paper, we introduce some statistical theories of deep learning toward answering why deep learning works well. In particular, we discuss its function approximation ability and estimation ability, and present that deep learning can adaptively estimate a target function. For that purpose, first we explain its universal approximation ability, and next we discuss the estimation ability for some function classes such as the Barron class and the anisotropic Besov space on which we discuss minimax optimality of estimators. We show that deep learning has favorable properties such as avoiding curse of dimensionality and adaptivity to inhomogeneity of smoothness of the target function unlike linear estimators. Finally, we show a generalization error analysis of deep learning that utilizes the perspective of kernel methods to explain how deep learning can generalize even though the number of parameters is larger than the sample size.
キーワード: 深層学習,Besov 空間,Barron クラス,カーネル法,スパース推定,ミニマックス 最適性
1. はじめに
深層学習は 2012 年の AlexNet (Krizhevsky et al. (2012)) を皮切りにパターン認識タス クにおいて高い性能を示しており,現今の機械学習研究において中心的な研究対象となっ ている.一方で,その理論的理解はまだまだ浅く未解明な部分が多い.この状況を打破す べく,現在様々な方向から深層学習の理論研究がなされている.深層学習の理論研究は主
に分けて,「近似理論」「汎化誤差理論」「最適化理論」に分けられるが,本稿では主に「近 似理論」と「汎化誤差理論」を重点的に紹介する. まず,深層学習には「万能近似能力」があることが知られている.これは,連続関数全体 のような広い関数クラスにおいて深層ニューラルネットワークのモデルが稠密になること を主張するものである.なので,理想的にはサンプルサイズおよびモデルサイズが無限に あればどのような問題も解けるということを意味する (3 節).しかし,実際には有限のサ ンプルサイズ,有限のモデルサイズで学習を行う必要があり,その時の推定および近似の 精度を評価する必要がある.実は,そのような精度の比較において深層学習は,高い「適応 能力」にあることがわかっており,それが「浅い」学習手法に対する優位性を示すことにな る.すなわち,中間層による特徴抽出によって対象の関数に合わせた「適切な」基底関数 の構成ができ,それによってその近似精度および推定精度が基底関数を固定する浅い学習 方法を優越する.これはウェーブレット解析やスパース推定と密接に関係しており,その 意味で深層学習は無限次元空間においてスパース推定をしている手法であると言える.本 稿ではこのことをノンパラメトリック回帰の設定で解析する理論を紹介する.真の関数と して Barron クラスと呼ばれる関数クラスに入っている場合(4 節),および非等方的 Besov 空間と呼ばれる関数クラスに含まれる場合 (5 節) を考察し,それぞれにおいて深層学習が 「良い」推定精度を達成する一方で,カーネル法のような基底を固定する手法が次元の呪い を受けたり,関数の滑らかさの非一様性に対応できないことを紹介する. また,実用上深層学習を現実の諸問題に適用するとき,データサイズよりもはるかに大き なパラメータ数を用いることが多い.そのような状況では過学習する可能性があるが,実際 の運用においてはそこまで過学習が起きないことが観測されている.この現象を説明する 理論として,陰的正則化の理論や統計的自由度を用いた汎化誤差解析などがある.本稿で は,深層学習とカーネル法の類似性を通して汎化誤差の解析を行う理論を紹介する (6 節). 最後に,本稿で紹介する理論で現れる推定誤差の収束レートおよび関連研究の収束レー トを表 1 にまとめておく. 2. 問題設定 本稿では基本的にノンパラメトリック回帰の問題を中心にして話を進める.本稿で紹介 する理論は適切な処理により,判別といった問題へも修正可能である.本稿で扱うノンパ ラメトリック回帰のモデルは以下のように与えられる: yi= fo(xi) + ξi (i = 1, . . . , n). (2.1) ただし,xiは Ω = [0, 1]d上の確率測度 PXから独立同一に生成され,ξiは xiとは独立な 観測ノイズで ξi∼ N(0, σ2) とする.観測データを Dn= (xi, yi)ni=1と書き,これより真の
表 1 本稿で紹介する収束レートおよび関連研究のレート.β は真の関数の滑らかさを表し,d は入力 x の次
元,D はそのデータが分布している低次元構造の次元, eβ は非等方的 Besov 空間の平均的滑らかさ (式 (5.1)),
α は領域分割の境界の滑らかさである.u の定義は元論文 (Suzuki (2019)) を参照されたい. ˜O(·) は poly-log(n)
オーダーを省略した記号である.
(1) 関数の滑らかさと収束レートの関係
関数クラス H¨older Barron Besov Piece-wise H¨older
著者 Schmidt-Hieber (2020)
Barron (1993) Suzuki (2019) Imaizumi and Fukumizu (2019)
推定誤差 O(n˜ −2β+d2β ) O(n˜ −12) O(n˜ − 2β 2β+d) O(n˜ − 2β 2β+d ∨ n−α+(d−1)α ) (2) 入力の次元および分布の低次元構造と収束レートの関係 関数クラス m-Besov H¨older on a low-dim. set anisotropic Besov
著者 Suzuki (2019) Nakada and Imaizumi (2020), Schmidt-Hieber (2019), Chen et al. (2019b)
Suzuki and Ni-tanda (2019) 推定誤差 O(n˜ −2β+12β × log(n)2(d−1)(u+β)1+2β ) ˜ O(n−2β+D2β ) O(n˜ − 2 eβ 2 eβ+1) 関数 foを推定する.説明変数 x の定義域が Ω = [0, 1]dである設定は,ある条件を満たす コンパクトな閉領域に拡張することは可能ではあるが1),本稿で用いる関数近似理論にお いては定義域のコンパクト性に強く依存するためコンパクト性の条件を外すことは難しい. 例えば,Rd上の関数を考えると,場合によっては無限個の基底を用いて近似する必要が出 てくるため,本稿ではコンパクトな領域に限り,さらに理論の展開がしやすい Ω = [0, 1]d なる状況のみを考える.観測ノイズが正規分布であることは強い仮定ではあるが,これを サブガウスな分布に拡張してもほぼ同様の議論が成り立つ. ある推定量 bf が与えられたとき,その推定精度として,以下の平均二乗誤差を考える: EDn[k bf− f ok2 L2(PX)]. なお,期待値 EDn[·] は訓練データ Dnの出方に関して取る.ここで,平均二乗誤差は二乗 損失を用いた期待損失L( bf ) := EDn[EX,Y[(Y − bf (X)) 2]] に関する余剰誤差 (excess risk) になっていることに注意されたい: L( bf )− inf f :measurableL(f) = L( bf )− L(f o) = E Dn[k bf− f ok2 L2(PX)].
本稿では,深層学習を用いた推定量を考え,その推定精度について考察する.特に,真の
関数 foがどのように推定誤差に影響するかについてこれまでに得られている結果を述べ,
深層学習の有効性を示す理論的結果を紹介する.
3. ニューラルネットワークの万能近似能力
まず,ニューラルネットワークの重要な性質として,万能近似能力があることが良く知ら れている (Gallant and White (1988), Irie and Miyake (1988), Cybenko (1989), Funahashi (1989), Mhaskar and Micchelli (1992), Sonoda and Murata (2017)).すなわち,連続関数 の集合や可積分な関数の集合といった十分広い関数クラスに含まれる任意の関数が,各関数 クラスの位相に関して任意の精度でニューラルネットワークを用いて近似できるという意味 である.この万能近似能力を有するためには,多層である必要はなく,中間層が一層の二層 ニューラルネットワークで十分である.今,η :R → R を ReLU (η(x) = max{x, 0} (x ∈ R)) やシグモイド関数 (η(x) = 1/(1 + exp(−x)) (x ∈ R)) といった非線形活性化関数であると する.そのとき,二層ニューラルネットワークは fm(x) = m ∑ j=1 vjη(wj>x + bj) + c (3.1) と書ける.ただし,wj∈ Rd, bj ∈ R, vj ∈ R, c ∈ R とする. 万能近似能力を示す理論の中でも代表的なものとして,Cybenko (1989) による連続関数 の一様近似定理がある. 定理 3.1 も し 活 性 化 関 数 η が 連 続 な シ グ モ イ ド 関 数 型 (limx→−∞η(x) = 0 , limx→+∞η(x) = 1 を満たす,単調増大である必要はない)なら,任意の連続関 数 fo: [0, 1]d→ R と > 0 に対して,ある横幅 m とパラメータ (w j, bj, vj)mj=1, c が存在し て,一様に foを二層ニューラルネットワークで近似できる: sup x∈[0,1]d fo(x)− m ∑ j=1 vjη(wj>x + bj)− c ≤ . よって,[0, 1]d上の連続関数が Lp([0, 1]d) 空間の中で稠密であることも合わせると,か なり広い範囲の「まともな」関数をニューラルネットワークで任意の精度で近似できるこ とが導ける.ReLU 活性化関数はシグモイド型ではないが,二つの素子を適切に用意して 足し引きすることで連続なシグモイド型の関数を作成できるので,同様に万能近似能力を 有することが示せる (Mhaskar and Micchelli (1992)). ここで示したことはあくまで「近似 できる」という事実だけで,その近似精度の効率性に関しては何も言っていない.つまり, 誤差 を達成するために必要な素子数 m が多いか少ないかという効率性に関しては何も示
唆していない.推定精度を論じる上では,この関数近似の効率性まで考慮しないと推定量 の良し悪しを語ることはできないため,これ以降の節ではこの効率性も含めて議論する. 4. Barron クラスの理論 前の節ではニューラルネットワークがかなり広い範囲の関数を任意の精度で近似できる ことを紹介したが,ある近似誤差を保証するのに必要なネットワークの大きさについては 何も言っていない.関係する理論は色々とあるが,その中でも Barron (1993, 1994) によ る Barron クラスの近似および推定理論を紹介しよう. 今,真の関数 fo:Rd→ R に対して,ある複素数値測度 F fo(dω) が存在して, fo(x) = ∫ eix>ωFfo(dω) (∀x ∈ Rd) が成り立つとする.この Ffoが次の性質を満たしていると仮定しよう: Cfo= ∫ Rd kωk1|Ffo(dω)| < ∞. この条件は言い換えれば,関数 foは高周波成分をあまり持っていない,つまりある程度滑 らかであるという条件である.この時,次の近似定理が成り立つ (Barron (1993)). 定理 4.1 任意の Cfo <∞ である foに対し,任意の m > 1 において,活性化関数をシ グモイド関数とする式 (3.1) の形をした横幅 m の二層ニューラルネットワーク fmが存在 して,[0, 1]dに台を持つ任意の分布 P Xに対し, kfo− f mk2L2(PX)≤ (2Cfo)2 m が成り立つ.なお,この不等式を満たす fmは, ∑m j=1|vj| ≤ 2Cfoかつ c = fo(0) を満たす ように選ぶことができる. これは近似精度が L2(P X) ノルムの意味で O(1/m) で与えられることを示している.こ のバウンドの面白いところは,近似誤差にデータの次元 d が現れないことである.つまり, 適当な滑らかさの条件によって「次元の呪い」を回避できることを示している.一方で,固 定された基底を用いて対象の関数を近似すると,次元の呪いが現れることが示される.今, ΓC:={f : Rd→ R | ∫ Rdkωk1|Ff(dω)| ≤ C} とする.この時,以下の近似誤差の下限が成 り立つ.
定理 4.2 (Barron クラスの Kolmogorov width) PXを [0, 1]d上の分布とする.あ る関数の集合 G に対して,d(f, G) := infg∈Gkf − gkL2(P X)とする.この時,任意の m 個 の基底関数 h1, . . . , hmに対して, sup fo∈Γ C d(fo, span{h1, . . . , hm}) ≥ κ C dm −1/d
が成り立つ.ただし,κ > 0 はある普遍定数である. この下限より,固定された基底を用いて任意の fo∈ Γ Cを近似するのに必要な基底の数が次 元に対して指数的に増えることが分かる.実際,誤差 以下にするためには m≥ Ω(d−d−d) が要請されるため, = ˜εd−1と書いた時に ˜ε 1 となる状況で Ω(˜ε−d) 個の基底が必要で ある.これは,基底を固定した線形なモデルで近似すると,次元の呪いが生じることを意 味している.一方で,ニューラルネットワークによって近似するときには対象に応じて基 底関数 η(w> jx + bj) (j = 1, . . . , m) を適応的に用意することができるため,次元の呪いを 避けることができる. 上記の近似誤差の理論を用いて,二層ニューラルネットワークによるノンパラメトリッ ク回帰の推定精度を評価してみよう.今,訓練データ (xi, yi)ni=1が式 (2.1) に従って生成さ れているとしよう.すると,Cfo<∞ ならば,活性化関数をシグモイド関数とした横幅 m のニューラルネットワーク (式 (3.1)) を用いたスパース正則化推定量 bf を用いて, EDn[kfo− bfk2L2(PX)]≤ O ( 1 m+ md log(n) n ) , (4.1)
とできることが示される (Barron (1993, 1994), Barron et al. (1999), Huang et al. (2008)). 右辺を見るとバイアス–バリアンスのトレードオフが現れている.すなわち,m を大きく取 りすぎると第一項のバイアス項は小さくなるが,第二項のバリアンス項が大きくなってし まう.逆に m が小さすぎでも第一項のバイアス項が大きくなりすぎてしまう.うまくバイ アスとバリアンスをバランスする横幅 m を取ってくることで,汎化誤差は O (√ d log(n) n ) で抑えることができる.よって,推定精度に関しても次元の呪いを回避できていることが わかる.一方で,もし基底を固定してその線形結合で foを推定しようとすると,第一項の バイアス項が 1/m2/dとなってしまい,次元の呪いが現れる.この場合にバイアスとバリ アンスをバランスして汎化誤差を導出すると O(d2/(d+2)n−2/(d+2)) となり,レートが次元に 依存してしまうことがわかる. b f の推定方法として,L1-正則化付逐次的最適化手法が提案されている.今,シグモイド 関数 η に対して τ > 0 を用いてHτ:={η(w>x + b)| kwk1≤ τ, |b| ≤ τ} とする.逐次的最 適化手法は fm= ∑m k=1βkhk (hk ∈ Hτ) の形の関数を逐次的に構築してゆく.(m− 1)-ス テップめの解 fm−1= ∑m−1 k=1 βkhk (hk∈ Hτ) が得られているとして,vm−1= ∑m−1 k=1 |βk| とする.この時,正則化パラメータ λ > 0 を用いて fm= (1− α)fm−1+ βh を以下の最適 化問題の解として得る: inf α∈[0,1], β∈R, h∈Hτ 1 n n ∑ i=1 (yi− ((1 − α)fm−1(xi) + βh(xi)))2+ λ((1− α)vm−1+|β|). すると,正則化パラメータを λ = Ω( √ d log(n) n ) のように適切に設定することで,fmは式
(4.1) のバイアス–バリアンスのトレードオフを満たす (Huang et al. (2008)).このような 貪欲的な逐次最適化法だけでなく,L1-正則化ありの目的関数を最小化することによっても 同様のバウンドを得る.このように,深層学習の有効性はスパース推定と密接に関わって いる. 5. 非等方的 Besov 空間における推定理論 先の節では,Barron クラスの推定においてニューラルネットワークを用いることで次 元の呪いを回避できることを示した.本節では,より詳細な滑らかさに対する推定精度の 依存を調べるため非等方的 Besov 空間 (anisotropic Besov space) と呼ばれる空間を考え, その推定精度を議論する.これらの結果は主に Suzuki (2019) および Suzuki and Nitanda (2019) によるものである. 5.1 非等方的 Besov 空間 ここでは,非等方的 Besov 空間を定義する.これまでと同様に入力のドメインは Ω = [0, 1]d とする.0 < p <∞ として,関数 f : Ω → R に対し kfkp :=kfkLp(Ω) := ( ∫ Ω|f| pdx)1/p とする.p =∞ の時は,kfk∞:=kfkL∞(Ω):= supx∈Ω|f(x)| とする.β ∈ Rd++に対して, |β| =∑d j=1|βj| とする 2). 関数 f :Rd → R に対して,その h ∈ Rd方向への r 階の差分を次のように定義する: ∆rh(f )(x) := ∆rh−1(f )(x + h)− ∆rh−1(f )(x), ∆0h(f )(x) := f (x). ただし,x∈ Ω は x + rh ∈ Ω を満たすものとして,そうでない場合は ∆r h(f )(x) = 0 と定 義する. 定義 5.1 (平滑度) p∈ (0, ∞] として,関数 f ∈ Lp(Ω) の r 階の平滑度を次のように定 義する: t = (t1, . . . , td), ti> 0 として, wr,p(f, t) = sup h∈Rd:|hi|≤ti k∆r h(f )kp. この平滑度を用いて非等方的 Besov 空間 Bβ p,q(Ω) (β = (β1, . . . , βd)> ∈ Rd++) を次のよう に定義する. 定義 5.2 (非等方的 Besov 空間 (Bβ p,q(Ω))) 各種パラメータ 0 < p, q ≤ ∞, β = 2) ただし,N := {1, 2, 3, . . . }, Z +:={0, 1, 2, 3, . . . }, Zd+:={(z1, . . . , zd)| zi∈ Z+}, R+:={x ≥ 0 | x ∈ R}, andR++:={x > 0 | x ∈ R} とする.また,[N] := {1, . . . , N} for N ∈ N と書く.
(β1, . . . , βd)>∈ Rd++, r := maxibβic + 1 に対し,半ノルム | · |Bα p,q を |f|Bp,qβ := (∑∞ k=0 [2kw r,p(f, (2−k/β1, . . . , 2−k/βd))]q )1/q (q <∞), supk≥02kw r,p(f, (2−k/β1, . . . , 2−k/βd)) (q =∞), と定義する.非等方的 Besov 空間 Bβ p,q(Ω) のノルムはkfkBβp,q:=kfkp+|f|Bβp,qと定義し, 非等方的 Besov 空間は Bβ p,q(Ω) ={f ∈ Lp(Ω)| kfkBp,qβ <∞} と定義する. 直感的には,β は各座標軸方向への滑らかさを表している.もし βiが大きければ,Bp,qβ に含まれる関数は i 番目の座標軸方向に向かって滑らかである.p は滑らかさの空間的な 非一様性を表現している.なぜなら,p が小さい場合 (例えば p = 1),平滑度が x に関し て平均されており,その意味で半ノルムは平均的な滑らかさを表現することになる.一方 で,p が大きい場合 (例えば p =∞),平滑度の空間的最大値を取るので,半ノルムが抑え られていれば滑らかさも空間的に一様に抑えられることになる(この点は,命題 5.1 も参 照されたい).もし β1 = β2 =· · · = βdであれば,これは通常の Besov 空間と等価な定義
になる (DeVore and Popov (1988), DeVore et al. (1993)).q は本稿ではそこまで重要な 意味を持たないが,その意味を直感的に説明すると,Besov 空間は通常の整数回微分を非 整数回微分に拡張して対応する滑らかさを定義しているが,その際 q は整数回微分を補完 して非整数回微分を定義する方法を特徴づけていると考えられる. 以下では,与えられた β = (β1, . . . , βd)>∈ Rd++に対して,β := miniβi (最小の滑らか さ), β := maxiβi (最大の滑らかさ), および βi0 := β/βiと定義する.さらに (βj)dj=1の調 和平均は非等方的 Besov 空間における推定精度を特徴づける上で重要であり, e β :=(∑dj=11/βj )−1 , (5.1)
と定義する.非等方的 Besov 空間および通常の Besov 空間は H¨older 空間といった他の空
間と密接に関係している.α∈ Ndに対して,∂αf (x) = ∂|α|f ∂α1x1...∂αdxd(x) と定義する. 定義 5.3 (H¨older 空間 (Cβ(Ω))) β 6∈ N である滑らかさのパラメータ β ∈ R ++に対 し,m = bβc (β 未満の最大の整数) として m 階微分可能な関数 f : Rd → R を考える. H¨older 空間Cβ(Ω) のノルムを以下のように定める: kfkCβ := max |α|≤m ∂ αfk ∞+ max |α|=mx,ysup∈Ω |∂αf (x)− ∂αf (y)| kx − ykβ−m . すると,(β-)H¨older 空間 Cβ(Ω) はCβ(Ω) ={f | kfk Cβ <∞} と定義される. ここで,C0(Ω) を連続関数の集合として,C0(Ω) には L∞-ノルムが備わっているとする: C0(Ω) :={f : Ω → R | f は連続関数かつ kfk ∞<∞}.すると,これまで導入してきた関 数空間は互いに次のような関係にある (Triebel (2011)).
命題 5.1 (Triebel (2011)) 各空間の間には以下のような関係がある: 1. β0 6∈ N である β0 ∈ R++を用いて β = (β0, . . . , β0)> ∈ Rd++ とすると,Cβ0(Ω) = Bβ ∞,∞(Ω) が成り立つ. 2. 0 < p1, p2, q ≤ ∞, p1 ≤ p2かつ β ∈ Rd++ が eβ > (1/p1 − 1/p2)+を満たす時3), γ = 1− (1/p1− 1/p2)+/ eβ を用いて以下が成り立つ4): Bpβ1,q(Ω) ,→ Bpγβ2,q(Ω). 3. 0 < p, q1, q2≤ ∞, q1 < q2, β∈ Rd++に対して, Bp,qβ 1,→ B β p,q2, が成り立つ.特に,性質 1 と 2 と併せて,eβ > 1/p ならば,γ = 1− 1/(eβp) を用いて, Bp,qβ (Ω) ,→ Cγβ(Ω), (5.2) が成り立つ. 4. 0 < p, q≤ ∞ と β ∈ Rd ++が, eβ > 1/p を満たすならば,Bp,qβ (Ω) ,→ C0(Ω) が成り 立つ. これらの証明は Triebel (2011) を参照されたい.もし平均的な滑らかさ eβ が十分大きい場 合 ( eβ > 1/p),Bβ p,qの元は全て連続関数である.一方で,小さい場合は ( eβ < 1/p),それら の元は必ずしも連続とは限らない.p が小さいことは,滑らかさが空間的に非一様である ことを意味し,そのためスパイクやジャンプを持つ関数も含まれることになる (ウェーブ レット解析の観点からもこのことは説明できる.詳しくは Donoho and Johnstone (1998) を参照されたい).この空間的な滑らかさの非一様性が深層学習とそうでない手法との違い を生み,さらには深層学習とウェーブレット解析との関係を明らかにする. 式 (5.2) にある埋め込みの性質は深層合成関数モデルを解析するうえで有用である.な ぜなら,この連続性を用いて中間層における近似誤差が最終層へどのように伝わるかを評 価できるからである. 5.2 B-spline による非等方的 Besov 空間の近似理論 非等方的 Besov 空間の元を深層ニューラルネットワークで近似することを考える際に, B-spline を用いた関数近似理論を利用することで近似誤差を評価することができる.その 3) ただし,(x) +:= max{x, 0} とする. 4) ,→ なる記号は連続埋め込みを表す.
ために,標準 B-spline (cardinal B-spline) による関数近似理論を述べる.N (x) = 1 (x ∈ [0, 1]), 0 (otherwise) とすると,m 次の標準 B-spline 基底はこれを m + 1 回畳み込むこと で得られる: Nm(x) = (N ∗ N ∗ · · · ∗ N| {z } m + 1 回 )(x), ただし,f∗ g(x) :=∫ f (x− t)g(t)dt と定義する.なお,Nmは区分的 m 次多項式である ことが知られている.k∈ Z+と j = (j1, . . . , jd)∈ Zd+に対して, Mk,jd (x) = d ∏ i=1 Nm(2bkβ 0 icxi− ji), とする.ただし,β∈ Rd ++はある与えられた滑らかさのパラメータである (Mk,jd の定義に β は影響するが,文脈から β の値が固定されている状況しか考えないので省略する).ま た,β0iは βi0= β/βiと定義されていたことを思い出されたい.ここで,k は空間的な「解 像度」を制御し,j は基底が置かれる空間的な位置を表している. 今,k∈ Z に対して, kkkβ/β:= d ∑ j=1 bkβ/βjc と定義する.標準 B-spline 基底の次数 m∈ N に対して, Ji(k) ={−m, −m + 1, . . . , 2bkβ 0 ic− 1, 2bkβ0ic} として,その直積を J (k) := J1(k)× J2(k)× · · · × Jd(k) と表す.k∈ Z+かつ j∈ J(k) に対して,(αk,j)k,jの準ノルムを次のように定義する: k(αk,j)k,jkbβ p,q = ∞ ∑ k=0 2k[β−(Pd i=1bkβ0ic/k)/p]( ∑ j∈J(k) |αk,j|p )1/p q 1/q . これは 0 < p < 1 または 0 < q < 1 の場合には三角不等式は成り立たず,代わりにある K > 1 を用いてk(αk,j + α0k,j)k,jkbβ p,q ≤ K[k(αk,j)k,jkbβp,q +k(α 0 k,j)k,jkbβ p,q] が成り立つ. よって,この場合にはノルムにはならず準ノルムとなる.p =∞ もしくは q = ∞ の場合 は,通常のように定義を修正すればよい. 補題 5.1 β > (1/pe −1/r)+かつ標準 B-spline 基底の次数 m∈ N が 0 < β < min(m, m− 1 + 1/p) を満たすと仮定する.すると,f ∈ Bp,qβ は次のように分解できる: f = ∞ ∑ k=0 ∑ j∈J(k) αk,jMk,jd (x).
ただし,収束は Lpの意味で成り立つ.さらに,係数 (α k,j)k,jは次のようなノルムの同値 性を満たす: kfkBβp,q' k(αk,j)k,jkbβp,q. この補題に加えて,以下のような近似が成り立つことも知られている. 補題 5.2 補題 5.1 と同じ仮定のもと,自然数 K ∈ N に対し,N = d2kKkβ/βe とする と,任意の f ∈ Bβ p,q(Ω) に対して,ある fN が存在して5), kf − fNkLr(Ω). N−eβkfkBβ p,q, かつ fN(x) = K ∑ k=0 ∑ j∈J(k) αk,jMk,jd (x) + K∗ ∑ k=K+1 nk ∑ i=1 αk,jiM d k,ji(x), (5.3) を満たすようにできる.ただし,δ = (1/p− 1/r)+および ν = ( eβ− δ)/(2δ) を用いて, K∗ =dK(1 + 1/ν)e, nk =d2kKkβ/β−(kkkβ/β−kKkβ/β)e (k = K + 1, . . . , K∗) で与えられ, (ji)ni=1k ⊂ J(k) である. これより,非等方的 Besov 空間に含まれる関数に含まれる関数 f は,Md k,j(x) の有限和で 近似できることがわかり,ウェーブレット解析と密接に関係していることがわかる (Mallat (1999)).また,ノルムの同値性より係数 (αk,j)k,jに `p-ノルムの制約を課していることに 相当し,p が小さいときにはスパース正則化のような制約がかかっていることになる.こ のように空間的な滑らかさの非一様性が係数のスパース性としても特徴づけられる. 深層ニューラルネットワークを用いて非等方的 Besov 空間に含まれる関数 f を近似する には,各標準 B-spline 基底 Md k,jを深層ニューラルネットワークで近似することで達成で きる.ここで,深層学習のモデルを以下のように定める.まず,活性化関数として ReLU 活性化関数 η(x) = max{x, 0} (x ∈ R) を考える.なお,あるベクトル x に対して,η(x) は 要素ごとに作用させるものとする.深さ L,横幅 W ,スパース性の制限 S,各パラメータ の絶対値の上限 B を持つニューラルネットワークのモデルを以下のように定義する: Φ(L, W, S, B) :={(W(L)η(·) + b(L))◦ · · · ◦ (W(1)x + b(1))| W(L)∈ R1×W, b(L) ∈ R, W(1)∈ RW×d, b(1)∈ RW, W(`)∈ RW×W, b(`)∈ RW(1 < ` < L), 5) . は定数倍を除いた不等号を意味する.すなわち a N. bNは aN= O(bN) なる意味である.
∑L `=1(kW (`)k 0+kb(`)k0)≤ S, max ` kW (`)k ∞∨ kb(`)k∞≤ B}. (5.4) ただし,k · k0は行列の `0-ノルム (非ゼロ要素の数) で,k · k∞は行列の `∞-ノルム (各要 素の絶対値の最大値) である.スパース性の制限とノルムの上限は (ほぼ) 最適な推定誤差 を得るために必要なものである. この深層ニューラルネットワークモデルと標準 B-spline 基底を関係づけるために,以下 の補題は非常に重要である (Suzuki (2019)). 補題 5.3 (標準 B-spline 基底の ReLU 活性化関数を用いた近似) d と m に の み 依 存 す る あ る 定 数 c(d,m) が 存 在 し て ,任 意 の > 0 に 対 し て ,L0 := 3 + 2 l log2 ( 3d∨m c(d,m) ) + 5 m dlog2(d∨ m)e, W0 := 6dm(m + 2) + 2d, S0 := L0W02かつ B0 := 2(m + 1)m とすると,あるニューラルネットワーク ˇM ∈ Φ(L 0, W0, S0, B0) が存在して, kMd 0,0− ˇMkL∞(Rd)≤ , が成り立つ.さらに, ˇM (x) = 0 (∀x 6∈ [0, m + 1]d) とできる. この近似理論より,式 (5.3) にある標準 B-spline 基底を全て深層ニューラルネットワー ク ˇM を適当にスケーリングおよび平行移動させたものに置き換えることにより深層ニュー ラルネットワークを用いた非等方的 Besov 空間の元を深層ニューラルネットワークで近似 することができることがわかる.なお,x の定義域 Ω は [0, 1]dである一方,この近似誤差 評価はRd上で行っていることに注意されたい.これは,補題 5.1 にあるように非等方的 Besov 空間の元を標準 B-spline 基底の線形和で近似する際に,各基底をスケール変換して 足し合わせているため,この評価をニューラルネットワークによる近似評価に転用するた めには Ω 上での近似誤差では不十分でありRd上における L∞-ノルムによる評価が必要に なるからである. 5.3 真の関数のモデル 真の関数 foのモデルとして,単に非等方的 Besov 空間に入っているものだけでなく,そ れらの合成関数も考える.そこで,アフィン合成モデルおよび深層合成モデルという二種 類のモデルを考えよう: バナッハ空間H に対して,U(H) を H の単位球としよう(ノルム が 1 以下の元の集合). (1) アフィン合成モデル. 最初のモデルはアフィン変換と非等方的 Besov 空間の元を合成 した非常に単純なモデルである:
Haff :={h(Ax + b) | h ∈ U(Bp,qβ ([0, 1]
˜
d )),
A∈ Rd˜×d, b∈ Rb s.t. Ax + b∈ [0, 1]d˜(∀x ∈ Ω)}. ただし,˜d≤ d を仮定する.ここで,アフィン変換は適切なスケールを満たしていて,Ax+b が任意の x ∈ Ω において h の定義域に入っていることを仮定する.これは,単純である が非等方的 Besov 空間の推定がどのように振る舞うかを直感的に理解するのに有用な例で ある. (2) 深層合成モデル. 深層合成モデルはアフィン合成モデルを非線形関数の合成に拡張し たものである.今,m1 = d かつ mL+1= 1 として,m`を ` 番目の層の横幅であるとする. また,β(`)∈ Rm` ++が ` 番目の層における滑らかさのパラメータとする. すると,深層合成 モデルは以下のように定義される: Hdeep:={hH◦ · · · ◦ h1(x)| h`: [0, 1]m`→[0, 1]m`+1, h`,k∈ U(Bβ (`) p,q([0, 1] m`)) (∀k ∈ [m `+1])}. こ こ で ,区 間 [0, 1] は 他 の コ ン パク ト な 区 間 に 置 き 換 え て も 本 質的 に は 問 題 な い . kh`,kk Bβ(`)p,q ≤ 1 という仮定を置いているが,この右辺に現れる 1 はより大きな値に拡張 することが可能であるがスケーリングファクターを揃えるためにこれを採用する.このモ デルはアフィン合成モデルを特殊例として含むが,中間層の近似誤差が最終層に発散して 伝わることを防ぐため,滑らかさに関してより強い仮定を置く. 5.4 具体例 上記のモデルはいくつかの重要な例を含む. (1) 線形射影. Schmidt-Hieber (2020) は以下のモデルの推定問題を,深層学習の推定問 題の例として考察している.g∈ Cβ([0, 1]) かつ w∈ Rdに対して, fo(x) = g(w>x). この例において,関数 foはある一つの w 方向においてのみ変化する.明らかに,このモ デルはアフィン合成モデルの具体例である. (2) 滑らかな低次元多様体上に分布する入力. x の分布が Ω に埋め込まれた低次元多様体 上にサポートを持ち,真の関数 foの滑らかさが多様体上のある座標系において座標軸方 向に非等方的である状況を考えよう.この低次元多様体は ˜d-次元であり ˜d d であるとす る.この時,真の関数は x ∈ Ω を低次元多様体上の座標系に写す写像 φ : Rd → Rd˜を用 いて fo(x) = h(φ(x))
図 1 真の関数の非等方的な滑らかさと多様体上のデータ分布.真の関数は多様体上の二つの座標軸方向に向 かって滑らかさが低く (s1, s2が小さい),第三の座標軸方向に滑らかである (s3が大きい). のような表示を得る.ただし,h はRd˜ 上に定義された非等方的 Besov 空間の元である.こ のような状況はデータが低次元多様体上に分布していて,かつ真の関数が多様体上のある 方向へのノイズ付加に関して不変である時に起きる (図 1 を参照せよ).典型的な例として は,関数がデータ拡張に関して不変である場合に,このようなことが起きる (Simard et al. (2003), Krizhevsky et al. (2012)).たとえノイズを付加することで,低次元構造が崩れて も (つまり,˜d = d となっても),真の関数の非等方的滑らかさは次元の呪いを軽減するのに 役立つ.これは,データの低次元性を仮定するような既存の研究とは大きく異なる (Yang and Dunson (2016), Bickel and Li (2007), Nakada and Imaizumi (2020), Schmidt-Hieber (2019), Chen et al. (2019a,b)).
5.5 関連研究
ここで,関連研究を紹介する.非等方的 Besov 空間における統計理論は Ibragimov and Khas’minskii (1984) まで遡る.当該論文では,確率密度推定が考察されており,密度関数が
p≥ 2 の非等方的 Sobolev 空間に入っているとしている.そのとき,Lr-ノルムに関するミ
ニマックス最適レートが n−2 eβ+1r eβ であることを導出している.Nyssbaum (1983, 1987) は非
等方 Besov 空間が真の関数であるノンパラメトリック回帰問題を解析している.これらの 結果に続いて,ノンパラメトリック統計に関連する数々の研究がなされてきた: カーネル推 定量 (Kerkyacharian et al. (2001)), 適応的信頼区間の設計 (Hoffman and Lepski (2002)), 最適な aggregation 法 (Gaiffas and Lecu´e (2011)), ガウス過程推定量 (Bhattacharya et al. (2014)), およびカーネルリッジ回帰 (Hang and Steinwart (2018)) などがある.基本的に, これらの研究は真の関数が非等方的 Besov 空間に含まれていることを仮定しているが,それ
らの合成関数は研究されてきていない.Hoffman and Lepski (2002) と Bhattacharya et al. (2014) は次元削減の問題を扱っている.すなわち,真の関数は少数の変数にのみ依存する 状況を考察しているが,より一般のアフィン合成モデルや深層合成モデルは考えられてい ない.
入力が滑らかな低次元多様体上に分布している状況が,「多様体回帰」として研究されて
いる (Yang and Dunson (2016), Bickel and Li (2007), Yang and Tokdar (2015)).このよ うなモデルは,上記の深層合成モデルの特殊例であると考えられる. 5.6 近似誤差解析 ここでは,深層ニューラルネットワークモデルを用いて上記のモデルを近似する際の近 似誤差を考察する.そこで,次のような最悪近似誤差を定義する.F を近似に用いる関数 の集合で,H を近似する対象の関数の集合であるとして,最悪近似誤差は次のように定義 される: Rr(F, H) := sup f∗∈H inf f∈Fkf ∗− fk Lr(Ω). 命題 5.2 (非等方的 Besov 空間における近似能力) 0 < p, q, r ≤ ∞ と β ∈ Rd ++が次 の条件を満たすとする: e β > (1/p− 1/r)+. (5.5) ある m ∈ N が 0 < β < min(m, m − 1 + 1/p) を満たすと仮定する.δ = (1/p − 1/r)+, ν = ( eβ− δ)/(2δ) および W0(d) := 6dm(m + 2) + 2d とする.すると,任意の N ∈ N に対 して,ある d および m にのみ依存する定数 c(d,m)と = N−eβlog(N )−1を用いて L1(d) := 3 + 2dlog2 ( 3d∨m c(d,m) ) + 5edlog2(d∨ m)e, W1(d) := N W0, S1(d) := [(L1(d)− 1)W02+ 1]N, B1(d) := O(Nd(1+ν −1)(1/p−eβ) +), (5.6) とすれば,深層ニューラルネットワークによる近似誤差は以下のように抑えられる: Rr(Φ(L1, W1, S1, B1), U (Bβp,q(Ω))). N−e β.
証明は Suzuki and Nitanda (2019) を参照されたい.N−eβというレートは適応的な近似
誤差という意味で最適である.すなわち,N 個のパラメータを用いたモデルによる近似
誤差として最適なレートである.命題 5.2 より深層ニューラルネットワークは S1(d) =
O(L1(d)N ) = O(N log(N ))
な近似の違いに関しては 5.6.1 節で詳細を説明する.近似誤差の評価より,平均的な滑らか さ eβ が小さいならば次元の呪いを避けることができることがわかる.すなわち,もし対象 の関数が少ない方向に対してのみ滑らかさが弱く,残りの大部分の方向に対しては十分に 滑らかであるならば,次元の呪いを回避することができる.一方で,等方的な通常の Besov 空間 (β1=· · · = βd(= β)) においては, eβ = dβ となり,近似誤差は直接次元 d の影響を 受ける.そのため,次元に対して指数的に大きな数のパラメータを用意しないと -誤差を 達成することはできない.よって,滑らかさの非等方性は大きく近似誤差に影響している ことがわかり,その非等方的な滑らかさを深層学習はうまく捉えることができることを示 唆している.これは基底を固定した方法による近似誤差とは大きく異なり,中間層を用い た特徴抽出が可能にさせることである. 上記の解析を用いて,5.3 節で導入した合成関数の近似誤差も得ることができる. 定理 5.1 (アフィン合成関数の近似誤差) x が Ω 上の一様分布に従うときに,˜x = Ax + b∈ Rd˜が [0, 1]d˜上の有界な密度関数を持つと仮定しよう.また,A および b の各成分の絶対 値はある定数 C で上から抑えられているとする.さらに,0 < p, q, r≤ ∞ および β ∈ Rd˜ ++ が eβ > (1/p− 1/r)+を満たすとしよう.すると,以下のような近似誤差の上限が得られる: Rr(Φ(L1( ˜d), W1( ˜d), S1( ˜d), ( ˜dC + 1)B1( ˜d)),Haff). N−eβ. (5.7) ただし,L1(·), W1(·), S1(·), B1(·) は式 (5.6) で定義されたものである. e β > (1/p− 1/r)+なる仮定は,近似対象の関数の Lr-可積分性を保証し,Lr-ノルムを誤差 の尺度として,対象の関数をウェーブレット近似によってほぼ最適な近似ができる.この 定理より,アフィン合成関数においても近似誤差は Bβ p,q(Ω) と同じレートを達成している ことがわかる (命題 5.2 より). 定理 5.2 (深層合成モデル) 各層 ` = 1, . . . , H において,滑らかさが e β(`)> 1/p (5.8) を満たしていると仮定する.すると,深層合成モデルにおける近似誤差は以下のように抑 えられる: R∞(Φ(L, W, S, B),Hdeep). max `∈[H]N −eβ∗(`). (5.9) ただし, eβ∗(`) = eβ(`)∏H k=`+1[(β (k) − 1/p) ∧ 1] かつ L = ∑H `=1(L1(m`) + 1), W = max`(W1(m`)∨ m`+1), S = ∑H `=1(S1(m`) + 3m`+1), B = max`B1(m`) である. 深層合成モデルはより一般的なモデルであるため,仮定 (5.5) よりも強い仮定 (5.8) を e β(`)に仮定している.これは,中間層における近似誤差が最終層に伝搬する影響を抑える
ために,各層の H¨older 連続性が必要であることによる.H¨older 連続性は式 (5.8) にある埋 め込みの性質によって保証される.この H¨older 連続性の仮定は近似誤差のレートにも影響 する.実際,式 (5.9) における収束レート eβ∗(`)は式 (5.7) の収束レートと異なる.これは, 中間層における近似誤差がその後の層を伝搬して最終層まで影響する際に,H¨older 連続性 がその伝わる度合いを制御するからである. 5.6.1 非適応的近似による近似誤差 前節で得た近似誤差は,関数近似理論において適応的な近似誤差と呼ばれるものであ る (DeVore (1998)).事前に N 個の基底関数を固定して,その固定された基底関数の線 形結合を用いて対象の関数を近似することを非適応的近似手法と呼び,それは適応的な 近似誤差を達成することができない.非適応的な近似誤差は Kolmogorov width (または,
N -term approximation error) と呼ばれる量によって特徴づけられる (Kolmogoroff (1936),
Tikhomirov (1960)).大まかに言うと,非適応的手法による近似誤差は N−{βe−(p1− 1 min{2,r})+} で与えられる (Myronyuk (2015, 2016, 2017)).この近似誤差のレートは,p が小さいとき に深層ニューラルネットワークを用いた近似誤差のレートよりも遅くなり,p が小さくな るほどその差が大きくなることがわかる.これは,非適応的な手法は対象の関数に関係な く N 個の基底を固定する一方で,深層学習は対象の関数に合わせて中間層を構築し,適切 な基底に相当するものを構築できることによる. 5.7 推定誤差の解析 本節では,真の関数が上記のモデルに含まれるときの深層学習の推定誤差を求める.深 層学習の推定量としては,訓練誤差を最小化する最小二乗推定量を考える: b f = argmin ¯ f :f∈Φ(L,W,S,B) n ∑ i=1 (yi− ¯f (xi))2. (5.10) ただし, ¯f は関数 f を「打ち切った」ものである.つまり,ある定数 F > 0 を用いて ¯
f = min{max{f, −F }, F } と定義する.この打ち切り操作は,ReLU 活性化関数を用いて
実現できる.最適な推定誤差を達成するには,ネットワークの構造パラメータ (L, W, S, B) を定理 5.3 および定理 5.4 にあるように指定する必要があるが,実応用においては交差検 証法などにより適切に設定すれば良い.スパース性 S に関する制約があるため,この最適 化はスパース正則化学習が必要になる.よって,現実にこれを厳密に解こうとすると組合 せ最適化が必要になる.しかし,ここでは最適化に関しては深く議論せず,単純に式 (5.10) にある最適化問題は解けるとして話を進める. アフィン合成モデル まずは,アフィン合成モデルにおける推定誤差は以下のように評価 できる.
定理 5.3 定理 5.1 と同じ条件を仮定する.特に,0 < p, q≤ ∞ かつ eβ > (1/p− 1/2)+ を β∈ Rd˜ ++に対して仮定する.さらに,分布 PXは密度関数 pXを持ち,kpXk∞≤ R が ある定数 R > 0 に関して成り立っているとする.もし,fo ∈ H aff∩ L∞(Ω) かつkfok∞≤ F がある F ≥ 1 に対して成り立つならば,N n 1 2 eβ+1 に対して定理 5.1 にあるように (W, L, S, B) = (L1( ˜d), W1( ˜d), S1( ˜d), ( ˜dC + 1)B1( ˜d)) とすることで,以下のような推定誤差 を得る: EDn[kf o− bfk2 L2(P X)]. n − 2 eβ 2 eβ+1log(n)3. ただし,期待値 EDn[·] は訓練データ Dnに関して取る.
これは非等方的 Besov 空間において示されているが,等方的 Besov 空間における結果 (Suzuki
(2019)) や H¨older 空間における結果 (Schmidt-Hieber (2020)) を特殊ケースとして含む.さ
らに,収束レート n−2eβ/(2 eβ+1)はミニマックス最適であることが示される (5.8 節を参照; さら
に,等方的 Besov 空間に関する結果については Kerkyacharian and Picard (1992), Donoho
et al. (1996), Donoho and Johnstone (1998), Gin´e and Nickl (2015) も参照されたい). L∞
-ノルムに関する制約kfok ∞≤ F は,母分布による L2-ノルムk bf− fok2L2(PX)と経験分布に よる L2-ノルム 1 n ∑n i=1( bf (xi)− fo(xi))2の違いを抑えるために用いる.この条件が満たさ れていなければ,収束レートは遅くなりうる. 深層合成モデル 深層合成モデルについての推定誤差も求めてみよう.これは定理 5.3 の 拡張であるが,近似誤差の評価と同様に滑らかさに関してより強い条件のもとで示す. 定理 5.4 0 < p, q≤ ∞ かつ eβ(`)> 1/p が全ての `∈ [H] において成り立っているとす る.もし fo∈ H deep∩ L∞(Ω) および,kfk∞≤ F がある定数 F ≥ 1 に対して成り立つな ら,深層学習による推定誤差は以下のように抑えられる: EDn[kf o− bfk2 L2(P X)]. max`∈[H]n −2eβ∗(`)/(2 eβ∗(`)+1)log(n)3. ただし, eβ∗(`)は定理 5.2 で定義されたものであり,(L, W, S, B) は N max`∈[L]n 1 2 eβ∗(`) +1 を用いて定理 5.2 にあるように定める. 定理 5.5 にあるように,これはミニマックス最適であることが示される.H¨older 連続性 が収束レートに影響するため,アフィン合成モデルよりも収束レートは遅くなっている (つ まり, eβ∗(`) ≤ eβ(`)である).しかし,この遅いレートはミニマックス最適レートの意味で避け ることはできない.Schmidt-Hieber (2020) は H¨older クラスにおいて β1(`)=· · · = β (`) d (∀`) かつ p = q =∞ なる状況を扱っているが,上の定理で得られる推定誤差の上界はこの結果 を非等方的 Besov 空間の場合に大きく一般化している.
これらの結果より,良く知られたノンパラメトリック回帰の解析と同様に,平均的な滑 らかさ eβ が大きくなれば収束レートが速くなることが見て取れる.仮に,真の関数が等方 的 Besov 空間に入っていて,滑らかさが β1 =· · · = βd(= β) を満たすとき,推定誤差は (等方的 Besov 空間) n−2β/(2β+d) (5.11) で抑えられる.収束レートの中には次元 d が現れており,これが次元の呪いを引き起こす. 一方で,真の関数が非等方的 Besov 空間に含まれており,各方向への滑らかさが大きく不 均等で eβ が次元によらない値であるなら, (非等方的 Besov 空間) n−2eβ/(2 eβ+1) (5.12) なるレートが得られ,次元の呪いを回避している.高次元の問題においては余分な方向が たくさんあり,それらの方向に対しては真の関数は不変であることが考えられる.深層学 習は,そのような余分な方向を適応的に発見し,より良い推定誤差のレートを達成する. 一方で,カーネル法のような線形推定量を用いると,推定誤差は次元により強く依存し, 深層学習に優越されてしまう(5.9 節).実際に具体的な値を用いてレートの比較をしてみ よう.もし真の関数が等方的滑らかさを持っている場合 (β1 =· · · = βd = β), eβ = β/d となることから,式 (5.11) および式 (5.12) のどちらも n−2β/(2β+d)なるレートを与える. 一方で,β1 = β かつ β2 = · · · = βd = (d− 1)β であるような特殊な状況を考えると, e β = (∑di=11/βi)−1= β/2 となり,非等方的 Besov 空間における収束レート (式 (5.12)) は n−β/(β+1)となる.この収束レートは次元によらない. もう一つ重要な性質として,深層学習は滑らかさの空間的な非一様性に対して適応的な推 定誤差を達成できることがある.下で述べるように線形推定量を用いると,n− 2 eβ−2(1/p−1/2)+ 2 eβ+1−2(1/p−1/2)+ なるレートが下界として現れる.このレートには 2(1/p− 1/2)+という項が現れるが,そ のために最適なレートは達成できない.一方で,深層学習にはこのような項が出ないため に最適レートを達成できる.ここで,2(1/p− 1/2)+が非ゼロの状況というのは p が小さい 状況であり,それは滑らかさが空間的に非一様である状況に対応する.深層学習は,たと え真の関数の滑らかさが空間的に非一様であっても,どの部分が滑らかでなくどの部分が 滑らかであるかをデータから適応的に察知し,必要最低限の複雑さをもってして推定を行 う.一方で,カーネル法のような線形推定量の場合は事前に基底関数を用意しているよう なものであり,データに応じて解像度を変化させることができない.そのため,上記のよ うな非最適なレートが現れてしまう.このことは,Suzuki (2019) によっても指摘されてい る (定理 5.6 の後の議論も参考にされたい).
5.8 ミニマックス最適レート 本節では,上記の深層学習の推定誤差のレートが(ほぼ)ミニマックス最適レートを達 成することを紹介する.真の関数のモデルF◦に対する,ミニマックス最適リスクとは,全 ての推定量に対して最悪誤差を最小にするリスクである: R∗(F◦) := inf b f sup fo∈F◦EDn[k bf − f ok2 L2(P X)]. ただし,inf の中の bf は全ての推定量に関してとる.ミニマックス最適リスクの収束レート はミニマックス最適レートとも呼ばれる.F◦として非等方的 Besov 空間を持ってきたと きのミニマックス最適レートは以下のように評価される. 定理 5.5 (i) アフィン合成モデル: 0 < p, q ≤ ∞ と β ∈ Rd ++ に対して, eβ > max { 1 p− 1 2, 1 p− 1, 0 } を仮定する.すると,アフィン合成モデルのミニマックス最適リ スクは以下のように下から抑えられる: R∗(Haff)& n− 2 eβ 2 eβ+1. (ii) 深層合成モデル: 0 < p, q≤ ∞ と β(`)∈ Rd ++ (` = 1, . . . , H) に対して, eβ(`)> 1/p を 仮定する.q < ∞ の時, > 0 を任意の正の実数であるとして,q = 0 の時は = 0 とす る. eβ∗(`) = eβ(`)∏H k=`+1[(β (k)− 1/p + ) ∧ 1] かつ eβ∗∗:= min `βe∗(`)とする.すると,深層 混合モデルのミニマックス最適リスクは下から以下のように抑えられる: R∗(Hdeep)& n− 2 eβ∗∗ 2 eβ∗∗ +1.
非等方的 Besov 空間におけるミニマックス最適レートに関しては,Ibragimov and Khas’minskii (1984) や Nyssbaum (1987) も参照されたい.この定理より,これまで得 られてきた深層学習の推定誤差 (定理 5.3 および定理 5.4) は,poly-log(n) オーダーおよび e β∗(`)の任意の微小変形だけのずれがあるもののほぼミニマックス最適レートを達成してい ることがわかる. 5.9 線形推定量の非最適性 本節では,線形推定量に限定したもとでのミニマックス最適レートを考察する.線形推 定量とは以下の形式で書ける推定量のことである: b f (x) = n ∑ i=1 yiϕi(x; Xn). ただし,Xn= (x 1, . . . , xn) で ϕi(x; Xn) (i = 1, . . . , n) は x および Xnにのみ依存する可 測関数である.これは,Yn = (y 1, . . . , yn)>に線形に依存するため線形推定量と呼ばれる.
例えば,カーネルリッジ回帰はこの推定量のクラスに入る.なぜなら,カーネルリッジ回 帰推定量は bf (x) = kx,Xn(kXn,Xn+ λI)−1Ynと書け,線形推定量の形式になっているから である.このクラスは他にも Nadaraya–Watson 推定量や k-近傍回帰,およびシーブ推定 量なども含む.この線形推定量と深層学習を比べてみよう.そのために,線形推定量に限 定したミニマックス最適レートを以下のように定義する: R(lin)∗ (F◦) := inf b f : linear sup fo∈F◦EDn[kf o− bfk2 L2(PX)]. ただし,inf は任意の線形推定量 bf に関してとる.このように,推定量を線形推定量に限る
とミニマックス下限が大きくなりうる.Imaizumi and Fukumizu (2019) は区分的 H¨older 空間 (piece-wise H¨older class) において,深層学習が線形推定量を優越することを示して いる.
このことは,関数の滑らかさだけでなく,そのモデルの幾何的な形状によってより明確
になる.そのために,「凸包の議論」が有用である.すなわち,線形推定量のミニマックス
最適リスクはモデルの関数クラスの凸包を取っても変わらないということが知られている (Hayakawa and Suzuki (2020), Donoho and Johnstone (1998)):
R(lin)∗ (F◦) = R∗(lin)(conv(F◦)). ここで,conv(F◦) は関数クラスF◦の凸包で conv(F◦) :={∑m
k=1λkfk | fk ∈ F◦, λk ≥
0, ∑mk=1λk= 1, m≥ 1}. さらに,関数クラスが適当な正規直交基底で分解できるときは
凸包より広い Q-hull というものまでこの議論は拡張できる (Donoho et al. (1990, 1996)). なお,この凸法の議論は二乗損失の性質に強く依存しており,他の損失関数でも常に成り 立つとは限らない. これを用いることで,次の定理のように線形推定量は非最適なレートしか達成できない ことが示される: (i) 線形推定量は滑らかさの非一様性に対して適応的でなく, (ii) 次元の 呪いを受ける. 定理 5.6 (i) 入力の分布 PXは Ω = [0, 1]d上の一様分布で eβ > 1/p かつ 1≤ p, q ≤ ∞ であるとする.すると,アフィン合成モデルにおける線形推定量のミニマックス最適レー トは以下のように下から抑えられる: R(lin)∗ (U (Bp,qβ ))& n− 2 eβ−v 2 eβ+1−v. (5.13) ただし,v = 2(1/p− 1/2)+である.(ii) 上記の条件に加え, ˜d≤ d かつ β = β1=· · · = βd˜ を仮定し,0 < p≤ 2 とする.すると,線形推定量のミニマックス最適レートは以下のよ うに下から抑えられる:
R(lin)∗ (Haff)& n
− 2(β− ˜d/p+d/2)
(i) ミニマックス最適リスクの下限 (5.13) より,もし p < 2 (つまり,v > 0) なら,線形推 定量のミニマックス最適レートは深層学習の収束レートに優越されることがわかる (定理 5.3).これは関数近似の節で述べたように,深層学習の「適応能力」によるものである.p が小さい場合は,真の関数の空間的な滑らかさは一様ではなく,場所によって滑らかさが著 しく損なわれることがある.このような滑らかさの非一様性に対して,線形推定量は適応 的に解像度を調整するということができず,ミニマックス最適レートを達成できなくなる. これは非等方的 Besov 空間だけでなく,通常の Besov 空間でも起きる現象である (Suzuki (2019)).関連する話題として Imaizumi and Fukumizu (2019) は区分的に滑らかな関数を 扱っているが,局所的に滑らかさが損なわれるという意味で,この結果と整合性がある. (ii) 式 (5.14) で示された下界は入力の次元について敏感である.実際,d が偶数で,˜d = d/2 かつ p = 1 なら,線形推定量のミニマックス最適レートと深層学習の収束レートは以下の ように書ける: 線形推定量 : n−2β/(2β+d), 深層学習 : n−2β/(2β+d/2). この比較より,次元への依存度が線形推定量と深層学習で大きく異なることがわかる.ア フィン合成モデルにおいては一層目にアフィン変換が入り,真の関数は一定の部分空間の 方向にのみ依存するわけであるが,深層学習はそのような方向をデータから検知し,適応 的に学習できる.一方で,カーネル法のような手法はそのような適応力を持たないことが この結果からわかる. 6. カーネル法による深層学習の汎化誤差理論とモデル圧縮への応用 これまでの理論では,パラメータ数はサンプルサイズ以下になるようにモデルのサイズを 決めていた.しかし,深層学習はパラメータの数がサンプルサイズを大きく上回っていても 汎化することが実験的に知られている (Neyshabur et al. (2019)).その理由は,実質的な内 部次元がそのパラメータ数よりも小さいからであると考えられている.そのような「過パ ラメータ化」したモデルの汎化誤差を抑えるためにネットワーク内のパラメータのノルムを 用いて汎化誤差を抑える研究 (Neyshabur et al. (2015), Bartlett et al. (2017), Neyshabur
et al. (2017), Golowich et al. (2018)),およびモデルの圧縮可能性に注目した研究 (Arora et al. (2018), Baykal et al. (2019), Suzuki et al. (2020a,b)) 等様々な試みがなされている.
ここではカーネル法の観点を用いた自由度の解析手法およびそれによる汎化誤差解析を紹 介する (Suzuki (2018), Suzuki et al. (2020a,b)).
中間層のパラメータがW(`)∈ Rm`+1×m`, b(`)∈ Rm`+1であるネットワーク
を考える (式 (5.4)).その第 ` 層への入力を F`(x) = η(·) ◦ (W(`−1)η(·) + b(`−1))◦ · · · ◦ (W(1)x + b(1)) とする.中間層は入力 x に非線形変換を施して抽出された特徴量と考える ことができる.そのように考えることにより,特徴量の内積として第 ` 層の「カーネル関 数」が定義できる: k`(x, x0) = F`(x)>F`(x0). カーネル関数が一つ定まれば,それに対応して「再生核ヒルベルト空間」が一意に定ま る.カーネル関数によって決まる再生核ヒルベルト空間は ˜H` = { ∑M j=1αjk`(xj, x) | xj ∈ Rd, M ≥ 1, αj ∈ R} なる関数集合に h ∑M j=1αjk`(xj,·), ∑M0 j0=1βj0k`(x0j0,·)iH˜` := ∑M j=1 ∑M0 j0=1αjβj0k`(xj, x0j0) で定義される内積を入れ,その内積で決まるノルムで完備化を したヒルベルト空間H`として定義される.実は,今の場合ではH`={w>F`(x)| kwk < ∞, w ∈ Rm`+1} と表すことができることが示せる (Bach (2017)).このことから,次の層 への出力W(`)F `(x) の各成分はこの再生核ヒルベルト空間の元になっていることがわかる. よってニューラルネットワークの複雑さを測るためには,各層の再生核ヒルベルト空間の 複雑さを評価すればよいことに帰着される.そこで,このカーネル関数の固有値分解を考 える: k`(x, x0) = m` ∑ j=1 µ(`)j φ(`)j (x)φ(`)j (x0). ただし,(φ(`)j ) m` j=1は L 2(P X) 内の正規直交系であるとし,(µj)mj=1` は対応する固有値とする. ここで,各層の統計的な「自由度」を,λ > 0 の関数として N`(λ) = m` ∑ j=1 µ(`)j µ(`)j + λ と定義する.λ は再生核ヒルベルト空間をより小さな部分空間で近似するときの「誤差」に 対応しており,自由度は誤差 λ を許容した時に取れる部分空間の次元にあたる量である.λ を小さくしてゆくと自由度は単調に増加してゆくことに注意されたい.そのことから,こ の量が内在的な次元として適切であることがわかる.今,各 ` = 2, . . . , L において,任意 の λ`> 0 に対して, m]`≥ N`(λ`) log(N`(λ`)) ととると,適当な条件のもと,各層の横幅が (m] `) L `=2であるネットワーク f ]が存在して, kf − f]k2 L2(PX)≤ C ( L ∑ `=2 √ λ` )2 とある定数 C を用いて評価できる(定数はネットワークのパラメータ (W(`), b(`))L `=1のノ ルムに依存する).これはすなわち,もとのネットワークの自由度が小さければ,それより も小さなネットワークに少ない誤差で圧縮できることを示している.