Student-t VAEによるロバスト確率密度推定

全文

(1)1. 原著論文 . Original Paper

(2)

(3). Student-t VAE によるロバスト確率密度推定 Student-t Variational Autoencoder for Robust Multivariate Density Estimation 高橋大志. 日本電信電話株式会社 NTT ソフトウェアイノベーションセンタ，京都大学. Hiroshi Takahashi. NTT Software Innovation Center, Kyoto University. [email protected]. 岩田具治. 日本電信電話株式会社 NTT コミュニケーション科学基礎研究所. Tomoharu Iwata. NTT Communication Science Laboratories. [email protected]. 山中友貴. 日本電信電話株式会社 NTT セキュアプラットフォーム研究所. Yuki Yamanaka. NTT Secure Platform Laboratories. [email protected]. 山田真徳. （同. 上）. Masanori Yamada. [email protected]. 八木哲志. 日本電信電話株式会社 NTT ソフトウェアイノベーションセンタ. Satoshi Yagi. NTT Software Innovation Center. [email protected]. 鹿島久嗣. 京都大学. Hisashi Kashima. Kyoto University. [email protected]. keywords: variational autoencoder, generative model, deep learning Summary We propose the Student-t variational autoencoder (VAE), which is a robust multivariate density estimator based on the VAE. The VAE is a powerful deep generative model, and used for multivariate density estimation. With the original VAE, the distribution of observed continuous variables is assumed to be a Gaussian, where its mean and variance are modeled by deep neural networks taking latent variables as their inputs. This distribution is called the decoder. However, the training of VAE often becomes unstable. One reason is that the decoder of VAE is sensitive to the error between the data point and its estimated mean when its estimated variance is almost zero. To solve this instability problem, our Student-t VAE uses a Student-t distribution as the decoder. This distribution is a heavytailed distribution, of which the probability in the tail region is higher than that of a light-tailed distribution such as a Gaussian. Therefore, the Student-t decoder is robust to the error between the data point and its estimated mean, which makes the training of the Student-t VAE stable. Numerical experiments with various datasets show that training of the Student-t VAE is robust, and the Student-t VAE achieves high density estimation performance.. 1. はじめに連続データの確率分布を推定する確率密度推定 [Scott 15] は人工知能において重要なタスクであり，クラスタリングや可視化などの基本的な分析や，画像処理，音声認識，自然言語処理，異常検知などのアプリケーションに応用されている [Kim 12, Reynolds 00, Yin 14, Zivkovic. 04]．これらのタスクでは，カーネル密度推定 [Silverman 86] やガウス混合モデル [McLachlan 04] といった確率密度推定手法がよく用いられていた．しかし，近年のネッ. coder，VAE) [Kingma 13, Rezende 14] が提案されており，確率密度推定にも用いられている．VAE はエンコーダとデコーダの 2 個の条件付き確率分布から構成されており，エンコーダはデータが与えられた下での潜在変数の事後分布を推定し，デコーダは潜在変数が与えられた下でのデータの事後分布を推定する．特に確率密度推定においてデータは連続値を取るため，ガウス分布がデコーダとして用いられる．我々はこのデコーダを Gaussian デコーダと呼び，このデコーダを持つ VAE を Gaussian VAE と呼ぶ．. トワークやセンサの発達に伴うデータの高次元化・複雑. しかし，Gaussian VAE には学習が不安定化する問題が. 化・高ノイズ化により，確率密度推定は困難なタスクと. ある．その一因は Gaussian VAE のデコーダであるガウ. なっている．. ス分布にある．デコーダが推定した分散が非常に小さい. 一方で，高次元かつ複雑なデータを学習できる生成モ. 時，Gaussian VAE の損失関数は，デコーダが推定した平. デルとして，変分オートエンコーダ (variational autoen-. 均とデータの誤差に敏感になる．そのため，たとえ小さ.

(4) 人工知能学会論文誌 36 巻 3 号 A（2021 年）. 2. 𝐱. 2. 変分オートエンコーダ. 𝐱. まず最初に，変分オートエンコーダ (variational autoen𝜎𝜃2 𝐳. 𝜇𝜃 𝐳. 𝜇𝜃 𝐳. 𝜆𝜃 𝐳. 𝜈𝜃 𝐳. 𝐳. 𝐳. (a) Gaussian デコーダ. (b) Student-t デコーダ. coder，VAE) [Kingma 13, Rezende 14] について説明する．本稿では，データ x を連続値と仮定する．VAE は，潜在変数 z を用いてデータ x の確率を ∫ pθ (x) = pθ (x | z) p (z) dz (1) として推定する．ここで p (z) は潜在変数の事前分布であり，標準ガウス分布 N (z|0, I) が用いられることが多い．. (. 図 1: 各デコーダのダイアグラム．(a) Gaussian デコーダは，ニューラルネットワークを用いて潜在変数 z から平均 µθ (z) と分散 σθ2 (z) を推定する．(b) Student-t デコーダは，ニューラルネットワークを用いて潜在変数 z から平均 µθ (z) と精度 λθ (z)，自由度 νθ (z) を推定する．. また，条件付き確率分布 pθ (x|z) = N x | µθ (z) , σθ2 (z). ). は平均 µθ (z) と分散 σθ2 (z) を持つガウス分布であり，パラメータ θ を持つニューラルネットワークによってモデル化されている．このニューラルネットワークはデコーダと呼ばれる．我々はこのデコーダを Gaussian デコーダと呼び，このデコーダを持つ VAE を Gaussian VAE と呼ぶ．. な誤差であっても損失関数が極めて大きい値を取り，学習が不安定化する．我々はこの問題をゼロ分散問題と呼ぶ．ゼロ分散問題は，極めて分散が小さいクラスタを持つデータセットなどの偏ったデータセットでしばしば発生する．ネットワークやセンサ，メディアなどの実データにはこのような偏りが多いため，この問題は VAE の実用化を妨げている．. VAE は，対数尤度の下界である変分下界を最大化するように学習される．各データ x(i) に対する変分下界は， Jensen の不等式により ] [ ( ) ( ) pθ x(i) | z p (z) (i) ( ) ln pθ x = ln Eqϕ (z|x(i) ) qϕ z | x(i) [ ] ( ) pθ x(i) | z p (z) ( ) ≥ Eqϕ (z|x(i) ) ln qϕ z | x(i) ( ) = L θ, ϕ; x(i) (2). 我々の目的は，デコーダをロバストにすることでこの不安定化問題を解決することである．本研究では，Student-t. として導出される．ここで，E[·] は期待値を表し，条件. 分布をデコーダの分布として用いることでデコーダのロ. 付き確率分布 qϕ z | x(i) = N z | µϕ x(i) , σϕ2 x(i). バスト化を行う．我々はこのデコーダを Student-t デコー. は平均 µϕ x(i) と分散 σϕ2 x(i) を持つガウス分布であ. (. (. (. ). ). (. (. ). (. )). ). ダと呼び，このデコーダを持つ VAE を Student-t VAE と. り，パラメータ ϕ を持つニューラルネットワークによっ. 呼ぶ．Student-t 分布は裾が重いという重要な性質を持ち，. てモデル化されている．このニューラルネットワークは. ガウス分布のような裾の軽い分布と比べて裾での確率が. エンコーダと呼ばれる．. 緩やかに減衰する [Lange 89]．そのため，Student-t デコーダは，デコーダが推定した平均とデータの誤差にロバストになり，学習を安定化させる効果がある．Gaussian デコーダと Student-t デコーダのダイアグラムをそれぞれ図 1(a) と図 1(b) に示す． Student-t デコーダは Gaussian デコーダと比べ，デコーダが潜在変数から推定するパラメータが 1 個多いだけであり，少ない計算量で学習の安定化に成功している．我々は複数のデータセットを用いた実験により，Student-t VAE が Gaussian VAE と比べて. ( ) L θ, ϕ; x(i) は，. ) ( )] [ ( L θ, ϕ; x(i) = Eqϕ (z|x(i) ) ln pθ x(i) | z ) ) ( ( − DKL qϕ z | x(i) ∥p (z). (3). のように式変形することができる．ここで，DKL (P ∥Q) は分布 P と Q の間の Kullback Leibler (KL) 情報量を. (. (. ). ). 表す．DKL qϕ z | x(i) ∥p (z) はガウス分布間の KL. 高いロバスト性と密度推定性能を有することを示した．. 情報量であるため，閉形式で計算可能である [Kingma. 本論文の構成は下記の通りである．まず 2 章で VAE の. 13]．式 (3) における期待値項は，reparameterization trick [Kingma 13] により，. 説明を行い，続いて 3 章でゼロ分散問題について実例を交えて説明する．4 章ではこの問題を解決する Student-t. VAE を提案し，5 章で評価実験を行う．6 章で関連研究について述べ，最後に 7 章で結論を述べる．. L ) ( [ ( )] 1 ∑ ln pθ x(i) | z(i,ℓ) Eqϕ (z|x(i) ) ln pθ x(i) | z ≃ L ℓ=1. (4).

(5) Student-t VAE によるロバスト確率密度推定. 60. 160 140 120 100 80 60 40 20 0 −20. 60. 40. 20. 40. 0 981. 982. 983. 984. 985. 20. 0 0. 200. 400 600 Number of epochs. 800. 1000. (b) 学習誤差の平均. (a) SMTP データセット (10%). Loss(982) − Loss(981) Loss(983) − Loss(982). Loss(t+1) − Loss(t). Negative variational lower bound. 3. −10. −8. −6 −4 −2 min ln σθ2 (z). 0. (c) デコーダが推定する分散と誤差の関係. 図 2: (a) SMTP データセットの可視化．(b) SMTP データセットに対する学習誤差の平均．挿入されている図は，983 エポック付近を拡大したものを表す．(c) デコーダが推定する分散と学習誤差の関係．Loss(t) は t エポック目における各. (. ). (. ). データに対する −Lˆ θ, ϕ; x(i) の値を表し，min ln σθ2 (z) は ln σθ2 (z) の最小値を表す．ここでは，Loss(t) − Loss(t−1). (. ). の平均と標準偏差をプロットした．図の横軸のビン幅は，c を整数とした時，min ln σθ2 (z) ∈ [c − 0.5, c + 0.5] である．982 エポック目から 983 エポック目にかけて，小さい ln σθ2 (z) を持つデータに対する学習誤差の値が劇的に大きくなっていることが分かる．. (. ). (. と近似される．ここで z(i,ℓ) = µϕ x(i) + ε(i,ℓ) σϕ x(i). ). ワークにおいて人工的な攻撃を行うことによって生成さ. は N (0, I) からのサンプルである．また，L. れたデータセットであり，教師なし異常検知手法の評価な. は reparameterization trick のサンプルサイズであり，通. どに用いられている．SMTP データセットは 3 次元の連. 常は L = 1 に設定される [Kingma 13]．. 続値データで構成されており，図 2(a) にこのデータセッ. であり，ε. (i,ℓ). トを可視化したものを示す．このデータセットは偏りを. 以上より，各データ x(i) に対する変分下界は. ( ) L θ, ϕ; x(i). 持つデータセットである．つまり，いくつかのクラスタ. L ( ) ( ( ) ) 1∑ ln pθ x(i) | z(i,ℓ) −DKL qϕ z | x(i) ∥p (z) L ℓ=1 ( ) = Lˆ θ, ϕ; x(i) (5). Gaussian VAE をこのデータセットに適用し，確率的勾配法の一種である Adam [Kingma 14] を用いて学習を行う．潜在変数 z は 2 次元に設定し，2 層の中間層を持つ. の分散が，次元方向に沿って極めて小さくなっている．. ≃. {. と書くことができる．データセット X = x(1) , . . . , x(N ). }. が与えられた時，最終的な目的関数は N ) 1 ∑ ˆ( L θ, ϕ; x(i) N i=1. ニューラルネットワークを用いてエンコーダとデコーダをモデル化した．中間層のユニットサイズは 500 に設定し，活性化関数として双曲線正接関数 (hyperbolic tangent) を用いた．また，Adam のミニバッチのサイズは 100 とした．SMTP データセットは，各次元の平均が 0，分散が. (6). 1 になるように標準化を行い，データ全体の 10%を学習に用いた．図 2(b) に学習誤差の平均 (−. となる．エンコーダとデコーダのパラメータは，確率的. ∑N. ( ) ˆ θ, ϕ; x(i) /N ) を. i=1 L. 勾配法 [Duchi 11, Kingma 14, Tieleman 12, Zeiler 12] を. 示す．図から分かる通り，学習が非常に不安定である．そ. 用いて式 (6) を最大化することによって最適化される．本. の一因は，デコーダ N x(i) |µθ z(i,ℓ) , σθ2 z(i,ℓ). (. σθ2. (. (i,ℓ). ). (. ). )). の分. がほぼ 0 になることにある．ここで，z(i,ℓ). 稿では，式 (6) を最大化する代わりに，式 (6) に負の符. 散. 号を掛けたものを損失関数として扱い，最小化している．. はエンコーダ N z(i,ℓ) |µϕ x(i) , σϕ2 x(i). z. (. (. (. ). (. )). からのサン. プルである．例として，学習誤差の値が跳ね上がってい. 3. Gaussian VAE の学習の不安定性本章では，SMTP データセット ∗1 を用いて，Gaussian. VAE の学習の不安定性について調べる．SMTP データセットは KDD Cup 1999 データセットのサブセットであり， scikit-learn コミュニティにより提供されている [Pedregosa 11]．KDD Cup 1999 データセットは，クローズドネット ∗1 http://scikit-learn.org/stable/modules/generated/sklearn.datasets. fetch kddcup99.html. る 983 エポック目に着目する．図 2(c) に，このエポック. (. ). の前後における学習誤差の値の差と，分散 σθ2 z(i,ℓ) の. ( 2. 関係を示す．この図から，分散 σθ z. ) (i,ℓ). が小さいデー. タにおいて，学習誤差の値が劇的に大きくなっていることが分かる．. (. ). デコーダが推定する分散 σθ2 z(i,ℓ) がほぼ 0 に近い値を取る時，デコーダは，デコーダが推定した平均とデータの誤差に敏感になる．つまり，デコーダが推定した平. (. ). 均 µθ z(i,ℓ) がデータ x(i) と少しでも異なる値を取った.

(6) 人工知能学会論文誌 36 巻 3 号 A（2021 年）. 4. 場合，変分下界 (式 (5)) の第一項である. (. で与えられる．したがって，MAP 推定を用いた VAE の目的関数は，. ). { } L ( ) b 1∑ (i) (i,ℓ) ln pθ x | z − 2 ( (i,ℓ) ) L σθ z l=1 ( ( ) ) − DKL qϕ z | x(i) ∥p (z) (10). ln pθ x | z )) ( ( ) ( = ln N x(i) | µθ z(i,ℓ) , σθ2 z(i,ℓ)  (  ( )) 2 (i) ( ) ∑  xd − µθ,d z(i,ℓ) 1  2 ( ) = − ln 2πσθ,d z(i,ℓ)  − 2 (i,ℓ) 2 z 2σ θ,d d. となる．我々はこの種類の VAE を MAP VAE と呼ぶ．こ. (7). の目的関数は，オリジナルの Gaussian VAE の変分下界. (i). (i,ℓ). (i). ( ) (i,ℓ). ) ( 2. の値が劇的に変化する．ここで xd ，µθ,d z(i,ℓ) ，そし. (. 2 て σθ,d z. ) (i,ℓ). (. はそれぞれ x(i) ，µθ z. ，σθ z. (. ). に対して，小さい分散 σθ2 z(i,ℓ) に罰則を与えたものと. ) (i,ℓ). の d 次元目の値を表す．この性質が，Gaussian VAE の学習を不安定にさせている．この不安定化問題は偏ったデータセットで発生することが多い．なぜなら，いくつかのデータは分散が極めて小さいクラスタに属し，それらのデータに対してデコーダが推定した分散は，学習が進むに連れ，より小さい値を取るからである．この問題は目的関数の敏感性が問題であるため，確率的勾配法の種類を変えたり，そのハイパーパラメータを調整するだけでは解決することができない．. 解釈できる．ここで b は正則化パラメータである．b は交差検証法を用いて調整することができるが，高い計算コストを要する．さらに，MAP VAE は事前分布が潜在変数 z と独立と仮定されているため，デコーダの持つ柔軟性を失っているという問題がある．. 4·2 分散パラメータの周辺化より柔軟かつ計算効率の良い手法として，潜在変数 z に依存するガンマ分布 Gam (τ | a (z) , b (z)) を事前分布として導入する．ここで a (z) と b (z) はそれぞれ形状パラメータと尺度パラメータであり，潜在変数 z に依存する．精度パラメータ τ を解析的に積分消去することで，潜在変数 z が与えられた下でのデータ x の事後分布は，. Student-t 分布. 4. Student-t VAE. pθ (x | z). 我々はこのゼロ分散問題を，ベイズ的なアプローチを用いてデコーダをロバスト化することで解決する．このアプローチは，Student-t 分布をデコーダとして用いることと等価になる．まず最初に，Gaussian デコーダの推定する分散に事前分布を導入する．精度パラメータ τθ (z) を分散の逆数. τθ (z) = 1/σθ2 (z) とする．精度パラメータの共役事前分布として，ガンマ分布. 0. ) ( ] νθ(z)+1 ( ) 1[ 2 − 2 Γ νθ(z)+1 2 λθ (z) 2 λθ (z)(x−µθ (z)) ) 1+ = ( πνθ (z) νθ (z) Γ νθ2(z) = St (x | µθ (z) , λθ (z) , νθ (z)). (11). となる．ここで，λθ (z) = a(z)/b (z) は Student-t 分布の精度パラメータ ∗2 であり，νθ (z) = 2a (z) は自由度パラ. ba τ a−1 exp (−bτ ) Gam (τ | a, b) = Γ (a). (8). メータである．我々は λθ (z) と νθ (z) を，µθ (z) と同じようにニューラルネットワークを用いてモデル化し，. を用いる．ここで， a は形状パラメータ， b は尺度パラメータであり，共に正の値を取る．. デコーダとして用いる．我々はこのデコーダを Student-t デコーダと呼び，このデコーダを持つ VAE を Student-t. VAE と呼ぶ．図 3 に Student-t 分布のプロットを示す． Student-t 分布は，同じ平均を持ち，異なる分散を持つガウス分布を. 4·1 最大事後確率推定法ゼロ分散問題を解決する単純な手段として，最大事後確率推定法 (MAP Estimation) を導入する．簡単のため，. Gam (τ | 1, b) を 1/σθ2 (z) の事前分布として用いる．この対数確率は，. ln Gam (τθ (z) | 1, b) = ln b − bτθ (z) ∝ −. ∫∞ ( ) = N x | µθ (z) , τ −1 Gam (τ | a (z) , b (z)) dτ. 無限個組み合わせた分布であり，裾が重いという重要な性質を持つ．裾が重い分布は，ガウス分布のような裾の軽い分布と比べて，裾での確率が緩やかに減衰するため，ロバスト性が強い分布である．そのため Student-t デコーダは，デコーダが推定した平均とデータの誤差にロバス. b σθ2 (z). トになり，学習を安定化させる効果がある．裾の重さは. (9) ∗2 このパラメータは，常に分散の逆数になるとは限らない．.

(7) Student-t VAE によるロバスト確率密度推定. 5. データセットの 50%を学習データ，10%を検証データ，残りの 40%をテストデータとした．各データセットは，各. −2 ln (St (x | 0, 1, ν)). 次元の平均が 0，分散が 1 になるように標準化を行った．. −4. 表 1 に各データセットのデータ数と次元を示す．また，図. −6. 4(a)–(d) に Aloi，Thyroid，Cancer，Satellite の次元ごと. −8. のヒストグラムを示す． ν = 1.0 ν = 10.0 ν→∞. −10 −12 −14. 図 3:. −4. −2. 0 x. 2. 5·2 設. エンコーダとデコーダとして，2 層の中間層を持つニ. 4. ューラルネットワークを用いた．中間層のユニットサイ. 様々な自由度 ν に対する Student-t 分布. St (x | 0, 1, ν) のプロット (対数スケール)．Student-t 分布はガウス分布に比べて裾が重く，ν → ∞ の時にガウス分布 N (x | 0, 1) に一致する．. 表 1: 各データセットのデータ数と次元. SMTP. Aloi Thyroid Cancer Satellite. データ数 95,156 50,000 次元. 3. 27. 定. 6,916 21. 367 30. 5,100 36. ズは 500 に設定し，活性化関数として双曲線正接関数. (hyperbolic tangent) 関数を用いた．Adam [Kingma 14] を用いて学習を行い，ミニバッチサイズは 100 とした．エポックの最大数は 500 とし，検証データを用いて earlystopping [Goodfellow 16] を行った．reparameterization trick のサンプル数は L = 1 とした．潜在変数 z の次元は，SMTP に対しては 2 次元とし，他のデータセットに対しては 20 とした ∗4 ．評価時には，重点サンプリング [Burda 15] を用いてテストデータに対する対数周辺尤度 (テスト対数尤度) を計算した．重点サンプリングのサンプル数は 100 に設定した．各実験は 8 回ずつ行った．. 自由度 ν によって調整されるため，各データに対して自. 5·3 結. 由度 νθ (z) を推定する Student-t VAE は，各データに対. ため，学習の安定性の評価と併せて，テストデータに対. 5(a)–(e) に，学習誤差の平均と学習時間 (秒) の関係を示し ∗5 ，表 2 に Gaussian VAE と MAP VAE，Student-t VAE のテスト対数尤度の比較を示す．まず最初に，Gaussian VAE に着目する．SMTP と Aloi， Thyroid に対して，Gaussian VAE の学習は不安定化し，テスト対数尤度は Student-t VAE と比べて低い値を示した．図 2(a) と図 4(a), (b) から分かる通り，SMTP と Aloi， Thyroid は非常に偏った値を取る次元が多いため，Gaussian デコーダの推定する分散が極めて小さくなり，ゼロ分散問題が発生する．一方で，Cancer と Satellite に対しては，Gaussian VAE の学習は安定し，Student-t VAE と同等のテスト対数尤度を示した．図 4(c), (d) から分かる通り，Cancer と Satellite は各次元が偏りの少ない値を取. する密度推定性能の評価も行う．. るため，ゼロ分散問題は発生せず，学習が安定する．図. 5·1 デ. 6(a), (b) は，SMTP において，それぞれミニバッチサイズと学習率が異なるときの Gaussian VAE のテスト対数. して適切なロバストさを設定することができる．この性質は，MAP VAE と比べて，より柔軟な密度推定を可能とする．また，MAP VAE のようにパラメータ調整のために交差検証法を用いる必要がないため，Student-t VAE が必要とする計算コストは低い．. 5. 実. 験. 本章では，Student-t VAE の評価実験を行う．学習が不安定化した結果生じる一番の問題点として，学習が進まず，密度推定性能が低くなることが挙げられる．その. ー. タ. 果. 実験では，SMTP，Aloi，Thyroid，Cancer，Satellite. 尤度を示す．ミニバッチサイズと学習率を調整したとし. の 5 個のデータセットを用いた．SMTP は 3 章で用い. ても，Gaussian VAE のテスト対数尤度は Student-t VAE. たものと同じものを用いた．データセットの 10%を学. のテスト対数尤度よりも低い．これらの結果から，最適. 習データ，10%を検証データ，残りの 80%をテストデー. 化手法のハイパーパラメータを調整するよりも，目的関. タとした．Aloi は Amsterdam library of object images. 数のロバスト性を向上させるほうが良い性能に繋がるこ. [Geusebroek 05] の略であり，Thyroid，Cancer，Satellite は UCI Machine Learning Repository [Lichman 13] で利用可能なデータセットである．これら 4 個のデータセットは，[Goldstein 16] により変換されたものを用いた ∗3 .. とが分かる．. ∗3 https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi: 10.7910/DVN/OPQMVF. ∗4 潜在変数の次元は，データセットの次元より低く，かつ十分な表現能力を得られるよう高く設定した．SMTP 以外のデータセットでは，Thyroid の 21 次元に合わせて 20 次元に設定した． ∗5 Student-t VAE は Gaussian VAE よりもパラメータが多く，1 エポックに必要な計算量が大きい．よって，公平な比較を行うため，wall clock での比較を行った．.

(8) 人工知能学会論文誌 36 巻 3 号 A（2021 年）. 6. Gaussian MAP(b = 1) MAP(b = 0.001) Student-t. 10. 0 0. 50. 100 150 wall clock (seconds). 200. 50. MAP(b = 0.001) Student-t. 0. −50 0. (a) SMTP Negative variational lower bound. Gaussian MAP(b = 1). 200 400 wall clock (seconds). (d) Satellite. 100 Gaussian MAP(b = 1) 50. MAP(b = 0.001) Student-t. 0. −50 0. 20 40 wall clock (seconds). (b) Aloi. 80. Gaussian MAP(b = 1). 60. MAP(b = 0.001) Student-t. 40 20 0. 1. 2 3 wall clock (seconds). Negative variational lower bound. 20. 100. Negative variational lower bound. (b) Thyroid (c) Cancer 図 4: 各データセットの次元ごとのヒストグラム. Negative variational lower bound. Negative variational lower bound. (a) Aloi. 60. (c) Thyroid 60 Gaussian MAP(b = 1) 40. MAP(b = 0.001) Student-t. 20. 0. 20 40 wall clock (seconds). (d) Cancer (e) Satellite ( ) ∑N 図 5: 各データセットに対する学習誤差の平均 (− i=1 Lˆ θ, ϕ; x(i) /N ). 次に，MAP VAE に着目する．b = 1 のように正則化. トにおいて，Student-t VAE の学習は安定しており，Gaus-. パラメータの値が大きい時，学習は安定しているが，誤ラメータの値が小さい時，SMTP，Aloi，Thyroid におい. sian VAE や MAP VAE と比べて，同等もしくはそれ以上のテスト対数尤度を示していることが分かる．Student-t VAE は自由度 νθ (z) を推定することで，各データに対. て，Gaussian VAE のように学習が不安定化していること. して適切なロバストさを設定することが可能なため，デ. が分かる．MAP VAE のテスト対数尤度は Gaussian VAE. コーダの持つ柔軟性を向上させながら，ゼロ分散問題を. のテスト対数尤度と同等かもしくは低い値を示した．そ. 解決することができる．その結果，学習が安定し，より. の原因は，事前分布であるガンマ分布のパラメータ b が. 良い密度推定性能に繋がっている．. 差が減らないことが分かる．b = 0.001 のように正則化パ. 定数であるため，デコーダの持つ柔軟性を損なっている. さらに，ノイズ環境下における学習の安定性について. からである．図 6(c) は，SMTP における，様々な正則化. 評価する．SMTP に対して，一様分布に従うノイズを付. パラメータ b に対する MAP VAE のテスト対数尤度を示. 加し，テスト対数尤度の評価を行った．図 6(d) は，テス. している．b = 0.001 の時，MAP VAE のテスト対数尤度. ト対数尤度とノイズの比率の関係を示す．ノイズが増え. は Gaussian VAE と比べて有意差がなく，b ≥ 0.01 の時，. るにつれ Gaussian VAE の学習が不安定化しているのに. b が大きくなるにつれて，テスト対数尤度が悪くなってい. 対して，Student-t VAE の学習は安定していることが分. る．これらの結果から，各データに対して適切なロバス. かる．この結果から，Student-t VAE は実環境のアプリ. トさを設定することができる Student-t VAE は，デコー. ケーションが動作するようなノイズ環境下においても有. ダの持つ柔軟性を損なわずに，ゼロ分散問題を解決する. 効であることが分かる．. ことができる有効な手段であることが分かる．続いて，Student-t VAE に着目する．全てのデータセッ. 最後に，Student-t VAE の精度パラメータ λθ (z) と自由度パラメータ νθ (z) の関係について調べる．図 7 に，.

(9) Student-t VAE によるロバスト確率密度推定. 7. 表 2: テスト対数尤度の比較．最も良かった結果と，その結果に対して有意差がなかった結果を太字で表した．検定には対応のある t 検定を用い，p 値は 5%とした．. Aloi. Thyroid. Cancer. Satellite. -1.248 ± 0.404 -4.864 ± 0.020 -1.932 ± 0.404 0.827 ± 0.105. 45.418 ± 5.457 -38.210 ± 0.156 30.406 ± 0.383 77.022 ± 0.539. 15.519 ± 4.422 -31.266 ± 0.159 18.037 ± 1.318 69.543 ± 0.634. -18.668 ± 3.448 -45.895 ± 0.843 -19.017 ± 3.273 -18.253 ± 2.629. -1.852 ± 0.370 -50.895 ± 0.238 -1.899 ± 0.372 -1.811 ± 0.289. Test log likelihood. Test log likelihood. 1 0 Student-t Gaussian. −1 −2 −3. 200. 400 600 800 batch size. 1 0 −1 −2 −3 −4 −5. 1000. (a) バッチサイズ. Student-t Gaussian. −10 −9 −8 −7 −6 −5 −4 −3 learning rate (log scale). 0 −2 −4 −6 −8 Gaussian −10 Student-t −12 MAP −14 −12−10 −8 −6 −4 −2 0 b (log scale). Test log likelihood. Gaussian MAP(b = 1) MAP(b = 0.001) Student-t. SMTP. Test log likelihood. Method. 2. 1 0 −1 −2 −3 −4 −5 −6 −7. Gaussian Student-t 0.1 0.2 0.3 0.4 0.5 Ratio of noisy samples to dataset. (c) 正則化パラメータ. (d) ノイズ環境下図 6: 各種設定における Gaussian VAE と MAP VAE，Student-t VAE のテスト対数尤度．SMTP データセットを用いて (b) 学習率. 実験し，表 2 のテスト対数尤度を比較のため破線で示した．半透明の区間とエラーバーは標準偏差を表す．(a) Gaussian. VAE のテスト対数尤度とミニバッチサイズの関係．(b) Gaussian VAE のテスト対数尤度と学習率の関係．(c) MAP VAE のテスト対数尤度と正則化パラメータ b の関係．(d) ノイズ環境下におけるテスト対数尤度と学習の安定性の関係． 400. dim=1 dim=2 dim=3. νθ (z). 300. 6. 関連研究. VAE の学習を安定化させる手法は数多く提案されてお. 200. り，これらの手法は reparameterization trick やミニバッチのランダム性などの最適化手法の不安定性に着目してい. 100. る [Johnson 13, Kingma 15, Miller 17, Roeder 17, Wang 0 0. 50000. 100000 λθ (z). 150000. 200000. 図 7: SMTP データセットにおける Student-t VAE の各次元における精度パラメータ λθ (z) と自由度パラメータ. νθ (z) の関係．. 13]．これに対して，Student-t VAE ではデータの偏りに起因する不安定性であるゼロ分散問題に初めて着目し，. Student-t 分布を用いて目的関数をロバスト化することで解決している．この手法は計算コストが低く，上記の安定化手法と同時に用いることができる．. VAE のデコーダには，データセットの性質に対して適切な分布が選ばれる．離散値データではベルヌーイ分布や. SMTP における λθ (z) と νθ (z) の関係を示す．図 7 から，λθ (z) が大きい時は νθ (z) が限りなく小さい値を取っていることが分かる．λθ (z) は分散の逆数に対応するため，分散が小さい時は自由度が小さくなっている．図 3 から分かる通り，Student-t 分布は自由度が大きい時はガウス分布に近づき，自由度が小さい時は裾が重くなり，ロバストな分布になる．つまり Student-t VAE は，デコーダが推定した分散が小さくなるようなデータに対して小さい自由度を設定することで，ロバストな学習を実現している．. ポアソン分布，多項分布や discretized mixture of logistics. distribution [Salimans 17] などが用いられる．しかし，連続値データではほとんどの場合でガウス分布が用いられており，ゼロ分散問題が発生する可能性が高い．. Student-t 分布はガウス分布よりもロバスト性の高い分布として知られており [Lange 89]，このロバスト性は stochastic neighbor embedding [Maaten 08] やガウス過程 [Jylänki 11]，ベイズ最適化 [Martinez-Cantin 17] などの様々な機械学習手法に適用されている．これらのアルゴリズムでは，Student-t 分布をデータに含まれるノイ. これらの結果から，Student-t VAE は学習の安定化に成. ズの影響を軽減するために用いている．これらに対して. 功しており，密度推定性能も Gaussian VAE と同等もしくはそれ以上であることが分かる．つまり，Student-t VAE. Student-t VAE は，デコーダが推定した平均とデータの誤差の影響を抑えるために Student-t 分布を利用してお. は Gaussian VAE のより良い代替手段であると言える．. り，目的関数のロバスト化を達成している．.

(10) 人工知能学会論文誌 36 巻 3 号 A（2021 年）. 8. 7. 結. 論. 本論文では，変分オートエンコーダ (variational autoencoder，VAE) に基づくロバストな確率密度推定器として， Student-t VAE を提案した．Gaussian VAE の学習は不安定化しやすいことが知られている．学習が不安定化する原因を調べた結果，デコーダが推定した分散が非常に小さい時，Gaussian VAE の損失関数が，デコーダが推定した平均とデータの誤差に敏感になってしまうことが一因であると解明した．. VAE の学習を安定化させるため，我々は Gaussian デコーダにベイズ的なアプローチを導入した．我々はガンマ分布を事前分布としてデコーダが推定する分散の逆数に設定し，積分消去を行うことで周辺化した．この一連の手続きは，Student-t 分布をデコーダとして用いることと等価となる．Student-t 分布は裾の重い分布であるため，. Student-t デコーダは誤差に対してロバストになり，その結果，学習が安定化する．実験では，Student-t VAE が高いロバスト性と密度推定性能を有することを示した．今後の課題として，我々は Student-t VAE を異常検知. [Suh 16] や画像生成 [Oord 16] などのアプリケーションに適用することを検討している．. ♢ 参考文献 ♢ [Burda 15] Burda, Y., Grosse, R., and Salakhutdinov, R.: Importance weighted autoencoders, arXiv preprint arXiv:1509.00519 (2015) [Duchi 11] Duchi, J., Hazan, E., and Singer, Y.: Adaptive subgradient methods for online learning and stochastic optimization, Journal of Machine Learning Research, Vol. 12, No. Jul, pp. 2121–2159 (2011) [Geusebroek 05] Geusebroek, J.-M., Burghouts, G. J., and Smeulders, A. W.: The Amsterdam library of object images, International Journal of Computer Vision, Vol. 61, No. 1, pp. 103–112 (2005) [Goldstein 16] Goldstein, M. and Uchida, S.: A comparative evaluation of unsupervised anomaly detection algorithms for multivariate data, PloS One, Vol. 11, No. 4, p. e0152173 (2016) [Goodfellow 16] Goodfellow, I., Bengio, Y., and Courville, A.: Deep Learning, MIT Press (2016), http://www.deeplearningbook.org [Johnson 13] Johnson, R. and Zhang, T.: Accelerating stochastic gradient descent using predictive variance reduction, in Advances in Neural Information Processing Systems, pp. 315–323 (2013) [Jylänki 11] Jylänki, P., Vanhatalo, J., and Vehtari, A.: Robust Gaussian process regression with a Student-t likelihood, Journal of Machine Learning Research, Vol. 12, No. Nov, pp. 3227–3257 (2011) [Kim 12] Kim, J. and Scott, C. D.: Robust kernel density estimation, Journal of Machine Learning Research, Vol. 13, No. 1, pp. 2529– 2565 (2012) [Kingma 13] Kingma, D. P. and Welling, M.: Auto-encoding variational Bayes, arXiv preprint arXiv:1312.6114 (2013) [Kingma 14] Kingma, D. and Ba, J.: Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980 (2014) [Kingma 15] Kingma, D. P., Salimans, T., and Welling, M.: Variational dropout and the local reparameterization trick, in Advances in Neural Information Processing Systems, pp. 2575–2583 (2015) [Lange 89] Lange, K. L., Little, R. J., and Taylor, J. M.: Robust statistical modeling using the t distribution, Journal of the American Statistical Association, Vol. 84, No. 408, pp. 881–896 (1989) [Lichman 13] Lichman, M.: UCI Machine Learning Repository (2013) [Maaten 08] Maaten, L. v. d. and Hinton, G.: Visualizing data using t-SNE, Journal of Machine Learning Research, Vol. 9, No. Nov, pp.. 2579–2605 (2008) [Martinez-Cantin 17] Martinez-Cantin, R., McCourt, M., and Tee, K.: Robust Bayesian optimization with Student-t likelihood, arXiv preprint arXiv:1707.05729 (2017) [McLachlan 04] McLachlan, G. and Peel, D.: Finite Mixture Models, John Wiley & Sons (2004) [Miller 17] Miller, A., Foti, N., D’Amour, A., and Adams, R. P.: Reducing reparameterization gradient variance, in Advances in Neural Information Processing Systems 30, pp. 3711–3721 (2017) [Oord 16] Oord, van den A., Kalchbrenner, N., Espeholt, L., Vinyals, O., Graves, A., et al.: Conditional image generation with PixelCNN decoders, in Advances in Neural Information Processing Systems, pp. 4790–4798 (2016) [Pedregosa 11] Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., et al.: Scikit-learn: Machine learning in Python, Journal of Machine Learning Research, Vol. 12, No. Oct, pp. 2825–2830 (2011) [Reynolds 00] Reynolds, D. A., Quatieri, T. F., and Dunn, R. B.: Speaker verification using adapted Gaussian mixture models, Digital Signal Processing, Vol. 10, No. 1-3, pp. 19–41 (2000) [Rezende 14] Rezende, D. J., Mohamed, S., and Wierstra, D.: Stochastic backpropagation and approximate inference in deep generative models, in Proceedings of the 31st International Conference on Machine Learning, pp. 1278–1286 (2014) [Roeder 17] Roeder, G., Wu, Y., and Duvenaud, D. K.: Sticking the landing: Simple, lower-variance gradient estimators for variational inference, in Advances in Neural Information Processing Systems, pp. 6928–6937 (2017) [Salimans 17] Salimans, T., Karpathy, A., Chen, X., and Kingma, D. P.: PixelCNN++: Improving the PixelCNN with discretized logistic mixture likelihood and other modifications, arXiv preprint arXiv:1701.05517 (2017) [Scott 15] Scott, D. W.: Multivariate Density Estimation: Theory, Practice, and Visualization, John Wiley & Sons (2015) [Silverman 86] Silverman, B. W.: Density Estimation for Statistics and Data Analysis, Vol. 26, CRC Press (1986) [Suh 16] Suh, S., Chae, D. H., Kang, H.-G., and Choi, S.: Echostate conditional variational autoencoder for anomaly detection, in 2016 International Joint Conference on Neural Networks (IJCNN), pp. 1015–1022 (2016) [Tieleman 12] Tieleman, T. and Hinton, G.: Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude, COURSERA: Neural Networks for Machine Learning, Vol. 4, No. 2, pp. 26–31 (2012) [Wang 13] Wang, C., Chen, X., Smola, A. J., and Xing, E. P.: Variance reduction for stochastic gradient optimization, in Advances in Neural Information Processing Systems, pp. 181–189 (2013) [Yin 14] Yin, J. and Wang, J.: A dirichlet multinomial mixture modelbased approach for short text clustering, in Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 233–242 (2014) [Zeiler 12] Zeiler, M. D.: ADADELTA: an adaptive learning rate method, arXiv preprint arXiv:1212.5701 (2012) [Zivkovic 04] Zivkovic, Z.: Improved adaptive Gaussian mixture model for background subtraction, in Proceedings of the 17th International Conference on Pattern Recognition 2004 (ICPR 2004), Vol. 2, pp. 28–31 (2004). 〔担当委員：北岡伸也〕. 2020 年 10 月 15 日受理.

(11) Student-t VAE によるロバスト確率密度推定. 著者紹高橋. 介大志. 2015 年東京工業大学大学院総合理工学研究科知能システム科学専攻修士課程修了．同年，日本電信電話株式会社入社．現在，同 NTT ソフトウェアイノベーションセンタ研究員および京都大学大学院情報学研究科知能情報学専攻博士課程に在学中．機械学習，データマイニングの研究開発に従事．. 岩田. 具治. 2001 年慶應義塾大学環境情報学部卒業．2003 年東京大学大学院総合文化研究科修士課程修了．同年，日本電信電話株式会社入社．2008 年京都大学大学院情報学研究科博士課程修了．博士 (情報学)．2012-13 年ケンブリッジ大学客員研究員．現在，NTT コミュニケーション科学基礎研究所所属．機械学習，データマイニングの研究に従事．電子情報通信学会，情報処理学会各会員．. 山中. 友貴. 2015 年東京工業大学大学院理工学研究科物性物理学専攻修士課程修了．同年，日本電信電話株式会社入社．現在，同 NTT セキュアプラットフォーム研究所研究員．機械学習，ネットワークセキュリティの研究開発に従事．. 山田. 真徳. 2015 年筑波大学大学院数理物質科学研究科物理学専攻博士課程修了．同年，日本電信電話株式会社入社．現在，同 NTT セキュアプラットフォーム研究所研究主任．機械学習，AI セキュリティの研究開発に従事．. 八木. 哲志. 2000 年早稲田大学理工学部電子電子情報工学科卒業，2002 年同大学院理工学研究科電気工学専攻修士課程修了．同年，日本電信電話株式会社情報流通プラットフォーム研究所入社，以来同研究所，NTT コミュニケーションズ，NTT レゾナントにてデジタルアイデンティティに関する研究開発やサービス開発・運用に取り組み，現在は日本電信電話株式会社ソフトウェアイノベーションセンタで LASOLV などのイジングマシンを用いた組み合わせ最適化問題などに関する研究開発に取り組んでいる．. 鹿島. 久嗣（正会員）. 1999 年京都大学大学院工学研究科修士課程修了．2007 年同大学院情報学研究科博士後期課程修了．博士 (情報学)． 1999 年より日本アイ・ビー・エム株式会社東京基礎研究所，2009 年より東京大学大学院情報理工学系研究科准教授を経て，2014 年より京都大学大学院情報学研究科教授．. 9.

(12)