Kullback-Leibler
カーネルの正規化スペクトル判別における
特性
The property of the Kullback-Leibler Kernel for Normalized
Frequency Spectrum
石垣 司
1∗樋口 知之
2 †Tsukasa Ishigaki
1and Tomoyuki Higuchi
21
総合研究大学院大学 複合科学研究科 統計科学専攻
1
Department of Statistical Science, Graduate School of Multidisciplinary Sciences, The
Graduate University for Advanced Studies
2
統計数理研究所 モデリング研究系
2
The Institute of Statistical Mathematics
Abstract: The kernel classifier that realizes a nonlinear classification such as Support Vector Machine has been successfully implemented in a number of fields. In the kernel method, the ap-propriate selection or design of the kernel function is important for the construction of a classifier that has high performance. The present paper describes a normalized frequency spectrum clas-sification method using the SVM with the Kullback-Leibler (KL) kernel. We introduce the KL kernel to normalized spectrum classification and study the property of similarity calculation of the KL kernel and other common kernels with respect to the change in the appearance position of spectrum peaks.
1
はじめに
線形判別面を構成する学習機械であるサポートベク ターマシン(SVM)は,非線形判別を可能とするカー ネル法との組み合わせにより,目覚しい成功を収め今 なお発展し続けている [1, 2, 3, 4].能力の高い判別器の 構成のためには正則化項とカーネル関数内のパラメー タのチューニングに加え,適切なカーネル関数の設計 が不可欠である.本研究では,正規化周波数スペクト ル判別問題に対し,確率分布間の近さを測る指標であ る Kullback-Leibler(KL) ダイバージェンスを基に作成 されたカーネル関数を使用する。正規化周波数スペク トルは音声認識 [5] や地震波解析 [6] 等の特徴量として 使用されている。ここでは、離散化された正規化周波 数スペクトルをあたかも多項分布としてみなすことに より、KL カーネルへの入力ベクトルを構成し、より判 別能力の高い SVM の構成を目指す.その結果として, 本研究で取り上げるクラスの判別問題に対しては、多 項式カーネル,Gaussian カーネルなどの一般によく使 ∗連絡先:総合研究大学院大学 複合科学研究科 統計科学専攻 住所 東京都港区南麻布 4-6-7 統計数理研究所 E-mail [email protected] †連絡先:統計数理研究所 住所 東京都港区南麻布 4-6-7 E-mail [email protected] 用されるカーネル関数を使用するよりも,高い判別性 能を持つことを実験的に示す.2
KL
カーネルとその正規化スペク
トルへの適用
KL情報量は 2 つの確率分布間の近さを測る指標とし て使用され,確率変数 x と 2 つの確率分布 p(x),q(x) の近さを D(p(x), q(x)) = Z ∞ −∞ p(x) logp(x) q(x)dx. (1) として定義する.この量は,2 つの分布が同一である ときに 0 の値をとり,値が大きくなるほど 2 つの分布 は遠くなると考えることができる.ここで,カーネル 関数は対称関数である必要があるため,以下の対称化 KL情報量 SD を考える. SD(p(x), q(x)) = Z ∞ −∞ p(x) logp(x) q(x)dx + Z ∞ −∞ q(x) logq(x) p(x)dxSIG-DMSM-A701-15 (7/26)
人工知能学会研究会資料
= Z ∞ −∞{p(x) − q(x)} log p(x) q(x)dx (2) aを定数とすると,KL カーネルは KKL(p(x), q(x)) = e−ρSD(p(x),q(x)) (3) として定義される.KL カーネルはデータの生成モデ ルと判別モデルを同時に取り扱うことが出来る特性を もつ. KLカーネルは,2 つの確率分布間の類似度を測る カーネルとして提案された.[8, 7] では,画像の判別に おいて離散コサイン変換により分解された画像成分に 対して混合ガウスモデル(GMM)を当てはめた確率モ デルを推定し,その統計量を KL カーネルへの入力と している.しかしながら,本問題では確率モデルでは なく周波数スペクトルを取り扱うため,周波数スペク トルを直接 KL カーネルへの入力とする方法を採用す る.そこで,KL カーネルを本問題に適用するため,以 下のように離散化する. KKL(xi, xj) = e−ρSD(xi,xj) (4) SD(xi, xj) = M X k=1 · {xi(k)− xj(k)} log xi(k) xj(k) ¸ (5) ここで,xi(k)は,ある離散正規化スペクトル i の k 番 目の周波数成分であり,それらの要素により構成され る特徴ベクトルは xi = [xi(1)· · · xi(k) · · · xi(M )]T と なる.また図中の ∆t はサンプリングタイム,M は特 徴ベクトルの要素数である.ここではもはや,KL カー ネルへの入力は確率分布関数である必要はなく,次式 の条件を満たし各要素が正値をとる実数ベクトルを入 力ベクトルとすることが可能である. M X k=1 xi(k) = M X k=1 xj(k). (6) KLカーネルは正定値性を満たさないため,SVM の 最適化問題が大域解に収束する保障はない.しかしな がら,[8, 7, 9] などの確率分布を想定したデータに対し て行われた判別実験では KL カーネルは良好な結果を 示している.また,正定値性を満たさないカーネル関 数を使用した場合の SVM の最適化に関して,[10] では 擬似ユークリッド空間における判別問題を解くことと 結び付けられている.また,[11] では再生核クライン 空間において SVM のような正則化項付き最適化問題 は鞍点をもつことと関連付けられている. また,KL カーネルは入力ベクトルの要素に非正値が 存在すると計算不可能になるが,ここでは正規化した スペクトルを入力としているためカーネル関数の計算 が可能である. k 正規化されたパワー 0 100 200 300 400 500 1 A A2 A3 1 µ µ2 µ3 3 λ 1 λ 2 λ : 各ピークの減衰率の指標 p λ p A : 各ピークのパワー値 p µ : 各ピークの出現位置 図 1: 判別実験に使用した擬似スペクトル. A1= A3= 0.25,A2 = 0.5,λ1 = λ2 = λ3 = 10,µ1 = 100, µ2= 200,µ3= 300
3
模擬判別実験
ここでは、KL カーネル関数の正規化スペクトル分類 問題への適応の有効性を示すため,3 つのピークを持 つ擬似スペクトルによる判別実験を行った.基本とな る擬似スペクトルは次式で表されるものを使用した. S(k) =P5001 l=1S(l) 3 X p=1 Ape− 1 ρp|k−µp|, (7) (k = 1,· · · , 500), ここでは A1 = A3 = 0.25,A2 = 0.5,ρ1 = ρ2 = ρ3 = 10,µ1 = 100,µ2 = 200,µ3 = 300と設定し た.その擬似スペクトルの形状を図 1 に示す.図中に 示すように,µp,ρp,Apは,それぞれ周波数軸に対 する各出現ピークの中央値,各ピークの減衰速度,各 ピークの最大パワーを表すパラメータである.実験で は,正規化された擬似スペクトルのパワーを 1Hz 毎 に 1Hz から 500Hz まで抽出し,SVM へ入力する特 徴ベクトルとして使用する.以下の実験では,クラス Y ={1},クラス Y = {−1} に属する擬似スペクトル をそれぞれ 100 個ずつ作成し,判別実験に使用する. また,N (0, σ2)は平均 0,分散 σ2の正規分布を意味す る.また、ここでは 1 次から 5 次までの多項式カーネ ル、Gaussian カーネル、Sigmoid カーネル、Laplacianカーネル、Sublinear カーネル、χ2カーネル、Hellinger カーネル、Bhattacharyya カーネルを使用した。これ らのカーネル関数は付録に示す。多項式、Gaussian、 Sigmoidカーネルは一般に、Laplacian、Sublinear、χ2 カーネルはヒストグラム判別によく使用されるカーネ ル関数である。また、Hellinger、Bhattacharyya カー ネルはダイバージェンスに基づいたカーネル関数であ る。 [実験 1] スペクトルピークの出現位置に対する各
カーネル関数の影響を調べた.ここでは,L = 5 とし, µp= µp− L + ϵp, ϵp∼ N(0, 100), (8) (p = 1, 2, 3), により,発生させた µpを使用して作成した擬似スペク トルを Y ={1} に属するクラスと設定した.また,同 様に,L =−5 として式 (12) によって発生した µpを用 い作成した擬似スペクトルを Y ={−1} に属するクラ スとし,それぞれの擬似スペクトルを SVM への入力 として判別実験を行った.このとき µp以外のパラメー タは変化させていない. [実験 2] スペクトルピークの減衰速度に対する各 カーネル関数の影響を調べた.ここでは,実験1と同 様に,パラメータ ρpに対し, ρp= ρp− L + ϵp, ϵp∼ N(0, 1), (9) (p = 1, 2, 3), を考え,L = 0.5 として作成された擬似スペクトルを Y ={1} に属するクラスとし,L = −0.5 として作成さ れた擬似スペクトルを Y ={−1} に属するクラスとし て判別実験を行った.また,同様に ρp以外のパラメー タは変化させていない. [実験 3] 各スペクトルピークの最大パワーに対す る各カーネル関数の影響を調べた.擬似スペクトルは 正規化されているため,パラメータ Apは各ピーク間 の重みとして考える必要がある.そのため,ここでは A1+ A2+ A3= 1とする.パラメータ Apに対し, Ap = Ap− L + ϵp, ϵp∼ N(0, 0.1), (10) A1 = 1− A2− A3, (p = 2, 3), を考え,L = 0.005 として作成した擬似スペクトルを Y = {1} に属するクラスとし,L = −0.005 として作 成した擬似スペクトルを Y ={−1} に属するクラスと して判別実験を行った.また,同様に Ap以外のパラ メータは変化させていない. [実験 4] 実験 1,2,3 においてクラス Y = 1 に属 するデータセットを作成する条件ですべてのパラメー タ µp,ρp,Apを発生させ,それらを用いクラス Y = {1} に属する擬似スペクトルを作成し,同様にクラス Y ={−1} に属する擬似スペクトルを作成し,判別実 験を行った. 以上の条件設定において,クラス Y = {1},Y = {−1} からそれぞれランダムに 50 の擬似スペクトル データをトレーニングデータセットとして各カーネル を使用した SVM に学習させ,残りの 100 データを判別 させる実験を行った.その実験を 100 回繰り返した各 SVMの平均誤判別率を表 1 に示す.SVM による判別 を行うためには,正則化パラメータ C とカーネル関数 表 1: 判別実験の正答率 Experiments No. (1) (2) (3) (4) µp λp Ap All 1st order polynomial 72.3 76.4 75.3 74.5 2nd order polynomial 71.6 76.6 75.2 74.2 3rd order polynomial 71.8 76.0 75.4 74.5 4th order polynomial 71.7 76.2 74.7 74.3 5th order polynomial 71.9 75.9 74.5 74.1 Sigmoid 71.7 76.5 75.3 79.3 Gaussian 72.8 76.5 75.3 82.8 Laplacian 73.3 77.5 75.7 83.0 Sublinear 72.6 76.3 75.4 83.7 χ2 73.9 77.0 75.8 83.8 Hellinger 75.2 77.7 75.7 84.1 Bhattacharyya 75.5 77.5 76.1 83.9 KL 76.2 77.9 75.7 84.2 がもつパラメータを決定する必要がある.カーネル関 数がもつパラメータとは定数 ρ を指す.ここでは、正 則化パラメータ C は 1 と固定し,カーネルパラメータ ρを [0.01,0.05,0.1,0.5,1,5,10,50,100] として 各判別実験を行い,最も誤判別率が低かった値が示さ れている. その結果,実験 1,2,4 では KL カーネル,実験 3 では Bhattacharyya カーネルの使用が最も良い結果を 示した.KL カーネルを使用した SVM は全ての実験に おいて良好な結果を示している.実験 2,3 では全ての カーネルでほぼ同様の結果を示したため,その判別性 能はカーネルの影響ではなく,トレーニングデータの サンプリング誤差の範囲内であると考えることもでき る.しかしながら,実験 1,4 においては KL カーネル を使用した SVM は卓越した判別性能を示している.数 値実験の結果からも,KL カーネルを正規化周波数ス ペクトル間の類似度を測る関数として使用することの 妥当性、有効性が示された.
4
スペクトル並進移動に対する各カー
ネル関数の特性
前章の結果を確認するため、各カーネル関数のスペ クトルピークの出現位置に対する類似度変化の特性に ついての数値実験を行う。ここでは、模擬スペクトル の形状を変えずに並進移動させ、初期位置と並進移動 させた各模擬スペクトルの各カーネル関数による類似 度の変化を調べる。 本実験では模擬スペクトルとして Gauss 分布と混合Gauss分布を特徴ベクトルとして使用する。ここでは それぞれ図 2(j)、3(j)、 4(j) に示すような平均 5、分 散 1 の Gauss 分布、それぞれ平均 5、10、分散 1.5 の 同一重みの混合 Gauss 分布、それぞれ平均 5、10、分 散 0.5 の同一重みの混合 Gauss 分布を使用する。それ らの模擬スペクトルを初期位置から正の方向へ並進移 動させ、その並進移動させたスペクトルと元のスペク トルとの類似度を計算した。その類似度の変化を図 2、 3、 4 にそれぞれ示す。ここでは、模擬スペクトルの 形状を維持したまま、元の位置から正の方向に 10 ま で並進移動した。また、図の見易さのため、カーネル 関数内のパラメータを同一のスペクトルでの類似度は 1に、正の方向に 10 まで並進移動したときの類似度を 0.1とした。そのため、図中の類似度変化の傾きや絶対 値には意味がない。図 2 では全ての模擬スペクトルの 類似度は並進移動が大きくなるにつれ、単調に減少し ている。これは全てのカーネル関数が模擬スペクトル の並進移動に対して正しく類似度を計算していること を意味する。しかしながら、図 3 では χ2、Hellinger、 Bhattacharyya、KL カーネルを除いて類似度の変化に 極大値が生じている。さらに図 4 では KL カーネルの 類似度のみが単調に減少している。これは、KL カーネ ルを除いた他のカーネル関数では並進移動による模擬 スペクトルのズレが大きいにも関わらず、類似度が大 きいと判断することがあるということ示している。つ まり、これらのカーネル関数は図 5(a) に示すような 2 つの入力ベクトルよりも、1 つのピークが重なっている 図 5(b) のような 2 つの入力ベクトルの方を類似度が高 いと判断していることになる。結果として、対象とし ているスペクトルが複数のピークを持つ場合、KL カー ネルはスペクトルピーク出現位置の並進移動に対して ロバストであると考えられる。本報告ではピークの数 が 2 つの模擬スペクトルを使用したが、ピークの数が 3つ以上でも、各カーネル関数の類似度変化は同様の 傾向を示した。
5
考察
本スペクトル判別問題に対して KL カーネルが高い 判別能力を示したのは,4 章で示した通り,スペクト ルピークの差異を検出する能力が他のカーネルに比べ, KLカーネルがロバストであるためと考えられる.2 章 で述べたように,KL カーネルは正定値性を満たさな い.しかしながら,本実験においては最適化に際して 一度も不都合は生じなかった.それゆえ,本事例に対 しては十分に実用的であると考えられる.しかしなが ら,正定値性を満たさないカーネル関数の使用により 最適化計算に支障をきたす事例に対しては,Relevance Vector Machine [12]などのカーネル関数の正定値性を (a) 3次の多項式カーネル (b) Sigmoidカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 0 2 4 6 8 10 類 似 度 0 0. 5 1 .0 (c) Gaussianカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (d) Laplacianカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (e) Sublinearカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (f) 2カーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (g) Hellingerカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (h) Bhattacharryaカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (i) Kullback-Leiblerカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 0 5 10 15 (j) 入力した模擬スペクトル 図 2: 各カーネル関数における類似度の変化 1。分散 1.0の Gauss 分布 必要としないカーネル判別機を使用する必要がある.6
おわりに
本報告では KL カーネルを用いた周波数スペクトル 判別における特性について述べた.確率論や情報理論 などにおいて,2 つの確率分布間の近さを測る指標と して用いられる KL ダイバージェンスに基づき提案さ れた KL カーネルを,確率分布ではなく正規化周波数 スペクトルの判別問題に適用した.また,KL カーネル を用いることで,多項式カーネルやガウシアンカーネ ルなどの良く知られているカーネル関数を使用するよ りも,より高い判別結果を示した.本手法は,対象が 正規化されたスペクトルであれば多様なスペクトル判 別問題に適用可能である.(a) 3次の多項式カーネル (b) Sigmoidカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 0 2 4 6 8 10 類 似 度 0 0. 5 1 .0 (c) Gaussianカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (d) Laplacianカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (e) Sublinearカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (f) 2カーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (g) Hellingerカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (h) Bhattacharryaカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (i) Kullback-Leiblerカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (j) 入力した模擬スペクトル 5 10 0 15 図 3: 各カーネル関数における類似度の変化 2。分散 1.5の混合 Gauss 分布
参考文献
[1] N. Cristianini, and J. S-Taylor, “An Introduction to Support Vector Machines and Other Kernel-based Learning Methods”, Cambridge University Press, 2004
[2] J. S-Taylor, and N. Cristianini, “Kernel Methods for Pattern Analysis”, Cambridge University Press, 2004 [3] 人工知能学会(編),人工知能学事典,共立出版, 2005 [4] 日本バイオインフォマティクス学会(編), バイオイン
フォマティクス事典,共立出版, 2006
[5] T. Matsui and K. Tanabe, “Comparative study of speaker identification methods: dPLRM, SVM and GMM”, IEICE Trans. Infom. Sys., vol. E89-D, no. 3, pp. 1066–1073, 2006.
[6] E. D. Pezzo, A Esposito, F. Giudicepietro, M. Mari-naro, M. Martini and S. Scarpetta, “Discrimination of earthquakes and underwater explosions using neu-ral networks”, Bull. Seismol. Soc. Am., vol. 93, no. 1, pp. 215–223, 2003.
[7] A. B. Chan, and N. Vasconcelos, “Probabilistic Ker-nels for the Classification of Auto-Regressive Visual
(a) 3次の多項式カーネル (b) Sigmoidカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 0 2 4 6 8 10 類 似 度 0 0. 5 1 .0 (c) Gaussianカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (d) Laplacianカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (e) Sublinearカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (f) 2カーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (g) Hellingerカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (h) Bhattacharryaカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (i) Kullback-Leiblerカーネル 類 似 度 0 0. 5 1 .0 0 2 4 6 8 10 (j) 入力した模擬スペクトル 5 10 0 15 図 4: 各カーネル関数における類似度の変化 3。分散 0.5の混合 Gauss 分布
Processes”, Proc. of the 2005 IEEE Computer Soci-ety Conference CVPR, pp.846-851, 2005
[8] P. J. Moreno, P. P. Ho and N. Vasconcelos, “A Kullback-Leibler Divergence Based Kernel for SVM Classification in Multimedia Applications”, Proc. of the 2003 Neural Information Processing Systems, 2003
[9] S. K. Zhou, and R. Chellappa, ”From Sample Simi-larity to Ensemble SimiSimi-larity: Probabilistic Distance Measures in Reproducing Kernel Hilbert Space”, IEEE Trans. on Pattern Analysis and Machine In-telligence, Vol.28, no.6, pp.917-929, 2006
[10] B. Haasdonk, ”Feature Space Interpretation of SVMs with Indefinite Kernels”, IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol.27, no.4, pp.482-492, 2005
[11] C. S. Ong, X. Mary, S. Canu and A. J. Smola, ”Learning with Non-positive Kernels”, Proc. the 21st International Conference on Machine Learning (ICML-04), pp.639-646, 2004.
[12] M. E. Tipping, ”Sparse Bayesian Learning and the Relevance Vector Machine,” Journal of Machine Learning Research, Vol.1, pp.211-244, 2001
5 10 0 15 (a) パターン 1 5 10 0 15 (b) パターン 2 固定された模擬スペクトル 並進移動した模擬スペクトル 図 5: スペクトルのパターン