ブール関数の学習におけるブーリアンカーネルを用いた特徴選択について

(1)

ブール関数の学習におけるブーリアンカーネルを用いた特徴選択について

佐土原健

産業技術総合研究所

はじめに

近年データマイニングが対象とするデータは例えばマイクロアレイ分析やテキスト分類等で用いられるデータのように非常に多くの変数で記述されている場合が多いそうした状況の下でデータの分析に寄与する特徴^!変数^"を選択する方法に関する研究が再び注目を集めている^{#$ %} 特に分類学習における変数選択はデータを記述する多くの変数の中から分類に寄与する変数を選択する問題である分類にとって十分な少数の変数を選択することは分類精度の向上が期待できるだけでなく学習や分類に必要な計算資源を節約したりデータをより良く理解するためにも有用である

本研究ではブール関数の学習における変数選択について考察するその理由は離散データに対する分類学習は本質的にブール関数の帰納学習の問題に帰着されるからであるさらに数値データに対しても可読性や計算資源の節約のために変数が離散化される場合も多いことを考えればブール関数の学習における変数選択を研究することの意義は大きい

変数選択においては変数間の依存関係を考慮に入れる必要がある例えばブール式 ^&

においてはにとって必要不可欠な変数であるにも関わらずの値を知ることは全く情報利得をもたらさないしたがってクラス変数との相互情報量によりを評価するとは分類に不必要な変数であると判断されてしまうこのような変数の依存関係を考慮するために本研究では^'⁽⁾

!'()"#* %を用いた変数選択アルゴリズムについて考察するこのアルゴリムは文献^{#$ %}で提案された⁺^,

- !+,-" に基づいて次のように動作するまず

'()を用いて論理積が張る空間上で論理積の線形和としてブール関数を学習するそのような空間は一般に非常に高次元であるがブーリアンカーネルを用いることで効率良くブール関数を学習できることが知られているこうして得られた論理積の線形和に対して特定の変数を含む全ての論理積の重みの二乗和を計算しそのような二乗和が最も小さい変数を最も分類に寄与しない変数と判断する一般に特定の変数を含む全ての論理積の数は非常に多いがブーリアンカーネルを用いることでこのような論理積の重みの二乗和を効率良く計算することが可能である本研究ではこのようなアルゴリズムが人工的に生成したデータセットとテキスト分類の連絡先^.佐土原健^/ 〒^$012132つくば市梅園^***つくば中央第二 ^. 045!23*"1544

ベンチマークデータセットを用いた計算機実験において既存の変数選択アルゴリズムよりも優れていることを示す

とブーリアンカーネル

'()は与えられた訓練データ ^Ü ^6*^*

!&*"に対して特徴空間上のデータ^!Ü^"を正しく分離できる最大のマージン持つ超平面^!Ü"^&^Û^!Ü"6^&⁰ を学習するこの最大マージン超平面は次の最適化問題

*

4

!ÜÜ"

&0 0 !* "

を解くことで^!Ü"^&

!ÜÜ"6 のように得られるここでは特徴空間の内積^!Ü^"^!Ü

"を計算する関数でありカーネル関数と呼ばれるカーネル関数を用いることで一般に計算が困難なを陽に計算することなく特徴空間上の最大マージン超平面の学習が可能になる

本研究ではブール関数の学習のために論理積の張る特徴空間を考えるがこのような空間に対する次のようなカーネル関数が知られている^{#1 %} 長さが高々である論理積が張る特徴空間に対しては^!Ù^Ú" ^&

ÙÚ

7否定を含まない長さが高々である論理積が張る特徴空間に対しては

!ÙÚ"

&

ÙÚ

7ここで^!Ù^Ú"はビット列^Ùと^Úにおいて同じ値を持つビットの数を表わし^!Ù^Ú"

は^Ùと ^Úにおいて共に値 ^*を持つビットの数を表わすこれらのカーネル関数が特徴空間の次元に依存せずに効率良く計算可能であることに注意されたい

+,- ではこのように学習された超平面に対して各変数ごとの評価値 ^!" ^&

!ÜÜ"

!Ü!"Ü!"" を計算するここで

Ù!"はベクトル^Ùからに対応する成分を取り除いたベクトルを表わす最適解に対して^Û^&

Ü

であるのでとしてブーリアンカーネルを用いる場合

!" をを含む論理積の添字の集合とするとき ^!" ^&

(2)

200 400 600 800 1000

⸠✵࠺࡯࠲ߩᢙ 10

20 30 40 50

ಽ㘃⺋Ꮕ

(%)

WCBE RELIEF MINFO RFE

10 15 20 25

ㆬᛯߔࠆᄌᢙߩᢙ 10

15 20 25 30 35

ಽ㘃⺋Ꮕ

(%)

40 50 60 70 80 90 ή㑐ଥߥᄌᢙߩᢙ 5

15 25 35

ಽ㘃⺋Ꮕ

(%)

4 5 6 7 8

⺰ℂⓍߩ㐳ߐ 0

10 20 30 40

ಽ㘃⺋Ꮕ

(%)

C D

E F

図^*. 人工データにおける性能比較

となる ^+,-は ^&

!"をデータから削除した後で超平面を再学習しこのようなプロセスを繰り返すことで分類に寄与しない変数を次々に除去していく

実験

人工データ

この実験では人工的に合成されたブール関数の入出力例の集合から各変数選択アルゴリズムにより選択された変数のみを用いてブール関数を学習しその分類誤差を測定することにより次の ⁸つの変数選択アルゴリズムの性能を比較する^.

!*"+,-!4")9,:!相互情報量を用いた変数ランキング法^"

!$"+-;-,!8"<7-!781を用いた法^{#8 %"}

データの生成は^$つのパラメタ^!*"=9,式の真偽に無関係な変数の数^!4"訓練データの数^!$"論理積の長さで定義される^=9,式の複雑さを制御して以下のように行われるまず^*3⁶ 個の変数の中である固定された ^*3個の変数のみを用いて^=9,式を生成する ^=9,式の各論理積はランダムに選ばれた個の変数を

の確率で負リテラルとすることで生成される論理積の数は⁴ 個とするそしてこの^=9,式に対して個の訓練データと⁴⁰⁰⁰個のテストデータが一様分布の下で独立に生成される

このように生成されたデータは各変数選択アルゴリズムに与えられ個の変数が選択される次に選択された変数とデータから共通の学習アルゴリズム^!を用いた^'()"により分類器を学習しテストデータに対する分類誤差を測定するこのような測定を^*30個の^=9,式に対して行いその平均値を用いて変数選択アルゴリズムの性能を比較した図^*!"

は^&⁸ ^&⁸²のときにの変化に対する分類誤差の変化を表わしている図^*!"は^&⁸^&^*000のときにの変化に対する分類誤差の変化を表わしている図^*!"は

&82&*000のときにの変化に対する分類誤差の変化を表わしている以上の実験ではは各^=9,式に表われた変数の数としたが図^*!"は^&⁸² ^&^*000^&⁸のときにを変化させた実験の結果である

実験

テキスト分類

実データに対する変数選択アルゴリズムの性能を比較するためにテキスト分類のデータセットである^+4*1>2を用いた実験を行った実験には文献^{#4 %}で用いられた前処理済

0 500 1000 1500 2000 2500

ㆬᛯߔࠆᄌᢙߩᢙ

0.8 0.81 0.82 0.83 0.84 0.85 0.86 0.87

F-measure

trade (k=3)

0 500 1000 1500 2000 2500

0.835 0.84 0.845 0.85 0.855 0.86 0.865

F-measure

money (k=2)

MINFO RFE

0 500 1000 1500 2000 2500

0.62 0.64 0.66 0.68 0.7

F-measure

interest (k=2)

図^4.テキスト分類データにおける性能比較

みのデータセットのうち^?0@と呼ばれるデータセットを用いたこのデータセットには^*108のニュース記事が含まれ各記事は分類カテゴリが付与された⁴²²³次元の⁴値ベクトルで表現されている図⁴は最も正例の多い^$つのカテゴリ

? @?@?@の^,値の変化を示しているこの実験で用いた^+,-は個の変数が残っているときに一度に ^*0 ^½¼ 個の変数を除去するまた学習アルゴリズムとしてを用いた ^'()を使用して²分割交差検定により^,値を求めた

まとめ

これらの実験からブーリアンカーネルを用いた ^+,-が分類に寄与しない変数を除去することで高い分類精度をもたらし得ることが分る特にテキスト分類の実験結果は変数間の相互作用を考慮に入れない手法に比べて少ない変数で高い分類精度を達成し得ることを示している

謝辞本研究は科研費若手研究!"!9 *8>20$*1"の支援を一部受けている

参考文献

#*% 97A'

7B 4000

#4% C , D

!$.*425E

*$01400$

#$% C D-F D

!$.**1>E**24 400$

#8% CGA +H HBI. ?

@B 7);

*4*E*45*558

#1% +H =+ +' -Æ

9B'*8.84$E8$04004

#3% H' :

B

7=)8*0E8*>4004

ブール関数の学習におけるブーリアンカーネルを用いた特徴選択について