• 検索結果がありません。

ブール関数の学習におけるブーリアンカーネルを用いた特徴選択について

N/A
N/A
Protected

Academic year: 2021

シェア "ブール関数の学習におけるブーリアンカーネルを用いた特徴選択について"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

ブール関数の学習におけるブーリアンカーネルを用いた特徴選択について

佐土原 健

産業技術総合研究所

はじめに

近年データマイニングが対象とするデータは例えばマ イクロアレイ分析やテキスト分類等で用いられるデータのよう に非常に多くの変数で記述されている場合が多いそうした 状況の下でデータの分析に寄与する特徴!変数"を選択する 方法に関する研究が再び注目を集めている#$ % 特に分類学 習における変数選択はデータを記述する多くの変数の中から 分類に寄与する変数を選択する問題である 分類にとって十分 な少数の変数を選択することは分類精度の向上が期待できる だけでなく学習や分類に必要な計算資源を節約したりデー タをより良く理解するためにも有用である

本研究ではブール関数の学習における変数選択について考 察する その理由は離散データに対する分類学習は本質的 にブール関数の帰納学習の問題に帰着されるからであるさら に数値データに対しても可読性や計算資源の節約のために 変数が離散化される場合も多いことを考えればブール関数の 学習における変数選択を研究することの意義は大きい

変数選択においては変数間の依存関係を考慮に入れる必要 がある 例えばブール式 &

においては にとって必要不可欠な変数であるにも関わらず の値を知 ることは全く情報利得をもたらさない したがってクラス 変数との相互情報量により を評価すると は分類に不 必要な変数であると判断されてしまうこのような変数の依存 関係を考慮するために本研究では' ( )

!'()"#* %を用いた変数選択アルゴ リズムについて考察する このアルゴ リムは文献#$ %で提案された+,

- !+,-" に基づいて次のように動作する まず

'()を用いて 論理積が張る空間上で 論理積の線形和とし てブ ール関数を学習する そのような空間は一般に非常に高 次元であるがブーリアンカーネルを用いることで効率良く ブール関数を学習できることが知られている こうして得ら れた論理積の線形和に対して特定の変数を含む全ての論理積 の重みの二乗和を計算しそのような二乗和が最も小さい変数 を最も分類に寄与しない変数と判断する 一般に特定の変 数を含む全ての論理積の数は非常に多いがブーリアンカーネ ルを用いることでこのような論理積の重みの二乗和を効率良 く計算することが可能である 本研究ではこのようなアルゴ リズムが人工的に生成したデータセットとテキスト分類の 連絡先.佐土原健 / $012132つ くば市梅園***つくば中央第二 . 045!23*"1544

ベンチマークデータセットを用いた計算機実験において既存 の変数選択アルゴ リズムよりも優れていることを示す

とブーリアンカーネル

'()は 与えられた訓練データ Ü 6**

!&*"に対して特徴空間上のデータ"を正しく分 離できる最大のマージン持つ超平面!Ü"&Û!Ü"6 &0 を学習する この最大マージン超平面は次の最適化問題

*

4

!ÜÜ"

&0 0 !* "

を解くことで!Ü"&

!ÜÜ"6 のように得ら れる ここで特徴空間の内積"

"を計算 する関数でありカーネル関数と呼ばれる カーネル関数を用 いることで一般に計算が困難な を陽に計算することなく 特徴空間上の最大マージン超平面の学習が可能になる

本研究ではブール関数の学習のために論理積の張る特徴 空間を考えるがこのような空間に対する次のようなカーネル 関数が知られている#1 % 長さが高々である論理積が張る特 徴空間に対してはÚ" &

ÙÚ

7否定を含 まない長さが高々である論理積が張る特徴空間に対しては

!ÙÚ"

&

ÙÚ

7ここでÚ"ビット 列ÙÚにおいて同じ値を持つビットの数を表わしÚ"

ÙÚにおいて共に値 *を持つビ ットの数を表わす こ れらのカーネル関数が特徴空間の次元に依存せずに効率良 く計算可能であることに注意されたい

+,- では この よ うに 学習され た 超平面に 対し て 各 変数 ご との評価値 !" &

!ÜÜ"

!Ü!"Ü!"" を 計 算す る こ こで

Ù!"はベクトルÙからに対応する成分を取り除いたベク トルを表わす 最適解 に対してÛ&

Ü

であるので とし て ブ ーリアン カーネルを用いる場合

!" を を含む論理積の添字の集合とするとき !" &

(2)

200 400 600 800 1000

⸠✵࠺࡯࠲ߩᢙ 10

20 30 40 50

ಽ㘃⺋Ꮕ

(%)

WCBE RELIEF MINFO RFE

10 15 20 25

ㆬᛯߔࠆᄌᢙߩᢙ 10

15 20 25 30 35

ಽ㘃⺋Ꮕ

(%)

40 50 60 70 80 90 ή㑐ଥߥᄌᢙߩᢙ 5

15 25 35

ಽ㘃⺋Ꮕ

(%)

4 5 6 7 8

⺰ℂⓍߩ㐳ߐ 0

10 20 30 40

ಽ㘃⺋Ꮕ

(%)

C D

E F

*. 人工データにおける性能比較

となる +,-&

!"をデータ から削除した後で超平面を再学習しこのようなプロセスを 繰り返すことで分類に寄与しない変数を次々に除去していく

実験

人工データ

この実験では 人工的に合成されたブ ール関数の入出力例 の集合から各変数選択アルゴ リズムにより選択された変数の みを用いてブール関数を学習しその分類誤差を測定すること により次の 8つの変数選択アルゴ リズムの性能を比較する.

!*"+,-!4")9,:!相互情報量を用いた変数ランキング法"

!$"+-;-,!8"<7-!781を用いた#8 %"

データの生成は$つのパラメタ!*"=9,式の真偽に無関 係な変数の数!4"訓練データの数!$"論理積の長さで 定義される=9,式の複雑さを制御して以下のように行わ れる まず*36 個の変数の中である固定された *3個の 変数のみを用いて=9,式を生成する =9,式の各論理積は ランダムに選ばれた個の変数を

の確率で負リテラルとす ることで生成される 論理積の数は4 個とする そして この=9,式に対して個の訓練データと4000個のテスト データが一様分布の下で独立に生成される

このように生成されたデータは各変数選択アルゴ リズムに 与えられ個の変数が選択される 次に選択された変数と データから共通の学習アルゴ リズム!を用いた'()"に より分類器を学習しテストデータに対する分類誤差を測定す る このような測定を*30個の=9,式に対して行いその平 均値を用いて変数選択アルゴ リズムの性能を比較した*!"

&8 &82のときにの変化に対する分類誤差の変 化を表わしている*!"&8&*000のときに の変化に対する分類誤差の変化を表わしている*!"

&82&*000のときにの変化に対する分類誤差の変化 を表わしている 以上の実験ではは 各=9,式に表われ た変数の数としたが*!"&82 &*000&8の ときにを変化させた実験の結果である

実験

テキスト 分類

実データに対する変数選択アルゴ リズムの性能を比較するた めにテキスト分類のデータセットである+4*1>2を用 いた実験を行った 実験には文献#4 %で用いられた前処理済

0 500 1000 1500 2000 2500

ㆬᛯߔࠆᄌᢙߩᢙ

0.8

0.81 0.82 0.83 0.84 0.85 0.86 0.87

F-measure

trade (k=3)

0 500 1000 1500 2000 2500

ㆬᛯߔࠆᄌᢙߩᢙ

0.835

0.84 0.845 0.85 0.855 0.86 0.865

F-measure

money (k=2)

MINFO RFE

0 500 1000 1500 2000 2500

ㆬᛯߔࠆᄌᢙߩᢙ

0.62

0.64 0.66 0.68 0.7

F-measure

interest (k=2)

4.テキスト分類データにおける性能比較

みのデータセットのうち?0@と呼ばれるデータセットを用 いた このデータセットには*108のニュース記事が含まれ 各記事は分類カテゴ リが付与された4223次元の4値ベクト ルで表現されている4最も正例の多い$つのカテゴ リ

? @?@?@の,値の変化を示し ている この実験で用いた+,-個の変数が残っている ときに一度に *0 ½¼ 個の変数を除去する また学習 アルゴ リズムとして を用いた '()を使用して2分割 交差検定により,値を求めた

まとめ

これらの実験からブーリアンカーネルを用いた +,- 分類に寄与しない変数を除去することで高い分類精度をもた らし得ることが分る 特にテキスト分類の実験結果は変数 間の相互作用を考慮に入れない手法に比べて少ない変数で高 い分類精度を達成し得ることを示している

謝辞 本研究は科研費 若手研究!"!9 *8>20$*1"の支援 を一部受けている

参考文献

#*% 97A'

7B 4000

#4% C , D

!$.*425E

*$01400$

#$% C D-F D

!$.**1>E**24 400$

#8% CGA +H HBI. ?

@B 7);

*4*E*45*558

#1% +H =+ +' -Æ

9B'*8.84$E8$04004

#3% H' :

B

7=)8*0E8*>4004

参照

関連したドキュメント

  BCI は脳から得られる情報を利用して,思考によりコ

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

点から見たときに、 債務者に、 複数債権者の有する債権額を考慮することなく弁済することを可能にしているものとしては、

しかしながら、世の中には相当情報がはんらんしておりまして、中には怪しいような情 報もあります。先ほど芳住先生からお話があったのは

いてもらう権利﹂に関するものである︒また︑多数意見は本件の争点を歪曲した︒というのは︑第一に︑多数意見は

単に,南北を指す磁石くらいはあったのではないかと思

都調査において、稲わら等のバイオ燃焼については、検出された元素数が少なか