• 検索結果がありません。

距離ベースの特徴選択指標

N/A
N/A
Protected

Academic year: 2021

シェア "距離ベースの特徴選択指標"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)

距離ベースの特徴選択指標

A Theory of Feature Selection Measures

申 吉浩

1

Adrian Pino Angulo

2

久保山哲二

3

1

兵庫県立大学

2

University of Holguin

3

学習院大学

Abstract:

We present a method to define feature selection measures based on metrics. Also,

we show that the well-known Bayesian risk can be derived from some metric and give a new

characterization to it.

1

距離ベースの特徴選択指標

テータセットの確率分布を p-norm による数列空間の

要素と見なすことで、データセットと特徴集合のペア

を距離空間に埋め込むことが可能である。この埋め込

みにより、以下のように、特徴選択指標を定義するこ

とが可能である。





For 1

≤ p < ∞,

c

µ

p

(p) =

p

v

u

u

u

t

i

∈N

j

∈N

p(i, j)

p

− p(i, j(i))

p

;

For p =

∞,

d

µ

(p) = max

{

p(i, j)

|(i, j)∈N

2

, (i, j)

̸=(i, j(i))

}

.





p = 1 の時、この指標はよく知られたベイズリスク

と一致し、p > 1 の時は今迄に知られていない新規の

指標となる。この論文では、これらの指標と、実際の

分類器による分類精度との関連を調べる。

2

指標

µ

c

p

の値と分類精度の相関

よい指標は分類精度と強い相関をもっているであろう

と期待することは自然である。この節では、

µ

c

p

(p =

1, 2, . . . , 5)について、分類精度との相関を調べる。特

に、p = 1 と p > 1 の場合の比較に焦点を当てる。

µ

c

1

はよく知られているベイズリスクであり、p > 1 の場

合の

µ

c

p

は今迄に知られていない新規の指標である。

2.1

データセット

表 1 に、実験で用いたデータセットと、その主な属性

(名称、特徴数、サンプル数)を記す。

2.2

実験手順

実験手順を述べる

2.2.1

特徴集合のサンプリング

表 1 で示した各データセットについて、60 個の特徴集

合をランダムに選択する。特徴集合の大きさもランダ

[email protected]

Table 1: Datasets

Name

#Feat.

#Exam.

#Classes

Arrhythmia

279

452

13

Audiology

69

226

24

Mfeat-Factor

216

2000

10

Mfeat-Fourier

76

2000

10

Mfeat-Karhunen

64

2000

10

Mfeat-Pixel

240

2000

10

Mfeat-Zernike

47

2000

10

Musk

166

476

2

Optidigits

64

5620

10

Sonar

60

208

2

Spambase

57

4601

2

Spectrometer

100

531

48

ムに変動する。全てのデータセットにわたる総計で、

60

× 12 = 720 対の特徴集合とデータセットのペアが得

られる。

2.2.2

データセットの局所化

特徴集合とデータセットの各対に対して、その特徴集合

に含まれない全ての特徴を除去することにより、デー

タセットの局所化を行う。結果として、720 個の局所化

されたデータセットを得る。

2.2.3

分類精度の計測

Na¨ıve Bayes、C4.5 及び SVM の三種類の分類器を、得

られた局所化データセットのそれぞれに適用し、10-フォ

ルド交叉検証により得られる AUC-ROC の値の平均値

を、分類精度として記録する。

2.3

Results

図 1、2 及び 3 は、それぞれ、Na¨ıve Bayes、C4.5 及び

SVM による実験結果の散布図を示す。x 軸は、(a)

µ

c

1

(b)

µ

c

2

、(c)

µ

c

3

、(d)

µ

c

4

及び (e)

µ

c

5

による指標値であ

り、y 軸は AUC-ROC の平均値を表す。図から、p > 1

の時の

µ

c

p

の値は、

µ

c

1

に比較して、強い負の相関を示

すことが観察できる。

人工知能学会研究会資料

SIG-FPAI-B404-08

− 45 −

(2)

2.4

分析

c

µ

1

µ

c

p

(p > 1)とを、分類精度との相関の観点か

ら比較するために、関数 P

t

(x) を導入する。N

x

µ

c

p

距離が [x, x + 0.01) の間にあるプロットの数とし、N

t,x

を AUC-ROC の値が t を超え、かつ、N

x

µ

c

p

距離

が [x, x + 0.01) の間にあるプロットの数とし、P

t

(x) を

P

t

(x) =

N

t,x

N

x

により定義する。直感的には、P

t

(x) は、

指標値が x の値を取ったとき、分類精度が t を超える

確率の近似となる。

図 4、5 及び and 6 で、P

t

(x) の曲線を、Na¨ıve Bayes、

C4.5 及び SVM について図示する。t の値は

{0.95, 0.90, 0.85, 0.80}

から選ぶものとする。P

t

(x)

≥ P

t

(x) が t < t

に対し

て常に成り立つので、t に対する曲線は t

に対する曲

線の上に来る。図より、以下の性質が読み取れる。

• p > 1 の時、c

µ

p

に対する曲線は類似している。一方、

c

µ

1

の曲線は他の曲線とは著しく形状が異なる。

• p > 1 に対する c

µ

p

曲線は、

µ

c

1

の場合に比較して、

指標値と分類精度の間の相関をより明確に示して

いる。

実際、相関係数を計算すると以下の表のようになる。

t =

0.95

0.90

0.85

0.80

Na¨ıve Bayes

c

µ

1

−0.42

−0.51

−0.60

−0.52

c

µ

2

−0.58

−0.79

−0.97

−0.85

c

µ

3

−0.56

−0.69

−0.76

−0.79

c

µ

4

−0.54

−0.71

−0.89

−0.89

c

µ

5

−0.54

−0.73

−0.91

−0.89

C4.5

c

µ

1

−0.17

−0.41

−0.34

−0.38

c

µ

2

−0.41

−0.47

−0.79

−0.83

c

µ

3

−0.52

−0.29

−0.72

−0.69

c

µ

4

−0.52

−0.38

−0.77

−0.81

c

µ

5

−0.52

−0.44

−0.82

−0.84

SVM

c

µ

1

−0.52

−0.62

−0.55

−0.23

c

µ

2

−0.52

−0.54

−0.65

−0.80

c

µ

4

−0.55

−0.52

−0.63

−0.75

c

µ

4

−0.52

−0.52

−0.59

−0.72

c

µ

5

−0.52

−0.52

−0.56

−0.71

− 46 −

(3)

0.60   0.70   0.80   0.90   1.00   0   0.02   0.04   0.06   0.08   0.1   BR   AUC -­‐NB   Distance   0.60   0.70   0.80   0.90   1.00   0   0.02   0.04   0.06   0.08   0.1   DST2   AUC -­‐NB   Distance   0.60   0.70   0.80   0.90   1.00   0   0.02   0.04   0.06   0.08   0.1   DST3   AUC -­‐NB   Distance   0.60   0.70   0.80   0.90   1.00   0   0.02   0.04   0.06   0.08   0.1   DST4   AUC -­‐NB   Distance   0.60   0.70   0.80   0.90   1.00   0   0.02   0.04   0.06   0.08   0.1   DST5   AUC -­‐NB   Distance  

(a)

µ

c

1

(b)

µ

c

2

(c)

µ

c

3

(d)

µ

c

4

(e)

µ

c

5

Figure 1: Scatter plots of the experimental results (Na¨ıve Bayes)

0.60   0.70   0.80   0.90   1.00   0   0.02   0.04   0.06   0.08   0.1   BR   AUC -­‐C 4. 5   Distance   0.60   0.70   0.80   0.90   1.00   0   0.02   0.04   0.06   0.08   0.1   DST2   AUC -­‐C 4. 5   Distance   0.60   0.70   0.80   0.90   1.00   0   0.02   0.04   0.06   0.08   0.1   DST3   AUC -­‐C 4. 5   Distance   0.60   0.70   0.80   0.90   1.00   0   0.02   0.04   0.06   0.08   0.1   DST4   AUC -­‐C 4. 5   Distance   0.60   0.70   0.80   0.90   1.00   0   0.02   0.04   0.06   0.08   0.1   DST5   AUC -­‐C 4. 5   Distance  

(a)

µ

c

1

(b)

µ

c

2

(c)

µ

c

3

(d)

µ

c

4

(e)

µ

c

5

Figure 2: Scatter plots of the experimental results (C4.5)

0.40   0.60   0.80   1.00   0   0.02   0.04   0.06   0.08   0.1   BR   AU C-­‐ SV M   Distance   0.40   0.60   0.80   1.00   0   0.02   0.04   0.06   0.08   0.1   DST2   AU C-­‐ SV M   Distance   0.40   0.60   0.80   1.00   0   0.02   0.04   0.06   0.08   0.1   DST3   AU C-­‐ SV M   Distance   0.40   0.60   0.80   1.00   0   0.02   0.04   0.06   0.08   0.1   DST4   AU C-­‐ SV M   Distance   0.40   0.60   0.80   1.00   0   0.02   0.04   0.06   0.08   0.1   DST5   AU C-­‐ SV M   Distance  

(a)

µ

c

1

(b)

µ

c

2

(c)

µ

c

3

(d)

µ

c

4

(e)

µ

c

5

Figure 3: Scatter plots of the experimental results (SVM)

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Pr ec is io n-­‐ N B-­‐ BR  

x  

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Preci si on -­‐NB-­‐ D ST 2  

x  

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Preci si on -­‐NB-­‐ D ST 3  

x  

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Preci si on -­‐NB-­‐ D ST 4  

x  

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Preci si on -­‐NB-­‐ D ST 5  

x  

(a)

µ

c

1

(b)

µ

c

2

(c)

µ

c

3

(d)

µ

c

4

(e)

µ

c

5

Figure 4: The curves of P

t

(x) for t

∈ {0.95, 0.90, 0.85, 0.80} (Na¨ıve Bayes)

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Pr ec is io n-­‐ C4 .5 -­‐B R  

x  

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Preci si on -­‐C 4. 5-­‐ D ST 2  

x  

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Preci si on -­‐C 4. 5-­‐ D ST 3  

x  

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Preci si on -­‐C 4. 5-­‐ D ST 4  

x  

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Preci si on -­‐C 4. 5-­‐ D ST 5  

x  

(a)

µ

c

1

(b)

µ

c

2

(c)

µ

c

3

(d)

µ

c

4

(e)

µ

c

5

Figure 5: The curves of P

t

(x) for t

∈ {0.95, 0.90, 0.85, 0.80} (C4.5)

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Pr ec is io n-­‐ SV M-­‐ BR  

x  

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Pr ec is io n-­‐ SV M-­‐ D ST 2  

x  

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Pr ec is io n-­‐ SV M-­‐ D ST 3  

x  

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Pr ec is io n-­‐ SV M-­‐ D ST 4  

x  

0   0   0   1   1   1   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   t=0.95   t=0.9   t=0.85   t=0.8   Pr ec is io n-­‐ SV M-­‐ D ST 5  

x  

(a)

µ

c

1

(b)

µ

c

2

(c)

µ

c

3

(d)

µ

c

4

(e)

µ

c

5

Figure 6: The curves of P

t

(x) for t

∈ {0.95, 0.90, 0.85, 0.80} (SVM)

Figure 1: Scatter plots of the experimental results (Na¨ıve Bayes)

参照

関連したドキュメント

We have seen that under rather natural source condi- tions error estimates in Bregman distances can be extended from the well-known quadratic fitting (Gaussian noise) case to

We show that a discrete fixed point theorem of Eilenberg is equivalent to the restriction of the contraction principle to the class of non-Archimedean bounded metric spaces.. We

Keywords and Phrases: number of limit cycles, generalized Li´enard systems, Dulac-Cherkas functions, systems of linear differential and algebraic equations1. 2001 Mathematical

We show how known nonconstructive lower bound proofs based on the Lov´ asz Local Lemma can be made randomized-constructive using the recent algorithms of Moser and Tardos.. We also

Merle; Global wellposedness, scattering and blow up for the energy critical, focusing, nonlinear Schr¨ odinger equation in the radial case, Invent.. Strauss; Time decay for

It is also well-known that one can determine soliton solutions and algebro-geometric solutions for various other nonlinear evolution equations and corresponding hierarchies, e.g.,

Section 4 will be devoted to approximation results which allow us to overcome the difficulties which arise on time derivatives while in Section 5, we look at, as an application of

The aim of the present paper is to establish some new linear and nonlinear discrete inequalities in two independent variables.. We give some examples in difference equations and we