ルール評価支援手法における有効な学習モデル構築に必要な最少訓練事例数の見積もり法

(1)

ルール評価支援手法における有効な学習モデル構築に必要な最少

訓練事例数の見積もり法

A Method to Estimate Minimum Number of Training Instances for

a Valid Rule Evaluation Models

阿部秀尚

1∗

_津本周作

1

_{島根大学医学部医学科医療情報学講座}

1

_{Department of Medical Informatics, Shimane University, School of Medicine}

Abstract: In this paper, we present a method to estimate each minimum number of train-ing instances for constructtrain-ing a valid learntrain-ing model in a rule evaluation support method. In post-processing of data mining process, rule evaluation procedure is one of important and costly procedures, because it requires experties from human experts. To support such rule evaluation, we have developed a support method based on learning model called rule evaluation model. These models should be valid and constructed from smaller training instances to curb learning costs. Therefore, we have evaluated learning costs with accuracies for an entire training dataset and achive rates of sub-sampled training instances. Then, we show case studies on artificial evaluation results and an actual data mining result.

1 はじめに

データマイニングにおけるマイニング結果の後処理では，専門家によるマイニング結果の評価手続きがデータマイニングプロジェクト全体の成否を左右する重要な手続きとして位置づけられている [1]．しかし，専門家が介在する手続きには，専門家の養成や評価の獲得に多大なコストがかかる問題がある．さらに，通常，データマイニングプロセスは 1 つのデータマイニングプロジェクトの中で繰り返し実行される必要がある．また，その繰り返しの中で各手続きも反復して実行される．そのため，コストのかかるマイニング結果の評価作業も繰り返し実行する必要があり，データマイニングプロジェクトを実行するための全体のコストを大きく引き上げる．以上の問題に対し，我々は，マイニング結果のうち IF-THEN ルールを対象にしたルール評価支援手法を開発してきた [2]．本手法は，専門家のルール評価作業を客観的指標群に基づくルール評価モデルを用いて反復的な作業を支援することを目的としている．ルール評価モデルは，各ルールを評価する客観的指標値と専門家の評価 (教師信号) を基にルール評価モデルを学習アルゴリズムにより獲得し，新規ルールの評価ラベル ∗_{連絡先：島根大学医学部医学科医療情報学講座} 〒 693-8051 出雲市塩冶町 89-1 [email protected] を予測することにより専門家のルール評価作業を支援する (図 1 参照)．本手法は，ルール評価作業の繰り返しを想定し，専門家による所与のルール集合の一部の評価からルール評価モデルを構築して評価ラベルの予測を行うことを可能としている．しかしながら，ルール評価モデル構築は，専門家の評価を必要とする点でコストについての問題が生じる．このため，評価支援に有効なルール評価モデルを出来るだけ少ない訓練事例によって学習可能とすることが課題となる．本稿では，所与のデータ集合での最多評価ラベルの割合を単純に予測するよりも正確な予測が可能なルール評価モデルを有効なルール評価モデルとし，有効なルール評価モデル構築に必要な最少訓練事例数を見積もる手法について検討する．

2 有効な学習モデル構築に必要な最

少訓練事例数の評価手法

従来，学習アルゴリズムの性能評価では，再代入エラー率/正解率，テストデータ集合を用いたエラー率/ 正解率，交差検定が用いられている．しかしながら，訓練データ集合の事例数の増減に伴い変化する性能を評価し，最少訓練事例数を見出すための評価基準は未だに確立されていない．通常，訓練データ集合の事例数

人工知能学会研究会資料

SIG-DMSM-A603-10 (2/28)

(2)

マイニングされたルールセット

客観的指標値の計算

Rule ID Accuracy Recall ... Human Expert

ルール評価モデル訓練データセット 1 2 0.85 0.90 0.14 0.65 Interesting 各ルールに対する評価 Not Interesting ... ... ... n 0.59 0.01 ... Not Understandable ルール評価モデル学習アルゴリズム予測段階: マイニング対象データセット

Rule ID Accuracy Recall ...

ルール評価モデルの予測対象データセット new1 new2 0.75 0.88 0.24 0.56 ... ... ... new n 0.95 0.32 ... 領域の専門家 Human Expert Unknown Unknown Unkown 予測結果の提示ルール評価モデルによるルールの評価ラベル予測構築されたルール評価モデル訓練段階：新規のマイニング対象データセット客観的指標値の計算マイニングされたルールセット領域の専門家図 1: 客観的指標群に基づくルール評価支援手法の概観．が変化する場合，各時点での再代入エラー率/正解率や交差検定の結果が用いられるが，我々は訓練データ集合の部分集合を用いて，所与のデータ集合全体に対して有効な学習モデルを獲得するために必要な最少訓練事例数を見出す基準が必要だと考えた．まず，我々は，再代入正解率を基準とし，訓練データ部分集合による学習モデルの訓練データ集合全体に対する正解率が単純な最多クラスの予測割合を上回る時点でその学習アルゴリズムは分類予測に有効な学習モデルが得られたこととした．訓練データ部分集合と訓練データ集合全体に対する正解率，有効な学習モデルが得られる時点の関係を図 2 に示す． 100 O 100 データ集合全体に対する正解率 (%) 最多クラスの割合訓練データ部分集合の割合(%) 有効な学習モデルが得られた訓練データ部分集合アルゴリズムA 図 2: 有効な学習モデルが得られる訓練データ部分集合と訓練データ集合全体に対する正解率の関係．さらに，訓練データ集合全体で学習を行った場合に対する学習達成率を導入することにより，学習アルゴリズム間で学習モデルが正確になっていく速度の比較が可能となる．学習達成率は，訓練データ集合の部分集合の再代入正解率が訓練データ集合全体を用いて学習したときに比べてどの程度の性能を達成しているかを次式 のように定義する．ただし，Dtiは ti(0%≤ ti ≤ 100%) の訓練データ部分集合を意味し，D は訓練データ集合 全体を意味する．また，Accuracy は訓練データ集合全 体に対する正解率を意味し，訓練データ部分集合に対 しては N 回の平均をとる． AchieveRate =Accuracy(Dti) Accuracy(D) (1) Accyracy(Dti) = 1 N N j=1 Accuracy(Dti, j) (2)

3 人工的な評価ラベルによる最少訓

練事例数評価実験

本実験では，客観的にルールを評価する指標群にそれぞれの値とは関係しないランダムな評価ラベルを与え，データ集合を作成する．これは，専門家による特定の評価基準が介在しない場合を想定し，クラス分布やデータ集合の事例数が有効な学習モデルの構築にどのような影響を与えるかを評価することを目的としている．はじめに，UCI 機械学習リポジトリー [3] からの 10 データ集合について，bagged PART[5] によって得た

(3)

表 1: UCI 機械学習リポジトリーデータから得たルール集合に対して生成されたデー集合． L1 L2 L3 (0.30) (0.35) (0.35) anneal 95 33 39 23 41.1 audiology 149 44 58 47 38.9 autos 141 30 48 63 44.7 balance-scale 281 76 102 103 36.7 breast-cancer 122 41 34 47 38.5 breast-w 79 29 26 24 36.7 colic 61 19 18 24 39.3 credit-a 230 78 73 79 34.3 credit-g 450 122 160 168 37.3 diabetes 89 25 37 27 41.6 (0.30) (0.50) (0.20) anneal 95 26 47 22 49.5 audiology 149 44 69 36 46.3 autos 141 40 72 29 51.1 balance-scale 281 76 140 65 49.8 breast-cancer 122 40 62 20 50.8 breast-w 79 29 36 14 45.6 colic 61 19 35 7 57.4 credit-a 230 78 110 42 47.8 credit-g 450 140 213 97 47.3 diabetes 89 25 46 18 51.7 (0.30) (0.65) (0.05) anneal 95 26 63 6 66.3 audiology 149 49 91 9 61.1 autos 141 41 95 5 67.4 balance-scale 281 90 178 13 63.3 breast-cancer 122 42 78 2 63.9 breast-w 79 22 55 2 69.6 colic 61 22 36 3 59.0 credit-a 230 69 150 11 65.2 credit-g 450 135 291 24 64.7 diabetes 89 26 59 4 66.3 クラスラベルの数最多クラスの割合分布III 分布II 分布I 生成されたルール数ルール集合に対し，39 種類の客観的指標 [4] を計算する．これらのデータ集合に対し，多項分布によるランダムな 評価ラベルを 3 種類の分布 (分布 IP = (0.3, 0.35, 0, 35)， 分布 IIP = (0.3, 0.5, 0.2)，分布 IIIP = (0.3, 0.65, 0.05)) で割り当て，表 1 に示すデータ集合を作成した．これらのデータ集合に対し，Weka[6] に実装された J4.8[7]，バックプロパゲーション学習ニューラルネットワーク (BPNN)[8]，SVM1_{[9]，Classification via Linear}

Regression(CLR)2_{[10]，OneR[11] の 5 種類の学習アル} ゴリズムを適用した．このとき，学習アルゴリズムの各パラメータは既定の値を用いた．表 2 に各学習アルゴリズムによる学習モデルの正解率が最多クラスの割合を越える事例数を示す．各訓練 データ部分集合に対する正解率は N = 10 とし，10 回 のランダムサンプリングによる部分集合による正解率の平均を用いている．この結果から，分布 I のように均一なクラス分布をもつデータ集合に対して，5 種類の学習アルゴリズムのほとんどは訓練データ集合の 20%程度で有効なルール評価モデルを構築することが可能であったことが分かる． 1_{多項式カーネルを用いる．} 2_{AIC に基づく変数追加式選択法を適用した線形モデルによる分} 類．表 2: 各学習アルゴリズムによるルール評価モデルが最多クラスの割合を越えるインスタンス数 J4.8 BPNN SVM CLR OneR anneal 20 14 17 29 29 audiology 21 18 65 64 41 autos 38 28 76 77 70 balance-scale 12 14 15 15 32 breast-cancer 16 17 22 41 22 breast-w 7 10 10 18 14 colic 8 8 9 22 14 credit-a 9 12 16 30 28 credit-g 40 49 0 87 84 diabetes 14 10 24 33 20 J4.8 BPNN SVM CLR OneR anneal 29 20 16 42 46 audiology 36 45 - 61 67 autos 49 39 49 123 88 balance-scale 81 84 69 221 168 breast-cancer 31 28 102 40 46 breast-w 14 11 23 30 26 colic 24 20 36 42 36 credit-a 51 74 - 134 109 credit-g 112 245 - 273 275 diabetes 33 25 47 55 54 J4.8 BPNN SVM CLR OneR anneal 54 58 64 76 -audiology 64 73 45 76 107 autos 66 102 84 121 98 balance-scale 118 103 133 162 156 breast-cancer 50 31 80 92 80 breast-w 44 36 31 48 71 colic 28 24 46 30 42 credit-a 118 159 - - 173 credit-g 251 283 353 18 383 diabetes 50 42 60 - 72 分布I 分布II 分布III さらに，訓練データ集合全体が小さい anneal, breast-w, colic においては有効なルール評価モデルを得るために必要な最少訓練事例数は訓練データ集合の 10%程度となる．しかしながら，分布 II・分布 III といった不均一なクラス分布をもつデータセットについては，元の訓練データ集合の大きさによらず，より多くの訓練事例が必要であることが明らかとなった．

4 髄膜炎データマイニング結果での

最少訓練事例数評価実験

3 節では，ルールの各客観的指標値とクラスラベルが特定の関係を持たない場合，有効な学習モデル構築に必要な訓練事例数が訓練データ集合の大きさやクラス分布によってどのように変化するかを示した．これに対し，本節では，ルールの客観的指標値とクラスラ

(4)

ベルの間に専門家の評価基準が介在し，何らかの関係が生じているデータを扱う．本節では，表 3 に示す髄膜炎データマイニング結果 [12] について，39 種類の客観的指標を計算し，データ集合を作成する．各ルールの評価は専門家が専門知識に基づく「ルールの記述する内容の興味深さ」を基準に 3 種類のラベル (I:興味深い，NI:妥当，NU:理解不能) を与えた．本実験で用いる学習アルゴリズムは 3 節と同様に 5 種類である．表 3: 6 種類の髄膜炎データセットとそれらに対するマイニング結果．データ名ルール数興味深い妥当理解不能 Diag 53 15 38 0 C Course 22 3 18 1 Culture+diag 57 7 48 2 Diag2 35 8 27 0 Course 53 12 38 3 Cult find 24 3 18 3 計 244 48 187 9 表 4 に各訓練データ部分集合での正解率 (N = 10) を 示す．この結果，最多クラスの割合 (76.6%) を越える有効なルール評価モデルを学習するためには，SVM や CLR で 10%の訓練データ部分集合で済むことが分かる．また，BPNN では 20%，J4.8 と OneR では 30%と，より多くの訓練事例が必要であることが明らかとなった．表 4: 各訓練データ部分集合での訓練データ集合全体に対する正解率．

%training

sample 10 20 30 40 50 60 70 80 90 100

J4.8

73.4 74.7 79.8 78.6 72.8 83.2 83.7 84.5 85.7 85.7

BPNN

74.8 78.1 80.6 81.1 82.7 83.7 85.3 86.1 87.2 86.9

SMO78.1 78.6 79.8 79.8 79.8 80.0 79.9 80.2 80.4 81.6

CLR

76.6 78.5 80.3 80.2 80.3 80.7 80.9 81.4 81.0 82.8

OneR

75.2 73.4 77.5 78.0 77.7 77.5 79.0 77.8 78.9 82.4

4.1 学習達成率による最少訓練事例数の評価

表 4 の各訓練データ部分集合での正解率に対し，学習達成率を式 (1) に基づいて計算した結果を図 3 に示す．この結果，学習達成率の曲線は右上りの曲線となり，表 4 で得られた最少訓練事例数よりも大きな訓練データ部分集合を用いることによって，より正解率の高いルール評価モデルが構築可能であることが示された．それぞれの学習アルゴリズムの曲線を見ると，髄膜炎データマイニング結果に対して超平面モデルを学習する SVM や CLR といった学習アルゴリズムでは，達 70 75 80 85 90 95 100 0 20 40 60 80 100 Accuracy ratio

on the entire training dataset

%training sample SMO CLR J4.8 OneR BPNN 図 3: 5 種類の学習アルゴリズムの学習達成率．成率が早く訓練データ集合全体を使った場合の正解率に近づくことが分かる．一方，有効なルール評価モデルの獲得に多くの訓練事例を必要とする J4.8 と BPNN では，学習達成率が緩やかに上昇し，訓練データ集合全体を使った正解率に到達する．以上のことから，訓練事例数が少ない段階で所与のデータ集合全体の分類予測を行う場合は，SVM や CLR など超平面を学習するアルゴリズムが適していると言える．しかしながら，ルール評価作業の繰り返しによって専門家による評価が済んだ事例が増加した場合は，J4.8 や BPNN など非線型の分割をおこなう学習アルゴリズムによってより正確なルール評価モデルを構築する必要がある．

4.2 交差検定による最少訓練事例数の評価

本節では，髄膜炎データマイニング結果からのデータ集合において，評価対象とした 5 種類の学習アルゴリズムからの最少訓練データ部分集合での性能を評価する． 通常，交差検定では N− 1 : 1 に分割したデータ集 合のうち，N− 1 を訓練データ集合，1 を検証データ 集合とする．しかし，本節ではデータ集合を N− 1 : 1 に分割し，N − 1 を検証データ集合，1 を訓練データ 集合として交差検定を行った (図 4 参照)．髄膜炎データマイニング結果のデータ集合に対する 5 回繰り返し 10 回交差検定の結果を表 5 に示す．この結果より，SVM の平均正解率が最多クラスの割合を越えることが明らかとなった．しかし，これら 5 種類の学習アルゴリズムから得られた標準偏差の範囲内に最多クラスの割合が含まれることから，10%の訓練データ部分集合に対して最多クラス割合とほぼ同等の正解率をもつルール評価モデルが構築できると言える．さらに，各学習アルゴリズム間で Corrected repeated

(5)

通常の10回交差検定今回の10回交差検定データ集合データ集合訓練データ集合訓練データ集合検証データ集合検証データ集合図 4: 訓練データ集合と検証データ集合の割合を入れ換えた交差検定法．表 5: 交差検定による各学習アルゴリズムの平均正解率と標準偏差． J4.8 BPNN SVM CLR OneR 正解率 72.3 73.9 77.1 75.9 75.5 （標準偏差） (6.4) (4.5) (3.2) (3.7) (3.3) k-fold cv test[13] を実行し，統計的に有意な差が生じているかについて検定した．検定の結果，5 種類の学習アルゴリズム間に統計的に有意な差は生じていないことが明らかとなった．以上の結果から，髄膜炎データマイニング結果からのデータ集合において，データ集合の 10%程度で，ほぼ最多クラス割合と同等のルール評価モデルが構築可能であることが示された．さらに，4.1 の学習達成率の曲線から，10% の訓練データ部分集合よりも大きい訓練データ部分集合では，より高い正解率となるルール評価モデルが構築可能であると考えられる．

5 おわりに

本稿では，有効なルール評価モデル構築に必要な最少訓練事例数を見積もる手法について述べた．人工的な評価ラベルによる評価の結果，学習アルゴリズムが有効なモデルを構築するためには少ない事例で均等なラベル分布を持つ訓練データ集合が適していることが示された．また，専門家による評価を得たデータ集合では，分類予測に有効な学習モデルはラベル分布が偏っているにも拘わらず，訓練データ集合の 10%で有効なルール評価モデルが構築可能であることが示された．以上の結果から，専門家の評価基準が確立されている場合は，マイニングアルゴリズムから得たルール集合の 10%程度を専門家に提示し，評価を得ることによりコストを削減することが可能であることが明らかとなった．また，人工的なラベル付けが専門家の評価基準を用いていないことから，専門家の評価基準が確立されていない段階では，我々が提案するルール評価支援手法で必要な訓練事例数は少なく済むと言える．今後は，専門家の評価基準が確立していく過程において適切なルール評価モデルを構築する方法を学習戦略を含めて検討し，ルール評価作業の繰り返しにおける全行程を支援する手法を開発していく予定である．

参考文献

[1] CRISP-DM:[http://www.crisp-dm.org/]

[2] Hidenao Abe, Shusaku Tsumoto, Miho Ohsaki, and Takahira Yamaguchi: A Rule Evaluation Support Method with Learning Models Based on Objective Rule Evaluation Indexes, in Proc. of the fifth Inter-national Conference on Data Mining (ICDM2005), pp. 549-552, (2005)

[3] Hettich, S., Blake, C. L., and Merz, C. J.: UCI Repository of machine learning databases [http://www.ics.uci.edu/˜mlearn/MLRepository.html], Irvine, CA: University of California, Department of Information and Computer Science, (1998)

[4] Ohsaki, M., Kitaguchi, S., Kume, S., Yokoi, H., and Yamaguchi, T.: Evaluation of Rule Interestingness Measures with a Clinical Dataset on Hepatitis, in Proc. of ECML/PKDD 2004, LNAI3202, pp. 362-373, (2004)

[5] Frank, E, Witten, I. H., Generating accurate rule sets without global optimization. Proc. of the Fif-teenth International Conference on Machine Learn-ing, pp. 144-151, (1998)

[6] Witten, I. H and Frank, E.: DataMining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, (2000) [7] Quinlan, R.: C4.5: Programs for Machine Learning,

Morgan Kaufmann Publishers, (1993)

[8] Hinton, G. E.: “Learning distributed representations of concepts”, Proceedings of 8th Annual Conference

of the Cognitive Science Society, Amherest, MA.

REprinted in R.G.M.Morris (ed.) (1986)

[9] Platt, J.: Fast Training of Support Vector Machines using Sequential Minimal Optimization, Advances in Kernel Methods - Support Vector Learning, B. Sch¨olkopf, C. Burges, and A. Smola, eds., MIT Press, pp. 185-208, (1999)

[10] Frank, E., Wang, Y., Inglis, S., Holmes, G., and Wit-ten, I. H.: Using model trees for classification, Ma-chine Learning, Vol.32, No.1 (1998) 63–76

[11] Holte, R. C.: Very simple classification rules per-form well on most commonly used datasets, Machine Learning, Vol. 11, pp. 63-91, (1993)

(6)

[12] Hatazawa, H., Negishi, N., Suyama, A, Tsumoto, S., and Yamaguchi, T.: Knowledge Discovery Sup-port from a Meningoencephalitis Database Using an Automatic Composition Tool for Inductive Applica-tions, in Proc. of KDD Challenge 2000 in conjunction with PAKDD2000, pp. 28-33, (2000)

[13] Remco R. Bouckaert, Eibe Frank: Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms, in Proc. of PAKDD 2004, pp. 3-12, (2004)