節ベンチマークデータに対する実験

ベンチマーク実験では, UCI Machine Learning Repositoryで提供されているデータセットの中から,目的変数が2値で,かつ説明変数が離散値である3つのデータセット, Chess End-Game King+Rook versus King+Pawn on a7(以下, Chessと呼ぶ), Mushroom database(以下, MRと呼ぶ), Breast cancer data(以下, BCと呼ぶ)を使用する. 表 7から表 9は, Chess, MR, BCそれぞれにおける,訓練データと検証データのクラス別TID数を示している. 今回は10回の交差検証であるため, 訓練データはトータルTID数の9割,検証データは1割となる. 実験結果は,

表 7: Chessデータの各クラスのTID数クラス名訓練データ検証データトータル

won 1,502 167 1,669

nowin 1,375 152 1,527

トータル 2,877 319 3,196

表 8: MRデータの各クラスのTID数クラス名訓練データ検証データトータル

edible 4,039 449 4,488

poisonous 3,535 393 3,928

トータル 7,574 842 8,416

表 9: BCデータの各クラスのTID数

クラス名訓練データ検証データトータル

no-recurrence 76 9 85

recurrence 181 20 201

トータル 257 29 286

いくつかの実験を通して最も良い結果を出した設定パラメータによるものを掲載している. 設定パラメータは表 10に示す.

表 10: 設定パラメータ

パラメータ Chess MR BC 最小パターン長 1 1 1 最大パターン長 3 3 3

θ 0.7 0.7 0.7

topK 10,000 30,000 3,000 最小サポート件数 2 2 2

η 0.99 0.99 0.99

β 2.5 2.5 2.75

α 5 5 5

γ 500 500 1,000

表 11: 評価値の比較

Chess MR BC

正答率パターン数正答率パターン数正答率パターン数

CAECP 0.941 4 0.975 9 0.731 39

CACP 0.870 309 0.974 588 0.717 181

比較手法 0.971 136 0.949 11

表 11は, 正答率と採用パターン数を既存手法と比較したものである. CACP の結果も提案手法と同様, いくつかの実験を通して最も結果の良かった設定パラメータによる結果である. また, 表中の比較手法では, Chessデータでは [9]に記載された結果を, MRデータでは [10]に記載された結果を示している. BCデータの実験結果を掲載している関連論文は見当たらなかったため, 空白としている. ま

ずChessデータの結果を確認する. 提案手法による結果は, CACPによる結果と

比較して, 正答率と利用パターン数のどちらにおいても大幅に改善している. 比較手法に対しては,正答率は劣るものの,利用パターン数は136からわずか4つにまで削減することに成功している. 続いてMRデータへの適用結果を確認すると, 既存手法2つに比べ最も少ないパターン数で最も高い正答率のモデルを構築できていることが確認できる. BCデータでも,正答率は決して高いとは言えないものの, 正答率の高さと利用パターン数の少なさの両方でCACPを上回っている. 以上の比較結果から,筆者が提案する手法は,これらの3つベンチマークデータセットに対しては,既存手法の予測精度を保ちつつ,より少ない利用パターン数でモデル構築が可能であることが確認できた.

計算時間やカバー率など, その他の計算結果を確認していく. 表 12を見ると, 表 12: 計算結果

Chess MR BC

計算時間(秒) 403.5 358.9 5.6

正答率(訓練) 0.940 0.975 0.865 正答率(検証) 0.941 0.975 0.731 カバー率(訓練) 1.000 1.000 1.000 カバー率(検証) 1.000 1.000 1.000 平均カバー回数(訓練) 2.357 2.518 2.671 平均カバー回数(検証) 2.605 2.393 2.751

全てのデータセットに対して数秒から数分という現実的な時間でモデル構築できていることがわかる. 正答率は, ChessとMRにおいては訓練データと検証データの値がほぼ同じであり, 非常に安定したモデルとなっている. しかしBCデータでは,訓練データと検証データで大きく差が開いており,やや過学習を起こしてしまっている. しかし, カバー率と平均カバー回数を見ると, いずれのデータセッ

トでも訓練データと検証データに大きな差はなく, 適切な選択が行えているように見える. 図 12, 図 13, 図 14は, Chessデータ, MRデータ, BCデータそれぞれのモデルにおける, TIDがCPにカバーされた回数の分布を棒グラフにより図示したものである. これらの図から, ChessデータとMRデータでは訓練データと検証データの分布がほぼ同じという理想的な状態になっている. 一方BRデータでは, 訓練データの最頻値は3回であるが, 検証データでは2回となっている. また, 検証データでは5回以上カバーされているTIDの割合が増加しており, このような分布の偏りが予測精度を下げる原因と思われる.

カバーされた回数

1 2 3

TID数の全体に占める割合

0 50

(%)

訓練検証

図 12: Chessデータのカバー回数分布

どのようなCPが選択されているのかを確認するために, データセットごとに候補CPと選択CPをサポート空間上にプロットしたものが図 15から図 17である. Chessデータの選択を示す図 15を見ると, wonクラスの選択CPはいずれもスコアは高いものの, サポートが高いCP, サポート差が高いCP,そしてサポートもサポート差も高いという, 異なる特徴を持つ3つのCPがバランス良く選択されている. また, nowinクラスに対してはたった1つのCPで予測可能であることが分かった. MRデータの選択である図 16を見ると, スコアの高いCPは選択されているものの, スコアや従来の選択基準では採用されにくいCPもいくつか選択されている. こうしたCPを適切な数だけ採用できたことが,少ないCPでのモデル構築を実現したと思われる. BCデータの選択である図 16を見ると, MR データと同様に, 様々な位置のCPが採用されているが,スコアの低いCPの採用

カバーされた回数 1

TID数の全体に占める割合

0 50

2 3 4 5 6 7 8 9

(%)

訓練検証

図 13: MRデータのカバー回数分布

カバーされた回数 1

TID数の全体に占める割合

0 50

(%)

2 3 4 5 6 7

訓練検証

図 14: BCデータのカバー回数分布

won クラスのサポート

nowinクラスのサポート

0 1

図 15: Chessデータの選択パターンの分布

edible クラスのサポート

poisonousクラスのサポート

0 1

図 16: MRデータの選択パターンの分布

no-recurrence クラスのサポート

recurrenceクラスのサポート

0 1

図 17: BCデータの選択パターンの分布

数がやや多いように見える. 今回は, 候補CPはできるだけ多く採用して実験を行ったが, こうした説明力の弱いCPが選択されすぎると過学習を起こす原因となるため, より候補CP集合を絞ったり, 選択時に重みをつけるといった対応を行うことが必要と思われる.

最後に, 各データセットで出力されたモデルの解釈を行う. 図 18, 図 19, 図 20 はそれぞれ, Chessデータ, MRデータ, BCデータで出力されたモデルをCRPD によって視覚化したものである. 図 18では,出力CPが4つということもあり,非

rank3 rank2

v14_f

v25_f

v27_f

rank1 v10_f

v32_f

v33_f

rank0 v21_t

rank-1 rank-2 v21_f

rank-3

won クラスに強いノード nowin クラスに強いノード

図 18: Chessデータの出力モデル

常にシンプルな図となっている. ノードラベルのハイフンより左側の文字列は属性の名前を, ハイフンより右側は属性の値を表している. 属性名は, たとえばv21 であれば, UCI Machine Learning Repositryに置かれている生データの21列目の属性であることを意味する. 図から, winクラスにはパタン長3のCPが2つと長さ1のCPが1つ出現していることが分かる. 特に, v14とv25とv27がいずれも fであれば, 高い確率で白が勝つようようだ. 逆に, v21がfであることは白が負ける非常に強い要因となる. 図 19を考察すると, edibleクラスには3つか4つの

2 k n a r 3

k n a r ring_type_pendant

odor_none

veil_type_partial

ring_number_one

rank1 bruises_bruises

spore_print_color_brown habitat_woods gill_spacing_crowded

stalk_shape_tapering gill_attachment_free

rank0 ring_number_two

rank-1 stalk_color_below_ring_white

stalk_shape_enlarging

rank-2 stalk_color_above_ring_white

rank-3 cap_shape_convex

gill_size_narrow population_several

gill_spacing_close

veil_color_white bruises_no

edible クラスに強いノード poisonous クラスに強いノード

図 19: MRデータの出力モデル

CPグループ, poinsonousクラスには2つか3つのCPグループがみられる. 例えばedibleクラスでは,無臭であるodor_noneだけでは食用であるとは言えず, リングの数や型の種類,または内被膜かどうかもチェックする必要があるらしい. 一方 poisounousクラスでは,菌膜が白く,ひだの間隔が密で, あざのないキノコは有毒であるための1つの有力な条件となるようだ. 図20は,採用CP数自体も多く,かつどちらのクラスにも出現するアイテムも多いため, 上の2つの図と比べ複雑な図となってしまっている. つまり, 単体のアイテムには意味がなくとも, 組み合わされることによって説明力が上昇するアイテムが多いデータであり, 予測が難しい分類問題であることが分かる. その中でも,どちらのクラスにも1つ強力なアイテムが存在してるようだ. 出現パターンを考察すると, 右上部に位置することは未再発に対して非常にポジティブな要因である. その他には年齢が比較的低いことやサイズが比較的小さいことなど, 直感的にも妥当なパターンがno-recurrence の方に出現している.

2 k n a r 3

k n a r breast-quad_right_up

deg-malig_2

node-caps_yes deg-malig_3

inv-nodes_3-5

irradiat_no

rank1 tumor-size_20-24

tumor-size_30-34

rank0 tumor-size_15-19

deg-malig_1

menopause_premeno age_30-39

breast-quad_left_up

node-caps_no

rank-1 irradiat_yes

inv-nodes_6-8

inv-nodes_0-2 breast_right

node-caps_?

tumor-size_25-29 breast_left

menopause_ge40

tumor-size_45-49 breast-quad_left_low

tumor-size_5-9 age_60-69

rank-2 age_50-59

rank-3 age_40-49

no-recurence に強いノード recurence に強いノード

図 20: BCデータの出力モデル

ドキュメント内必須コントラストパターンを利用した分類モデルに関する研究 (ページ 31-39)

節 ベンチマークデータに対する実験