ベンチマーク実験では, UCI Machine Learning Repositoryで提供されている データセットの中から,目的変数が2値で,かつ説明変数が離散値である3つのデー タセット, Chess End-Game King+Rook versus King+Pawn on a7(以下, Chessと 呼ぶ), Mushroom database(以下, MRと呼ぶ), Breast cancer data(以下, BCと呼 ぶ)を使用する. 表 7から表 9は, Chess, MR, BCそれぞれにおける,訓練データ と検証データのクラス別TID数を示している. 今回は10回の交差検証であるた め, 訓練データはトータルTID数の9割,検証データは1割となる. 実験結果は,
表 7: Chessデータの各クラスのTID数 クラス名 訓練データ 検証データ トータル
won 1,502 167 1,669
nowin 1,375 152 1,527
トータル 2,877 319 3,196
表 8: MRデータの各クラスのTID数 クラス名 訓練データ 検証データ トータル
edible 4,039 449 4,488
poisonous 3,535 393 3,928
トータル 7,574 842 8,416
表 9: BCデータの各クラスのTID数
クラス名 訓練データ 検証データ トータル
no-recurrence 76 9 85
recurrence 181 20 201
トータル 257 29 286
いくつかの実験を通して最も良い結果を出した設定パラメータによるものを掲載 している. 設定パラメータは表 10に示す.
表 10: 設定パラメータ
パラメータ Chess MR BC 最小パターン長 1 1 1 最大パターン長 3 3 3
θ 0.7 0.7 0.7
topK 10,000 30,000 3,000 最小サポート件数 2 2 2
η 0.99 0.99 0.99
β 2.5 2.5 2.75
α 5 5 5
γ 500 500 1,000
表 11: 評価値の比較
Chess MR BC
正答率 パターン数 正答率 パターン数 正答率 パターン数
CAECP 0.941 4 0.975 9 0.731 39
CACP 0.870 309 0.974 588 0.717 181
比較手法 0.971 136 0.949 11
表 11は, 正答率と採用パターン数を既存手法と比較したものである. CACP の結果も提案手法と同様, いくつかの実験を通して最も結果の良かった設定パラ メータによる結果である. また, 表中の比較手法では, Chessデータでは [9]に記 載された結果を, MRデータでは [10]に記載された結果を示している. BCデータ の実験結果を掲載している関連論文は見当たらなかったため, 空白としている. ま
ずChessデータの結果を確認する. 提案手法による結果は, CACPによる結果と
比較して, 正答率と利用パターン数のどちらにおいても大幅に改善している. 比 較手法に対しては,正答率は劣るものの,利用パターン数は136からわずか4つに まで削減することに成功している. 続いてMRデータへの適用結果を確認すると, 既存手法2つに比べ最も少ないパターン数で最も高い正答率のモデルを構築でき ていることが確認できる. BCデータでも,正答率は決して高いとは言えないもの の, 正答率の高さと利用パターン数の少なさの両方でCACPを上回っている. 以 上の比較結果から,筆者が提案する手法は,これらの3つベンチマークデータセッ トに対しては,既存手法の予測精度を保ちつつ,より少ない利用パターン数でモデ ル構築が可能であることが確認できた.
計算時間やカバー率など, その他の計算結果を確認していく. 表 12を見ると, 表 12: 計算結果
Chess MR BC
計算時間(秒) 403.5 358.9 5.6
正答率(訓練) 0.940 0.975 0.865 正答率(検証) 0.941 0.975 0.731 カバー率(訓練) 1.000 1.000 1.000 カバー率(検証) 1.000 1.000 1.000 平均カバー回数(訓練) 2.357 2.518 2.671 平均カバー回数(検証) 2.605 2.393 2.751
全てのデータセットに対して数秒から数分という現実的な時間でモデル構築でき ていることがわかる. 正答率は, ChessとMRにおいては訓練データと検証デー タの値がほぼ同じであり, 非常に安定したモデルとなっている. しかしBCデー タでは,訓練データと検証データで大きく差が開いており,やや過学習を起こして しまっている. しかし, カバー率と平均カバー回数を見ると, いずれのデータセッ
トでも訓練データと検証データに大きな差はなく, 適切な選択が行えているよう に見える. 図 12, 図 13, 図 14は, Chessデータ, MRデータ, BCデータそれぞれ のモデルにおける, TIDがCPにカバーされた回数の分布を棒グラフにより図示 したものである. これらの図から, ChessデータとMRデータでは訓練データと 検証データの分布がほぼ同じという理想的な状態になっている. 一方BRデータ では, 訓練データの最頻値は3回であるが, 検証データでは2回となっている. ま た, 検証データでは5回以上カバーされているTIDの割合が増加しており, この ような分布の偏りが予測精度を下げる原因と思われる.
カバーされた回数
1 2 3
TID数の全体に占める割合
0 50
(%)
訓練 検証
図 12: Chessデータのカバー回数分布
どのようなCPが選択されているのかを確認するために, データセットごとに 候補CPと選択CPをサポート空間上にプロットしたものが図 15から図 17であ る. Chessデータの選択を示す図 15を見ると, wonクラスの選択CPはいずれ もスコアは高いものの, サポートが高いCP, サポート差が高いCP,そしてサポー トもサポート差も高いという, 異なる特徴を持つ3つのCPがバランス良く選択 されている. また, nowinクラスに対してはたった1つのCPで予測可能であるこ とが分かった. MRデータの選択である図 16を見ると, スコアの高いCPは選択 されているものの, スコアや従来の選択基準では採用されにくいCPもいくつか 選択されている. こうしたCPを適切な数だけ採用できたことが,少ないCPでの モデル構築を実現したと思われる. BCデータの選択である図 16を見ると, MR データと同様に, 様々な位置のCPが採用されているが,スコアの低いCPの採用
カバーされた回数 1
TID数の全体に占める割合
0 50
2 3 4 5 6 7 8 9
(%)
訓練 検証
図 13: MRデータのカバー回数分布
カバーされた回数 1
TID数の全体に占める割合
0 50
(%)
2 3 4 5 6 7
訓練 検証
図 14: BCデータのカバー回数分布
won クラスのサポート
nowinクラスのサポート
0 1
1
図 15: Chessデータの選択パターンの分布
edible クラスのサポート
poisonousクラスのサポート
0 1
1
図 16: MRデータの選択パターンの分布
no-recurrence クラスのサポート
recurrenceクラスのサポート
0 1
1
図 17: BCデータの選択パターンの分布
数がやや多いように見える. 今回は, 候補CPはできるだけ多く採用して実験を 行ったが, こうした説明力の弱いCPが選択されすぎると過学習を起こす原因と なるため, より候補CP集合を絞ったり, 選択時に重みをつけるといった対応を行 うことが必要と思われる.
最後に, 各データセットで出力されたモデルの解釈を行う. 図 18, 図 19, 図 20 はそれぞれ, Chessデータ, MRデータ, BCデータで出力されたモデルをCRPD によって視覚化したものである. 図 18では,出力CPが4つということもあり,非
rank3 rank2
v14_f
v25_f
v27_f
rank1 v10_f
v32_f
v33_f
rank0 v21_t
rank-1 rank-2 v21_f
rank-3
won クラスに強いノード nowin クラスに強いノード
図 18: Chessデータの出力モデル
常にシンプルな図となっている. ノードラベルのハイフンより左側の文字列は属 性の名前を, ハイフンより右側は属性の値を表している. 属性名は, たとえばv21 であれば, UCI Machine Learning Repositryに置かれている生データの21列目の 属性であることを意味する. 図から, winクラスにはパタン長3のCPが2つと長 さ1のCPが1つ出現していることが分かる. 特に, v14とv25とv27がいずれも fであれば, 高い確率で白が勝つようようだ. 逆に, v21がfであることは白が負 ける非常に強い要因となる. 図 19を考察すると, edibleクラスには3つか4つの
2 k n a r 3
k n a r ring_type_pendant
odor_none
veil_type_partial
ring_number_one
rank1 bruises_bruises
spore_print_color_brown habitat_woods gill_spacing_crowded
stalk_shape_tapering gill_attachment_free
rank0 ring_number_two
rank-1 stalk_color_below_ring_white
stalk_shape_enlarging
rank-2 stalk_color_above_ring_white
rank-3 cap_shape_convex
gill_size_narrow population_several
gill_spacing_close
veil_color_white bruises_no
edible クラスに強いノード poisonous クラスに強いノード
図 19: MRデータの出力モデル
CPグループ, poinsonousクラスには2つか3つのCPグループがみられる. 例え ばedibleクラスでは,無臭であるodornoneだけでは食用であるとは言えず, リン グの数や型の種類,または内被膜かどうかもチェックする必要があるらしい. 一方 poisounousクラスでは,菌膜が白く,ひだの間隔が密で, あざのないキノコは有毒 であるための1つの有力な条件となるようだ. 図20は,採用CP数自体も多く,か つどちらのクラスにも出現するアイテムも多いため, 上の2つの図と比べ複雑な 図となってしまっている. つまり, 単体のアイテムには意味がなくとも, 組み合わ されることによって説明力が上昇するアイテムが多いデータであり, 予測が難し い分類問題であることが分かる. その中でも,どちらのクラスにも1つ強力なアイ テムが存在してるようだ. 出現パターンを考察すると, 右上部に位置することは 未再発に対して非常にポジティブな要因である. その他には年齢が比較的低いこ とやサイズが比較的小さいことなど, 直感的にも妥当なパターンがno-recurrence の方に出現している.
2 k n a r 3
k n a r breast-quad_right_up
deg-malig_2
node-caps_yes deg-malig_3
inv-nodes_3-5
irradiat_no
rank1 tumor-size_20-24
tumor-size_30-34
rank0 tumor-size_15-19
deg-malig_1
menopause_premeno age_30-39
breast-quad_left_up
node-caps_no
rank-1 irradiat_yes
inv-nodes_6-8
inv-nodes_0-2 breast_right
node-caps_?
tumor-size_25-29 breast_left
menopause_ge40
tumor-size_45-49 breast-quad_left_low
tumor-size_5-9 age_60-69
rank-2 age_50-59
rank-3 age_40-49
no-recurence に強いノード recurence に強いノード
図 20: BCデータの出力モデル