• 検索結果がありません。

6.2 UCI リポジトリ

6.2.3 議論

表5.1にあるirの値と表6.3の結果をみてみる.UCIリポジトリのデータセットを用 いた実験を通した結果から,チェッカーボード問題に比べて,高いirにおいても偏りを 考慮した照合範囲の更新や生成・削除を導入したECSの効果が見られなかったことにつ いてまず考察していく.チェッカーボード問題とUCIリポジトリの検証方法では,大き く異なる点として,検証用のテストデータにも偏りを加えているかどうかが挙げられる.

チェッカーボード問題では,学習段階において事前データである教師ありデータには偏り が存在するが,検証用のテストデータにはクラスの偏りがなく均一にデータを用意した.

これは,不均衡な事前データから少数データに対する汎化能力を測るためである.そこで まず,チェッカーボード問題のテストデータに偏りを加えた状態で(1)従来ECS,(2)偏 りを考慮した範囲更新を導入したECS,そして(3)生成・削除を導入したECSの分類成 功率を追加で比較実験した.

図 6.12に示すように,少数データのみの分類成功率に絞ってみてみると,ir が低い ケースでは,従来のECSや偏りを考慮した範囲更新を導入したECSの分類精度は9割 近い.一方で,irの値が高くなると,従来のECSは徐々に下がりir = 7では,5割以下 の分類精度であるが,偏りを考慮した範囲更新を導入したECSは5割以上の分類精度を 保っている.また,生成・削除を導入したECSはirが0の時以外は,irが高くなるに連 れて徐々に分類精度が向上している.このことから,ir = 7のような偏りが相当厳しい状 況でないと,少数データの領域において生成機能が効果的に働いていないことを示してい る.また,テストデータに偏りをもたせた場合,その成果が全体の分類精度にほとんどあ らわれないのは,ir=7の場合,少数データの割合はがテストデータ全体の0.7%程度しか 占めておらず,評価にほとんど影響を与えることなく,多数データの分類精度のみで評価 されている状況に等しい.このことから,テストデータに偏りがある場合は,各クラスの 評価を実施すること,そして各クラスの全テストデータにおける比率を考慮し,各クラス の分類精度の全体評価への影響を把握して評価を実施する必要がある.

さらに,図6.13は各データ集合におけるECSのP opulationsizeの平均推移を示して いる.各図の縦軸はexempalrの総数であるP opulationSizeを示し,横軸は学習回数を 示す.どのデータ集合の場合においても,学習初期においてほとんど収束している.ただ し,GlassSegmentの分類クラスの数が多いデータ集合ほど,P opulationsize の収 束が遅い傾向がみられる.これは1回の学習回数が 1つの入力に相当するため,分類ク ラスの少ない問題と比べて分類クラスの多い問題では,exemplarの照合回数および実行 回数の頻度が下がり,照合範囲を拡大し一般化の進行が遅れてしまうためであると考えら れる.

6.2. UCI リポジトリ 第 6. 計算機実験:シングルステップ問題

(a) ir = 0 (b) ir = 1 (c) ir = 2

(d) ir = 3 (e) ir = 4 (f) ir = 5

(g) ir = 6 (h) ir = 7

6.11 不均衡なテストデータを用いた結果

6. 計算機実験:シングルステップ問題 6.2. UCIリポジトリ

6.12 ir値における少数データのみの分類精度

6.2. UCI リポジトリ 第 6. 計算機実験:シングルステップ問題

(a) Balancescale populationsizeの平均 推移

(b)Bupapopulationsizeの平均推移

(c)Glasspopulationsizeの平均推移 (d) Irispopulationsizeの平均推移

(e) P imaindians populationsizeの平均 推移

(f)Segmentpopulationsizeの平均推移

6. 計算機実験:シングルステップ問題 6.2. UCIリポジトリ

(g)Sonorpopulationsizeの平均推移 (h)V ehiclepopulationsizeの平均推移

(i)W inepopulationsizeの平均推移

6.13 各データ集合におけるECSP opulationsizeの平均推移

第 7

計算機実験 : 実数値マルチステップ

問題