• 検索結果がありません。

MT Quasi

5.1 識別実験の内容

5.1.1 実験環境および実験条件

??

に 実 験 環 境 を 示 す.開 発 言 語 に

Python 2.7.6

を 用 い ,数 値 計 算 ラ イ ブ ラ リ に

NumPy

,機械学習ライブラリに

scikit-learn

SOBOL

列の生成に

sobol seq.py

を用い る.学習・テストに用いるデータには,独自に集めた日本語電子メールデータを用いる.こ のデータは,

2004

年〜

2007

年に日本国内の大学で収集された電子メールで,

SPAM

メール が

600

通,非

SPAM

メールが

1000

通含まれており,それらが

52

次元の特徴で表現されて いる.

5.1

識別実験の内容

5.1

実験環境

OS Windows 7 Enterprise

メモリ

4.00 GB

CPU Intel(R) Core(TM) i5-2400S CPU @ 2.50GHz

開発言語

Python 2.7.6

利用ライブラリ

scikit-learn

NumPy

sobol seq

利用データセット 日本語

SPAM

メールのデータセット

SPAM

600

通,非

SPAM

1000

通,格納特徴数:

52

訓練データ数

50

予測データ数

1550

5.1.2 実験内容

本研究は,

Random Forest

において,ユーザが設定できる

3

つのパラメータに関し,い ずれの値も低い状態に設定した条件の下で,サンプリングに用いる乱数に準乱数を適用する ことによって,疑似乱数よりも識別精度が向上することを示すものである.

3

つのパラメー タの値を表

5.2

に示す.

5.2

本研究での

Random Forest

におけるパラメータ 木の最大の深さ

D max 1, 2, 3, 4, 5

特徴の最大数

F max 1,2,3,...,10

認識に用いる木の数

N max 1,2,3,...,10

表中の

D max

が生成される木の深さの最大数を,

F max

が選択される特徴数の最大数を,

N max

が生成される木の総数を示す.また,本稿で述べる「木の深さ」を図

5.1

に示す.木 の深さの最大数を

1

5

にした理由は,二分決定木のノード数があまり大きくならず,使用 する特徴の数に制限がある環境下における性能の向上を考えるためである.したがって,木

5.1

識別実験の内容

深さ:1 深さ:

2

深さ:3

深さ:4 深さ:

5

5.1

各深度で作成される決定木の例

の深さを

6

以上に設定することはノード数,つまり利用する特徴数が増加するということで あり,また本研究は各パラメータを低く設定した時における準乱数適用時と疑似乱数適用時 の識別精度の比較を目的とするため,木の深さの最大数は

5

層までとする.選択される特徴 の最大数および生成される決定木の総数に関しても大きな学習器を作成しない状況下での比 較をするため,各パラメータは最大

10

までとする.また,ランダム性が含まれるアルゴリ ズムの特性を考慮し,同一条件の試行を

10

試行繰り返し行うものとする.

5.1.3 評価方法

本研究を行うにあたって,生成される木の深さの最大数,選択する特徴の最大数,生成す る木の総数の

3

つのパラメータに関し,いずれの値も低い状態で準乱数列と疑似乱数列をそ れぞれ適用した場合に,識別精度の高かった乱数列を,その条件下における適した乱数列で

5.2

サンプリングにおける乱数に準乱数を用いた識別の結果と精度比較における考察

あると評価するものとする.評価基準は,各パラメータが固定された

10

回の試行を疑似乱 数を用いた場合と準乱数列を用いた場合の

2

つのケースで比較し,識別率の高い手法にマー キングし,固定されたパラメータの中で

10

回の試行のうち何回識別率が他方より高いのか をカウントする.この評価を,

F max N max 10

(試行)

D max = 5000

データに関して行 い,各パラメータの条件下で,

2

種類の乱数を用いた手法それぞれで,識別精度がもう一方 の乱数を用いる方法より高かった場合の回数を数え,その評価値が標準偏差,標準誤差を超 える高い値である手法に対し,識別性能が高いという評価を行うものとする.

5.2 サンプリングにおける乱数に準乱数を用いた識別の結果

関連したドキュメント