識別実験の内容

MT Quasi

5.1 識別実験の内容

5.1.1 実験環境および実験条件

表

??

に実験環境を示す．開発言語に

Python 2.7.6

を用い，数値計算ライブラリに

NumPy

，機械学習ライブラリに

scikit-learn

，

SOBOL

列の生成に

sobol seq.py

を用いる．学習・テストに用いるデータには，独自に集めた日本語電子メールデータを用いる．このデータは，

2004

年〜

2007

年に日本国内の大学で収集された電子メールで，

SPAM

メールが

600

通，非

SPAM

メールが

1000

通含まれており，それらが

52

次元の特徴で表現されている．

5.1

識別実験の内容

表

5.1

実験環境

OS Windows 7 Enterprise

メモリ

4.00 GB

CPU Intel(R) Core(TM) i5-2400S CPU @ 2.50GHz

開発言語

Python 2.7.6

利用ライブラリ

scikit-learn

，

NumPy

，

sobol seq

利用データセット日本語

SPAM

メールのデータセット

（

SPAM

：

600

通，非

SPAM

：

1000

通，格納特徴数：

52

）

訓練データ数

50

予測データ数

1550

5.1.2 実験内容

本研究は，

Random Forest

において，ユーザが設定できる

3

つのパラメータに関し，いずれの値も低い状態に設定した条件の下で，サンプリングに用いる乱数に準乱数を適用することによって，疑似乱数よりも識別精度が向上することを示すものである．

3

つのパラメータの値を表

5.2

に示す．

表

5.2

本研究での

Random Forest

におけるパラメータ木の最大の深さ

D _max 1, 2, 3, 4, 5

特徴の最大数

F _max 1,2,3,...,10

認識に用いる木の数

N max 1,2,3,...,10

表中の

D max

が生成される木の深さの最大数を，

F max

が選択される特徴数の最大数を，

N _max

が生成される木の総数を示す．また，本稿で述べる「木の深さ」を図

5.1

に示す．木の深さの最大数を

1

〜

5

にした理由は，二分決定木のノード数があまり大きくならず，使用する特徴の数に制限がある環境下における性能の向上を考えるためである．したがって，木

5.1

識別実験の内容

深さ：1 深さ：

2

深さ：3

深さ：4 深さ：

5

図

5.1

各深度で作成される決定木の例

の深さを

6

以上に設定することはノード数，つまり利用する特徴数が増加するということであり，また本研究は各パラメータを低く設定した時における準乱数適用時と疑似乱数適用時の識別精度の比較を目的とするため，木の深さの最大数は

5

層までとする．選択される特徴の最大数および生成される決定木の総数に関しても大きな学習器を作成しない状況下での比較をするため，各パラメータは最大

10

までとする．また，ランダム性が含まれるアルゴリズムの特性を考慮し，同一条件の試行を

10

試行繰り返し行うものとする．

5.1.3 ^評価方法

本研究を行うにあたって，生成される木の深さの最大数，選択する特徴の最大数，生成する木の総数の

3

つのパラメータに関し，いずれの値も低い状態で準乱数列と疑似乱数列をそれぞれ適用した場合に，識別精度の高かった乱数列を，その条件下における適した乱数列で

5.2

サンプリングにおける乱数に準乱数を用いた識別の結果と精度比較における考察

あると評価するものとする．評価基準は，各パラメータが固定された

10

回の試行を疑似乱数を用いた場合と準乱数列を用いた場合の

2

つのケースで比較し，識別率の高い手法にマーキングし，固定されたパラメータの中で

10

回の試行のうち何回識別率が他方より高いのかをカウントする．この評価を，

F _max ∗ N _max ∗ 10

（試行）

∗ D _max = 5000

データに関して行い，各パラメータの条件下で，

2

種類の乱数を用いた手法それぞれで，識別精度がもう一方の乱数を用いる方法より高かった場合の回数を数え，その評価値が標準偏差，標準誤差を超える高い値である手法に対し，識別性能が高いという評価を行うものとする．

5.2 サンプリングにおける乱数に準乱数を用いた識別の結果

ドキュメント内 26 Feature Extraction with Randomness for an Application to Machine Learning from Text Data (ページ 30-33)

MT Quasi

5.1 識別実験の内容

5.1.1 実験環境および実験条件

??

Python 2.7.6

NumPy

scikit-learn

SOBOL

sobol seq.py

2004

2007

SPAM

600

SPAM

1000

52

5.1

5.1

OS Windows 7 Enterprise

4.00 GB

CPU Intel(R) Core(TM) i5-2400S CPU @ 2.50GHz

Python 2.7.6

scikit-learn

NumPy

sobol seq

SPAM

SPAM

600

SPAM

1000

52

50

1550

5.1.2 実験内容

Random Forest

3

3

5.2

5.2

Random Forest

D max 1, 2, 3, 4, 5

F max 1,2,3,...,10

N max 1,2,3,...,10

D max

F max

N max

5.1

1

5

5.1

2

5

5.1

6

5

10

10

5.1.3 評価方法

3

5.2

10

2

10

F max ∗ N max ∗ 10

∗ D max = 5000

2

5.2 サンプリングにおける乱数に準乱数を用いた識別の結果

D _max 1, 2, 3, 4, 5

F _max 1,2,3,...,10

N _max

5.1.3 ^評価方法

F _max ∗ N _max ∗ 10

∗ D _max = 5000