第 4 章 素性選択手法
4.3 素性集合の定義
本節では、本手法でSVMの学習素性として使用する素性集合の定義について述べる。
素性(単語ユニグラム、単語バイグラム、共起単語)の有効性やNNによる素性選択手法 の有効性を評価するため、以下の 種類の素性集合を作成する。
1. 高頻度のユニグラム
この素性集合は、単語ユニグラムの集合である。ここでは、ユニグラムの出現頻度 によって素性選択した素性集合を作成する。すなわち、出現頻度がM 以上のユニ グラムによって素性集合を作成した。Mが小さいほど素性集合のサイズは大きくな り、Mが大きければサイズは小さくなる。
2. 高頻度のユニグラム+バイグラム
ユニグラムとバイグラムを合わせた素性集合である。本素性集合では出現頻度が5 回を超えるもののみを使用している。すなわち、ユニグラムで6回以上出現した単 語、バイグラムでは6回以上隣接して出現した単語の並びを素性としている。
3. 高頻度のユニグラム+共起単語
ユニグラムと共起単語を合わせた素性集合である。本素性集合でも出現頻度が5回 を超えるもののみを使用している。すなわち、6回以上同じ文書に出現した2つの 単語の組を共起単語の素性とする。
4. 高頻度かつNNで素性選択されたユニグラム
出現頻度が5回を超えるユニグラムのうち、NNによって得られる素性のスコアの上 位N個を選択した素性集合である。素性のスコアは4.2節で述べたscoreA、scoreB、
scoreCのいずれかで計算している。
5. 高頻度かつNNで素性選択されたユニグラム+バイグラム
出現頻度が5回を超えるユニグラムもしくはバイグラムのうち、NNによって得ら れる素性のスコアの上位N個を選択した素性集合である。素性のスコアはscoreA、 scoreB、scoreCのいずれかで計算している。
6. 高頻度かつNNで素性選択されたユニグラム+共起単語
出現頻度が5回を超えるユニグラムもしくは共起単語のうち、NNによって得られ る素性のスコアの上位N個を選択した素性集合である。素性のスコアはscoreA、
scoreB、scoreCのいずれかで計算している。
7. NNで素性選択されたユニグラム
NNによって得られる素性のスコアの上位N個のユニグラムを選択した素性集合で ある。素性のスコアはscoreA、scoreB、scoreCのいずれかで計算する。4.の素性集 合とは異なり、出現頻度によって素性の選別を行っていない。すなわち、出現頻度 が小さい素性もNNで得られる素性のスコアが高い素性は素性集合に加えれられる。
8. 高頻頻度のユニグラム+素性選択された共起単語
この素性集合は、出現頻度が5回を超えるユニグラムと、NNによって得られる素性 のスコアが上位の単語の組み合わせの共起単語から構成される。後者の共起単語の素 性は以下の手続きで選別する。まず、NNの素性のスコア(scoreA、scoreB、scoreC
のいずれか)の大きい上位N個の単語ユニグラムを選別する。次に、得られたユニ グラム(単語)を他の単語と組み合わせて共起単語の素性を得る。同一単語を除く全 ての単語の組み合わせを作るため、共起単語の素性の数はN × (全素性数−1)と なる。