各モデル B における閾値 T の決定

第 4 章評価実験

4.3 閾値 T の最適化

4.3.1 各モデル B における閾値 T の決定

表 4.5: 閾値T の最適化の結果モデル交差検定閾値T F値

1回目 0.57 0.664

2回目 0.58/0.59 0.685 B-dif 3回目 0.58/0.59 0.718

4回目 0.56 0.659

5回目 0.6 0.643

平均 0.578 0.674

1回目 0.68 0.308

2回目 0.69 0.299

B-sum 3回目 0.69 0.376

4回目 0.67 0.309

5回目 0.65 0.307

平均 0.676 0.320

1回目 0.57 0.362

2回目 0.58/0.59 0.436

B-con 3回目 0.61 0.466

4回目 0.58/0.59 0.431

5回目 0.61 0.426

平均 0.59 0.424

最適化後の閾値T は，モデルによって若干異なり，B-difでは0.578，B-sumでは0.676，B-conでは0.59となった．いずれにせよ0.5より大きい値であり，別人

（正例）と判定する基準（信頼度）を少し厳しく設定したときにF値が最大となることがわかった．

次に，提案モデルの性質を明らかにするための追加実験を行う．まず，モデル Rを開発データに適用したとき，正例と負例に対する判定の信頼度の分布を調べる．具体的には，横軸を判定の信頼度，縦軸をその信頼度を持つ正例または負例の数とするグラフを作成する．また，閾値T を変化させたときの開発データにおけるモデルRの精度，再現率，F値の変動を調べる．閾値T の最適化はモデルB のために行うが，ベースとなる判定モデルはモデルRなので，ここではモデルR の性能を測っていることに注意していただきたい．交差検定における5回の試行の結果をそれぞれ図4.2〜図4.6に示す．これらの図において，（a-1），（a-2），（a-3）

はそれぞれモデルR-dif，R-sum，R-conによる判定の信頼度の分布を示す．青色の「Same pairs」は同一人ペアの事例の頻度，オレンジ色の「Diﬀerent pairs」は別人ペアの事例の頻度を表す．一方，（b-1），（b-2），（b-3）はそれぞれモデルR-dif，

R-sum，R-conによる精度（Precision），再現率（Recall），F値（F-measure）の変動を示す．

信頼度の分布をみると，モデルB-difについては，別人ペア（正例）と同一人ペア（負例）の分布がある程度分かれている一方，モデルB-sumとB-conについては，別人ペアと同一人ペアとで信頼度が重なっている部分が大きいことがわかった．このことから，事例ベクトルの作成方法として，ベクトルの和や連結よりも，

ベクトルの差を取った方がよいことが窺える．

閾値と精度・再現率・F値の関係のグラフをみると，いずれのグラフも閾値を上げると精度が向上するが再現率は低下する傾向がみられる．一般に精度と再現率はトレードオフの関係があるので，この結果は自然である．いずれのケースでもピークとなる閾値があり，これが表4.5に示した閾値の値に対応する．また，グラフの形状を比べると，いずれのモデルも再現率については大きな違いはみられなかった．一方，精度についてはグラフの右側でモデルR-difとモデルR-sum，R-conに差がみられた．モデルR-sum，R-conでは信頼度の閾値を上げていったときに，モ

デルR-difと比べて精度が上がりにくくなっている．これは信頼度の分布とも関係

しており，モデルR-sum，R-conでは別人ペア（正例）と同一人ペア（負例）の分布の重なりが大きいことが原因であるといえる．このことからも，事例ベクトルの作成方法として，ベクトルの和や連結よりも，ベクトルの差を取った方がよいことが窺える．

さらに，モデルRを開発データに適用したときのROC曲線とAUCを調べる．

モデルR-dif，R-sum，R-conの結果をそれぞれ図4.7，4.8，4.9に示す．5本の曲線は5分割交差検定のそれぞれの試行の結果である．ROC曲線は，全体的にモデ

ルR-difでは左上方に位置し，AUCについてもいずれも0.9以上と高い値であっ

た．一方，モデルR-sumとR-conでは，R-difと比較するとROC曲線が右下方に位置し，AUCについても0.7〜0.8と低下した．この結果からも，事例ベクトルの作成方法として対照文書ベクトルと疑問文書ベクトルの差を取る方式が最も適しているといえる．

(a-1) 信頼度の分布(R-dif) (b-1)評価指標の変化(R-dif)

(a-2) 信頼度の分布(R-sum) (b-2)評価指標の変化(R-sum)