• 検索結果がありません。

各モデル B における閾値 T の決定

第 4 章 評価実験

4.3 閾値 T の最適化

4.3.1 各モデル B における閾値 T の決定

表 4.5: 閾値T の最適化の結果 モデル 交差検定 閾値T F値

1回目 0.57 0.664

2回目 0.58/0.59 0.685 B-dif 3回目 0.58/0.59 0.718

4回目 0.56 0.659

5回目 0.6 0.643

平均 0.578 0.674

1回目 0.68 0.308

2回目 0.69 0.299

B-sum 3回目 0.69 0.376

4回目 0.67 0.309

5回目 0.65 0.307

平均 0.676 0.320

1回目 0.57 0.362

2回目 0.58/0.59 0.436

B-con 3回目 0.61 0.466

4回目 0.58/0.59 0.431

5回目 0.61 0.426

平均 0.59 0.424

最適化後の閾値T は,モデルによって若干異なり,B-difでは0.578,B-sumで は0.676,B-conでは0.59となった.いずれにせよ0.5より大きい値であり,別人

(正例)と判定する基準(信頼度)を少し厳しく設定したときにF値が最大となる ことがわかった.

次に,提案モデルの性質を明らかにするための追加実験を行う.まず,モデル Rを開発データに適用したとき,正例と負例に対する判定の信頼度の分布を調べ る.具体的には,横軸を判定の信頼度,縦軸をその信頼度を持つ正例または負例 の数とするグラフを作成する.また,閾値T を変化させたときの開発データにお けるモデルRの精度,再現率,F値の変動を調べる.閾値T の最適化はモデルB のために行うが,ベースとなる判定モデルはモデルRなので,ここではモデルR の性能を測っていることに注意していただきたい.交差検定における5回の試行 の結果をそれぞれ図4.2〜図4.6に示す.これらの図において,(a-1),(a-2),(a-3)

はそれぞれモデルR-dif,R-sum,R-conによる判定の信頼度の分布を示す.青色 の「Same pairs」は同一人ペアの事例の頻度,オレンジ色の「Different pairs」は 別人ペアの事例の頻度を表す.一方,(b-1),(b-2),(b-3)はそれぞれモデルR-dif,

R-sum,R-conによる精度(Precision),再現率(Recall),F値(F-measure)の 変動を示す.

信頼度の分布をみると,モデルB-difについては,別人ペア(正例)と同一人ペ ア(負例)の分布がある程度分かれている一方,モデルB-sumとB-conについて は,別人ペアと同一人ペアとで信頼度が重なっている部分が大きいことがわかっ た.このことから,事例ベクトルの作成方法として,ベクトルの和や連結よりも,

ベクトルの差を取った方がよいことが窺える.

閾値と精度・再現率・F値の関係のグラフをみると,いずれのグラフも閾値を上 げると精度が向上するが再現率は低下する傾向がみられる.一般に精度と再現率は トレードオフの関係があるので,この結果は自然である.いずれのケースでもピー クとなる閾値があり,これが表4.5に示した閾値の値に対応する.また,グラフの 形状を比べると,いずれのモデルも再現率については大きな違いはみられなかっ た.一方,精度についてはグラフの右側でモデルR-difとモデルR-sum,R-conに 差がみられた.モデルR-sum,R-conでは信頼度の閾値を上げていったときに,モ

デルR-difと比べて精度が上がりにくくなっている.これは信頼度の分布とも関係

しており,モデルR-sum,R-conでは別人ペア(正例)と同一人ペア(負例)の分 布の重なりが大きいことが原因であるといえる.このことからも,事例ベクトル の作成方法として,ベクトルの和や連結よりも,ベクトルの差を取った方がよい ことが窺える.

さらに,モデルRを開発データに適用したときのROC曲線とAUCを調べる.

モデルR-dif,R-sum,R-conの結果をそれぞれ図4.7,4.8,4.9に示す.5本の曲 線は5分割交差検定のそれぞれの試行の結果である.ROC曲線は,全体的にモデ

ルR-difでは左上方に位置し,AUCについてもいずれも0.9以上と高い値であっ

た.一方,モデルR-sumとR-conでは,R-difと比較するとROC曲線が右下方に 位置し,AUCについても0.7〜0.8と低下した.この結果からも,事例ベクトルの 作成方法として対照文書ベクトルと疑問文書ベクトルの差を取る方式が最も適し ているといえる.

(a-1) 信頼度の分布(R-dif) (b-1)評価指標の変化(R-dif)

(a-2) 信頼度の分布(R-sum) (b-2)評価指標の変化(R-sum)

(a-3)信頼度の分布(R-con) (b-3) 評価指標の変化(R-con)

図 4.2: 開発データにおけるモデルRの評価(交差検定1回目)

(a-1) 信頼度の分布(R-dif) (b-1)評価指標の変化(R-dif)

(a-2) 信頼度の分布(R-sum) (b-2)評価指標の変化(R-sum)

(a-3)信頼度の分布(R-con) (b-3) 評価指標の変化(R-con)

図 4.3: 開発データにおけるモデルRの評価(交差検定2回目)

(a-1) 信頼度の分布(R-dif) (b-1)評価指標の変化(R-dif)

(a-2) 信頼度の分布(R-sum) (b-2)評価指標の変化(R-sum)

(a-3)信頼度の分布(R-con) (b-3) 評価指標の変化(R-con)

図 4.4: 開発データにおけるモデルRの評価(交差検定3回目)

(a-1) 信頼度の分布(R-dif) (b-1)評価指標の変化(R-dif)

(a-2) 信頼度の分布(R-sum) (b-2)評価指標の変化(R-sum)

(a-3)信頼度の分布(R-con) (b-3) 評価指標の変化(R-con)

図 4.5: 開発データにおけるモデルRの評価(交差検定4回目)

(a-1) 信頼度の分布(R-dif) (b-1)評価指標の変化(R-dif)

(a-2) 信頼度の分布(R-sum) (b-2)評価指標の変化(R-sum)

(a-3)信頼度の分布(R-con) (b-3) 評価指標の変化(R-con)

図 4.6: 開発データにおけるモデルRの評価(交差検定5回目)

図 4.7: R-difの開発データにおけるROC曲線とAUC

図 4.8: R-sumの開発データにおけるROC曲線とAUC

図 4.9: R-conの開発データにおけるROC曲線とAUC

関連したドキュメント