第 3 章 構成要素文特定手法
3.2 提案手法の適用(序論)
3.2.3 評価実験
本研究では3.2.2項で提案した特定手法が,序論の構成要素を正しく特定できているかど うかを評価するために,人手による判定結果と提案手法による判定結果を比較する実験を 行った.
実験対象とする論文は 2015 年度と 2016 年度に発表された情報処理学会の予稿(2 ペー ジ)から無作為に抽出した300本(2046文)と,2011年と2012年に発表された電子情報通 信学会の論文(8~12ページ)から無作為に抽出した200本(3351文)である.評価実験の 流れについて図3-6に示す.
図3-6 評価実験の流れ
最初に手作業で序論全文を構成要素別に分別して,構成要素ごとにデータセットを作成 する.手作業で分別する時は必ず序論全文に目を通してから分別した.次に各構成要素の文 の集合に対して,提案手法を用いて構成要素の判定を行い,判定結果が該当する構成要素に 一致しているかどうかを確認する.
提案手法の性能を評価する指標は「適合率」「再現率」「F値」の3つを用いる.「適合率」
は抽出した文の中で正しく評価できた文の割合であり,提案手法の「正確性」を評価する指 標となる.「再現率」は正解とされた文の数に対して正しく特定できた文の数の割合であり,
再現率が高いほど特定漏れの文が少ないため「網羅性」を評価する指標となる.F値は,式
(2)に示されるように適合率と再現率の調和平均を取った値で,提案手法の「正確性」と
「網羅性」の総合的な評価を行う指標である.
𝐹値= 2・適合率・再現率
適合率+再現率 (2)
40
特徴的表現を用いた特定手法の実験結果を表3.31と図3-7に示す.表3.31に示されてい る「該当文」は人手で特定した各構成要素文の数である.「特定文」は全3114文に提案手法 を適用し,特定した各構成要素の文の数である.「正解文」は提案手法・人手の両方とも当 該構成要素と判定した文の数である.図3-7では,表3.31で示されている「適合率」「再現 率」「F 値」の数値を構成要素ごとに棒グラフにして表している.青色で示されている棒グ ラフは適合率,赤色で示されている棒グラフは再現率,黒色で示されている棒グラフはF値 に該当する.
表3.31 特徴的な表現を用いた特定手法の実験結果
図3-7 特徴的表現を用いた特定手法の実験結果
全体では適合率が0.879と高い値を示しているのに対して,再現率は0.587と低い値を 示している.そのため,正確性は高いが網羅性が低い傾向にあることがわかる.構成要素 別に検証すると,研究背景は,適合率と再現率がほぼ同じ値を示しているが,先行研究・
課題・研究内容はいずれも適合率が再現率よりも大幅に上回っている傾向にある.それに 研究背景 先行研究 課題 研究内容 研究目的 全体
該当文 287 772 899 1133 50 3141 特定文 282 521 414 783 97 2097 正解文 190 435 404 767 47 1843 適合率 0.674 0.835 0.976 0.980 0.485 0.879 再現率 0.662 0.563 0.449 0.677 0.940 0.587 F値 0.668 0.673 0.615 0.801 0.639 0.704
0.674
0.835
0.976 0.980
0.485
0.879
0.662
0.563
0.449
0.677
0.940
0.587
0.668 0.673
0.615
0.801
0.639
0.704
0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000
研究背景 先行研究 課題 研究内容 研究目的 全体 適合率 再現率 F値
41
対して,研究目的は再現率の方が適合率を大幅に上回っている.課題の再現率が低い原因 と,研究目的の適合率が低い原因については,3.2.3.3節で示す.
SVMによる判別手法の実験結果を表3.32と図3-8に示す.
表3.32 SVMによる判別手法の実験結果
図3-8 SVMによる判別手法の実験結果
全体では,適合率と再現率の差は小さい.特徴的表現を用いた手法の結果と比べると,
適合率が低下し,再現率が向上している.構成要素別で検証すると,研究背景は,適合率 と再現率がほぼ同じ値を示しているが,特徴的表現を用いた手法より低下している.先行 研究と課題は適合率が再現率よりも高い値を示しているが,特徴的表現を用いた特定手法 より適合率が低下し,再現率が向上している.研究内容についても同様の傾向が表れてお り,再現率が適合率を上回っている.研究目的については,再現率が低下し適合率が向上 している.このことから,研究目的以外の構成要素については再現率が向上し,適合率が 低下している傾向にあることがわかる.
研究背景 先行研究 課題 研究内容 研究目的 全体 該当文 287 772 899 1133 50 3141 特定文 303 676 707 1216 46 2948 正解文 168 474 576 942 41 2201 適合率 0.554 0.701 0.815 0.775 0.891 0.747 再現率 0.585 0.614 0.641 0.831 0.820 0.701 F値 0.569 0.655 0.717 0.802 0.854 0.723
0.554
0.701
0.815
0.775
0.891
0.747
0.585 0.614 0.641
0.831
0.820
0.701
0.569
0.655
0.717
0.802
0.854
0.723
0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000
研究背景 先行研究 課題 研究内容 研究目的 全体 適合率 再現率 F値
42
ハイブリッド型特定手法の実験結果を表3.33と図3-9に示す.
表3.33 ハイブリッド型特定手法の実験結果
図3-9 ハイブリッド型特定手法の実験結果
全体では,適合率と再現率の差が小さい.構成要素別で比較すると,研究背景と研究目 的に関しては再現率が適合率よりも大幅に高い値を示している.それに対して,課題は適 合率が再現率よりも大幅に高くなっており,先行研究と研究内容ではほぼ同じ値を示して いた.
研究背景 先行研究 課題 研究内容 研究目的 全体 該当文 287 772 899 1133 50 3141 特定文 375 755 627 1147 98 3002 正解文 205 562 557 960 48 2332 適合率 0.547 0.744 0.888 0.837 0.490 0.777 再現率 0.714 0.728 0.620 0.847 0.960 0.742 F値 0.619 0.736 0.730 0.842 0.649 0.759
0.547
0.744
0.888
0.837
0.490
0.777
0.714 0.728
0.620
0.847
0.960
0.742
0.619
0.736
0.730
0.842
0.649
0.759
0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000
研究背景 先行研究 課題 研究内容 研究目的 全体 適合率 再現率 F値
43
特徴的表現を用いた特定手法,SVMを用いた判別手法,ハイブリッド型特定手法の実験 結果を適合率・再現率・F値に分けて比較する.適合率において3手法の実験結果をまと めたものを図3-10に示す.図内の緑色の棒は特徴的表現を用いた特定手法,灰色の棒は SVMを用いた判定手法,紫色の棒はハイブリッド型特定手法に該当する.
図3-10 適合率の比較結果
全体を比較すると,特徴的表現を用いた手法が最も高い.構成要素別で比較すると,研究 目的を除き特徴的表現を用いた特定手法が最も高い値を示していた.このことから,特徴的 表現を用いた手法が3手法の中で最も正確性に優れていることがわかる.
0.674
0.835
0.976 0.980
0.495
0.879
0.554
0.701
0.815
0.775
0.891
0.747
0.547
0.744
0.888
0.837
0.490
0.777
0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000
研究背景 先行研究 課題 研究内容 研究目的 全体
44
再現率において3手法の実験結果をまとめたものを図3-11に示す.
図3-11 再現率の比較結果
全体を比較すると,特徴的表現を用いた手法が最も低く,ハイブリッド型特定手法が最も 高い.構成要素別で比較すると,課題以外の構成要素についてはハイブリッド型特定手法が 最も高い値を示していた.このことから,ハイブリッド型特定手法が3手法の中で最も網羅 性において優れていることがわかる.
0.662
0.563
0.449
0.677
0.940
0.589 0.568
0.614
0.641
0.831 0.820
0.700
0.714 0.728
0.620
0.847
0.960
0.741
0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000
研究背景 先行研究 課題 研究内容 研究目的 全体
45
F値において3手法の実験結果をまとめたものを図3-12に示す.
図3-12 F値の比較結果
全体を比較すると,特徴的表現を用いた手法が最も低く,ハイブリッド型特定手法が最も 高い.このことから,ハイブリッド型特定手法が3手法の中で最も特定性能が優れているこ とがわかる.構成要素別で比較すると,先行研究・課題・研究内容でハイブリッド型特定手 法が最も高い値を示していた.研究背景は特徴的表現を用いた特定手法が最も高い結果と なり,研究目的はSVMによる判別手法が最も高い結果となった.
0.668
0.673
0.615
0.801
0.648
0.706
0.561
0.655
0.717
0.802 0.854
0.722
0.619
0.736 0.730
0.842
0.649
0.759
0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000
研究背景 先行研究 課題 研究内容 研究目的 全体
46 3.2.3.3 考察
特徴的表現を用いた特定手法やSVMによる判定手法において,正しく特定できなかった 文を示した上で,特定の構成要素の再現率や適合率が低い原因を考察し,改善案を述べる.
ここでは,特徴的表現を用いた特定手法において,課題の再現率が低い原因について考察す る.表 3.34 に特徴的表現を用いた特定手法において「該当する構成要素なし」と判定され た課題文の例を示す.右側にはSVMによる判定手法の判定結果を示している.
表3.34「該当する構成要素なし」と判定された課題文の例
1~4文目の例文はSVMによる判定手法で正しく特定できた文である.このように,特徴 的表現を用いた特定手法で「該当する構成要素なし」と判定されたが,SVMによる判定手 法では正しく特定できた文は198文確認された.これらの文の共通点として,文末表現が課 題の特徴的文末表現として登録されていないことが挙げられる.例えば 1 文目の文末表現 である「困難であった」は,課題の特徴的文末表現である「困難である」の過去形に該当し,
2文目の文末表現である「十分ではない」は,特徴的文末表現である「不十分である」と同 義である.また,3文目と4文目の文末表現については,否定的表現であるが,類似した意 味の特徴的文末表現はなかった.このように特徴的表現として登録されていない否定的な 表現が書かれている文に対しても,SVMによる判定手法では,否定的な表現を対象文から 検知して正しく構成要素を特定することができる.
5,6文目の例文はSVMによる判定手法においても誤って判定されている.このように,
特徴的表現を用いた特定手法で「該当する構成要素なし」と判定され,かつSVMによる判 定手法でも正しく特定できなかった文は 136 文確認された.これらの文に共通する特徴と して,SVMによる判定手法の解析対象である「文頭・文末10文字」ではなく文中に否定的 表現が書かれていることが挙げられる.このことから,SVMによる判定手法は,構成要素 の特徴が文中に表れている文に対して,正しく構成要素を特定できないことがわかった.
番号 例文 SVM
1 多大な評価期間とコストがかかり,継続的な評価は困難であった 課題
2 高度ナビゲーションに対する自車位置推定精度は依然として十分ではない 課題 3 このため,特定のデバイスを任意に指定して接続することは難しく,デバイス連携を行う上での障壁となっている 課題 4 走行中給電では伝送効率が高く,受電素子の位置による変動が小さいことが望まれるが,マイクロストリップパッチ
アンテナを用いた伝送効率は低く,不均一であった 課題
5 ランダムなネットワークの問題点として,各ルータ間の最短経路を単純なロジックを用いて求められない点が挙げら
れる 研究内容
6 機械翻訳を介したコミュニケーションでは,翻訳精度が低い場合,十分な相互理解ができず,思い違いが発生する 研究内容