第 4 章 論文閲覧支援システム
4.3 提案システムの評価実験
4.3.1 実験概要
最初に,個別実験の概要を説明する.個別実験は,20代の工学系大学生,大学院生12人 の実験協力者を対象に実施する.全実験協力者には,選定した論文の,指定されたセクショ ン(序論・本論・結論)の中から,特定の構成要素に該当する文を抽出するタスクを行って もらい,これを提案システムを用いない場合と,提案システムを用いた場合の両方の条件で 実施した.実験実施の順番としては,先に提案システムを用いない場合で実施し,その約1~3 週間後に提案システムを用いた場合で実施した.表4.2に実験協力者ID:1~6,表4.3に実験
協力者ID:7~12の実験実施日と実験実施間隔と研究経験年数を示す.
表4.2 実験実施日(実験協力者ID:1~6)
表4.3 実験実施日(実験協力者ID:7~12)
論文から特定の構成要素に該当する文を抽出するタスクとして以下の5種類を設定した.
また,各構成要素の定義についても併記する.
1. 序論内の課題文
研究を行う理由や意義を述べている文 2. 序論内の研究内容文
研究を行う理由や意義を述べている文 3. 本論内の研究内容文
序論の研究内容文の詳細について本論内で述べている文 4. 実験章内の実験結果文
実験結果について述べている文 5. 結論内の今後の課題文
研究成果を踏まえた今後の課題を述べている文
実験協力者ID 1 2 3 4 5 6
提案システムなし 12月7日 12月14日 12月5日 12月7日 12月7日 12月14日 提案システムあり 12月18日 12月21日 12月26日 12月20日 12月27日 12月28日
実施間隔 11日 7日 21日 13日 20日 14日
研究経験年数 1 2 3 4 1 2
実験協力者ID 7 8 9 10 11 12
提案システムなし 12月7日 12月12日 12月7日 12月14日 12月12日 12月12日 提案システムあり 12月18日 12月20日 12月27日 12月19日 12月26日 12月21日
実施間隔 11日 8日 20日 5日 14日 9日
研究経験年数 3 6 1 2 3 3
89
これらのタスクについてそれぞれ回答時間1分を目安に論文1本につき合計5分間のタ スクを行った.タスクで抽出する文については,指示されている構成要素に該当する文を全 て「コピー&ペースト」して抽出する形とした.このようにすることで,実験協力者の「論 文の中から重要文を読み取る能力」を評価することができると考える.
本実験の協力者に共通した周辺分野の論文として言語処理学会年次大会で発表された予 稿10本を実験に用いる.言語処理学会の論文の中でも,実験協力者にとって身近なテーマ について取り組んでいる研究を選定した結果,表4.4に示すような大学入試問題に機械的に 回答することを目的とした研究の論文を選定した.これらの論文は全体実験でも用いてい るため,表に示す様にA,Bの2グループに分けて利用する.
表4.4 実験で用いた論文
提案システムを用いない場合での実験では,このうち番号が「A-1」「A-2」「B-1」「B-2」 である4本の論文に対して,実験協力者全員がタスクに取り組んだ.そのため,提案システ ムを用いない場合での実験時間は 20 分である.提案システムを用いた場合での実験では,
IDが奇数の実験協力者がグループAの論文5本のタスクに取り組み,IDが偶数の実験協力 者がBの論文5本のタスクに取り組んだ.そのため,提案システムを用いた場合での実験 時間は25分である.構成要素文を判別する速度を比較することを目的に,両実験において,
実験の様子を録画し,各タスクの回答時間を計測した.提案システムを用いない場合の実験 に お い て は , 実 験 実 施 の 順 序 の 中 で 7 番 目 か ら 12 番 目 に 実 施 し た 実 験 協 力 者
ID:2,6,8,10,11,12 の実験の様子を録画し,提案システムを用いた場合での実験においては,
全員の実験の様子を録画した.
これらの論文から,各タスクの正解文を手作業で抽出した.本論内の「研究内容」につい ては,序論の「研究内容」や結論の「研究内容」を参考に,最も重要だと思われる文を抽出 した.それ以外の文については,全て確実に該当すると思われる文だけを抽出した.表4.5 に論文ごとに設定している各タスクの正解文の数を示す.論文B-1の「今後の課題」につい ては,該当する文がないと判断したため,正解文を0としている.
番号 タイトル 発表年
A-1 大学入試の穴埋め問題を解く質問応答システムの検討 2015 A-2 東大入試世界史第1問(大論述問題)を解く質問応答システムの検討 2016 A-3 ファクトイド型質問応答を用いた正誤判定問題の解決 2013 A-4 大学入試世界史論述問題における非指定重要語句生成に関する検討 2017 A-5 大学入試「世界史」論述問題解答システムの開発 2016 B-1 センター試験『世界史B』文の正誤判定問題ソルバー 2016 B-2 主題と焦点の同定に基づく『世界史』小論述問題の自動解答 2017 B-3 大学入試の自由記述式語句問題における分野特有の質問型の有効性 2016 B-4 世界史小論述解答システムにおける文圧縮手法の比較・検討 2017 B-5 大学入試の論述問題を解く質問応答システムの検討 2015
90
表4.5 各タスクの正解文の数
回答文の評価方法について述べる.最初に実験協力者の回答文数を記録し,その回答文の 中に含まれている正解文の数を記録する.これを元に,回答文の中での正答率(適合率)と,
正解文の中での正答率(再現率)を求める.また,適合率と再現率を加味して総合的に抽出 精度を評価するF値についても求める.
連続して同じタスクを複数の論文に対して行う中で,慣れが生じることで,実験結果に影 響が出ることが想定される.そのため,提案システムを用いない場合での実験と,用いた場 合での実験それぞれで,実験協力者ごとにタスクに取り組む論文の順番を変更する.最初に,
提案システムを用いない場合での実験における,タスクを実施する論文の順番を表4.6に示 す.
表4.6 提案システムを用いない場合での実験における,論文実施順
次に,提案システムを用いた場合での実験における,タスクを実施する論文の順番を示 す.表4.7にグループAの論文に取り組む実験協力者の取り組む順番を示し,表4.8にグ ループBの論文に取り組む実験協力者の取り組む順番を示す.
表4.7 提案システムを用いた場合での実験における,論文実施順(グループA)
タスク A-1 A-2 A-3 A-4 A-5 B-1 B-2 B-3 B-4 B-5
課題 4 2 3 3 4 2 2 3 1 3
研究内容 1 2 2 3 2 2 4 2 2 1
本論 研究内容 4 3 3 5 4 3 3 5 2 3
実験 実験結果 2 3 2 2 2 2 2 2 2 1
結論 今後の課題 2 2 1 1 1 0 2 1 2 3
13 12 11 14 13 9 13 13 9 11
序論
合計
協力者ID 1本目 2本目 3本目 4本目
1~4 B-1 B-2 A-1 A-2
5~8 B-2 A-2 B-1 A-1
9~12 A-2 A-1 B-2 B-1
91
表4.8 提案システムを用いた場合での実験における,論文実施順(グループB)
提案システムを用いない場合での実験後,日本語論文の調査頻度,論文閲覧方法につい てアンケートを行った.
日本語論文の論文調査頻度については,表4.9に示す選択肢の通り,6段階で評価す る.
表4.9 論文調査頻度の選択肢
論文閲覧方法については,表4.10に示す4つの選択肢を設定した.
表4.10 論文閲覧方法の選択肢
ID 1本目 2本目 3本目 4本目 5本目
1 3 5 7 9
11 A-3 A-1
A-2 A-5
A-3 A-5 A-2 A-1 A-4
A-1 A-3 A-4
A-2 A-4 A-5
ID 1本目 2本目 3本目 4本目 5本目
2 4 6 8 10
12 B-2 B-4 B-5 B-3 B-1
B-3 B-5 B-2 B-1 B-4
B-1 B-3 B-4 B-2 B-5
5 毎日最低一回読んでいる 4 2,3日に一回以上読んでいる 3 週に一回以上読んでいる 2 月に一回以上読んでいる 1 数カ月に一回以上読んでいる 0 それ以下(ほぼ読まない)
選択肢 回答
1 最初から最後までじっくり読む事が多い(時間をかける方) 2 ある程度飛ばし読みして重要な文だけを読む事が多い(ある程度時間をかける方) 3 完全に飛ばし読みして重要な文だけを読む事が多い(時間をかけない方)
4 論文によって読み方を変えている
92
提案システムを用いた場合での実験については,個別実験と全体実験が終了した後に,
構成要素可視化機能についてのアンケートを行い,「1.全く役に立たなかった」「2.役に立 たなかった」「3.役に立った」「4.役に立たなかった」の4段階で評価してもらった.ま た,両実験において,各タスクの難易度について5段階(1.とても簡単~5.とても難し い)で.評価してもらった.
全体実験は,個別実験の実験協力者を対象とし,提案システムを用いた場合での個別実 験を実施した後に,約5分間の実験説明を行い実施した.実験時間は20分であり,全実 験協力者には,提案システムを使用して,表4.4の論文10本を調査し,その中から関連性 が高い論文のペアを発見してもらう.また,論文の関連性を裏付ける文章を論文から抽出 するタスクも同時に行ってもらう.
全体実験では論文の関連性の種類として,「先行研究・改良研究」の関連性と,「類似研究」
の関連性の2種類を設定した.「先行研究・改良研究」の定義は,「先行研究」の論文の課題 を「改良研究」の論文で解決していることである.そのため,該当する論文のペアを発見し た後に回答する設問は以下の 3 つを設定している.全体実験の説明時に実験協力者に説明 した,各タスクの定義についても下記に示す.
① 「先行研究」論文の提案手法の「課題」にあたる文 評価実験を通してわかった提案手法の課題点
② 「改良研究」論文で先行研究の課題点を解決している文
先行研究の課題点を踏まえたうえで改良点を示している研究内容文
③ 「改良研究」論文で先行研究と比べてどうなったか示している文(その理由も含む)
実験章または結論で書かれている研究成果文または考察文
「類似研究」の定義は,研究内容的に類似していることである.そのため,そのため,該当 する論文のペアを発見した後に回答する設問は以下の3つを設定している.
① 2本の論文がどのような点で類似しているのか(自分の言葉で)
② 1本目の論文の中で,2本目の論文と類似していると判断できる文
③ 2本目の論文の中で,1本目の論文と類似していると判断できる文
全体実験で用いた論文 10 本は予めこの2 つのいずれかの関連性がある論文を選定してい る.「先行研究・改良研究」の正解となる論文の組み合わせを表4.11に,「類似研究」の正解 となる論文の組み合わせを表4.12に示す.