参照個所の抽出

解析に失敗したもの(6件)の原因として以下のものが挙げられる.

• 同著者,同タイトルで, 異なる会議で発表された論文の識別が出来なかった(3件).

• 論文の著者のbibliography中の書き方に癖があり, キーワードがあまり抽出できず, 少ないキーワードで別の論文が検索されてしまった(3件).

前者に関しては,キーワードとは別途に, 論文の掲載ページなどを抽出しておき, 同著者, 同タイトルでもページが異なれば別の論文と見なす, といった方法である程度対応できると考えられる. しかし, 書誌情報にページの情報が含まれていない場合(掲載予定の論文等を参照)にはこの手法では解決できない.

3.2 _{参照個所の抽出}

参照個所の抽出とは,参照の出現する段落において, 参照のある文と文間のつながりが強いと考えられる文を, 参照の前後の文から抽出する処理と考えることができる. このような文間のつながりは大まかに(1)照応詞, (2)否定表現, (3)一人称代名詞, (4)三人称代名詞, (5)副詞, (6)その他の6つの種類に分類される語により示されていると考え, これらの6つの分類を考慮し, 手がかり語を用いて参照個所の抽出を試みた.

手がかり語は以下の手順で得た. まず, 論文データから人手で参照個所を200個所抽出した. 次に抽出した参照個所のn-word gram統計をとり,結果を人手で分類・整理した. その結果, 文間のつながりには先に示した6種類あることがわかった. これらの6種類のつながりを考慮し, 最終的に人手で86個の手がかり語を選んだ. なお, n-word gram統計をとる際, 大文字, 小文字の区別をしている. 表3.1に手がかり語を示す.

次に, 手がかり語を用いた参照個所抽出の手順を図3.3に示す. 入力は, 予め参照の含まれる段落を1行1文の形に直し, 配列(paragraph)に入れておき, ルールを用いて参照個所抽出を行う. 参照個所抽出ルールとは,「参照個所候補となる文の前後の文に手がかり語が出現すれば,その文も参照個所候補に含める」といったものである. 参照個所抽出ルールを図3.4に示す.

図3.4において, “FIRST SENTENCE”とは参照個所候補の最初の一文の文番号, “LAST

SENTENCE” は最後の一文の文番号を意味する. また, “this.cue”, “but.cue”, “we.cue”,

“they.cue”, “and.cue”はそれぞれ,図3.3に示す手がかり語の“(1)照応詞”, “(2)否定表現”,

表 3.1: 参照個所抽出用手がかり語

(1) 照応詞 For this, For these, On this, On these, In this, in this in these, In these, This, These, Therefore

(2) 否定表現 yet, less, but, in spite of, unlike, rarely

in contrast, although, Still, Nevertheless, instead, despite, irrelevant, has not been, not attempt to

not possible to, this is not, but is not, less, has not, have not (3) 一人称 I, in our example, our analysis was, our analysis of

by using our, in our work, our analysis is, to our concept, our analysis, our work our example, using our, we

(4) 三人称 they, their, them, he, his, him, she her, hers

(5) 副詞 And, Furthermore, Because, Again, Additionally, Such, In such, So

(6) その他 diﬀerence between, defect, drawback, impossible, Using, we incorporate, in the implementation, is implemented, ﬁrst, second, theory, theoretical, origin, based, base, basis, adopt, apply, applied, foundation, fundamental, radical, element, underlie, underlay, underlain, underlying, In particular, follow

3.2. 参照個所の抽出 23

図 3.3: 参照個所抽出の手順

1 FIRST SENTENCEがthis.cueで始まる場合,前の文も抽出する. 2 FIRST SENTENCEがbut.cueで始まる場合,前の文も抽出する. 3 FIRST SENTENCEがand.cueで始まる場合,前の文も抽出する.

4 LAST SENTENCEの次の文がbut.cueで始まる場合、次の文も抽出する.

5 LAST SENTENCEの次の次の文がbut.cueで始まる場合,次の次の文まで抽出する. 6 LAST SENTENCEにwe.cueが含まれなくて, 次の文にwe.cueが含まれる場合,次

の文も抽出する.

7 LAST SENTENCEにwe.cueが含まれなくて,次の次の文にweが含まれる場合,次の次の文まで抽出する.

8 LAST SENTENCEにwe.cueが含まれなくて,次の文に大文字のみシステム名が含まれる場合次の文も抽出する.

9 LAST SENTENCEの次の文がand.cueで始まる場合,次の文も抽出する. 10 LAST SENTENCEの次の文にthey.cueが含まれる時,次の文も抽出する. 11 LAST SENTENCEの次の文にthis.cueが含まれる場合,次の文も抽出する.

図 3.4: 参照個所抽出ルール

“(3)一人称”, “(4)三人称”, “(5)副詞と(6)その他”の項目に対応している. これら11種類のルールを用いて, 参照個所の抽出を試みた. 一方, これらの 11種類のルールの中には参照個所抽出精度低下の原因となるルールも含まれる可能性が考えられる. 従って, 11種類のルールの組み合わせ2¹¹通りの中で最も精度が高くなる場合が,ルールの最適な組み合わせであると考えられる. ルールの最適な組み合わせの学習方法およびその結果については 3.4.1節で述べる

ドキュメント内博士論文 (ページ 34-37)

3.2 参照個所の抽出

3.2 _{参照個所の抽出}