“(3)一人称”, “(4)三人称”, “(5)副詞と(6)その他”の項目に対応している. これら11種類 のルールを用いて, 参照個所の抽出を試みた. 一方, これらの 11種類のルールの中には参 照個所抽出精度低下の原因となるルールも含まれる可能性が考えられる. 従って, 11種類 のルールの組み合わせ211通りの中で最も精度が高くなる場合が,ルールの最適な組み合わ せであると考えられる. ルールの最適な組み合わせの学習方法およびその結果については 3.4.1節で述べる
3.3. 参照タイプの決定 25
表 3.2: type C 決定用手がかり語
although the , although Though, however, ... our however, ... they recently ... however , however however, ... not However, however, the however, that the only
But but a but the but it
but is but are but rather but no
but they but their but he but his
but she but her but it but instead
Instead, In spite of does not did not
that is not not be it is not this is not
was not were not it does not may not
might not will not would not wouldn’t
should not can not be could not (citation) ... can not
need not not always not have have not
is too has not little influence that do not
they do not he does not she does not not require
not provide not cover not in effect more efficient than ... (citation) not enough less studied difference from different from
more difficult a difficult difference between
表 3.3: type B 決定用手がかり語
based mainly on based on ... in is based on are based on , based on this ... based on employ invoke
Based on the basic underlie underlain
assume widely used has used used by
use ... to can use used as a by using
Using the is checked we use We will use
we used result make use of made use of
Making use of advantage of we describe is described in are described in accord with accorded with correspond to
mentioned benefit beneficial we introduce
And We argue In such we present
support is given in are given in offer
For ... reason we ... influence assume is needed to
are needed to been given a given given the
follows following we believe implementation
we investigate to consider which can be the possible
available for apply applied to application to
adopt We adopted extend the we extended
we consider extended to expands expanded
refer ... to referred to This ... importance This ... important implement
3.3. 参照タイプの決定 27
sub reference_type_decision($@){ # 参照タイプ決定ルーチン ($citeline,@ra)=@_; # $citeline : 参照の位置
# @ra : 参照個所, 1行1文のリスト
# type C 決定用ルール
for($i=1;$i<=3;$i++){if($ra[$citeline+$i]=~/However/]){return(C)}}
for($i=0;$i<=2;$i++){if($ra[$citeline+$i]=~/ less studied/]){return(C)}}
for($i=0;$i<=2;$i++){if($ra[$citeline+$i]=~/In spite of/]){return(C)}}
…
# type B 決定用ルール
for($i= -2;$i<=0;$i++){if($ra[$citeline+$i]=~/ based mainly on/])
{return(B)}}
for($i= -3;$i<=0;$i++){if($ra[$citeline+$i]=~/ apply to /]){return(B)}}
for($i= -2;$i<=0;$i++){if($ra[$citeline+$i]=~/Using the/]){return(B)}}
…
# B, C に割り振られなかったものはtype O return(O);
}
図 3.5: 参照タイプ決定ルーチンの一部
次に参照タイプ決定ルールについて説明する. 参照タイプ決定は, 表3.3, 表3.2に示す手 がかり語を用いてルールを作成した. 参照タイプ決定には, 本節の冒頭でも述べたような 参照と手がかり語の出現順序を考慮することが有用であると考えられ, この情報を用いた ルールを作成した. ルールは大きく2種類に分けることができる. ひとつはtype Cに決定 するためのルール, もうひとつはtype Bに決定するためのルールである. そして, B, Cど ちらのタイプも割り振られなかった参照個所をtype Oとする. ルールは各手がかり語毎に 作成されているため, type C決定用ルールは76個, type B決定用ルールは84個ある. こ れらのルールの適用順序について説明する.type C決定用ルールは76個の順序を入れ換え ても参照タイプ決定精度には影響がない.type B用ルール84個についても同様である. そ こで, type C用ルール, type B用ルールの順に適用した後にtype Oを割り振った場合と,
type B用ルール, type C用ルールの順に適用した後にtype Oを割り振った場合について
調べた. その結果, 先にtype C 用ルールを用いた方が解析精度が高くなったので, type C 用, type B 用ルールの順に適用した後, 参照タイプがどちらにも割り振られなかったもの
をtype Oとした. 参照タイプ決定ルーチンの一部を図3.5に示す. 参照タイプ決定ルーチ
ンでは, 1行1文に整形された参照個所を配列として, また配列中の参照の位置を入力値と して受け取り,参照タイプC, B, Oを値として返す.