論文構成要素に着目した

(1)

2018

年度修士論文

論文構成要素に着目した学術論文閲覧支援に関する研究

Study on Academic Paper Browsing Support Focusing on Its Components

提出日：2019年

1

月

30

日首都大学東京大学院システムデザイン研究科

システムデザイン専攻情報通信システム学域

高間研究室

学修番号:17890524 氏名：高木陽介指導教員：高間康史教授

(2)

要旨

本論文では，学術論文を構成する要素に着目した学術論文閲覧支援手法を提案し，ユーザ実験によりその有効性を示す．

通常，論文を閲覧する際は，どの文が論文の内容を知る上で重要な情報なのかわからない状態で読み始める．そのため，多数の論文のサーベイを行う場合，必要な情報が含まれている文とそうでない文を見分けながら，論文を閲覧することになる．しかし，重要な情報が含まれている文を見分けることは，論文サーベイの経験が浅い人にとって容易ではない．また，論文サーベイ経験がある程度あったとしても，周辺分野の場合は重要な情報を見分けることは難しくなる．そのため，論文を閲覧する際に，重要な情報が含まれている文を見分ける作業を支援できれば，論文のサーベイの効率化に貢献することが期待できる．

従来の論文閲覧支援に関する研究では，専門用語の補足情報を表示する機能や，論文全体の中で重要な単語を可視化する機能など，単語単位で閲覧支援を行う研究がほとんどであった．これらの研究は，サーベイを行う上で支障となる未知語の理解を支援することにより，論文閲覧の効率化を実現している．しかし，重要な情報の判別については利用者自身に任せているため，短時間で多数の論文のサーベイを行う場合には適していない．そのため，論文から重要な情報を効率的に読み取るためには，論文全体の構成を踏まえた文単位での閲覧支援が必要となる．

提案手法では，論文全体を構成する上で必要な情報を「構成要素」と定義し，各構成要素文を可視化することで，論文の閲覧支援を行う．例えば序論の場合，研究背景・先行研究・課題・研究内容（目的）が構成要素となる．各構成要素文を一目で読み取ることができれば，論文から重要な情報を効率的に読み取ることが可能となる．

各構成要素文を可視化するためには，どの文がどの構成要素に該当するのか特定する必要がある．そこで本研究では，決まった構成で書かれやすい序論と結論から各構成要素文を特定する手法として，特徴的表現を用いた手法と，SVM による判定手法を提案する．特徴的表現を用いた手法では，既存の論文を分析して各構成要素内に出現する特徴的表現を収集し，これに基づいて各構成要素文を特定する．SVM による判定手法では，特徴的表現を用いた手法で特定した各構成要素文を学習データとして，Support Vector Machine （SVM）を用いて各構成要素文を判定する分類モデルを構築する．また，一般論として，人手による判定手法は適合率が高いものの再現率が低く，分類モデルを用いた判定手法は再現率が高いが適合率が低い傾向にある．そこで，

両者を統合したハイブリッド型の特定手法も提案する．

序論や結論と異なり，本論は文数が多い上に，著者や研究内容による書き方の違いが大きいことが想定されるため，構成要素別ではなく，重要文のみを可視化する手法が有効と考える．そこで，

本論や実験章内の重要文を可視化するために，類似度によって重要文を特定する手法を提案する．序論の研究内容文や結論の研究成果文は論文の中で特に重要な文であり，本論にも同様な内容の文が書かれていることが多い．そこで本論文では序論の研究内容文や結論の研究成果文との類似度が高い文を重要文として特定する．

(3)

具体的には，実験章を除く本論から，研究内容に関する特徴的表現が含まれている文を研究内容文として特定し，それらの文の中で序論の研究内容文との類似度が最も高い文を重要文として特定する．また，実験章からは結論の研究成果文との類似度が最も高い文を重要文として特定する．序論・結論だけでなく本論でも重要な文を可視化することで，本論で読むべき文を効率的に発見可能になることが期待できる．

提案手法に基づき論文閲覧支援システムを実装する．本システムでは序論・結論の各構成要素文，および本論内の研究内容文や重要な研究内容文・研究成果文を可視化する．また，論文サーベイを行うことを想定したキーワード検索機能や，先行研究や当該研究の課題に該当する文のみを可視化する機能を実装する．

本論文は

5

章から構成される．

1

章で研究背景と研究目的について述べる．

2

章では論文から特定の構成要素に該当する文を抽出する研究について述べた後，論文閲覧支援の関連研究について述べる．

3

章では各構成要素文を特定する手法について提案する．序論と結論の各構成要素文を特定する手法として，特徴的表現を用いた特定手法と

SVM

を用いた判定手法について述べた後，両手法を組み合わせたハイブリッド型特定手法を提案する．さらに，本論から重要な研究内容文を特定する手法として，類似度を用いた手法も提案する．これらの提案手法について言語処理学会の論文誌を対象とした評価実験を行い，各手法の特性や有効性について考察する．

4

章では構成要素に着目した論文閲覧支援システムについて提案し，論文サーベイを想定したユーザ実験により，提案システムの有効性について検証する．

5

章で提案手法と研究成果についてまとめ，今後の展望と課題を述べる．

(4)

概要

本研究では，論文全体を構成する上で必要な情報を「構成要素」と定義し，各構成要素文を可視化することで，論文の閲覧支援を行う手法を提案する．多数の論文を調査する場合，

重要な情報が含まれている文を見分けながら，論文を閲覧することになる．従来の論文閲覧支援に関する研究では，専門用語の補足情報を表示する支援など，単語単位での閲覧支援を行うものが多いが，重要な情報の判別については利用者自身に任せているため，短時間で多数の論文を調査する場合には適していない．そこで，提案手法では，各構成要素文を可視化することで，重要な情報を効率的に判別するための支援を行う．序論・結論から各構成要素文を可視化するために必要な特定手法として，特徴的表現を用いた特定手法と学習による判定手法を提案し，両手法を統合したハイブリッド型特定手法を提案する．特徴的表現を用いた特定手法では，既存の論文を分析して各構成要素内に出現する特徴的表現を収集し，これに基づいて各構成要素文を特定する．

SVM

による判定手法では，特徴的表現を用いた特定手法で特定した各構成要素文を学習データとした分類モデルを構築する．ハイブリッド型特定手法では，特徴的表現を用いた特定手法で判定できなかった文に対して，

SVM

による判定手法の判定結果を適用することで，高い適合率を維持しつつ再現率の向上を図る．情報処理学会，電子情報通信学会，言語処理学会の論文誌を対象として評価実験を行い，提案手法の特性や有効性について考察する．また，論文閲覧支援システムを実装して，ユーザ実験によって検証した結果より，論文閲覧支援の効果があることを示す．

Abstract

This paper proposes a method to support browsing of academic papers by focusing on its components. When we survey many papers，it is necessary to distinguish important sentences from others. To support such browsing activities，previous studies have focused on a browsing support on the basis of words. However， these studies are not suitable for investigating many papers in a short time

， because the task of identifying important sentences is left to users.

The proposed method helps users to distinguish important sentences by visualizing sentences which correspond to important components of a paper such as background and problem. To identify the sentences corresponding to the components of an introduction and conclusion，this paper proposes a method using characteristic expression and that using SVM. A hybrid method integrating both methods is also proposed. The characteristics and effectiveness of the proposed methods are examined through experiments using a set of papers published by Japanese academic societies.

The prototype of the proposed browsing support system is implemented，of which the effectiveness

is shown through experiments with test participants.

(5)

第

1

章はじめに ...1

第

2

章関連研究 ...3

2.1

構成要素に該当する文を特定する研究 ...3

2.1.1

論文から特定の情報を特定する研究 ...3

2.1.2

論文から各構成要素文を特定する研究 ...6

2.2

論文閲覧支援に関する研究 ...8

2.3

論文サーベイ支援に関する研究 ... 10

第

3

章構成要素文特定手法 ... 12

3.1

提案手法 ... 12

3.1.1

特徴的表現を用いた特定手法 ... 12

3.1.2 SVM

による判定手法 ... 15

3.1.3

ハイブリッド型特定手法 ... 16

3.2

提案手法の適用（序論） ... 17

3.2.1

特徴的表現を用いた特定手法の適用 ... 17

3.2.2 SVM

による判別手法の適用 ... 37

3.2.3

評価実験 ... 39

3.3

提案手法の適用（結論） ... 48

3.3.1

特徴的表現を用いた特定手法の適用 ... 48

3.3.2 SVM

による判別手法の適用 ... 61

3.3.3

評価実験 ... 64

3.4

類似度による重要文特定手法 ... 72

第

4

章論文閲覧支援システム ... 78

4.1

システム概要 ... 78

4.2

システム構成 ... 80

4.2.1

テキストデータ変換部 ... 81

4.2.2

重要文特定部 ... 82

4.2.3

インタフェース部 ... 83

4.3

提案システムの評価実験 ... 87

4.3.1

実験概要 ... 88

4.3.2

実験結果 ... 94

4.3.3

考察... 114

第

5

章おわりに ... 122

参考文献 ... 124

(6)

1

第

1

章はじめに

本論文では，学術論文を構成する要素に着目した学術論文閲覧支援手法を提案し，ユーザ実験によりその有効性を示す．

通常，論文を閲覧する際は，どの文が論文の内容を知る上で重要な情報なのかわからない状態で読み始める．そのため，多数の論文のサーベイを行う場合，必要な情報が含まれている文とそうでない文を見分けながら，論文を閲覧することになる．しかし，重要な情報が含まれている文を見分けることは，論文サーベイの経験が浅い人にとって容易ではない．また，論文サーベイ経験がある程度あったとしても，周辺分野の場合は重要な情報を見分けることは難しくなる．そのため，論文を閲覧する際に，重要な情報が含まれている文を見分ける作業を支援できれば，論文のサーベイの効率化に貢献することが期待できる．

従来の論文閲覧支援に関する研究には，単語単位で閲覧支援を行うものが多い．例えば，阿

辺川ら[

1 ]は，論文内に書かれている専門用語を検出して，用語の意味などの補足情報を表示す

る論文閲覧ソフトを開発しており，前野ら[

2 ]は重要語を識別し，読んでいるページごとに重要語を

一覧表示して，適宜

Web

検索を可能とする論文閲覧支援システムを開発している．また，アブストラクトを対象とした研究では，村田ら

[3]

は，アブストラクト内の専門用語をカテゴリ分けして可視化する方法を構築している．これらの研究は，サーベイを行う上で支障となる未知語の理解を支援することにより，論文閲覧の効率化を実現している．しかし，重要な情報の判別については利用者自身に任せているため，短時間で多数の論文のサーベイを行う場合には適していない．そのため，論文から重要な情報を効率的に読み取るためには，論文全体の構成を踏まえた文単位での閲覧支援が必要となる．

提案手法では，論文の構成において主要な役割を果たす情報を「構成要素」と定義し，その情報が書かれている文を「構成要素文」と定義する．各構成要素文を可視化することで，論文の閲覧支援を行う．例えば序論の場合，研究背景・先行研究・課題・研究内容（目的）が構成要素となる．

各構成要素文を一目で読み取ることができれば，論文から重要な情報を効率的に読み取ることが可能となる．

各構成要素文を可視化するためには，どの文がどの構成要素に該当するのか特定する必要がある．そこで本研究では，決まった構成で書かれやすい序論と結論から各構成要素文を特定する手法として，特徴的表現を用いた手法と，SVM による判定手法を提案する．特徴的表現を用いた手法では，既存の論文を分析して各構成要素内に出現する特徴的表現を収集し，これに基づいて各構成要素文を特定する．SVM による判定手法では，特徴的表現を用いた手法で特定した各構成要素文を学習データとして，Support Vector Machine（SVM）を用いて各構成要素文を判定する分類モデルを構築する．また，一般論として，人手による判定手法は適合率が高いものの再現率が低く，分類モデルを用いた判定手法は再現率が高いが適合率が低い傾向にある．そこで，両者を統合したハイブリッド型の特定手法も提案する．

序論や結論と異なり，本論は文数が多い上に，著者や研究内容による書き方の違いが大きいこ

(7)

2

とが想定されるため，構成要素別ではなく，重要文のみを可視化する手法が有効と考える．そこで，

本論や実験章内の重要文を可視化するために，類似度によって重要文を特定する手法を提案する．序論の研究内容文や結論の研究成果文は論文の中で特に重要な文であり，本論にも同様な内容の文が書かれていることが多い．そこで本論文では序論の研究内容文や結論の研究成果文との類似度が高い文を重要文として特定する．

具体的には，本論を実験章とそれ以外に分類し，実験章以外から，研究内容に関する特徴的表現が含まれている文を研究内容文として特定し，それらの文の中で序論の研究内容文との類似度が最も高い文を重要文として特定する．また，実験章からは結論の研究成果文との類似度が最も高い文を重要文として特定する．序論・結論だけでなく本論でも重要な文を可視化することで，

本論で読むべき文を効率的に発見可能になることが期待できる．

提案手法に基づき論文閲覧支援システムを実装する．本システムでは序論・結論の各構成要素文，および本論内の研究内容文や重要な研究内容文・研究成果文を可視化する．また，論文サーベイを行うことを想定したキーワード検索機能や，先行研究や当該研究の課題に該当する文のみを可視化する機能を実装する．提案システムの有効性を検証するため，論文から

5

種類の構成要素文を抽出する実験を提案システムを用いない場合と用いた場合の両方で行い，予め設定した正解文が抽出できているかどうかで評価した．全構成要素の抽出結果を総合して比較した結果，提案システムを用いた場合の方が抽出の精度と網羅性が高いことがわかった.また，抽出の難易度についてのアンケートについても，全ての構成要素において難易度が低下していた．10 本の論文から「先行研究→改良研究」の関係か，「関連研究」の関係にある論文のペアを発見する実験を行った結果，「先行研究→改良研究」の関係の論文ペアを見つける上で有効性があることがわかった．

アンケートの結果に基づいて，提案システムが有効であった実験協力者を分析した結果，じっくり読む傾向にある実験協力者には有効ではなく，飛ばし読みする傾向にある実験協力者には有効であることがわかった．

本論文は

5

章から構成される．1 章で研究背景と研究目的について述べる．2 章では論文から特定の構成要素に該当する文を抽出する研究について述べた後，論文閲覧支援の関連研究について述べる．3章では各構成要素文を特定する手法について提案する．序論と結論の各構成要素文を特定する手法として，特徴的表現を用いた特定手法と

SVM

を用いた判定手法について述べた後，両手法を組み合わせたハイブリッド型特定手法を提案する．さらに，本論から重要な研究内容文を特定する手法として，類似度を用いた手法も提案する．これらの提案手法について言語処理学会の論文誌を対象とした評価実験を行い，各手法の特性や有効性について考察する．4 章では構成要素に着目した論文閲覧支援システムについて提案し，論文サーベイを想定したユーザ実験により，提案システムの有効性について検証する．5章で提案手法と研究成果についてまとめ，今後の展望と課題を述べる．

(8)

3

第

2

章関連研究

2.1

構成要素文を特定する研究

研究に取り組む時，あるいは研究成果をまとめるときに自分の研究分野における関連研究を調べる必要がある．しかし，多数の論文を短時間で調査したい時に，特定の情報や重要な文だけを読み取ることは研究経験が浅い場合，困難である．これまでに，文章を効率よく読むことを支援する研究が行われている．また，研究者にとって論文中の研究内容や実験情報など重要な情報をまとめることは，研究内容の整理や比較に必要不可欠である．

文書から構成要素文を特定する手法のアプローチとして，

2.1.1

項では文書から特定の情報を特定する研究，

2.1.2

項では論文から各構成要素文を特定する研究について述べる．

2.1.1

文書から特定の情報を特定する研究

論文から特定の情報を特定する研究として問題文や実験情報を対象にした研究が挙げられる．倉本ら

[4]

は，手掛かり語を用いて論文概要に含まれる文が課題文か非課題文であるかを判別する手法を提案している．この研究における「問題文」は「論文概要を構成する各文のうち，目的や課題について書かれているもの」と定義されている．手掛かり語の抽出については，知能ソフトウェア工学研究会における

2004

年から

2006

年に発表された

52

件の論文・発表概要から，手作業で手掛かりを語抽出した．図

2-1

に抜き出した手掛かり語を示し，表

2.1

に手掛かり語の出現回数を抜粋したものを示す．

図

2-1

手掛かり語一覧（[?]より引用）

表

2.1

論文概要

52

件中の手掛かり語出現回数（[?]より引用）

(9)

4

この手掛かり語の集合の中から，問題文と非問題文を分別する上で最良の手掛かり語の組み合わせを求めている．評価方法としては，手掛かり語の抽出元であった論文

52

件に対して，手掛かり語の有無によって問題文と非問題文の分別を行う実験を行い，最も分別の精度が高い組み合わせを求めている．その結果，手掛かり語の出現頻度において上位

15

位までの手掛かり語の中で，

7~13

個を利用した時が最も精度が高いことが判明した．このことから，手掛かり語は多ければよい訳ではないことが示されている．

酒井ら

[5]

は，

SVM

を用いて論文概要に含まれる文が課題文か非課題文であるかを判別する手法を提案している．学習データ元となる論文は，

2004

年

~2011

年の期間における

42912

件からランダムに抽出した論文

300

件の概要である．その中から，

3

名で合計

1353

文に対して課題文か非課題文であるかを判定し，

2

名以上が課題文と判定した文を「課題文」として

SVM

の学習データとして用いている．素性として用いる特徴語としては，論文概要に出現する全単語（

4548

個），人手で選んだ

53

個の手がかり語

[

倉本

]

，課題文の特

徴語上位

53

個（

TF-IDF

値上位）の

3

種類を採用し，それぞれを用いた際の分類性能を検

証する実験を

10-

分割交差検定より行っている．全ての単語は，論文概要に出現する全ての単語

4548

個に該当し，実験の結果，全単語を用いた時の

F

値は

0.93

，手掛かり語

53

個を用いた場合は

0.19

，

TF-IDF

値上位

53

個を用いた場合は

0.67

となった．このことから，

全ての単語を用いた時が最も分類性能に優れていることことが示されている．また，「全ての単語」においてどの単語が

SVM

における問題文判定に大きく影響しているのかを調べた結果，単語の重みが高いものと低いものによって強い影響を受けていることが示されている．そのため，学習を行う場合は，単語の重みが高いものだけでなく，低いものも学習の性能に影響すると考えられる．

論文から実験情報を特定する研究としては，平井ら

[6]

の研究が挙げられる．論文からルールベースによって論文構成要素を抽出し，その結果を元に機械的に実験情報を抽出している．論文の構成要素として，表，図，脚注，参考文献領域などを対象にしている．抽出元となるデータは，論文

PDF

を

pdf2xml

¹で変換した

XML

ファイルである．例えば，「図キャプション」と「図」をルールベースによって抽出する場合は，1単語目が「図を意味する単語」，2単語目が数字，3単語目が大文字から始まるテキスト（例:図

3

実験結果）を抽出し，その上部に位置している画像ファイルを「図」と判定している．そして図キャプションのタイトルが，「Experiment」「Result」「Discussion」「Analysis」など，実験章に頻出するタイトルでれば，上部の図と合わせて，実験情報に該当すると判定している．実験情報に該当する段落を判定する方法についても同様に，実験章に頻出する表現が書かれているかどうかを解析して判定している．

生命科学分野において，論文から特定の情報を抽出する研究としては，

Blaschke

ら[7]の研究が挙げられる．生命科学分野の論文において，化学物質間の相互作用を示す文を抽出し，

頻出する化学物質の組み合わせをまとめたデータベースを構築している．処理の手順とし

1

http://soueceforge.net/projects/pdf2xml

(10)

5

ては，最初に化学物質を一つ選び，人手で関連するアブストラクトを収集する．次にアブストラクト集合からターゲットとなる化学物質と反応を表現する

14

個の動詞

（例

.”acetylate”,”activate”,”bind”

など）を含む文を発見する．最後に句点や読点などを元に，

文をさらに断片に分割した後で，

2

つの化学物質名と反応を表現する動詞を含む断片を抽出してデータベースに登録している．

Angrosh[8]

らは関連研究章から引用文と非引用文を分類する方法を提案している．具体的

には，引用の有無と文に表れるキーワードやフレーズに基づいて引用文を自動分類した．分類結果をトレーニングデータとして

CRF(Conditional Random Field)

で学習し，

10-

分割交差検定による評価実験を行った結果，精度が

96.51%

となったことを示している．

論文以外の文書から特定の情報を抽出する研究としては，特許文書を対象にした研究などが挙げられる．

Nonaka

ら

[9]

は特許文書から技術課題情報を抽出する手法を提案している．最初に特許文書からルールベースに基づいて，技術用語と効果内容を含む文（例：耐久性に優れた樹脂を提供する）を抽出する．次に，特許の題目に含まれている単語を用いて，文中の技術用語（例

:

樹脂）を抽出する．最後に，それらの技術用語を修飾している言葉を構文解析を用いて抽出し，効果内容（例

:

耐久性に優れた）を抽出している．

Hirokawa

ら

[10]

は東京商工リサーチで公開されている日本企業の倒産情報から，ブート

ストラップ法

[11]

を用いて，倒産の原因となる文を抽出している．具体的には，最初に対象となる

4024

文を手がかり語「しかし」によって，「原因文」と「非原因文」の

2

つに分けて，「原因文」において頻出している単語を収集する．そして，収集した手がかり語を教師データとして，手掛かり語の抽出と辞書の拡充を交互に繰り返している．

評価文書から評価表現が含まれている文を抽出する手法として，

Taboada

ら

[12]

は，評価表現が出現する位置に応じて各評価表現が持つ評価極性値を修正することで，評価文を抽出する上での有効性を検討している．具体的には，評価表現が出現する位置に応じて，人手で定めた重みを評価極性値に乗じることによって評価極性値を修正している．出現位置に対する重みの設定を調整した結果，評価文書の後半

2/3

の位置に表れる評価表現への重みを高くした場合に最も良い精度が得られたことが示されている．

(11)

6

2.1.3

論文から各構成要素文を特定する研究

論文から各構成要素文を特定する研究として，論文概要を対象にした研究やアブストラクトを対象にした研究が挙げられる．

廣川ら

[13]

は論文概要を「問題」，「背景」，「関連研究」，「目的」，「手法」，「結果」の

6

つの観点に分けて，

SVM

を用いて各観点に該当する文を特定する手法を提案している．学習データは，

2004

年から

2011

年に出版された電子情報通信学会の論文から無作為に抽出した

300

件である．各文のラベル付けについては，

3

人の実験協力者が論文概要を読んだ上で行い，

2

人以上が同じ観点と判定したものを正解としている．各文に表れる全ての単語を用いる方法と，観点ごとに

SVM

スコアの絶対値上位

N

個を用いる方法の

2

通りで分類性能の評価を行った結果，後者の方が判定性能が良いことを示し，全ての単語を利用して学習したモデルよりも、スコアの絶対値の高い単語に限定することで，判定性能が向上できることを示している．

徳永ら

[14]

は学術論文から要旨を自動生成することを目的に，「動機」，「手法」，「結果」

の

3

つの構成要素に該当する文を手掛かり語や記載位置を参考に抽出する手法を提案している．動機は研究を行う上での問題提起を述べている文，手法は筆者の考案した手法を述べている文，結果文は実験の結果を示している文に該当している．手がかり語については全て手作業で抽出したものを用いており，「動機」と「結果」の記載位置は既存の論文を調査した結果，第一段落に書かれやすいことを示している．

岡田ら

[15]

は，論文に記載すべき情報を「記載必要項目」と定義し，表

2.2

に示す記載必要項目が欠落しているか否かを自動検出している．

表

2.2

記載必要項目と検出に役立つ単語（[?]より引用）

表に示されている「検出に役立つ単語」を手掛かりに，記載必要項目に該当する文を検出し，一つも書かれていない論文を記載必要項目が欠落している論文として検出している．また，「比較」，「問題点」，「目的」，「例」に該当する文を検出する実験を行った結果，「例」の検出精度が他よりも高かったことを示している．

佐波ら[16]は，序論を「目的」「問題点」「背景」「手法」「必要条件」の

5

つの構成要素

(12)

7

に分類し，各構成要素文を特定する手法を提案している．特定手法として，各構成要素の手がかり語を用いている．例えば，「目的」の手がかり語として，「本稿では」「本研究では」，問題点の手がかり語として「困難である」「問題となっている」を挙げている．評価実験の結果，「背景」と「手法」の適合率と再現率が低いことが示されており，その原因として他の構成要素と比べて，さまざな表現が用いられていることが示されている．また，手法の再現率が低い原因については，「まず」「次に」「最後に」などではじまる複数の文で構成されていることが多いことが挙げられている．「背景」に該当する文については，序論の最初に記述されていることが多いことから，手がかり表現と文の位置を組み合わせることで性能向上の可能性があることを示唆している．

SHIN

ら

[17]

は，論文全体を「序論」「関連研究」「提案手法」「評価実験」の

4

つのセグメントに分割し，各セグメントから重要文のみを特定し統合することで要約文を生成する手法を提案している．「序論」ではアブストラクトを正解データとし，

SVM

によって重要文か否かを判定している．「関連研究」では文中の単語の

TF-IDF

の和と手掛かり語を参考に重要文を抽出している．「提案手法」「評価実験」については，記載位置を手掛かりにする構想を示している．また，各セグメントの特定手法として，表

2.3

に示すキーワードがタイトルに含まれているかどうかで判定する手法を考案しており，他の

4

つのセグメントのいずれにも該当しない節を「提案手法」と特定している．

表

2.3

セグメントのキーワード一覧（

[?]

より引用）

(13)

8

2.2

論文閲覧支援に関する研究

近年，タブレット端末や電子書籍閲覧端末が普及し，論文閲覧を紙ではなく電子端末上で行う機会が増加した．電子端末上で論文を閲覧する機会が増えたことにより，論文閲覧の効率化を目的とした論文閲覧支援システムがこれまで数多く開発されている．

鉢木ら

[18]

は，学術論文の

OCR

テキストから専門用語を識別し，解説等の有用なページを検索する閲覧支援を提案している．専門用語の抽出方法は，品詞情報が「名詞」、英数字のそれぞれのみで構成される「未知語」に対して，

TF

・

IDF

法による重みづけを行い，スコアが閾値を超えたものを専門用語として抽出している．専門用語の解説ページは，

Wikipedia

又は

Web

検索を用いている．

Web

検索では，説明文でよく使われる説明表現が対象の

Web

ページの文章に含まれているかどうかを解析し，条件を満たした解説ページを最大三件取得し，閲覧支援画面に表示している．

前野ら

[2]

は，学術論文の

PDF

ファイルから重要語を識別し，

Web

上の有用な情報源へのリンクを提供する閲覧支援を提案している．鉢木ら

[18]

の研究との違いは，論文の形式が

OCR

テキストではなく，

PDF

ファイルである点と，タブレット端末やスマートフォンなど，

携帯電子端末を想定した閲覧支援を行っている点である．重要語は「形態素

1-gram

で抽出された名詞，未知語」と，「形態素

2-gram

で抽出された名詞，未知語の中で頻出しているもの」を用いており，閲覧支援画面内では，重要語は全て論文の右側に一覧として表示する．

解説ページは

Wikipedia

，

Weblio

，

Google

を用いており，一覧表示されている専門用語に対して，電子端末上で上にフリックすると

Wikipedia

の該当ページ，下にフリックすると，

Google

の検索結果ページ，右にフリックすると

Weblio

の該当ページに移動するように設計

している．

谷尻ら[19]らは論文から抽出した重要語と著者キーワードを

word2vec

により関連付けて，

節ごとに重要語を可視化する支援を提案している．論文から節タイトルを全て抽出し，各節タイトルの間に書かれている文章を節として識別している．節タイトルは対象テキストのフォントサイズが，1 つ前に抽出したテキストのフォントサイズより大きく，「0 から

9

の数字，ピリオド，半角スペース，大文字又は数字」で構成されている文字列（例：1.

INTRODUCTION）を抽出する．word2vec

に論文のテキスト全文を学習させ，著者キーワー

ドとの類似度が大きい重要語を抽出している．

村田ら[3]は，教師あり機械学習を用いて自然言語処理の分野の論文アブストラクトから重要な情報として「精度表現」「主要な分野」「言語名」「組織・人名」を自動的に抽出して可視化する方法を構築している．情報処理学会の自然言語処理研究会で発表された論文

619

本から抽出したアブストラクトに対して，重要な情報に該当する単語に対してタグ付けを行ったデータに対して

SVM

で学習を行う．学習データを元に，アブストラクト内の重要な情報に該当している文を抽出し，図

2-2

のように可視化することで，論文閲覧を支援している．論文で強調表示されている精度表現を見ることで，論文で記述されている技

(14)

9

術の精度がどれくらいであるのかを認識するのに役立ち，同様に主要な分野として強調表示されている表現を見ることで，閲覧論文の分野を即座に認識できる．

図

2-2

論文の可視化例（

[?]

より引用）

阿辺川ら

[1]

は

Web

ブラウザ上で動作する論文閲覧支援システムを開発している．論文閲覧支援機能としては，専門用語の

Web

検索機能，別ページ図表の閲覧，参考文献リンク機能が挙げられる．これまでに述べた論文閲覧支援に関する研究との違いとして，図

2-3

に示すように，論文自体は画像で表示し，論文本文から得られる補足的な情報をページレイアウト上に重ねて表示している点が挙げられる．そのため，普段論文調査を行っている時と同じ感覚で論文を閲覧することができる．

図

2-3

閲覧支援画面（[?]より引用）

(15)

10

2.3

論文サーベイ支援に関する研究

一般的に，研究者は多くの時間を関連研究のサーベイに費やしており，自分の専門分野と関連する分野の論文を日々サーベイすることで，自分の研究の現状を理解していく．そのため，論文をサーベイすることは，研究活動を行う上で欠かせない行動であるが，研究活動を始めたばかりの学生は，専門的な知識が少ないためサーベイに慣れておらず，非効率なサーベイを行ってしまうため時間を多く費やしてしまう傾向にある．そのため，研究初心者を対象にした論文サーベイ支援に関する研究がこれまで数多く行われている．

西村ら

[20]

は，研究初心者におけるサーベイの整理支援による研究分野への理解促進を目的とし，サーベイした情報を整理するための可視化インタフェースを実装している．可視化方法としては，論文に付与されたテーマに基づき，論文間の関係性の可視化を行う．可視化には各集合の相互関係を表現可能なオイラー図を用いている．実際の可視化画面を図

2-4

に示す

.

図

2-4

インタフェース（[?]より引用）

操作方法としては，図

2-4

の①に示されている「＋」ボタンを押すことで，右側の論文情報入力画面が表示され，タイトル，著者名，テーマ，発行年，学会名，ユーザ任意のコメントを入力する．可視化されている円の大きさはテーマに含まれる論文数を示し，色の違いはテーマの違いを表しており，中央のテキスト画面では，テーマごとの論文の著者一覧と，論文タイトル一覧を表示している．ユーザ実験を通して，提案されたインタフェースは調査対象の研究分野への理解を深めることにつながったことが確認されたが，サーベイ行為の理解を促す支援効果は示されなかった．

林ら[21]は，論文の作成プロセスにおいて論文を引用した際に取得されるメタデータ

（引用アノテーション）を利用することで，サーベイ支援を行うシステムを提案している．提案されているシステムは，Webアプリケーションとして，不特定多数のユーザが利

(16)

11

用することが想定されている．論文執筆をシステム上で行うことを前提に，ある文において論文を引用する際に，引用先の論文と参照箇所を入力する．その際に，引用元論文内の参照文，引用先論文内の被参照文といった情報が含まれた引用アノテーションが生成される．サーベイを行う時に，引用アノテーションを用いることで，ある分野において重要とされる論文を閲覧した場合，「この論文のこの箇所を引用して書かれた論文がある」という情報が論文のメタデータとしてユーザに掲示され，その論文の引用目的を閲覧できる．

大多数の研究者が提案されたシステムを利用することで，実用的なサーベイ支援が実現できると思われる．

加藤ら

[22]

は，ユーザが閲覧している論文中の，文献を引用している箇所の情報を解析することで，同じ手法，既存のシステムなどの要素技術を扱っている論文へのリンクを生成する論文サーベイ支援システムを開発している．情報処理学会全国大会の論文

1200

本から本文と参考文献を抽出しデータベースに登録し，同じ文献を引用している論文を

1

つのグループとして扱う．また，引用箇所の前の文章の句点から引用のマークまでの文章も引用情報としてデータベースに登録する．システムの利用法としては，ユーザが調査したい分野の講演論文集を入力として与えて，引用元論文と引用先論文と引用文をまとめたデータベースを作成する．システム内で論文を閲覧している時に，引用している文をクリックすることで，引用先の論文が表示される．

井上ら

[23]

は，論文間参照情報のアノテーションを利用して，論文の参照情報を可視化するシステムを構築している．ユーザが起点論文を選択し，その論文の情報や参照理由などの内容を論文間参照情報データベースで検索する．ヒットしたデータを元に可視化することで，調査対象の論文に関連する論文へのアクセスを支援し，サーベイの効率化を図っている．

Sugiyama

ら[24]は，ユーザの研究内容に基づいて学術論文を推薦するシステムを提案し

ている．具体的には，ユーザが過去に発表した論文の引用・被引用文献からユーザの興味がある論文のデータベースを構築し，全体の論文データベースの中から類似度が高い論文を抽出して推薦している．

(17)

12

第

3

章構成要素文特定手法

本研究の目的は，論文内の各構成要素文を可視化することで，論文の閲覧支援を行うことである．しかし，各構成要素文を可視化するためには，どの文がどの構成要素に該当するのか特定する必要がある．そこで本章では，学術論文の構成を序論・本論・結論とし，それぞれ各構成要素文を特定する手法について提案する．決まった構成で書かれやすい序論と結論については特徴的表現を用いた手法と SVM を用いた手法を提案し，それらを組み合わせたハイブリッド型の手法を提案する．本論については類似度に基づいた特定手法を提案する．その上で，本章ではこれらの提案手法について評価実験を行い，各手法の特性や有効性について考察する．

3.1 提案手法

本節では，序論と結論の各構成要素文を特定する手法について説明する．序論と結論の構成要素は以下の通りとする，

序論：研究背景・先行研究・課題・研究内容・研究目的結論：研究内容・研究成果・考察・今後の課題

これらの構成要素を特定するために，特徴的表現を用いた手法と

SVM

を用いた手法を提案し，さらにそれらを組み合わせたハイブリッド型の手法を提案する．

3.1.1

特徴的表現を用いた特定手法

本手法では，論文を分析して各構成要素内に頻出する特徴的表現を収集し，これに基づいて各構成要素文を特定する．

文献[26]では，学術論文の文体的特徴として文頭・文末表現に特有の表現が表れやすいとしている．そこで本研究では「特徴的文頭表現」と「特徴的文末表現」の

2

種類に分類する．

特徴的文頭・文末表現の代表的な例として，課題文の場合，「しかし」や「難しい」が [5]，

研究内容文の場合，「本研究では」や「提案する」が挙げられる[16]．論文における表現として確立しているものは多数の論文に用いられているとの想定に基づき，既存の論文で頻出している文頭・文末表現から抽出する．

文献[26]では，学術論文・新聞・日記の中で頻出している文頭・文末表現を分析している．

その結果，新聞・日記に関しては頻出文末表現の文書集合中での出現割合が頻出文頭表現よりも高いのに対し，学術論文は頻出文頭表現の方が高い傾向にあることが示されている．そのため，文末表現の場合は，出現頻度だけでなく，他の要素も考慮した上で抽出する必要があると考える．特徴的文末表現の抽出に関連して，文献[27]では論文

100

編の序論から文頭表現ごとに共起して書かれている文末表現について調査している．その結果，例えば「しかし」が文頭表現である場合，65.2%の文末表現が否定形か否定的表現のどちらかであること

(18)

13

などを示している．このことから，「特定の文頭表現」と「該当文に書かれている文末表現」

は関連性が高いと仮定し，特徴的文頭表現を手掛かりとして，それと共起する傾向が強い文末表現を収集する．

以上を踏まえ，特徴的表現を抽出する手順を図

3-1

に示す．

図

3-1

特徴的表現抽出の流れ

提案手法では，最初に既存の論文から序論又は結論文のみを手作業で抽出し，各文の中で頻出している文頭・文末表現を抽出する．そして，その中から各構成要素と関連性の高い文頭・文末表現を選別して，特徴的表現として登録する．このとき，「この表現が含まれていれば特定の構成要素に該当していると判断できる」ものを特徴的表現として抽出するため，

過去の文献において，手掛かり語としての記載がされているかどうかについても登録の際の判断基準の一つとする．

次に①で抽出した序論/結論文から特徴的文頭表現が含まれている文を抽出し，その中で頻出している文末表現を抽出する．最後に抽出した文末表現と特徴的文頭表現の共起率を計算し，共起率が一定値を上回っていた場合，その文末表現を特徴的文末表現として登録する．共起率の求め方については，

3.2.1.3

で述べる．本研究では以上のような流れで特徴的表現を登録する．

図

3-2

に対象文の構成要素を判定する手法を示す．最初に，序論の各文（対象文）に，特徴的表現が含まれているかどうかをシステムが解析する．もし含まれていれば対象文をその特徴的表現に該当する構成要素と判定する．

(19)

14

もしいずれの構成要素の特徴的表現も対象文に含まれていない場合，「該当なし」と判定される．しかし特徴的表現を含んでいない場合でも，文の位置により役割が決まる場合があるため文の出現位置により該当なしでも特定の構成要素と判定する．序論の

1

文目については研究背景に対応した特徴的表現が含まれていなくても，研究背景と判定する．これは研究背景が

1

文目に書かれやすい傾向にあるためである

[16]

．同様に，結論の

1

文目がいずれの構成要素にも該当していない場合，研究内容に対応した特徴的表現が含まれていなくても，研究内容と判定する．また

2

文目以降の場合，指示語や特定の接続詞が文頭表現として書かれていれば，前の文と同じ構成要素と判定する．

図

3-2

対象文の構成要素特定の流れ

図

3-3

接続詞・指示語を用いて特定する手法の適用例

接続詞・指示語を用いて特定する手法の適用例を図

3-3

に示す．これらの例文は序論に出現したものであり，この場合「課題に該当する文」と判定されるのが正しい．しかし本節で示した手法を用いて特定した場合，1文目は「しかし」が含まれているため課題と特定することができるが，2 文目は課題に関する特徴的表現が含まれていないため特定ができない．

そこで，「この」や「これ」などの指示語が含まれていれば，前の文と同じ構成要素と判定する．図

3-3

の場合「これらの」という指示語が含まれているため

1

文目と同じ構成要素

1文目しかしどの論文作成支援システムも細かいミスを指摘するものがほとんどであった。

2文目これらのシステムは，論文作成経験がある理工系の学生には有効にはあるが，論理的な文章の執筆方法がわからない理工系の学生相手には有効ではない。

(20)

15

である課題と特定することができる．このようにすることで特徴的表現を手掛かりとした手法の判定結果を拡張し，より多くの文の構成要素を特定することができるようになる．

表

3.1

に本手法で使用する指示語と接続詞を示す．文献

[28]

では学術論文で用いられている接続詞を分析している．その中で，前後の文の内容が同一である時に

2

文目で用いられる接続詞として，「また」「そして」などの添加型の接続詞と，「例えば」「つまり」などの同列型の接続詞を挙げている．そのため，本手法では，添加型と同列型の接続詞が文頭に存在する場合，前の文と同じ構成要素と判定する．具体的には，文献

[28]

で示されている「既存の論文に頻出している添加型と同列型の接続詞」を用いた．文献

[29]

では学術論文に頻出する指示語を分析している．その中で，「これ」「この」「その」「それ」の

4

語が頻出していることを示しており，著者に関係なく用いられる「基本的な指示語」と定義している．そのため，

本手法ではこの

4

語を特定の参考とする指示語として用いる．

表

3.1

指示語・接続詞

3.1.2 SVM

による判定手法

本手法では，構成要素特定の再現率を向上させることを目的に，

SVM

を用いて各構成要素の特徴について学習する．学習用のデータは特徴的表現を用いた特定手法で抽出した，各構成要素文である．

SVM

の学習を行う際には

LIBSVM

²を用いる．

SVM

で学習させるために学習用データの各文を素性ベクトルに変換する．ベクトル化の対象となる文は文頭・文末の

10

文字とする．これは文献[26]より，各構成要素の特徴的表現は，文頭又は文末に書かれやすいことが示されているためである．素性ベクトルは単語

2-gram

とする．

各構成要素で頻出している素性ベクトルのみを学習用の素性ベクトルとして用いる．具体的には各構成要素の文ごとに素性ベクトルに変換し，その中で頻出しているものだけを抽出する．そして，それぞれ上位数十個の表現のみを全体の素性ベクトルとして扱う．本研究では，序論と結論それぞれで

10-分割交差検証によって，最も分類性能が高い素性ベクト

ルの個数を求める．そして，求めた素性ベクトルを用いて，SVMによって対象文の構成要素を判別する．

2

https://www.csie.ntu.edu.tw/~cjlin/libsvm/

指示語このこれそのそれまたさらに更にそしてつまり特に次に例えば接続詞

(21)

16

3.1.3

ハイブリッド型特定手法

ハイブリッド型特定手法では，特徴的表現を用いた特定手法と

SVM

による判別手法の判定結果両方を元に最終的な判定結果を算出する．図

3-4

に本特定手法の判定の流れを示す．

図

3-4

ハイブリッド型特定手法の判定の流れ

3.1.1

項で提案した手法では，高頻度で出現するものに限定して特徴的表現を選択してい

るため，適合率が高いことが期待されるが，その反面，再現率が低くなることが予想される．

一方，機械学習を用いた手法の場合は，特徴的表現よりも多様な素性を用いて学習しているため，前者の手法に比べて再現率が高くなることが期待できる．このことから，本特定手法では特徴的表現に基づく特定手法の判定結果を優先して用いる．もし対象文に特徴的表現が含まれていない（該当する構成要素なし）と判定された場合，

SVM

による機械学習の判定結果を用いる．このように，特徴的表現を用いた特定手法で判定できなかった文に対してのみ

SVM

の判定結果を適用することで，高い適合率を維持しつつ再現率の向上が期待できる．

(22)

17

3.2

提案手法の適用（序論）

本節では

3.1

節の提案手法を序論に適用した結果を示す．序論の構成要素は研究背景・先行研究・研究内容・研究目的である．

3.2.1

項では序論を対象に特徴的表現を収集した結果

を示す．

3.2.2

項では

SVM

による判別手法で用いる素性ベクトルを求めた結果を示す．具体

的には，

3.2.1

項で収集した特徴的表現を元に学習データとなる各構成要素の文を収集した

上で，それらの文を元に最も分類性能が高い素性ベクトルを

10-

分割交差検証によって求め

る．

3.2.3

項では特徴的表現・

SVM

・ハイブリッドの

3

手法の特定性能を比較検証すること

を目的に，言語処理学会の論文の序論を対象とした評価実験を行い，各手法の特性や有効性について考察する．また，提案手法で特定できなかった文の例を挙げて，その原因と改善案について述べる．

3.2.1

特徴的表現を用いた特定手法の適用

本項では特徴的表現を用いた特定手法を序論に適用した結果を示す．最初に収集対象となった論文を示し，それらの論文の序論において頻出する文頭・文末表現を示す．次に特徴的文末表現を求める上で用いる共起率について説明し，特徴的文頭表現との共起率が高い文末表現を示す．さらに，手作業によって抽出した特徴的表現を示した上で，抽出した全ての特徴的表現を示す．

3.2.1.1

収集対象論文

収集対象論文は，言語処理学会年次大会の発表予稿と電子情報通信学会の論文誌の中から選定する．本研究では，この

2

学会の論文から序論文だけを手作業で抽出してまとめたテキストファイルを作成した．両学会を選んだ理由として，序論において，本論文で定義している

5

つの構成要素を満たす書き方をしている論文が多く，特徴的表現を抽出する上で適していると考えたためである．

表

3.2

に言語処理学会の収集論文の一覧を示し，表

3.3

と表

3.4

に電子情報通信学会の収集論文の一覧を示す．表

3.3

では，情報通信分野の論文（分冊

B）を示しており，表 3.4

では，情報システム分野（分冊

D）の論文を示している．情報通信分野と情報システム分野を

選んだ理由は，電子情報通信学会の中で共に情報系に特化した分野であるためである．言語処理学会の予稿のページ数は

4

ページで統一されており，序論の平均文数は

11.2

文である．

電子情報通信学会の論文のページ数はおおよそ

8

ページから

16

ページであり，序論の平均

文数は

17～20

文で言語処理学会の論文よりも多い．

論文の収集については，言語処理学会から着手し，収集開始時（2016 年）にテキストデータとして入手可能であった

2004

年から

2016

年の年次大会で発表された研究の予稿を収集した．その後，特定の学会・分野によらず検証を進めるため，2016 年より電子情報通信学会の情報通信・情報システム分野の論文を順次収集し，データセットを拡張した．情報通信分野の論文に関しては，収集当時に入手可能であった

2007

年から

2013

年に発表されたものを収集対象した．情報システム分野の論文は

2017

年から収集を開始し，収集当時に公

(23)

18

開されていた最新の

2014

年から

2

年分を収集した．

表

3.2

収集論文一覧（言語処理学会）

表

3.3

収集論文一覧（電子情報通信学会情報通信分野）

表

3.4

収集論文一覧（電子情報通信学会情報システム分野）

発表年論文数序論文数平均文数

2004 135 1421 10.53 2005 251 2635 10.50 2006 223 2292 10.28 2007 233 2361 10.13 2008 145 1644 11.34 2009 195 2175 11.15 2010 217 2638 12.16 2011 252 2959 11.74 2012 286 3120 10.91 2013 204 2440 11.96 2014 205 2483 12.11 2015 226 2690 11.90 2016 250 2750 11.00

全体

2822 31608 11.21

発表年巻(号) 論文数序論文数平均文数

2007 J90

‐

B 87 1528 17.56 2008 J91‐B 134 2424 18.09 2009 J92‐B 143 2826 19.76 2010 J93‐B 113 2102 18.60 2011 J94‐B 102 1987 19.48 2012 J95‐B 118 2070 17.54

2013 J96‐B 92 1731 18.82

789 14668 18.59

全体

発表年巻(号) 論文数序論文数平均文数

2013 J96

‐

D 135 2708 20.06

2014 J97‐D 57 1142 20.04

192 3850 20.05

全体