第 3 章 構成要素文特定手法
3.4 類似度による重要文特定手法
本節では,構成要素文を類似度によって特定する手法について述べる.序論や結論と異な り,本論は文数が多い上に,著者や研究内容による書き方の違いが大きいことが想定されるため,
構成要素別ではなく,重要文のみを可視化する手法が有効と考える.そこで,本論内の重要文を 可視化するために,類似度によって重要文を特定する手法を提案する.
序論の研究内容文が複数文ある場合,どの文が最も重要な研究内容であるのか,判断すること は難しい.もし序論の研究内容文の中で,最も重要な研究内容を述べている文を可視化できれば,
論文調査の効率化に貢献できると考える.そのため,序論の研究内容文から,結論の研究内容文 との類似度が最も高い文を最重要研究内容文として可視化する手法についても提案する.
論文の本文は序論部・本論部・結論部から構成される[33].島ら[34]は,「文書分類」に関 する論文の本論を 101本収集し,章立てを解析したところ,そのうち 73本が「提案手法」
と「実験」を章立てて記述していることを示している.この報告に基づいて,本研究では本 論部を提案手法章と実験章の2節に分割する.2.1.2項で述べた文献[17]では「実験」に該当 する章を特定する上で,章のタイトルに「実験」または「評価」が含まれているかどうか確 認する手法を提案している.そのため,本研究では章のタイトルに「実験」または「評価」
が含まれていれば,その章全体を「実験」章として特定する.
これを踏まえて,本論から重要文を特定する手法を2つ提案する.1つ目の手法では,提 案手法章の中で,序論の研究内容文との類似度が最も高い文を,最重要研究内容文を特定 する.2つ目の手法では,実験章の中で,結論の研究成果文との類似度が高い文を重要研 究成果文として特定する.
本節の構成を説明する.3.4.1項では,本項で使用するコサイン類似度について説明する.
3.4.2 項では序論の研究内容文から最重要研究内容文を特定する手法について述べる.3.4.3
項では提案手法章から重要研究内容文(最重要研究内容文を含む)を特定する手法について 述べる.3.4.4項では実験章から重要研究成果文を特定する手法について述べる.
3.4.1 コサイン類似度
本研究では,二文間の類似度に関する指標として,コサイン類似度を用いる.そのため本 節ではコサイン類似度について説明する.コサイン類似度とは𝑡𝑓・𝑖𝑑𝑓法を用いたベクトル 空間法による類似度計算法を指す[35].
𝑡𝑓・𝑖𝑑𝑓法とは,𝑡𝑓 (Term Frequency)と𝑖𝑑𝑓 (Inverse Document Frequency)の2つの指 標を利用し,その積によって文書中の名詞の重要度を計算するものである.
𝑡𝑓は文書中における名詞の出現頻度を表し,文書中に多く現れる単語ほど値が大きくな る.𝑖𝑑𝑓は複数ある文書の中で名詞が出現する頻度の逆数であり,原文と対象文両方に出現 している単語より,どちらか片方の文に登場している単語の方が大きくなる.文書 d におけ る名詞 t の重要度である𝑡𝑓𝑖𝑑𝑓(d,t)は以下の式によって与えられる[35].
73 𝑡𝑓(d,t) = 𝑛𝑡
𝑊𝑑 (4)
𝑖𝑑𝑓(d,t) = log 2 𝑁𝑡
+ 1 (5)
𝑡𝑓𝑖𝑑𝑓(d,t) = 𝑡𝑓𝑑,𝑡× 𝑖𝑑𝑓𝑡 (6)
𝑡𝑓(d,t)内の𝑛𝑡は単語 t の d における出現回数であり,𝑊𝑑は文書dにおける全名詞の出現 回数である.𝑖𝑑𝑓(d,t)内の 𝑁𝑡 は単語tを含む文章の数であり,対数の底を2とする.本研 究を対象にする文書の数は2つであるため,対数の分子が2となっている.式(2)を変形 させると,
𝑖𝑑𝑓(d,t) = {𝑙𝑜𝑔2 + 1 1
( 𝑁𝑡= 1)
( 𝑁𝑡= 2) (7)
となる.𝑖𝑑𝑓の値が大きい場合,対象の名詞は原文と対象文のどちらか片方に書かれている 状態であり,逆に小さい場合は対象の名詞は両方の文に書かれている状態である.
さらに,文書の長さによる影響を調整するため,得られた文書dのベクトル𝑋𝑑の値を正規 化する必要がある.ベクトルの値は各名詞の重要度と等しくなっている.正規化の方法とし て,コサイン正規化を用いる.コサイン正規化では𝑡𝑓・𝑖𝑑𝑓法で求めた文章dのベクトル𝑋𝑑の L2ノルムを計算する.次に,そのベクトルの各要素をL2ノルムで割る.文章dのベクトル
𝑋𝑑のL2ノルム‖𝑋𝑑‖は,以下の式で表される[35].
‖𝑋𝑑‖=√∑ 𝑥𝑖2 (8)
ノルム‖𝑋𝑑‖の値で,文章dのベクトル𝑋𝑑の各要素を割る.以上の計算により,文書をベクト ルで表せる.
次に,文 A内の名詞の重要度を列挙したベクトルを𝐷⃗⃗ =(𝐷1, 𝐷2,…, 𝐷𝑛)と定義し,
同様に文Bの名詞の重要度を列挙したベクトルを𝐸⃗ =(𝐸1, 𝐸2,…, 𝐸𝑛)と定義する.各 文書の名詞の重要度は𝑡𝑓・𝑖𝑑𝑓法によって求める.重要度が高いほど,文書の中で重要な名 詞となる.この時,二つの文書の類似の度合いを測るために,各文章のベクトル同士のコ サイン類似度を求める.二文書間のコサイン類似度は以下の式で与えられる.
74 cos(𝐷⃗⃗ ,𝐸⃗ ) = 𝐷⃗⃗ ・𝐸⃗
|𝐷⃗⃗ ||𝐸⃗ |= 𝐷⃗⃗
|𝐷⃗⃗ |・ 𝐸⃗
|𝐸⃗ |= ∑𝑛𝑖=1𝐷𝑖𝐸𝑖
√∑𝑛𝑖=1𝐷𝑖2・√∑𝑛𝑖=1𝐸𝑖2
(9)
コサイン類似度の値が大きいほど,ベクトルで表された文章同士の似ている度合いが大 きいと判定される.提案手法では,このコサイン類似度を用いて,2文間の類似度を評価す る.
3.4.2 序論から最重要研究内容文を特定する手法
序論の研究内容文から最重要研究内容文を特定する手法を提案する.佐渡嶋ら[36]は学 術的文章の構成を評価する基準として,「序論で示された目的と結論が呼応している」と いう項目を設定している.このことから,一般的な学術論文は,序論の研究内容と同様な 内容の文が結論にも書かれていると思われる.村上[37]は理工系学生による課題レポート の結論の文章構造を分析しており,結論には論文全体の主題に該当する文が必ず書かれて いることを示している.また,主題に該当する文は結論の最初に書かれやすいことを示し ている.このことは,学術論文にも適用されると思われるため,学術論文の結論には論文 の主題に該当する文が書かれていることを前提とする.これを踏まえ,序論から最重要研 究内容文を特定する手法について説明する.図3-20に特定の流れを示す.
図3-20 序論から最重要研究内容文を抽出する手法の流れ
提案手法では,最初に序論から3.2節で提案したハイブリッド型特定手法で研究内容文を 全て抽出し,同様に結論から3.3節で提案したハイブリッド型特定手法で研究内容文を抽出 する.ここで,結論から研究内容文が複数抽出された場合は,先に書かれている文の方が重 要であることが文献[36]で示されているため,先頭の文を主題文とみなして特定する.その ため②では研究内容文を1文特定する.次に結論から抽出した主題文に対して,序論から抽 出した研究内容文との類似度をそれぞれ計算する.そして,その序論の研究内容文の中で最
序論 結論
研究内容文 研究内容文
(先頭)
①全て抽出 ②1文抽出
③類似度計算
④最も類似度が高い文を抽出
最重要研究内容文
75
も結論の主題文との類似度が高い文を抽出し,「最重要研究内容文」として特定する.この ような流れで抽出した最重要研究内容文を利用者に掲示することで,序論の中で注目すべ き内容を短時間で読み取ることが可能となり,短時間で多数の論文を調査する時の閲覧支 援に繋がると考える.
3.4.3「提案手法」章から重要研究内容文を特定する手法
本論の研究内容文から重要研究内容文と最重要研究内容文を特定する手法を提案する.
一般的に,序論の研究内容文は,研究で取り組む内容を述べているため,本論の「提案手 法」章にも同様な内容の文が書かれやすい傾向にある[33].特に3.4.2項で特定した序論の 最重要研究内容文については,ほぼ確実に「提案手法」章に同様な内容の文が書かれてい ると考えられる.そのため,「提案手法」章の研究内容文の中で,序論の最重要研究内容 文との類似度が最も高い文を,最重要研究内容文として特定する手法を提案する.図3-21 に特定の流れを示す.
図3-21 本論から最重要研究内容文を抽出する手法の流れ
最初に本論から「提案手法」章を抽出する.具体的には,本論の中から,実験章のタイト ルキーワード「実験」「評価」が含まれている章を抽出し,それ以外の章を「提案手法」章 として抽出する.次に 3.4.2 項で提案した特定手法で序論から最重要研究内容文を抽出し,
3.2節で提案した特徴的表現を用いた特定手法で「提案手法」章内の文から研究内容文を全 て抽出する.次に序論の最重要研究内容文に対して,「提案手法」章の研究内容文との類似 度をそれぞれ計算する.そして,その「提案手法」章の研究内容文の中で最も序論の最重要 研究内容文との類似度が高い文を抽出し,「提案手法」章の最重要研究内容文として特定す
序論
本論
研究内容文
② 1文抽出 ③全て抽出
④類似度計算
⑤最も類似度が高い文を抽出 最重要研究内容文
最重要研究内容文
提案手法
①抽出
76 る.
最重要研究内容文以外の研究内容文でも,本論に同様な内容の文が書かれている可能性 が高い.そのため「提案手法」章の研究内容文の中で,序論の研究内容文との類似度が高 い文を,重要研究内容文として特定する手法を提案する.図3-22に特定の流れを示す.
図3-22 「提案手法」章から重要研究内容文を抽出する手法の流れ
最初に本論から「提案手法」章を前の手法と同様な流れで抽出する.次に3.2項で提案し たハイブリッド型特定手法で序論から研究内容文を全て抽出し,3.2節で提案した特徴的表 現を用いた特定手法で「提案手法」章内の文から研究内容文を全て抽出する.そして序論の 研究内容文に対して,「提案手法」章の研究内容文との類似度をそれぞれ計算して,最も類 似度が高い文を抽出し,「重要研究内容文」として特定する.もし序論の研究内容文を複数 抽出した場合は,それらの文に対して最も類似度が高い文をそれぞれ「提案手法」章の研究 内容文から抽出して,「提案手法」章内の「重要研究内容文」として特定する.このような 流れで抽出した最重要研究内容文と重要研究内容文を利用者に掲示することで,本論の中 で特に注目するべき部分を短時間で読み取ることが可能となり,短時間で多数の論文を調 査する時の閲覧支援に繋がると考える.
序論
本論
研究内容文
②全て抽出 ③全て抽出
④それぞれ 類似度計算
⑤それぞれ最も類似度が高い文を抽出 研究内容文
重要研究内容文
提案手法
①抽出