(a) 関連論文の自動収集 (b) 論文間の関係の解析
(b)-1 関連する複数論文からの情報の抽出
(b)-1-1 重要個所の抽出
(b)-1-2 論文間の共通点の検出
(b)-1-3 論文間の相違点の検出
(b)-2 収集した論文の分類・整理
(c) 論文の著者毎の文体の違い等を考慮した要約文書の生成
図 4.1: 複数論文要約のポイント
4.3 関連研究
4.3.1 サーベイ論文の自動作成に関する研究
神門は,手がかり語を用いて論文中の各文に構成要素カテゴリの自動付与を行い, そのカ テゴリを論文検索に応用している[18](図4.1(a)). このようにして収集された特定分野の論 文集合の「既存の研究」や「既存の研究の不完全さ」カテゴリの文を抽出し, それらを並 べて表示することで, その分野の基本的な動向を把握するのに有用であると述べている(図
4.1(b)). 神門は, このようなカテゴリの文が「当該論文の著者の判断を通してみた,その課
題に関する現状や背景を示している」と考えている. 本研究でもこのような著者の主観的 な判断をサーベイ論文作成の際に利用している.
対象テキストが学術論文とは異なるが, 複数の新聞記事を対象に複数記事要約を行う試 みがいくつかある[43, 44]. 要約対象が新聞記事の場合,次のような特徴がある.
• 新聞記事は, 記事中の事実文が重要であると考えられることが多い. 従って, 客観的 な正解データが作成しやすいと思われる.
• 図4.1(c)に関して, 新聞記事では文体がある程度統一されているため, 記事間の文体
の違いをあまり意識する必要がない.
一般に,論文には著者毎の文体の違いが存在し,しかも新聞記事を要約対象とした場合と 比べてその違いが大きいため, 論文間の共通点の検出には新聞記事の場合のような各文中 の個々の形態素の比較といった手法が適用しにくい. また,論文は著者毎に異なる観点で書 かれているため, 複数論文をまとめるにはどのような観点でまとめるのかが重要なポイン トとなる. 本研究では, このような著者毎の観点の違いに着目している.
4.3.2 サーベイ論文の分析に関する研究
これまでに,人間の書いたサーベイ論文を分析した研究がいくつかある[36, 62, 63, 25, 35].
一般にサーベイ論文は「ある主題の範囲の情報, 知識を統合するために, その領域の原著 論文群を一定の形式の中に凝縮表現したもの」と言える. これらの情報や知識がサーベイ 論文中でどのように凝縮されているかは, 同じ分野の複数のサーベイ論文を比較すること で, ある程度明らかにできると考えられる. このような考え方に基づき, 村主らは, 「臨床 医の情報ニーズ・情報探索行動」という分野において7人の研究者が1982年–1993年の間 に記した7本のサーベイ論文を対象に調査している[36]. 調査の際,多くのサーベイ論文か ら参照されているその分野の代表的な論文(以後,スター論文[63])に着目している.
その結果,同じスター論文でも年と共に研究が細分化していく中で参照のされ方が変わっ てくるといった興味深い現象も確認されたが, 1 概して,サーベイ論文で参照する論文集合 や個々の論文の参照の仕方は著者の主観に依存する部分が多く, 「サーベイ論文中の組織 的な知識の蓄積・凝縮」は, 少なくともこの調査結果からは確認されていない.
このようなサーベイ論文の著者毎にばらつきが生じるのは, サーベイ論文を書くための 客観的な手順が確立していないためであると考えられる. その重要性はLightら[25], 津田
ら[62], Mulrowら[35]により指摘されており, またサーベイ論文を書くためのいくつかの
手順[25, 11]や指針[11], 評価方法[35, 45]などが提案されている.
サーベイ論文を書くためには,個々の論文を読み,論文中の情報を統合する必要があるが, このような作業を客観的に行うための方法の一例としてGoldscmidtのもの[11]を図4.2に 挙げる. また, 評価方法の例としてMulrowらのものを図4.3に挙げる.
1過去のサーベイ論文中では1度しか参照されなかったスター論文が,より新しいサーベイ論文中では複数 回参照される場合などがある. これは,その分野における問題意識の変化に伴い,同じ論文でも様々な角度か ら検討されることがあるからである.
4.3. 関連研究 41
(Goldscmidt, 1986) [11]((津田, 1994)[62]より抜粋)
(1) 統合すべき情報が対象としている問題と, その問題に適合する情報 を定義
(2) 統合する情報の収集
(3) それらの情報の正確さの評価
(4) 目的とする情報が, 標的としている利用者達に役立つように, 正確 である事を確認した上で提供
図 4.2: 情報の統合を客観的に行う方法
(Mulrow, 1987) [35]((津田, 1994)[62]より抜粋) (1) はっきりした目的が述べられているか.
(2) 収録文献を見つけた方法や, その情報源が明らかにされているか.
(3) そのレビューに採択したり, しなかったりした事を決定した時の明 確なラインが示されているか.
(4) 収録文献の情報の正確さを組織的な方法で評価しているか.
(5) 情報が組織的に統合されているか. そのときデータの限界や不一致 の点が詳しく述べられているか.
(6) 情報は統合され, 重み付けがなされているのか. また計量的に分割 されているのか.
(7) 関連する知見の要約がなされているか.
(8) 結果から導き出された新しい研究の糸口が示されているか.
図 4.3: サーベイ論文の評価基準
図4.2において, (2)は図4.1で示した複数論文要約のポイントにおける「(a)関連論文の 自動収集」に対応する. また, (3)は同じく図4.1の「(b)論文間の関係の解析 」と関連す る. 本研究ではこれらの処理を行うために論文間の参照情報に着目しているが, 4. 4節では, 図4.2の(2)と(3)を, 参照情報を用いてどのように実現するかについて説明する.
図 4.3に関して, サーベイ論文の評価は本研究において非常に重要な問題の 1つである.
これらの評価基準は客観的であると思われるが,最終的な評価は人間が主観的に行わざるを 得ないと考えられる. ただ, すでに3章でも述べたとおり, 本研究で用いる論文データベー スは小規模で十分な数の論文が得られないため,サーベイ論文作成支援システムをユーザに 使ってもらい,実際にサーベイ論文を作成してもらい評価するのは, 現時点では困難である と考えられる. 将来的には大規模な論文データベースを用い, 図4.3の基準に基づいてユー ザベースの評価を行う必要がある.