• 検索結果がありません。

今後の課題

ドキュメント内 博 士 論 文 (ページ 77-80)

5.5 “BCCT-C” の応用 - サーベイ論文作成支援システムの 拡張

5.7 今後の課題

本章では,関連論文をトピック毎に分類する手法を4種類提案し, その中で参照タイプを 用いた書誌結合が分類精度においても計算コストの面からも有用であることを示した. 一 方, サーベイ論文の作成においては, 収集した同一トピックの論文をさらにサブトピックに 分類する必要がある. このような場合において,本章の提案手法が既存の手法と比較してど の程度有効であるのか,調査する必要があると考えられる.

逆に, より粗い分類を行う上で, 提案手法がどの程度有効であるかについても, 調査する 必要がある. 今回実験で用いた文書集合では,考察でも述べたように形態素解析器や構文解 析器に関するtype Bの参照は分類精度を下げる要因になった. しかし, 論文中で形態素解 析器や構文解析器に関する論文を参照していることは,その論文が“The Computation and

Language”の分野の論文であるかどうかを判断する上で重要な情報になりうる. おそらく,

type Bの参照は, Document Frequency (論文集合からどれだけ参照されているか)と深い

関係があり, “BCCT”で結合数を数える際, (type Bの参照数/ DF)のように補正すること で, 分類精度の改善が可能になると推測される.

本研究では, 参照個所を分類する際, 5. 2節で述べた以下のような仮定を前提にしている.

1つの論文中の個々の参照個所はその論文の構成要素であり, その論文全体の目 的や方法と密接に関連している. 従って参照個所の内容は, その部分だけの局所 的な内容だけでなく, その参照個所を含む論文全体の目的や方法との関連の中 で捕らえる必要がある. そこで,本研究では1論文中の全参照個所は同じトピッ クであると仮定した.

一方で, 「参照個所は参照論文の著者の観点から見た被参照論文の要約であり,従って1 つの論文中の個々の参照個所は, その個所だけに着目すればむしろ被参照論文のトピック と密接な関係にある」という考え方もできる.5.1節で示したように, ある論文を参照する 複数の参照論文の参照個所を分類する,という特殊な目的においては, この考え方を当ては

5.7. 今後の課題 65 めるとすべての参照個所が同一トピックとなってしまい, 分類の意味をなさなくなる. しか し, 参照個所を独立したパッセージと捉え,一般的にパッセージ分類を行う場合においては, 参照個所は参照論文と同一トピックであると考えるか, 被参照論文と同一トピックである と考えるかの議論は, パッセージの定義に関する基本的な事項であり, 今後の課題の1つと して検討する余地がある.

6

ドキュメント内 博 士 論 文 (ページ 77-80)

関連したドキュメント