も考えられる. 従って,要約の生成の段階では,並べられた重要個所を文章として自然にな るように書き換える処理が必要である[10]. 図5.2に,抽出されたサマリパッセージと関連 の強い個所を重要個所と見なして要約を生成する様子を示す.
以上で述べた複数記事要約アルゴリズムにおいて,サマリパッセージは,複数記事要約 の,言わば「種」として機能する.
じて,共通部分と差分の両方を用いたり,共通部分のみを用いたりしながら,それらを文章 へと再構成する. この手法では,関連する記事の間で共通する個所を重要と考えている.
[3][12]の手法では,複数記事間で共通して現われる個所が重要な内容と考えているが,こ
の手法も統計的な手法と同様,ドメインに依存しない点が有利だが,「重要な内容は繰り返 し現われる」という前提は常に正しいとは限らない.
[7]は,記事の第一段落を用いて,その重複個所,冗長個所を削除することにより,複数の 関連記事を要約する手法を提案している. 重複個所,冗長個所を削除する際は,推量文は 重要でないとして削除したり, 続報記事の導入部の特徴的な表現「〜したが」「〜事件で」
「〜について」などを重複個所として削除するなどのヒューリスティックスを用いている.
この手法では,一般に新聞記事のリードにその記事の概要が述べられていることから,リー ドの部分が重要な個所考えている.
複数記事をリードを用いて要約する手法は計算コストも低く,新聞記事の性質を反映し ており有効と考えられるが,複数記事中のリードを全て同等に重要と見なすのは,重要性 の基準として粗い. なぜなら,ある話題に関する複数記事の中には,全体においてはそれほ ど重要でない内容も含まれているにもかかわらず,全ての内容のリードを重要と見なして しまうからである.
[2]は,テロリストの記事だけに限定して,情報抽出の手法を用いた要約手法を提案して いる. まず,情報抽出手法を用いて,記事集合から犯人,犠牲者,事件のタイプなどの情報を 抽出し,テンプレートにそれらの情報を埋める. 次に,そのテンプレートを用いて,新しい 情報を優先させたり,不完全な情報同士を組み合わせてより完全な情報にしたりしながら 要約を生成する.
ドメインの知識をテンプレートとして予め与えており,重要な内容を正確に同定できる と考えられるが,ドメインに強く依存していて汎用性に欠ける. また,テンプレートを作成 するコストが高いと思われる.
本研究の提案する手法では,意見,解説,まとめセクションにある,新聞記者の視点に基 づいた過去の出来事の記述(サマリパッセージ)を抽出し,その情報に基づいて重要個所を 同定する. 記者はそれまでの話題の流れを熟知しており,どの出来事が重要であるかを考 えて,過去の主要な出来事を要約し,意見,解説,まとめセクションに盛り込んでいる,と考 えられる. 従って,サマリパッセージを用いた重要個所同定は,対象の話題を熟知している 記者の知識を利用した方法といえる.
サマリパッセージの情報は,それまでの経緯の中で何が重要かに関する記者の判断を直接 的に反映しており,統計的な情報や出現位置の情報よりも正確な重要個所同定を可能にす る. また,計算コストも低く,新聞記事であればどのメインにも適用できると考えられる.
第 6 章 まとめ
本研究では,意見,解説,まとめセクション(サマリを含むセクション) 中にあるサマリ パッセージが,複数記事要約処理で必要になる重要個所同定において有効な情報であるこ とを論じ,検索結果の記事集合からのサマリパッセージの抽出方法と,そのシステムの評 価結果,サマリパッセージを用いて記事集合の要約を生成するまでの処理について示した.
記事集合からのサマリパッセージ抽出処理では,いきなり記事集合からサマリパッセー ジを抽出するのではなく,まず,記事集合から意見,解説,まとめが述べられている個所を 検出する. この際,意見,解説,まとめを記事単位ではなく,セクション単位で検出する. こ れらのセクションの検出には,各セクションの特徴を反映したヒューリスティックスを用 いる. その後,検出されたサマリを含むセクションからサマリパッセージを抽出する. サ マリパッセージの抽出方法はセクションの形式によって異なる.
システムの評価は,サマリを含むセクション検出システムと,各セクションからのサマ リパッセージ抽出システムを分けて行なった. また,サマリを含むセクション検出システ ムの評価では,セクション分割処理は人手で行ない,(意見,解説,まとめのカテゴリを表す) ラベル付与処理の評価のみを行なった. その結果,ラベル付与モジュールが高い精度でカ テゴリ判定することを定量的に示した. また,サマリパッセージ抽出システムは,おおむね 正確に各セクションからサマリパッセージを抽出することを定性的に示した.
最後に,抽出されたサマリパッセージを用いて記事集合を要約する方法について論じた. また,この手法と従来の複数記事要約の手法との違いを述べた.
第 7 章
今後の課題
7章では本研究における今後の課題を論じる. 今後の課題として以下の点を挙げる.
1. 記事集合からのサマリパッセージ抽出の精度向上 2. セクション分割アルゴリズムの精緻化と評価 3. サマリパッセージを用いた要約処理の詳細の検討 4. より客観性の高いデータ,ルールの作成
7.1 記事集合からのサマリパッセージ抽出の精度向上
4章において,記事集合からのサマリパッセージの抽出がおおむねうまくいくことを示 したが,さらなる精度向上が必要である.
サマリを含むセクション検出システムでは,以下のセクションを認識することができず, システムの精度を低下させた.
• 解説セクション
• 文章によるまとめセクション
• 以下のその他セクション – エピソード
– 用語解説
– 一覧表
精度向上には,これらのセクションを認識することが必要である. 解説セクション,文章 によるまとめセクションの検出の可能性については4章で述べた. 今後は上に挙げたその 他セクションの特徴の把握するため,まず,エピソード,用語解説,一覧表セクションを大 量に収集する必要がある.
また,今回はシステムを構成する各フィルタの閾値を人手で決定したが,大量のデータ を用いた機械学習により閾値を決めることで,さらなる精度向上が期待できる.
また,今回は3つのデータを用いてルール作成,評価を行なったが,さらにデータを追加 してルールの検討,評価を行なう必要がある.
検出された各セクションからのサマリパッセージ抽出システムの開発に当たっては,十 分な量のルール作成用データと評価用データを用意できなかった. 今後はまず,十分な量 のデータを作成する必要がある.