個別の適応問題

第 3 章局所的類似表現の抽出

3.5 個別の適応問題

本稿が扱う応用問題である複数文書要約とsplog ﬁlteringに共通するのはこのような「部分」の類似性検出である．

本稿の手法を適応する問題としてこれらを取り上げた理由であるが，まず現代社会での問題の大規模化と，その解決の要望である．高速の情報化，大量の情報化に伴って問題が顕在化し，同時に社会的ニーズも強くなっているということが理由である．2番目にはデータの収集の容易さ，

収集に要するコストの低さである．比較的容易に保存することができるからである．

そして3番目に問題の適性であり，本研究の提案手法が有効に機能することが期待できるコーパスであるということが理由である．大規模なテキストデータ中には，類似または同一の情報が頻出する．ここでの「情報」とは，すべてのレベルにおける情報である．形態素，文節，部分文，

文，段落，文章などといった言語的情報や，主張，予想，希望，感想，など，意味に関する情報も含める．特に，何らかの物事に関する新聞記事や，ブログの文中にはこれが極めて顕著に現れる．ニュース記事などは同じニュースを，同じような文面で，同じような内容を横並びで伝え，他紙との差異が明示的には示されない．ブログでもこれはほぼ同じであり，

加えて，同一時期に集中的に類似する情報が記述されるという現象が継続的に起こり続けている．

文書要約の場合，同一の話題について言及された文書中に類似する表現が現れることは当然である．図3.2，図3.3 のように文書全体が類似した意味を伝える場合は多いが，実際にはその中の部分にこそ類似性がある．

どのような扱いをするか，どのような言及をするか，その話題の，どの部分を取り上げるか，どのように取り上げるか，などによって様々な違いが生まれるが，同時に，偶然と必然とに関係なく共通の「部分」が生じる．図 3.4 ，図 3.5 の例では，類似した情報を色分けで示した．

それらは完全に同一であったり，言い回しが異なったり，あるいは完全に別の表現で同一の意味をつたえているかもしれないが，そこには局所的類似性が現れる可能性が高い．

第 3 章局所的類似表現の抽出

図 3.2: 類似表現例１

図 3.3: 類似表現例２

図 3.4: 局所的類似性例１

図 3.5: 局所的類似性例２

第 3 章局所的類似表現の抽出

複数文書要約の場合は T を要約要素として用いる．C ∈T という類似部分文字列が存在していることが得られたので，C を2回以上記述しないように要約文を生成するのである．

splogは，コピーコンテンツを用いて生成されるため，複数文書に表れ

る文字列を見付けることによってsplogを検出できると考えられるが，どのブログエントリの，どの部分に，どのような大きさで，どのような一致が存在するかはわからない．splogの場合は文字列がコピーされるため類似ではなく完全に一致する部分文字列を検出する必要があるが，これは局所的類似性の特殊なケースとみなすことができる．splog ﬁlterの場合は T をコピー領域とみなし，これが占める割合が大きいほど splogの可能性が高いと考える．両問題ともに共通した特徴は，どこにどれほどの大きさのどのような C ∈T が存在しているのかに注目しているということである．

ドキュメント内 ( ). (ページ 39-42)

第 3 章 局所的類似表現の抽出

3.5 個別の適応問題

第 3 章局所的類似表現の抽出