第 3 章 局所的類似表現の抽出
3.5 個別の適応問題
本稿が扱う応用問題である複数文書要約とsplog filteringに共通するの はこのような「部分」の類似性検出である.
本稿の手法を適応する問題としてこれらを取り上げた理由であるが,ま ず現代社会での問題の大規模化と,その解決の要望である.高速の情報 化,大量の情報化に伴って問題が顕在化し ,同時に社会的ニーズも強く なっているということが理由である.2番目にはデータの収集の容易さ,
収集に要するコストの低さである.比較的容易に保存することができる からである.
そして3番目に問題の適性であり,本研究の提案手法が有効に機能する ことが期待できるコーパスであるということが理由である.大規模なテ キストデータ中には,類似または同一の情報が頻出する.ここでの「情 報」とは,すべてのレベルにおける情報である.形態素,文節,部分文,
文,段落,文章などといった言語的情報や,主張,予想,希望,感想,な ど ,意味に関する情報も含める.特に,何らかの物事に関する新聞記事 や,ブログの文中にはこれが極めて顕著に現れる.ニュース記事などは 同じニュースを,同じような文面で,同じような内容を横並びで伝え,他 紙との差異が明示的には示されない.ブログでもこれはほぼ同じであり,
加えて,同一時期に集中的に類似する情報が記述されるという現象が継 続的に起こり続けている.
文書要約の場合,同一の話題について言及された文書中に類似する表現 が現れることは当然である.図3.2,図3.3 のように文書全体が類似した 意味を伝える場合は多いが,実際にはその中の部分にこそ類似性がある.
ど のような扱いをするか,ど のような言及をするか,その話題の,ど の部分を取り上げるか,ど のように取り上げるか,などによって様々な 違いが生まれるが,同時に,偶然と必然とに関係なく共通の「部分」が 生じる.図 3.4 , 図 3.5 の例では,類似した情報を色分けで示した.
それらは完全に同一であったり,言い回しが異なったり,あるいは完全 に別の表現で同一の意味をつたえているかもしれないが,そこには局所 的類似性が現れる可能性が高い.
第 3 章 局所的類似表現の抽出
図 3.2: 類似表現 例1
図 3.3: 類似表現 例2
図 3.4: 局所的類似性 例1
図 3.5: 局所的類似性 例2
第 3 章 局所的類似表現の抽出
複数文書要約の場合は T を要約要素として用いる.C ∈T という類似 部分文字列が存在していることが得られたので,C を2回以上記述しな いように要約文を生成するのである.
splogは,コピーコンテンツを用いて生成されるため,複数文書に表れ
る文字列を見付けることによってsplogを検出できると考えられるが,ど のブログエントリの,ど の部分に,ど のような大きさで,ど のような一 致が存在するかはわからない.splogの場合は文字列がコピーされるため 類似ではなく完全に一致する部分文字列を検出する必要があるが,これ は局所的類似性の特殊なケースとみなすことができる.splog filterの場 合は T をコピー領域とみなし ,これが占める割合が大きいほど splogの 可能性が高いと考える.両問題ともに共通した特徴は,どこにどれほど の大きさのどのような C ∈T が存在しているのかに注目しているという ことである.