第 7 章 リンク解析 111
7.7 まとめ
本章ではWISDOMで利用しているスパム判定手法を説明した.(1)Webgraphの蝶ネクタイ構造の
解析,(2)サポートベクトルマシン(SVM)によるサブグラフのスパム判定を行い,(3)ホストグラフ でのトラストとアンチトラストを連鎖する偏向ページランクという基本的な3つの方法で行う.実験結果 により,URLの情報とリンク構造の情報のみで高い性能を得られることが確認し,state-of-the-artな結 果を得られる.今後は他のデータセットで確認し,新しいスパムのやり方に対応できるためのオンライン 学習を導入する予定である.
第 III 部
情報分析技術
127
第 8 章
クエリ解析
WISDOMへ入力されたクエリを解析し,各分析モジュールに渡すデータを抽出する.この解析によっ
て,何に対してWISDOMの分析を行うかを決めるため,WISDOMにおいて重要なステップになって いる.
抽出するデータは,次の二つである.
• トピック
• サブトピック (絞り込み語)
これらのWISDOMにおける利用方法は以下のとおりである.
• 評価表現分析モジュール
評価表現を抽出する対象の文を選択するために,トピックとサブトピックを用いる.
• 主要・対立・対比モジュール
対比キーワードを抽出するときに,トピックを用いる.
• Wikipedia定義文
レポートのWikipedia定義文を得るために,トピックを用いて定義文データベースを引く.
トピックの抽出は,クエリを次の3通りに分類して,次のような考えのもとに行う.
• 自然文
クエリが自然文で与えられ,提題助詞「は」を含む場合は,それがトピックを表していると考え,
その文節(の自立語列)をトピックとする.たとえば「バイオエタノールは環境に良い」というク エリに対しては,「バイオエタノール」をトピックとする.自然文クエリが提題助詞「は」を含ま ない場合は,述語の一つ前の文節をトピックとする.
• 名詞句
クエリが「AのBのC」のような名詞句の場合は,日本語では後の要素が主辞になる傾向が強い ため,もっとも後の文節(この場合は「C」)をトピックとする.たとえば「赤ちゃんの便秘」とい うクエリに対しては,「便秘」をトピックとする.
• キーワード列
クエリが「A B」のようなスペース区切りの場合には,もっとも前の文節をトピックとする.これ は,前のキーワードほどトピック的な語であり,後のキーワードほどトピックをさらに詳細化する
語であることが多いためである.たとえば「乾燥肌 赤ちゃん」というクエリに対しては,「乾燥肌」
をトピックとする.
クエリからトピックおよびサブトピックを抽出する具体的手順は以下のとおりである.
1. クエリをスペース(半角または全角)で分割し,それぞれについてKNPで構文解析し,文節列に変 換する.このとき,各文節からは付属語を削除し,自立語列のみを抽出しておく.
2. 文節列に対して,以下のいずれかの条件を順番にチェックしてトピックを抽出する.
• 文節列が1文節のみからなる場合は,その文節をトピックとする.
• 提題助詞「は」をもつ文節があれば,クエリの先頭から最初の「は」の文節までをトピックと する.
• クエリがスペース区切りの場合には,先頭の1文節をトピックとする.
• 最後の1文節が述語の場合は,最後から二つ目の文節をトピックとする.それ以外の場合は,
最後の文節をトピックとする.
3. トピックの文節を除いた残りの文節列があれば,そこから以下の条件でサブトピックを抽出する.
• クエリがスペース区切りの場合には,残りの文節列における先頭の1文節をサブトピックと する.
• 残りの文節列における最後の1文節をサブトピックとする.
以下にクエリの解析例を挙げる.
クエリ トピック サブトピック
バイオエタノールは環境に良い バイオエタノール 環境 スマートフォンは便利 スマートフォン
赤ちゃんの便秘 便秘 赤ちゃん
飲食店の全面禁煙化 全面禁煙化 飲食店
乾燥肌 赤ちゃん 乾燥肌 赤ちゃん
129
第 9 章
検索エンジン TSUBAKI
本章では,開放型検索エンジン基盤TSUBAKI*1について述べる.開放型検索エンジン基盤TSUBAKI とは,日本語Webページ約1.2億件を対象とした,研究用途に主眼をおいた検索エンジンである.API を公開しており,APIを介して誰でも自由かつ無制限にその検索結果を取得することが可能である.
本章では,TSUBAKIの以下の点について述べる.
• TSUBAKIの構成
• インデキシング
• 文書の検索とスコアリング