• 検索結果がありません。

検索結果フィルタリング部

ドキュメント内 JAIST Repository (ページ 34-38)

3.7にあるように、WWW検索エンジンからの結果出力ページの一番下に「検索結果のフィ ルタリング処理」に関するフォームがある。このフィルタリング処理は2種類用意してあり、ど ちらでも好みの方を使用することができる。以下にそれぞれの機能についてまとめることにする。

3.4.1 WWWページの存在チェック

WWW検索エンジンから得られた検索結果には、既に無くなってしまっているものや、ネット ワークやWWWサーバの調子などの関係で通信しにくいものも含まれている。検索結果にこのよ うな無意味な情報が含まれていると、検索結果をもとにブラウジングをしても、効率が悪く苛立 つことがある。

WWWページの存在チェック」では、「NotFound」「Error」といった表示が出るURLを結 果から削除するフィルタリングを行う。ユーザーは検索結果の上位「20」「40」「60」「80」「100」 個の内のどれかをチェックURL数として指定し、「実行」ボタンをクリックすると、検索結果の中 から、無くなっているものとつながりにくいものを除去した新しい検索結果を得ることができる。

1実際には、WWWサーバとHTTP通信して、HTML文書やCGIスクリプトの出力を得ることのできるプログラ ムであるが、本論文中ではあえて「WWWロボット」と呼ぶことにする。

各検索エンジンから の出力状況表示

検索結果の表示

フィルタリング 処理用ボタン

3.7: WWW検索結果表示

この操作も、WWWロボットを用いて行っている。それぞれのURLにアクセスをかけて、何 も無かったものと数十秒2経ってもつながらないものを結果から除去する操作を行っている。

3.4.2 WWWページの内容チェック

WWW検索エンジンから得られた検索結果には、上記で述べた他にも、WWWページは存在 してすぐにつながっても内容が変わってしまっていて、検索キーワードに関することが全然書い ていないことがある。また、本システムでは、複数のWWW検索エンジンからの検索結果をまと めて表示するため、検索結果のランキングや要約文表示がバラバラになってしまい、統一性が無 く使いづらいという問題もある。

そこで、得られた検索結果の現在の状況をチェックして、最新の要約文を生成し、ランキングを やり直すことを考えた。ユーザーは、「WWWの存在チェック」フィルタリングと同様に、チェッ クURL数を指定し「実行」ボタンをクリックすると、検索結果中の各WWWページを指定数だ けチェックし、最新の要約文とランキングによる新しい検索結果を得ることができる(図3.8)。

この操作には、当然、「WWWページの存在チェック」フィルタリングが含まれているし、「WWW ページの存在チェック」フィルタリングの後に「WWWページの内容チェック」フィルタリング を行うこともできるようになっている。

このフィルタリング処理も、WWWロボットを用いて行っている。ただし、ここでは、HTML 文書の内容を判定しなければならないので、HTML文書の解析モジュールで要約文の生成とラン キング用のスコアの計算を行い、新しい検索結果を生成している。

要約文の生成

HTML文書に付いているタグをもとに要約文を生成している。その方法は以下のとおり。

1. hTITLEi タグでタイトルを抽出し、そのタイトルにURLのリンクを付ける。

2. hH1iなどの見出し用タグを抽出し、見出し文を要約文の最初に並べる。

3. 見出しだけでは、要約が足りなければ、HTML文書の本文から最初の数文を要約文に追加 する。

4. さらに足りなければ、hLIi タグを抽出し、箇条書きの内容を要約文に追加する。

5. 要約文は、全体として、35行前後になるように調節する。

2システムで変更可能。デフォルトでは10

検索キーワードを基にした

現状でのスコアリング WWWページの 現状の要約

3.8: フィルタリング結果表示

このような手順で要約文を作る。また、新しく作成された検索結果のなかに、要約文が全く同じ になったものがあった場合は、URLが異なっていても、同じ内容であるとみなし、片方を削除す る3

再ランキング

検索結果のランキングをし直すためには、検索キーワードをもとにそのWWWページのスコア を計算しなければならない。本システムでのスコアリングの方法は要約文生成と同様にタグをも とにしている。詳しい方法は以下のとおり。

1. hTITLEi タグ中に検索キーワードが含まれていた場合は、一つについて100点とする。

2. hH1i タグ中に検索キーワードが含まれていた場合は、一つについて50点とする。

3. 以下、hH2i 25点、hH3ihH6i10点、hLIi5点とする。

4. その他、本文中に検索キーワードが含まれていた場合は、一つについて1点とする。

5. 全ての点数を加算し、WWWページのスコアとする。

新しい検索結果はこのスコアの大きい順に並べられ、再ランキングを実現している。また、検索 キーワードが全く含まれていない、スコア0点のものは結果から削除している。

ドキュメント内 JAIST Repository (ページ 34-38)

関連したドキュメント