2004年度 卒業論文
Web 検索結果の視覚化の一手法
提出日: 2005 年 2 月 2 日
指導教授 : 村岡 洋一 教授 早稲田大学 理工学部 情報学科
学生番号: G01P001-1 朝 見 裕 紀 Hiroki Asami
目 次
図目次 ii
表目次 iv
第1章 序論 1
1.1 はじめに . . . . 1
1.2 現状 . . . . 2
1.3 本研究の目的 . . . . 2
1.4 本論文の構成 . . . . 3
第2章 従来の関連研究 4 2.1 goo 3Dウェブ検索. . . . 4
2.1.1 gooラボ . . . . 5
2.1.2 3Dウェブ検索について . . . . 5
2.1.3 3Dウェブ検索の機能説明 . . . . 5
2.1.4 3Dウェブ検索の問題点 . . . . 6
2.2 yahoo! vs google . . . . 9
第3章 視覚化の有効性 10 3.1 アクセス数比較 . . . . 10
3.1.1 対象サイト . . . . 10
3.1.2 アクセス数比較の手法 . . . . 11
3.1.3 アクセス数比較結果 . . . . 11
3.2 評価・考察 . . . . 15
3.2.1 評価 . . . . 15
3.3 Flashの有効性 . . . . 15
3.3.1 Flashの有効性 . . . . 15
3.3.2 Flash Playerのシステム条件 . . . . 16
第4章 提案手法と実装 18 4.1 提案手法 . . . . 18
4.1.1 検索アルゴリズム . . . . 19
4.1.2 htmlページのサムネイル化 . . . . 20
4.1.3 検索結果ページ . . . . 21
4.2 実装 . . . . 22
4.2.1 GoogleAPI. . . . 22
4.2.2 サムネイル化 . . . . 22
4.2.3 検索結果ページ . . . . 22
第5章 実験と考察 24 5.1 実験 . . . . 24
5.1.1 評価方法 . . . . 24
5.1.2 実験方法 . . . . 24
5.2 結果 . . . . 25
5.2.1 被験者の属性 . . . . 25
5.2.2 タスクの実行観察 . . . . 26
5.3 考察 . . . . 28
第6章 結論 29 6.1 結論 . . . . 29
6.2 今後の課題 . . . . 30
参考文献 31
謝辞 32
図 目 次
2.1 3Dウェブ検索 . . . . 4
2.2 yahoo! vs google . . . . 9
3.1 サイト構成 . . . . 10
3.2 サイト構成 . . . . 12
4.1 システム構成 . . . . 19
4.2 検索結果ページ . . . . 23
表 目 次
2.1 必要環境 . . . . 7
2.2 推奨環境 . . . . 8
3.1 トップ記事へのアクセス数(単位:%) . . . . 13
3.2 トップ写真へのアクセス数(単位:%) . . . . 14
3.3 アクセス数比較(単位:%) . . . . 15
3.4 Windows. . . . 16
3.5 Macintosh . . . . 16
3.6 Linux (x86, 32-bit) . . . . 16
3.7 Solaris (x86 and Sparc) . . . . 17
4.1 サーチエンジンの利用シェア(単位:%) . . . . 20
4.2 「Webnail2」・「url2bmp」(単位:sec) . . . . 21
5.1 基本フロー . . . . 25
5.2 被験者 . . . . 26
5.3 タスクの実行(SpinSearch) . . . . 27
5.4 タスクの実行(Google) . . . . 27
5.5 タスクの実行の全体平均 . . . . 28
第 1 章 序論
本論分では、Web検索の時に文字を読んで検索結果を見ていることに煩わしさ を感じているところに注目した。そこでこの文字で書かれている文章を視覚化すれ ばこの煩わしさを解消できると仮定し、まず文字列の並びであるタイトルによる リンクの貼り方と写真によるリンクの貼り方に対するアクセス数を比較すること によって、どちらのリンクの貼り方が有効であるかを検討してみた。その結果、写 真によるリンク貼りの方がアクセス数があったので、これをWeb検索結果に応用 した。そして本システム「SpinSearch」を構築し、これをGoogleの検索結果ペー ジと比較する実験を行い、そのユーザビリティを評価し、本システムが有効であ ることを示した。
本章では、1.1節で序論を述べ、1.2節でこの分野の現状について説明し、1.3節で 本研究の目的について述べる。
1.1 はじめに
可視化の技術は様々な分野で必要とされ、研究されてきた。工学系ではプレー トの移動によって蓄積されたひづみの運動エネルギーを計測し、それによって地 震の予測に用いられたり、文学では源氏物語の心理描写を分析するためにウェー ブレット解析されていたりする。数値データや文章を視覚化することによって、分 析しやすくなったりその結果をわかりやすい形に表現することができたりするの である。そこで視覚化することによって数値や文章などが理解しやすくなるとこ に注目した。
リンク構造の可視化に代表されるようなWeb情報の可視化に限らず、「可視化」と いうテーマで研究されているものの多くは実験シュミレーションのや3Dなどの VR(Virtual Reality)といったものが容易に想像でき、盛んに行われている。そ してこの「可視化」自体も、工学系実験の結果表示に用いられるなど必要とされ ている。また可視化の技術は数値や文章を視覚化することを目的としているため 情報学や工学などに限られた研究ではなく、文学やスポーツの分野とあらゆる分 野でも研究が行われ、利用されている。本研究では「視覚化」する手段として「可 視化」の技術を利用する。
ユーザーにとって検索エンジンの表示結果が文字列で表示されていることは決し て使いやすいものとは言えない。しかし検索エンジンでの検索結果を表示するペー
ジでは文字によってその先のページ情報が載せられている。そこで考えたのが検 索エンジンの出した結果のサイトのトップページを直接表現してしまうというこ とである。つまり現在文字列で表現されている検索結果ページを「視覚化」する ことによってよりユーザーが目的のページを見つけ出しやすくしようとするもの である。htmlページのサムネイル画像を並べることによって、検索結果を表示す るのである。
1.2 現状
Googleでは文字情報でしか検索結果を表示していない。イメージ検索という機
能はあるが、これは画像検索するためのものであり、Web検索を視覚化している ものではない。現在ではGoo研究所の3Dラボで研究されている「3Dウェブ 検索」というシステムが目指しているものが本研究の目的と同じである。しかし この「3Dウェブ検索」は専用ソフトウェアを必要とし、それがインストールさ れている環境でなくては、ウェブ検索ができない。またこの専用ソフトウェアが 動作する環境として求められるマシンのスペックが高いため、多くのユーザーが 使用できるというわけではない。その問題点を解決するために「Flash」を使うこ とを提案する。
1.3 本研究の目的
検索エンジンを用いたWeb検索において、目的のページにたどりつくまでのス テップ数を減らすことが本研究の目的とすることである。それによって検索するた めにかかる時間を早めることができる。現状での文字列での検索結果表示と、検 索結果に出てきたサイトのページを直接画像化したサムネイル表示の使いやすさ を比較することによって本研究の評価をする。具体的にはGoogleの検索結果ペー ジと「SpinSearch」の検索結果ページを比較する実験を行っている。自分が求め ている情報を探そうとしたときに検索エンジンの出した結果の中から、ページの 要約(サイトサマリ)やURLなどの情報から求めている情報を提供しているで あろうサイトを推測し探しだす。しかし必ずそのページが見つかるとは限らない。
その原因は検索キーワードのあいまいさ、検索エンジンの性能などが挙げられる が、多くの場合は検索結果が多すぎて全てのサイトを訪れていないことが挙げら れる。これはサイトサマリを読み、このサイトがどのようなサイトであるかを予 想するのだが、この作業は容易ではない。これが視覚化されていれば一目で見て この先のサイトがどのようなサイトであるかを想像できる。またサムネイル化す ることによって、リンク切れサイトがアクセスする前に分かったり、移転したサ
また通常のウェブページ検索では、テキストとそのサイトサマリが表示されるだ けで、内容を見るためには1つずつクリックしなければならない。しかし、3D化 すれば空間上に検索結果のウェブページ自体を一度に表示することができる。ま た3次元空間を利用することによって、2次元平面的にWebページを並べるより も、より多くのWebページを限られた画面内に表示することが可能となる。しか も複数のウェブページの内容が一目で確認できるので、目的のページをすばやく 探しだすことができる。
1.4 本論文の構成
本論分は6章からなる。
第 1 章 序論
本論分の目的、概要、構成について述べる。
第 2 章 従来の関連研究
従来の関連研究とその問題点について述べる。
第 3 章 視覚化の有効性
視覚化することの意義について述べる。
第 4 章 提案手法と実装
本研究で提案する手法とその実装方法について述べる。
第 5 章 実験と考察
実装したシステムの実験方法とその結果、考察について述べる。
第 6 章 結論
本論分のまとめと今後の課題について述べる。
第 2 章 従来の関連研究
本章では,従来の関連研究について説明し、その問題点を述べる。「検索結果の 視覚化」に関することについて取り上げた。2.1節では「gooラボ」で研究されて いる3Dウェブ[1]について述べる。2.2節では「yahoo! vs google」について間単 に述べる。
2.1 goo 3Dウェブ検索
図 2.1: 3Dウェブ検索
2.1.1 goo ラボ
gooラボとは、次世代検索機能をはじめとした、NTT研究所が開発した新技 術をユーザーに体験してもらうための場である。そしてNTTレゾナントがここ を使ってその新技術のビジネス性を評価している。具体的にはNTT研究所では 商用サービスにおけるユーザーの反応などから今後の課題を抽出し、実用化に向 けて改良を行っている。またNTTレゾナントではNTT研究所が新技術を商用 サービスに導入する前にgooラボを通じて実験を行っている。ここでは10年先 を見据えた先端基礎技術開発について積極的に取り組んでいる。ここで研究、開 発されている「3Dウェブ検索」が3Dを用いて検索結果を視覚化している。
2.1.2 3Dウェブ検索について
3Dウェブ検索には、NTT情報流通プラットフォーム研究所のネット空間クルー ジング技術「InfoLead(インフォリード)」を利用している。これはインターネッ トの利用者に対し、個々のサービスプロバイダやコンテンツプロバイダの意図に もとづいて、大量のWebページを3D空間配置して提示することを可能とした 技術である。「InfoLead」上で簡単にWebページを閲覧するための機能を提供する 端末ソフトウェアが「FieldExplorer(フィールドエクスプローラ)」です。 つまり
「InfoLead」での3DのGUI機能を提供しているのが「FieldExplorer」である。
そのため3Dウェブ検索はあらかじめこれをインストールした環境でなければな らない。
2.1.3 3Dウェブ検索の機能説明
• 「FieldExplorer」の起動
1. デスクトップのアイコンから起動する
インストールされたときにデスクトップに生成された「FieldExplorer」
のアイコンをダブルクリックして起動。
2. 3Dウェブ検索検索窓から起動する
3Dウェブ検索のページ[1]の検索窓に検索キーワードを入力し、ウェ ブ検索ボタン、またはリンク検索ボタンをクリックします。
3. 3Dウェブ検索のページから起動する
3Dウェブ検索のページ[1]の「3Dウェブ検索」ボタンをクリックす ると自動的に起動します。
• 検索キーワードを入力
• 一度に表示する検索結果の数を選択
• 「ウェブ検索」「画像検索」「リンク検索」のボタンをクリックして検索を実行
• 画面上でカメラ操作
– 見たいページをダブルクリックしてピックアップする
– マウスホイールでピックアップしたページのサイズを変える – ダブルクリックで選択を解除する
• 「Enter」で新しいウィンドウでリンク先へ移動背景画像の変更、取り置き 枚数の設定など、ユーザごとにいろいろな設定ができるようになりました。
付加機能
• 検索順位表示
• 取り置き
• ユーザー設定
2.1.4 3Dウェブ検索の問題点
3Dウェブ検索の大きな問題点は、専用ソフトウェアである「FieldExplorer」が
表2.1、2.2に見られるようなスペックを求められることである。そのためどのよ
うな環境においても実行できるというわけにはいかない。特に3Dを使っている ために多くのユーザーにとってビデオメモリの部分が十分条件に満たないことが 予想される。実際、自分のノートパソコンにおいてもこのビデオメモリが8MB と必要条件である16MBに達さず実行できなかった。また一般ユーザーが使用 するインターネットカフェや学校に設置されているパソコンでは、管理権限がな いために「FieldExplorer」がインストールできなかったりビデオメモリが十分で なかったために使用することができなかった。
必要環境条件
※ 50枚程度のウェブページ画像を同時に表示することを対象
PCスペック 本体 :PC/AT互換機
CPU:Intel Pentium (R)III 500MHz相当以上 メモリ :128MB以上
ハードディスクドライブ容量 および空き容量
1GB以上
グラフィックスペック 専用チップの場合
TNT2以上 VRAM 16MB以上 解像度:1024×768 16bitカラー
(映画検索、中古車検索は32MB以上必要な場合もありま
す)
統合チップの場合
Intel 845G(デスクトップ用)、855GM(ノートPC用)など
のPentium4用グラフィックス統合型チップセットを使用
していること
OS Windows2000/WindowsXP(管理者権限を有しているこ
と)
回線速度 ADSL 8Mbpsクラス以上 (実測1Mbps以上)
その他 Internet Explorer 6以上がインストールしてあること
※認証を必要とするプロキシには未対応です 予めご了承 ください
表 2.1: 必要環境
推奨環境条件
※ 50枚程度のウェブページ画像を同時に表示することを対象
PCスペック 本体 :PC/AT互換機
CPU:Intel Pentium (R)III 500MHz相当以上 メモリ :128MB以上
ハードディスクドライブ容量 および空き容量
1GB以上
グラフィックスペック 専用チップの場合
GeForce2、RADEON以上 VRAM 32MB以上 解像度:1280×1024 32bitカラー
統合チップの場合
Intel 845G(デスクトップ用)、855GM(ノートPC用)など
のPentium4用グラフィックス統合型チップセットを使用
していること
OS Windows2000/WindowsXP(管理者権限を有しているこ
と)
回線速度 ADSL 8Mbpsクラス以上 (実測1Mbps以上)
その他 Internet Explorer 6以上がインストールしてあること
※認証を必要とするプロキシには未対応です 予めご了承 ください
表 2.2: 推奨環境
2.2 yahoo! vs google
図 2.2: yahoo! vs google
「yahoo!」「google」の2つの検索エンジンを同時に使用し、比較検索を行って いる。この検索結果は2行のドットとして表示され、重複する検索結果同士は線 で接続される。今までリンクを線で接続するものはあったが、2つの検索エンジ ンの検索結果を比較することは非常に興味深い。これによって双方の検索エンジ ンのアルゴリズムの比較を行う事ができる。検索エンジンの比較としては視覚的 にわかりやすく非常に優れているが、検索結果を表しているドットが提示する情 報はURLのみで検索エンジンとしての役割を果たしていない。
第 3 章 視覚化の有効性
本章では,視覚化の有効性について説明する。3.1節においてアクセス数を比較 することによって視覚化の有効性を示すことを説明する。3.2節においてその結果 と評価を示し、考察する。3.3節においてFlashの有効性について述べる。
図 3.1: サイト構成
3.1 アクセス数比較
3.1.1 対象サイト
とその隣にそのトップ記事とは関係なく視覚的に訴えるトップ写真がそこに貼ら れている。これは大手4紙のサイト(アサヒコム、ヨミウリオンライン、NIKKEI
NET、MSN毎日インタラクティブ)全てがそうである。図3.1のようにニュース
サイトにおいては特定の記事を読まれるために見出しによるリンクと写真による リンクの2つの方法でそこへと導いている。両方とも隣同士に並んでおり、サイ トを訪れるとどちらもすぐに選択できるため位置の違いによるアクセス数の違い はない。
3.1.2 アクセス数比較の手法
トップにリンクが貼られているときと貼られていないときのアクセス数の違い を、文字列によって貼られているもの(トップ記事)と写真によって貼られてい るもの(トップ写真)において比較することによって、リンクの貼り方としてど ちらのほうがが効果的であるかを調べた。また記事の内容によってアクセス数が 左右されることも考えられるので、数日に渡りデータを取り有効なデータを収集 した。有効なデータとはリンクが貼られている時間と貼られていない時間に偏り がないことである。また時間によって全体のページビューも変わるため、データ は全体のアクセス数に対するその記事へのアクセス数の割合で示した。時間帯に よってユーザー層の変化が考えられるため、全時間帯においてデータを取った。具 体的には記事では5本、写真では4本のデータを得ることができた。
3.1.3 アクセス数比較結果
「文字列によってリンクが貼られているコンテンツ」と「写真によってリンク されているコンテンツ」のアクセス数の違いを比較した。表3.1は文字列によるリ ンクであるトップ記事へのアクセス数の結果で、表3.2は写真によるリンクである トップ写真へのアクセス数の結果である。データはパーセント表示で小数点第3 位で四捨五入している。太字の部分がトップにリンクが貼られていたときのアク セス数である。表中の●はトップにリンクが貼られていなかった時間のアクセス 数の平均を示し、○はリンクが貼られていた時間のアクセス数の平均を示してい る。△はリンクが貼られていなかった時間のアクセス数の平均に対するリンクが 貼られていた時間のアクセス数の平均の倍率、つまり増加率を示している。この 数値によって記事の内容に左右されないトップへリンクを貼った効果を測ること ができる。この方法ならばそれがこの記事の内容に影響されたものではないこと が言える。例えばトップへリンクが貼られているときにアクセス数が多く、それ がリンクが貼られていないときもアクセス数があまり減少しない場合は記事の内 容がユーザーにとって興味深いものであったためにアクセス数が多かったのであ る。逆にリンクが貼られなくなるとアクセス数が下がるものに関してはトップへ のリンクが効果的であったと言えるのである。
図 3.2: サイト構成
経過時間 記事1 記事2 記事3 記事4 記事5 0:10 4.65 2.03 10.58 7.28 2.68 0:20 5.91 3.68 15.60 6.46 10.74 0:30 5.66 4.84 18.06 6.39 7.97 0:40 4.34 5.30 17.52 5.81 6.39 0:50 5.33 5.56 14.94 5.92 5.53 1:00 4.18 5.07 15.21 4.31 7.46 1:10 5.53 4.55 13.43 1.81 10.97 1:20 4.12 4.96 12.64 1.08 9.36 1:30 4.73 4.06 13.30 1.66 11.86 1:40 3.75 2.93 12.57 2.25 10.51 1:50 4.18 3.14 12.56 1.60 12.95 2:00 5.21 2.67 11.57 1.60 14.54 2:10 3.29 1.16 10.63 1.19 12.72 2:20 1.21 2.24 6.34 2.01 14.25 2:30 1.03 0.69 7.18 1.43 16.57 2:40 0.00 0.56 9.21 1.85 14.27 2:50 1.63 1.24 8.23 1.58 15.09 3:00 1.77 1.31 6.74 2.41 15.96
3:10 0.91 5.86 1.50 5.77
3:20 0.77 9.72 1.22 3.97
3:30 0.93 6.48 4.16
3:40 0.69 3.31 3.97
3:50 0.94 3.31 2.93
4:00 0.60 3.31 3.97
4:10 0.00 2.09 3.73
4:20 0.00 2.73 3.92
4:30 0.58 2.89 3.98
4:40 0.66 1.78
4:50 2.52
5:00 3.76
5:10 2.54
5:20 1.95
5:30 2.29
● 1.94 1.14 4.90 1.66 6.31
○ 4.81 4.49 14.00 6.03 14.54
△ 247.94 393.63 286.01 364.13 230.52
経過時間 写真1 写真2 写真3 写真4
0:10 5.78 0.85 1.47 0.96
0:20 11.38 0.54 1.92 4.63
0:30 8.25 0.96 1.31 8.09
0:40 6.80 1.62 1.03 7.12
0:50 7.27 1.74 0.90 8.46
1:00 7.95 1.04 0.93 10.95 1:10 10.80 6.88 1.03 10.89 1:20 9.00 15.24 0.82 10.03 1:30 11.53 14.01 0.72 9.06 1:40 11.48 13.14 0.86 7.67 1:50 10.04 10.38 1.33 6.75 2:00 9.32 12.27 0.58 7.05 2:10 8.85 12.80 0.99 6.95 2:20 8.68 11.74 3.39 4.29 2:30 8.85 11.96 2.16 4.84 2:40 7.15 11.67 2.96 4.32 2:50 7.58 11.74 2.72 4.88 3:00 7.60 11.61 4.46 0.97 3:10 7.86 11.27 3.19 0.00
3:20 1.58 3.20 1.12
3:30 0.96 3.39 0.00
3:40 0.00 2.85 1.22
3:50 0.83 3.31 0.97
4:00 2.91 1.05
4:10 3.18 0.88
4:20 2.11
4:30 1.37
● 7.90 1.01 1.07 0.78
○ 9.05 11.90 2.94 6.88
△ 114.60 1175.26 275.45 885.35 表 3.2: トップ写真へのアクセス数(単位:%)
3.2 評価・考察
3.2.1 評価
記事平均 写真平均 304.45 612.66
表 3.3: アクセス数比較(単位:%)
表3.3はトップ記事へのリンクが貼られていないときのアクセス数に対するリン クが貼られているときのアクセス数の増加率、トップ写真へのリンクが貼られて いないときのアクセス数に対するリンクが貼られているときのアクセス数の増加 率、それぞれの平均である。トップ写真へのリンクはトップ記事へのリンクより も2倍以上アクセス数の増加率である。これにより写真へのリンクの貼り方が効 果的であることが証明された。つまり検索結果を表示するには文字列を並べるよ りも写真を並べたほうが効果的であることが言える。
3.3 Flash の有効性
本節ではマクロメディア社のFlashPlayer[3]の有効性について述べる。
3.3.1 Flash の有効性
東京大学の嵯峨らの論文[2]によればFlashはマクロメディア社が開発したWeb 用のリッチメディアプラットホームである。この閲覧用ソフトであるFlash Player は無料で配布されておりその普及率は全インターネットユーザーの98%ときわ めて高く、この分野におけるデファクトスタンダードとして、世界的地位を確立 している。Flashを導入することにより、より高い一般性が確保されるだけではな く、これの持つ利点を生かして、視覚的に優れた、よりユーザーフレンドリーな システムが開発可能である。
つまりこのFlashを用いることによって、環境に左右されずにアニメーションを提 供することができる。本システムにおいてFlashを取り入れる利点は、検索結果に おいて3Dのような動きを実現するため、ウェブ3D検索で見られたような動作 環境の問題は解決される。アニメーションとして擬似的な3Dを実現できる。擬 似的ではあっても視覚的には3Dのような動きに見えるのである。
3.3.2 Flash Player のシステム条件
表3.4,3.5,3.6,3.7がFlash Playerに必要なシステム条件である。
プラットフォーム ブラウザ
Windows 98 日本語版 Microsoft Internet Explorer 5.x、Netscape 4.7、Netscape 7.x、Mozilla 1.x、AOL 7、AOL 8、Opera 7.11
Windows 2000 日本語版 Microsoft Internet Explorer 5.x、Netscape 4.7、Netscape 7.x、Mozilla 1.x、CompuServe 7、AOL 7、AOL 8、Opera 7.11
Windows XP 日本語版 Microsoft Internet Explorer 6.0、Netscape 7.x、Mozilla 1.x、CompuServe 7、AOL 7、AOL 8、Opera 7.11 表 3.4: Windows
プラットフォーム ブラウザ
Mac OS 9.x 日本語版 Microsoft Internet Explorer 5.1、Netscape 4.8、Netscape 7.x、Mozilla 1.x、Opera 6
Mac OS X 10.1.x / Mac OS X 10.2.x / Mac OS X 10.3.x 日本語 版
Microsoft Internet Explorer 5.2、Netscape 7.x、Mozilla 1.x、Opera 6、Safari 1.0 (Mac OS X 10.2.x のみ), Safari 1.1 (Mac OS X 10.3.x のみ)
表 3.5: Macintosh
プラットフォーム ブラウザ
RedHat Enterprise Linux WS v.3 Mozilla 1.2 以降、Netscape 7.1 RedHat Linux 9 Mozilla 1.2 以降、Netscape 7.1 Sun Java Desktop System 1.0 Mozilla 1.2 以降、Netscape 7.1
表 3.6: Linux (x86, 32-bit)
プラットフォーム ブラウザ
Solaris 8 Mozilla 1.4
Solaris 9 Mozilla 1.4
Solaris 10 Mozilla 1.4, Mozilla 1.7
Solaris 10 with Java Desktop Sys- tem
Mozilla 1.4, Mozilla 1.7
表 3.7: Solaris (x86 and Sparc)
第 4 章 提案手法と実装
本章では提案手法と実装方法について述べる。4.1節において提案手法について 説明し、4.2節においてどのように実装したかについて述べる。
4.1 提案手法
本システムでは検索結果をサムネイルで表示することを提案する。Googleエン ジンによって検索されたページをサムネイル化して表示することによって、検索 効率を上げることを目的とする。トップの検索ページより検索するキーワードを サーブレットに送る。そしてサーブレット内のプログラムでは、まず検索エンジ ンの取得結果をテキストデータとして保存する。そこから有効であろうURLを抜 き出し、そのURL先のhtmlページのサムネイルを作成し画像化する。最後にそ
の画像をFlashのアクションで作られた3Dオブジェクト上に貼り付け、並べるこ
とによって、3D上で検索結果のページを扱っているかのように表現する。本シ ステムを「SpinSearch」とする。
図 4.1: システム構成
4.1.1 検索アルゴリズム
検索アルゴリズムを独自に考え、独自の検索エンジンを作ることは本研究の意図 するところではない。そのため「SpinSearch」では検索エンジンとしてGoogle[4]
を使う。Googleでは「Google Web APIs」(ベータ版)を公開しており、これを使 用することによって、Googleがこれまでに収集した20億ものWebページのデー タを自分の好きなようにプログラミングして利用することができるからである。利 用は非商用目的に限るとされているが、「SpinSearch」では現在、研究目的である ため、これには該当しない。機能としては、「Search Requests」「Cache Requests」
「Spelling Requests」などがあり、Web上と同等の検索オプションによる検索や、
キャッシュデータへのアクセスなどが可能となっている。GoogleではSOAP/WSDL が利用されており、Java、Visual Studio .NET、Perlなどの環境から利用ができ る。SDKは同社Web上より無料でダウンロードすることができる。実際に利用す るにはライセンスキーが必要で、これは利用者登録をすることで得ることができ る。ただ1ライセンスあたり、1日1,000件のクエリーまでしか使用できな
い、という利用制限がある。ただしユーザーが自分で作成したプログラムから利 用できるのはメリットが大きため、この「Google Web APIs」を使用する。
またGoogleは世界で一番使用されていることが証明されている[5]。これは「On-
eStat.com」(オランダ)の調査によるもので、世界のサーチエンジンの利用シェア
は、1位はGoogleで、シェアは46.5%、全世界でGoogleが広く利用されて いることが分かった。その調査結果を表4.1に示す。これらは2005年1月24 日に正式発表され、2ヶ月に渡って、同社のソフトウェアにより得られた結果で ある。
検索エンジン シェア Google 57.2
Yahoo 21.3
MSN Search 8.6 AOL Search 3.5
表 4.1: サーチエンジンの利用シェア(単位:%)
4.1.2 html ページのサムネイル化
「Google APIs」によって得られたURLの画像化を行う。「Webnail2」[6]を使っ て、各htmlページのサムネイルを作成する。「SpinSearch」は日本語サイトのサ ムネイルが作成でき、処理が早いため、この「Webnail2」を使用している。html ページのサムネイルを作成するソフトウェア(フリーで提供されているもの)は
「Webnail2」、「url2bmp」[7]、「Thumbshots」[8]といったものが挙げられる。
まず「Thumbshots」はカナダの「Smartdevil Inc」社が提供しているソフトウェ アである。これを試したところ、日本語検索ができないことが判明した。4億も のリンクが貼られ、AOLが運営する「Dmoz.org」においても日本語の検索結果は ほぼないに等しく、求めているサイトを表示できない。これは、「Thumbshots」に 登録されているサイトでなければサムネイルを作成することができないからであ る。検索結果に出てきているページが以前に、ユーザーによって登録されている ならば、その時にサムネイルが作成され、それを利用することができるが、初め て訪問したときはサムネイルが作成されていない。「Thumbshots」は海外サイト に限定するならば、CGIも提供され優れているが、現在の環境では日本語サイト も検索される対象になる可能性が多いにあるため、これだけは要求を満たせない。
そして「url2bmp」はフランスの「Pixel Technology」社が開発したソフトウェア
ブレット上でコマンド処理してしまうため、動作環境に関しては問題がない。そし て引数として切り取る範囲と作成するファイルの大きさを指定することによって、
自由にhtmlページを画像化することができる。しかもBMP、PNG、JPEG、Tiff といったファイルとして書き出せる。また切り取る範囲を指定するので、右側に 出てくるスクロールバーを画像の中に取り込まないようにすることもできる。し かし1つの処理で1つのURLのサムネイルしか作成できず、その一度の処理も時 間がかかってしまう。下の表4.2に「Webnail2」との処理時間の比較結果を示す。
サイト Webnail url2bmp Yahoo! 41.61 15.41 asahicom 19.10 14.81 wasedsa 17.48 14.16 個人サイト 26.67 14.14
合計 103.76 55.87
表 4.2: 「Webnail2」・「url2bmp」(単位:sec)
「Webnail」はひらばやしじゅん氏が開発したソフトウェアである。「Webnail2」
は「url2bmp」の機能をほとんど備え、URLをリストアップしたテキストファイ ルを読み込んで処理をするため、多くのサイトを扱う場合に適している。また処 理時間も早いため、サーブレット上で動作させることができる。「Webnail2」は
「SpinSearch」に必要な条件を満たしている。
4.1.3 検索結果ページ
Photoフォルダに保存されたHTMLページのサムネイル画像をWeb用アニメー
ションを使って並べて表示する。画像をテーブルなどに押し込めて、ただ平面的に 並べただけでは効果的ではない。平面的に画像を並べてしまうと、下の方に表示 された画像を見るために、またスクロールしなければならないからである。そこ で円柱の形をした3Dオブジェクトにサムネイルを貼り付けることによって、そ れを解決した。マウスの動きでオブジェクトを操作して、サムネイルのすべてを 見渡すことができる。
具体的には3Dオブジェクトにサムネイル画像を並べて、マウスの動きによって 3Dオブジェクトを上下左右に動かすのである。Googleのランキングのとおりに 上から順番に並べているので、ランキングが上のサイトを探すならばマウスを下 に持っていくことによって探し出すことができる。円柱の3Dオブジェクトを実 際に触っているように感じさせるために、マウスの動きと同じように3Dオブジェ クトが動くのではなく、マウスで3Dオブジェクトを掴んでいるように、マウス
の動きとは反対に3Dオブジェクトが動くようにした。マウスの動きで自分が探 していたページを探し出せたら、そのサムネイル画像をクリックすればそのペー ジに移る。
4.2 実装
4.2.1 GoogleAPI
サーブレット上で「Google Web APIs」を使用するためには、同社のWeb上で 提供されているAPIの中に「googleapi.jar」というJARファイルが含まれており、
JAVA、もしくはサーブレット上で使用するにはこれをプログラムから呼び出して あげるだけでよい。Googleクラスにライセンスキーと検索キーワードをクエリと してセットし、doSearchで検索結果を配列として得る。そしてその検索結果の要 素をデータストリームでテキストファイルへと書き出す。日本語はそのまま検索 キーワードとして渡すことができる。
4.2.2 サムネイル化
「Webnail」はバージョン3としてCGIで提供されているが、当ページが消え てしまっているので、現在使用できない。そのため「Webnail2」をコマンドライ ンより呼び出して処理をさせる。その引数として、前の処理において検索結果の URLをリストアップしたテキストファイルのパスを渡す。同様にサムネイル画像 の大きさ、待機時間、自動処理の有無を引数として渡す。サムネイルの大きさは ピクセル単位で指定する。「Webnail2」をphotoフォルダで実行させることによっ て、そのフォルダ内にサムネイル化したhtmlページの画像が保存される。
4.2.3 検索結果ページ
3.3節で示したように、FlashがWeb用アニメーションとして有効であるため、
「SpinSearch」の検索結果表示にはFlashを使用している。まず3Dオブジェクト として円柱の台紙を作る。そこにサムネイル画像を貼り付けるためのスペースを 作り、そこへサムネイル画像へのリンクを貼ることによって、円柱にサムネイル 画像が貼り付けられる。それと同時にそのURLをリンク先として貼る。また3D オブジェクトを操作するためにマウスの設定をする。3Dオブジェクトを手で動 かしているように表現するために、マウスの動きとは反対に3Dオブジェクトが 動くように設定。サムネイル画像の上にマウスがきたら、そこにリンクがはられ
図 4.2: 検索結果ページ
第 5 章 実験と考察
本章では,実験と考察について説明する。5.1節において実験方法などについて 説明する。5.2節においてその実験結果を示す。最後に5.3節においてそこから導 かれる考察について述べる。
5.1 実験
5.1.1 評価方法
このシステムを評価する方法について述べる。今まで主張してきた、視覚的に 分かりやすいということやユーザーにとって使いやすいということを実証するた めに、それらを評価しなければならない。この場合はユーザビリティを評価する ことが一般的である。ユーザビリティには定量的なテストと定性的なテストの2 つがある。しかし「SpinSearch」とGoogleの検索サイトと比較するだけならば、
定量的にテストすることで、「SpinSearch」を評価することができる。これを製品 として売り出す場合には、当然定性的なユーザビリティの評価もしなければなら ないが、今回は研究目的のため、定量的な評価に限る。定性的に評価するならば
「ヒューリスティック評価」という手法があり、これは被験者を必要としないので 短期間でテストでき、かつ初期のプロトタイプや、場合によっては仕様書レベル でも評価が行えるのである。
5.1.2 実験方法
定量的なテストの方法として、具体的には、一般ユーザー5人に対してテスト を行う。ユーザテストでは、5人の被験者でユーザビリティ問題の85%を発見 できることが明らかになっている[9]。ユーザビリティを向上させるには、何十人 も一度にテストするよりも、5人程度の小規模なユーザテストを繰り返した方が 効果があるのである。ユーザーテストの基本フローは表5.1である。
1 イントロダクション
調査趣旨説明、調査協力同意など 2 事前インタビュー
属性、一般質問など 3 タスク実行観察
被験者にタスク(課題)を提示し、その実行過程を観察 しながら、適宜インタビューを行う。
4 事後インタビュー
感想、良い点、悪い点、再利用意向など 表 5.1: 基本フロー
このときに重要となってくるのが質問事項であるが、事前質問として以下の3 点を挙げる。これにより被験者の属性を得る。
• 年代
• 性別
• インターネット習熟度(年数など)
次にタスク実行観察として計測するものは
• タスク達成にかかった時間
• エラー率
• ユーザの主観的満足度
• その他
– 経路をたどった回数 – 逆戻りした回数
5.2 結果
5.2.1 被験者の属性
表5.2は事前インタビューより得られた被験者の属性である。
A氏
年代 10代 性別 女性 習熟度 1年
B氏
年代 20代 性別 男性 習熟度 4年
C氏
年代 30代 性別 男性 習熟度 18年
D氏
年代 40代 性別 男性 習熟度 10年
E氏
年代 50代 性別 女性 習熟度 3年 表 5.2: 被験者
5.2.2 タスクの実行観察
実験結果は幾何平均で求める。一般的な算術平均ではなく、幾何平均を使うの は大きな数字ひとつで結果が曲がらないようにするためと測定値の中に負の値が 混じっている可能性があるからである。ただし、エラー率の平均には0%という 確率の可能性があるため、算術平均を使う。
タスク達成にかかった時間
以下に挙げたサイトを訪れるまでの時間を計測する。計測開始時は検索ボタン を押した時点で、計測終了時は目的ページが表示された時点である。
• 見慣れていないサイト→村岡研究室のサイト(被験者は村岡研究室とは無 関係)
• 検索サイト→Yahoo!JAPAN
• ニュースサイト→YomiuriOnline
• ユーザーの求めている情報を得る。→被験者にインタビュー
エラー率
経路をたどった回数(クリック)と逆戻りした回数から導く。エラー率は次の 式から求める。
エラー率=逆戻りした回数÷経路をたどった回数
表5.3、5.4は実際の実験データ(平均)である。
SpinSearch A氏 B氏 C氏 D氏 E氏
タスク達成にかかった時間(sec) 178.65 91.86 80.29 85.44 132.46 エラー率(%) 18 12 13 13 21 ユーザの主観的満足度(%) 80 60 50 75 80
表 5.3: タスクの実行(SpinSearch)
Google A氏 B氏 C氏 D氏 E氏
タスク達成にかかった時間(sec) 375.43 198.85 93.75 173.59 258.54 エラー率(%) 51 32 27 33 51 ユーザの主観的満足度(%) 45 30 80 60 50
表 5.4: タスクの実行(Google)
表5.5がそれぞれの平均を取った全体的な平均値である。インターネット習熟度 が高い人はインターネット上で情報を検索することに慣れているので、それを重 みとして計算している。
SpinSearch Google タスク達成にかかった時間(sec) 525.79 967.58 エラー率 0.73 1.82 ユーザの主観的満足度 3.30 2.45
表 5.5: タスクの実行の全体平均
5.3 考察
タスク達成にかかった時間、エラー率、ユーザの主観的満足度、どれにおいて も「SpinSearch」が優位であることが分かった。この実験結果より、「SpinSearch」
がGoogleの検索結果ページよりもユーザビリティが高いことが証明された。つ
まり「SpinSearch」の有効性を示すことができた。ただし、Yahoo!JAPANのよう
にGoogleランキングで上位に来て、サイトサマリだけを見てページが想像つく
ものに関しては、Googleの方が処理時間が早い。逆にサイトサマリだけでは予想 しがたいサイトに対しては「SpinSearch」の方がステップ数が少ない分早かった。
「SpinSearch」の処理時間、特にサムネイル画像を作成する処理時間を早くするこ とが課題となった。
第 6 章 結論
本章では,6.1節において本論分についての結論を述べ、6.2節において今後の 課題について述べる。
6.1 結論
本論文では、Web検索結果の視覚化の手法を提案した。今までの文字からサイ ト情報を得る検索結果の表現方法ではなく、htmlページのサムネイル画像を作成 することによって、視覚的にサイト情報を得る方法である。まずリンク先がどのよ うなサイトで、どのような情報を提供しているのか推測できるかについて文字列 のリンクと画像のリンクを比較し、画像のリンクが優位であることが分かり、検 索結果ページの視覚化の有効性を示した。検索サイトの結果表示は「イメージを 湧かせ易いサムネイル表示」という発想のもと、本システム「SpinSearch」を構築 した。そしてGoogleの検索結果ページと「SpinSearch」の検索結果ページを比較 することによって、「SpinSearch」の検索結果の表現の優位性を確かめた。検索結 果をサイトサマリのように文字情報で表現するのではなく、htmlページのサムネ イル画像で表現する方が有効的であることが確認された。
第2章では、従来の関連研究を紹介した。特に「3Dウェブ検索」は同じよう な研究をしていたので、特に詳しく述べ、その問題点について説明した。
第3章では、視覚化の有効性を示した。ここでは「文字列によるリンク」と「写 真によるリンク」を比較することによって、検索結果ページを視覚化することの 意義を見出した。また問題点を解決するために「Flash」を使うことを提案した。
第4章では、提案する手法について述べた。また「SpinSearch」のシステムにつ いて具体的に説明し、その実装方法について解説した。
第5章では、実際に「SpinSearch」の実験を行い、Googleの検索結果ページと
「SpinSearch」の検索結果ページを比較し、提案する手法が有効であることを確認 した。
6.2 今後の課題
1. 本研究は様々なシステムやソフトウェアを組み合わせた応用研究ではあるが、
独自のアルゴリズムを導き出し、より早く処理できるサムネイル画像作成や 検索エンジンなど、精度の高い検索システムの構築する。
2. 現在のところ、日本語サイトに適しているものを作ったが、英語での検索は 当然のことながら、ハングル語や中国語が学校教育で学ばれてる現実を踏ま え、そういった言語、特にアジア圏の言語での検索も可能にする。
3. 「SpinSearch」では、サムネイル画像作成に処理時間がかかるため、これを データベースに保存したり、CGIで使用したりできるよう、Webで公開する ために処理速度を速める。
参考文献
(1) gooラボ、3Dウェブ検索のページ: ”http://goo.ntt-infolead.net/”
(2) 嵯峨 隆之,岡本 孝司: ”Web3D協調システムにおけるFlashの導入”,情報 可視化学会, vol.24, No.1, 2004/074
(3) Macromedia: ”http://www.macromedia.com/”
(4) Google: ”http://www.google.com/”
(5) Onestat Research: ”http://www.onestat.com/”
(6) Webnail2: ”http://www.hirax.net/”
(7) url2bmp: ”http://www.pixel-technology.com/freeware/url2bmp/english/index.html”
(8) Thumbshots: ”http://www.thumbshots.org/”
(9) Nielsen, Jakob, and Landauer, Thomas K.: ”A mathematical model of the finding of usability problems,” Proceedings of ACM INTERCHI’93 Confer- ence (Amsterdam, The Netherlands, 24-29 April 1993), pp. 206-213.
謝辞
本研究の機会及び素晴らしい実験環境を与えて下さり、貴重な時間を割いて 研究の方向性を御指導頂きました村岡 洋一 教授に心から感謝致します。
貴重な御意見、様々な御提案を頂いた村岡研究室の皆様、並びにOBの方々に 御礼申し上げます。
また、村岡研究室の皆様、学部4年の皆様に御礼申し上げます。
さらに、研究の方向性をはじめ、研究の細部に至るまで、数々の有意義な御意 見、御助言を賜わりました朝日新聞社 映像技術セクション 竹原 大祐氏に深く感 謝致します。
最後に、私をここまで育てて下さった家族に深く感謝します。
平成17年2月2日