大規模閲覧記録に基づく利用者の Web 検索行動と検索式の調査
A Study on Web Search Activities and Queries Based on Large
Scale Users Access Logs
中渡瀬秀一
1∗大山敬三
1
NAKAWATASE Hidekazu
1OYAMA Keizo
11
国立情報学研究所
1
National Institute of Informatics
Abstract: 本研究では、多数の利用者から収集した大規模なWeb 閲覧記録を用いて、Web 検索行 動を調査・分析する。対象とするのは基本的な検索方法であるキーワードやブール検索式を用いた検 索行動である。この調査の結果、ブール検索式を用いるユーザはごく少数であること、検索利用回数 の多い利用者ほど複雑な検索式を多く使用するが検索結果の適合率が顕著に向上しているわけでは ないなどの結果が得られた。
1 はじめに
Web 検索を行う際に利用者は検索意図に適したキー ワードを入力しなければならない。この時の負担を軽 減するために、代表的な検索エンジンではキーワード 推薦サービスを提供している
1
。このようなシステムで 用いられる手法の中でも検索エンジンのクエリログに 蓄積されたキーワードをもとにキーワードを推薦する 手法[1, 2] やクリックスルーログを用いて閲覧ページの コンテンツから推薦キーワードを抽出する手法[3] は他 の利用者による使用実績を社会的なフィルタリングと して利用するものである。そのためこれらのログの中 から検索スキルの高い利用者の記録部分が特定できれ ば上記のような手法にはさらに高い効果が期待される。
本研究はこのような背景を踏まえて、クエリログや クリックスルーログを含むWeb 閲覧記録から検索スキ ルの高い利用者を発見する方法を考える。そのために まず現在、Web 利用者が検索時に行っている操作に関 する量的な分布を調べた。具体的には今日の基本的な Web 検索方法であるキーワード検索とブール検索式に よる検索を対象にし、その利用実態や検索効果を多数 のWeb 利用者から収集した大規模閲覧記録を用いて調 査した。以下、第2 節で調査内容について述べる。第 3 節では調査結果を報告し、第4 節で考察を行う。最後 に第5 節で本稿をまとめる。
∗連絡先:国立情報学研究所
〒 101-8430東京都千代田区一ツ橋 2-1-2
1
グーグルサジェストや Yahoo!のキーワード入力補助など
2 調査内容
本調査で使用した大規模閲覧記録と各調査項目につ いて説明する。
2.1 大規模閲覧記録
本調査で用いた大規模閲覧記録データは、家庭でWeb を閲覧している利用者(24498 人)の閲覧状況をその PC 内部で記録したもの2である。記録期間は2010 年 6 月 1 日∼30 日で、この間の全利用者による総閲覧回 数は81,168,263 回である。記録データの1レコードは Web クライアントからの HTTP リクエストに対応して おり、各レコード内には取得時刻、利用者ID、URL、 リファラが含まれる。
2.2 調査項目
本調査ではWeb 検索として、大規模閲覧記録に含ま れるGoogle の Web ページ検索に関する記録を対象に、 検索回数、クエリ種別、クエリ長、クエリ展開度や検 索結果のクリック率などの項目を調査した。各項目に ついて以下に説明する。
2.2.1 検索利用回数
調査対象期間である2010 年 6 月の月間検索利用回数 を各利用者ごとに集計したものである。
2Nielsen Online NetViewローデータ
2.2.2 クエリ種別
Google の場合、複数のキーワードを入力するとそれ らのキーワードはAND 演算子で結合したブール検索式 として解釈される。しかしOR 演算子は明示的に「|」 を用いて利用者が表現しなければならない(表1)。今 回はキーワードだけで構成される検索式(AND 演算子 のみが含まれる)とブール検索式(AND 演算子と OR 演算子を含む)の2 種類に分類し、それぞれの使用状 況を調べた
3
。
表1: キーワード検索とブール検索式 入力例 その論理式 キーワード検索 A B A AND B
ブール検索式 A(B|C) A AND(B OR C)
2.2.3 クエリ長
利用者 x のキーワード検索時におけるクエリの長さ、 つまりその中に含まれるキーワードの個数について(月 間)平均使用個数 Nxと最大使用個数 Mxを算出した。 この Nxは次式により計算した。
Nx=xの全キーワード検索に含まれるキーワードの総和 キーワード検索回数
(1)
2.2.4 クエリキーワード展開度
検索結果を絞り込む場合には既存の検索式A に新規 キーワードb を追加する。このとき利用者は適切な追 加キーワードを見つけるために試行錯誤をする。実際の 検索では以下のようにb を何度か変更することが多い。
A ⇒ Ab1⇒ Ab2⇒ Ab3. . .
このような追加キーワード bi の展開の度合いをクエ リキーワード展開度として算出した。具体的にはキー ワード w1で始まるキーワード式群 X1のクエリ展開 度 V(X1) を全ての X1中の式の2 番目のキーワードの 異なり数として計算した。さらに各利用者毎に全ての V(Xi) の平均値と最大値を計算した。この平均値によっ て利用者が第1 キーワードによる検索結果を平均何種 類のキーワードで再度絞り込み検索しているかが示さ れる。
3site:演算子や link:演算子などを含む検索式は除外している。
2.2.5 クリック率
クリック率C は検索結果に含まれる文書がクリック される割合である。検索結果に含まれる適合文書が多 いほどクリック率も高いと考えられるので検索の成否 に連動する指標である。ここでは利用者毎に(月間)平 均クリック率C を次式から算出した。この値は検索結 果1 画面につき平均何件の文書がクリックされたかを 表している。
C=検索結果全体でクリックされた文書の総数 キーワード検索回数
(2)
3 調査結果
本節では、各調査項目の結果
4
について説明する。
3.1 検索利用回数
利用者の総数24,498 人中、調査期間内に Google で Web 検索を行った利用者は 11,848 人(利用者全体の約 48 %)であった。利用者の総閲覧数は 81,168,263 回で ある。そのうちWeb 検索の回数は 1,005,902 回(総閲 覧回数の約1.24 %)である。各利用者の月間 Web 検 索利用回数の分布と基本統計を図1 と表 2 に示す。こ の図で縦軸は検索利用回数を表し、横軸には利用者を 検索利用回数で降順にソートして配置している(図2 以下も同様である)。
図1: 検索利用回数
4Nielsen Online NetViewローデータをもとに著者らが算出し た。
表2: 月間検索利用回数の基本統計 平均 84.90 1 日当たり回数 2.83
中央値 19
最頻値 1
標準偏差 201 最大 4,212
最小 1
合計 1,005,902
3.2 クエリ種別
検索を行った利用者11848 人のうち、対象期間中に 1 回でもブール検索式を用いたことのある利用者は 53 人であった。これは全体の約0.45 %である。この 53 人 による利用回数の合計は88 回であった。またこのとき の利用者の分布は検索回数と高い相関を示すものでは なかった。
3.3 クエリ長
各利用者が使用した検索式の長さ(含まれるキーワー ド数)の最大値と平均値の分布を図2 と図 3 に示す。棒 線が測定値であるが、1 点でも外れ値があるとその部 分が誇張されて表示されるため、各点での100 区間移 動平均を折れ線で表示している。これ以後のグラフで も同様に表示する。
図 2: 最大クエリ長
図3: 平均クエリ長
3.4 クエリキーワード展開度
各利用者が使用した検索式のクエリキーワード展開 度の最大値と平均値の分布を図4 と図 5 に示す。
3.5 クリック率
各利用者の検索結果1ページ当たり平均クリック率 の分布を図6 に示す。
4 考察と分析
4.1 検索利用回数
本調査と近い時期に自宅でのWeb 検索利用回数を調 べたものに2010 年 4 月に実施されたインターネット検 索の動向調査のアンケート
5
がある。これによると自宅 での1 日あたりインターネット検索回数平均は 5.5 回 であった(有効回答数:6,600 サンプル)。一方、我々 の調査では約2.83 回である(11848 人)。前者はイン ターネットによるリサーチ
6
なのでその母集団はWeb の利用回数が多い層に偏る傾向がある。後者の場合に はそれより幅広い層が母集団となっているので平均回 数は下がっているものと考えられる。
この利用回数分布の特徴は図1 から分かるように中 位にある利用者では検索回数が直線的に変化している
5
「検索の今、未来に関する調査」
http : //googlejapan.blogspot.com/2010/04/blogpost06.html
6
回答者は Web を使用してアンケートに回答する。
図4: クエリキーワード展開度(最大)
ことである。グラフでは利用回数を対数表示している ので、実際には指数的な変化をしていることになる。つ まり利用回数は加速的に増加や減少する。これは利用 者のある特性が起こすことなのか、それとも同じ利用 者でも利用回数が増減する場合にはこのような分布に 従うのか今後、更に調査する予定である。
4.2 クエリ種別
クエリ種別の調査結果で特徴的なことは、情報検索 において基本的な検索方法であるとされるブール検索 式による検索が実際にはほとんど用いられていないと いうことである。したがってクエリの種別が利用者の 検索スキルを識別するための特徴にはならないことを この調査結果は示している。
4.3 クエリ長
クエリ長については個人差が大きいものの、その移 動平均が示すように検索利用回数の多い利用者ほど長 くなる傾向が見られる(図2、図 3)。平均クエリ長に ついてはサンプル数の少ない低利用回数層では外れ値 に影響されて平均値も高いが、高利用回数層では概ね5 語以内に収まっている(図3)。外れ値となるクエリ長 の最大値については数十語を超えるものも散見された。 そこで該当するクエリを調べたところ、これらは主に 英語の文章の一節をそのまま入力したクエリであった。 日本語に関しても文章をそのまま入力している場合が
図 5: クエリキーワード展開度(平均)
見られ、この場合は分かち書きされないので1 語とカ ウントされている。
利用回数とクエリ長の関係については繰り返し検索 式を変更しながら検索する過程で検索回数が増加し、 またそれに伴い絞込みキーワードの量が増えるものと 考えられる。また別の見方としては、恒常的に検索利 用回数の多い利用者が複雑な検索式を作成するスキル を身につけていったということも考えられる。両者の 検証のために今後、更に調査する予定である。
4.4 クエリキーワード展開度
クエリのキーワード展開に関しては、展開が増加す ると検索回数もそれに応じて増加する。このため利用 者当たりの検索要求数が一定ならば展開度の高い利用 者の検索回数の方が多い。そのため検索回数と展開度 との間には正の相関がある。図4、図 5 にもその様子 が示されている。
4.5 クリック率
クリック率については検索式構築スキルの高い利用 者が適合性の高い検索結果を得ているとすれば、検索 経験の長いと考えられる高検索回数の利用者ほどそれ が高いという面(A) と検索回数(ここでは検索結果の 表示回数)が多いほど、表示順位の低い検索結果まで チェックしているのでそれらの平均的クリック率は低 下するという相反する面(B) が考えられる。測定結果
(図6)によるとクリック率の分散は低検索回数層の方
図6: クリック率
が高いものの、全体的なクリック率の変動は少なく安 定しているという結果が得られた。グラフの各点での クリック率は各利用者の検索回数による平均となって おり、低検索回数層の方が統計サンプルが少ないため 分散が大きくなると考えられる。
クエリ長とクエリキーワード展開度の調査結果によ れば、高検索回数層では確かに用いるキーワード数も 多く、キーワードを展開して何度も検索していること が判明した。しかし同時にその検索結果の平均的クリッ ク率が低検索回数層より向上していないので検索スキ ルを単に検索利用回数や利用するクエリの複雑さから 利用者個人の属性として判断することは困難であろう と考えられる。
これらの結果を踏まえて、今後は検索スキルに関す るクエリの回数や複雑さ以外の要因や個人の検索スキ ルとは独立のクエリ毎の複雑さとクリック率との関連 について調査を進める予定である。
5 むすび
本稿ではWeb 検索利用者の行動について、検索操作 に関わる検索回数、クエリサイズ(長さ、展開度)な ど量的側面から調査した結果について報告した。この 調査によって検索利用者の検索回数分布については指 数的変化に従っていることが分かった。検索式の利用 についてはブール検索式はほとんど用いられず、キー ワード検索が大半であることが判明した。キーワード 検索式における複雑度については、検索利用回数の多 い利用者ほど多くのキーワードで検索式を構築するこ とやキーワード展開の幅も広いことが示された。しか
しそれにもかかわらず平均的クリック率は全利用者で 大きな変化はなく安定していることが観察された。
今後は利用者個人の検索スキルに関して検索回数や 複雑さ以外の要因の調査や個別のクエリ単位で検索式 の特徴とクリック率との関連について調査・分析を行 う予定である。
謝辞
本研究は,文部科学省科研費補助金基盤A(22240007) の助成を受けて行われたものである。
参考文献
[1] 原田昌紀ほか: WWW 検索システムにおける不特 定多数の操作履歴の活用, 情報処理学会研究報告 システムソフトウェアとオペレーティング・シス テム, Vol. 97, No. 20, pp. 61–66 (1997)
[2] 織田充ほか: 検索ログを用いたキーワード推薦エー ジェント, 電子情報通信学会技術研究報告 AI 人工知 能と知識処理, Vol. 98, No. 437, pp. 33–40 (1998) [3] 堀幸雄ほか: ユーザの Web 閲覧履歴を用いた検 索支援システム, 情報知識学会誌, Vol. 17, No. 2, pp. 95–100 (2007)