第 4 章 実験
4.5 IP アドレス毎のカウント数測定の追加実験
第4.3節にて結果を示した本手法において、アクセスを頻繁に行っているユーザはDNSキャッ シュが切れるとすぐ次のアクセスを行うため、横軸が0に近い正の位置にカウントされること になる。一方でアクセスの頻度が低い場合、DNSキャッシュが切れてから時間が空いて次の アクセスを行うため、横軸の0の位置から離れた正の位置にカウントされる。またユーザの割
第 4 章 実験
合は、高頻度アクセスのユーザが少数存在し低頻度アクセスのユーザが多数存在すると仮定す る。するとグラフの立ち上がり付近では高頻度アクセスのユーザが何度もカウントされ、少数 ユーザのカウントが全体に占める割合が高くなり、逆にグラフのテールの部分では低頻度アク セスのユーザが多く、この割合が下がると予想できる。これを検証するために、グラフの立ち 上がりの付近と、指数関数的な減衰が収まったテールの部分についてそれぞれIPアドレス毎 のカウント数を測定する実験を行う。この追加実験には第4.3節で扱ったものと同じデータ、
www.facebook.comのある24時間分を用いる。取得するデータはデータAとデータBの2種 類を用意する。データAは立ち上がりの付近、横軸が0の位置から120秒間のものとし、デー タBはテールの部分、横軸が1000の位置から900秒間のものとする。
以下の図4.26はデータAとデータBそれぞれのカウント数上位100ユーザの、カウント数全 体に対する割合を表したものである。どちらのデータもユニークユーザ数は1600程度である。
図 4.26: カウント数全体に対する上位100ユーザの割合
データBに比べデータAは、カウント数全体に対する上位のユーザの割合が高く推移して いることがわかる。特に上位の数ユーザについては顕著で、データAのカウント数が最も多 かったユーザは全体の2.78%を一人で占めていた。そして100位付近ではどちらのデータも全 体に対する割合が同程度になっている。次に測定結果をカウント数の多い順に並べ、これを累 積度数分布で表したグラフを図4.27に示す。横軸はユニークなIPアドレスの数、すなわちユ
第 4 章 実験
ニークユーザ数であり、縦軸は正規化したカウント数の累積度数である。
図 4.27: カウントの累積度数分布
図4.26で示した結果の通り、データAはデータBに比べ、カウント数上位の少数ユーザが全 体に対して占める割合が高いことがわかる。このことから本節の始めに予想した通り、第4.3 節にて結果を示した本手法において、グラフのテールの部分よりもDNSキャッシュが切れた 直後の立ち上がりの付近に高頻度アクセスのユーザは多いという傾向がわかる。