修 士 論 文 概 要 書
CD 2008 年 2 月提出 学籍番号 3606U065-8 専攻名(専門
分野)
情報・ネットワーク専
攻 氏 名 童 芳 指 導
山名 早人 印 研究指導名
並列・分散アーキテクチャ研究
教 員
研 究
題 目 日本語を含む Web サイトの TLD 分布・リンク及び地理的な位置間の関連性解析
1. はじめに
近年,Webサーバから発信される情報量が膨大になり,
2006年11月の時点で世界中に537億のページが存在すると いう調査結果が報告されている.このような大量のWebペー ジから有用な知識を抽出するために,リンク解析を始めとす るWebマイニングに関する研究が幅広く行われている [1][2][3][4][5][6][7].Webマイニング手法を適用するにあた り,ドメインごとのページ数,言語分布,Webページ間のリ ンク傾向等,Webに関する統計情報を把握することができれ ば,さらに有益なマイニング結果を得ることができると考え られる.
従来のWeb統計情報に関する研究・調査では,世界中の Webページを対象に行うものが多い.そして,これらの統計 調査においては,主にWebページのTLD分布及び言語分布 の観点で,Webページの全体像を把握していた.ところが、
全Webページの約13%を占める日本語Webページに対して より詳しい特徴を抽出するような研究が実施されていない,
2000年7月に,ISCは約9千万のホストを対象に調査を行っ た結果では,jpドメインに属するホスト数が全体の3.67%し か占めていなかった.また,2001年に池内ら[9]がWebペー ジのドメイン分布状況について行った調査では,jpドメイン に属するWebページ数は,全体の約4%を占めていた.つま り,ホスト数の場合でもページ数の場合でも,jpドメインは いずれも全体の3~4%の量を占めていた.
一方,加藤真らは2006年に世界中120億ページの内の30 億ページに対して,より全面的な統計調査を行った.その統 計結果では,jpドメイン数が,comに続いて2位になること を示している.
さらに,2008年1月に平手ら[6]は世界中107億のWebペ ージについて最新の調査結果を示した.そこで,jpドメイン はホスト数に比べて,ページ数のほうが比率的に多い傾向が 示されている.他には,Webページの言語の分布に関して,
日本語Webページは全Webページの13%を占め,英語ペー ジ以降の2位となっている.これは2001年2月池内らによる 結果の2.5倍となる.
以上の既存研究の結果から,日本語WebページのWeb全 体における割合が,日々増加傾向にあることを示している.
したがって,日本語Webの状況を詳しく把握する必要がある.
しかし,従来の調査では,TLDと言語の分布だけで調査を行 っているため,日本語Webページの詳細な特徴を特定するの は,不十分であると考える.そのため,本研究では,日本語 Webページに対する多方面からの統計調査を目指した.
一方,対象地域情報を提供するなどの目的で,Webページ を地理位置と関係付けるような研究が盛んである.
近藤浩之ら[9]の研究では,ページの地理的なアドレス情報に 基づいて,Webページの地域的な支持度[9]を評価する手法が 提案されている.さらに,リンクを地域的に視覚化すること によって,直観的にWebページ間の地理上のリンク関係を表 現して,その支持度[9]を評価できる.
以上を踏まえ,本研究ではこれらの研究動向を踏まえて,
日本語Webページに注目し,Webページを発信するサーバの 地理的な位置に着目して,従来の分布統計項目に加えてWeb ページの地理位置の解析を行う.
具体的には,2006年9月から2007年9月までe-Societyプ
ロジェクト[9]によって収集された19億の日本語Webページ を中心とするページ群の中の3億Webページを解析対象とし た.それに対して,2007年にIANAによって公開された標準 となる272ドメインの分布状況,言語内の分布状況,及びそ れらの間のリンク状況について調べた.次に,Webページの URLをIPアドレスに変換することによって,ページを発信 するサーバの地理位置を特定し,その分布状況を調べた.
2. 関連研究
2.1 WebページのTLD・言語分布に関する統計
2000年7月にISCがインターネット上のホスト分布状況に ついて統計調査を行った.合計93,047,785個のホストのTLD 分布の調査結果を示す.この結果によると,1位のcomに属 するホスト数は全体の 35.14%を占め,32,696,253ホストで あった.2位は全体の25.18%を占めるnetに属するホストで,
ホスト数は23,432,135であった.jpドメインの3,413,281ホ ストでわずか全体の3.67%と報告されている.加藤真らは,
2004年1月から2006年2月までで世界中から収集した120 億ページの内から30億のWebページに対して,Webリンク 構造を中心に解析を行った.jpドメインのホスト数割合の増 加である.加藤真らの統計結果では,jpドメインのホスト数 は6年前ISCの結果より比率的に倍に増え,orgとitを超え 2位となった.2008年1月に,平手らは2004年1月から2006 年7月までで世界中から収集した144億ページの内から107 億のWebページに対して,網羅性のよい最新の調査結果を示 した.jpドメインの場合は,ホスト分布率の1.71%に比べ,
ページ分布率が5.08%であって,ページ数の方が大きい値と なった.日本語Webページは全Webページの13%を占め,
英語ページ以降の2位となっている.これは2001年2月池 内らによる結果の2.5倍となる.
2.2 WebページのIPアドレスで地理位置を特定
2007年近藤らの研究では,URLをIPアドレスに変換し,
Webページが属するホストの地理的な位置を特定している.
近藤らは予備実験でIPアドレスをランダムに100万件を生 成して,ホストの地理位置の分布状況を調べた.その結果,
アメリカが1位で約58.17%,日本が約2位で6.06%である 結果を報告している.
2.3 関連研究のまとめ
2.1では,2000年7月から2008年1月まで世界中のWeb ページを対象に行われた従来の各種統計調査の結果を示し た.そこから,Web全体の傾向を把握できる一方,近年日本 語Webページの全体に占める割合が増加してきていること が確認できる.また,2.2ではホストの地域を特定することに より,Webページの地理的な分布・リンク状況を求め,ユー ザのための情報提供を目指す研究例を紹介した.ここで,Web ページの地域を分析することは各解析研究における有効性と 有益性も示した.
そこで,本研究では,以上に示す各研究動向を踏まえて,
各種の解析研究のベースにもなる日本語Webページに対し,
従来の統計項目に加え地域の分布・リンク解析も行うことに よって,より多視点から日本語Webページの特徴抽出を目指
3 解析方法 3.1 解析対象データセット
本研究では,2006年9月から2007年9月までの1年間で e-Societyプロジェクト[9]によって収集された1,889,151,853 ページ内の303,174,638ページを解析対象とした.e-Society プロジェクトでは,2006年9月から日本語ページが1つでも 含まれているホストを対象とし,1か月に1回の頻度で更新さ れたWebページの収集を行っている.そして,2006年9月 の 時 点 で 収 集 さ れ た ベ ー ス と な る Web ペ ー ジ 数 は 303,174,638 ページであって,総リンク数は 15,281,525,988 リンクである.
3.2 解析方法
Webの傾向調査のために,任意のWebページに対して次の 3つの情報を抽出し解析の対象とした.
z TLD情報
IANA[10]が2007年に公開した世界の標準となる272個 TLD名によって,収集されたページが属するTLDの判定を 行った.なお,一部ドメイン名が割り当てられていないIPア ドレスや正規表現として正しく判断できないURLに対して は,解析対象から除外した.
z 言語情報
ベイシスの言語判定システムを利用して,Webページの書 かれた言語の判定を行った.判定できる言語は,英語,日本 語,中国語,フランス語,韓国語,スペイン語,ドイツ語,
イタリア語,ロシア語,ポルトガル語,アラビア語の11言語 である.また,画像,動画等は,バイナリとして判別される.
以上の12言語として判別できなかった言語は,「その他」と して分類される.
z 国名・市名・経度・緯度情報
Webページの地理的位置を特定するために,まずWebペー ジのURLからそれを配信するWebサーバのIPアドレスの特 定を行った.次に,IP2Location™社のIP-経度・緯度-国 名・市名変換テーブル[12]を用いて,IPアドレスを国名・市 名・経度・緯度情報へ変換して,地理位置の特定に必要な情 報を得た.
4 解析結果 4.1 言語分布
解析対象となるWebページ群は,日本語Webページを1ペ ージ以上含むホストである.このため,全体の言語分布が日 本語Webページに偏っている傾向が確認できる.また,日本 語Webページが全体の半分弱を占めている他に,次に多い英 語ページが31.77%で約全体の1/3を,中国語ページと“判定 できない言語”ページがそれぞれ10%未満の量で全体の一部 を占めているとわかった.
4.2 言語別のTLD分布
jpドメインに属する日本語Webページが63.87%の比率で全 体半分以上の量を占めている.次に,gTLD(generic Top Level Domain)であるcomに属するページが20.54%の比率で2位,
同様にgTLDであるnetに属するページが9.29%の比率で3 位をそれぞれ占めている.これら以外のドメインに属するペ ージの割合はそれぞれ3%未満となった.
以上より,近年日本語Webページはインターネット上でほぼ 2/3が日本の地域に属して,1/3弱がインターナショナルであ って,残り約6%のページが日本以外の地域に属すると判断で きた.
4.3 リンク元とリンク先のTLD分布
pからjpまでのリンク数が全体の23.38%を占める比率で2 位となっている.一方,異なるTLD間のリンクでもjp, com, netが上位に占める傾向が見えた.この偏りは4.1と同様に選 んだ収集対象ホストに原因があると考える.以上をまとめる と,日本地域から発信されたWebページが同じ日本地域へリ ンクを張っている場合が多いという結論を得た.また,今回 収集されたデータセットについて,jp以外のドメインが示す
地域から発信されたWebページからも同じような傾向が見 えた.
4.4 日本語Webページを発信するホストの地理位置分布 日本語Webページを発信するホストが約3/4が日本国内に,
約1/10がアメリカに分布している.この二つの地域に分布し ているホストを合わせて全体の90%弱を示している.また,
アジアに分布するホスト数が全体の80%以上を占めている.
他には,明確に示されていない地域(nowhere)に分布する ホスト数が全体の3.66%を占めている.
5 おわりに
TLDで示す約2/3の日本語Webページが日本国内に属して,
1/3弱がインターナショナルであって,残り約6%のページが 日本以外の地域に属することに対して,ホストの地理位置で 示す分布状況が約3/4が日本国内に存在して,約1/10がアメ リカに存在することがわかった.また,TLDで示すリンク状 況によって,日本に属するWebページが90%以上同じく日 本に属するページとリンクしていることがわかった.
今後の課題として,地理位置解析においてより高い精度でIP アドレスの特定を行う必要があると考える.また,より詳し いリンク状況を解析するために,ホストの間の地理位置リン ク特徴を抽出する必要があると考える.
参考文献
[1] Y. Hirate, S. Kato and H. Yamana, “Web Structure in 2005”. In Proc. of the WAW2006, 2006.
[2] S. Lawrence, and C. L. Giles, “Searching the World Wide Web”, Science, Vol.280, No.5360, pp.98-100, 1998.
[3] S. Lawrence, and C. L. Giles, “Accessibility of Information on the Web”, Nature, Bol.400, pp.107-109, 1999.
[4] Sepandar D. Kamvar, Taher H. Haveliwala, C.
Manning, and G. Golub, “Exploiting the block structure of the web for computing PageRank”, Technical Report, Stanford University, 2003.
[5] G.Flake, S.Lawrence and C. Giles, “Efficient identification of Web communities”, In Proc. of 6th ACM SIGKDD Conf., 2000.
[6] P.K. Reddy and M. Kitsuregawa, “Anapproach to relate the Web communities through bipartite graphs”, In Proc. of 2nd Int. Conf. on Web Information Systems Engineering, 2001.
[7] 村田剛志,“参照の共起性に基づくWebコミュニティ の発見”,人工知能学会論文誌,Vol.16, No.3, 2001.
[8] Internet Software Consortium , http://www.isc.org/
[9] IKEUCHI Home Page,
http://www.daito.ac.jp/~ikeuchi/webmetrics/webmetri cs_1.html