2007 年度 修士論文
日本語を含む Web サイトの TLD 分布・リンク及び 地理的な位置間の関連性解析
早稲田大学大学院理工学研究科 情報・ネットワーク専攻
童 芳
学籍番号: 3606U065-8
提出日: 2008 年 2 月 4 日
指導: 山名早人 教授
概 要
近年,Webサーバから発信される情報量が膨大になり,2006年11月の時点で世界中に537 億のページが存在すると予測されている.このような大量のWebページから有用な知識を抽出す るために,リンク解析を始めとするWebマイニングに関する研究が幅広く行われている.Web マイニング手法を適用するにあたり,ドメインごとのページ数,言語分布,Webページ間のリン ク傾向等,Webに関する統計情報を把握することができれば,さらに有益なマイニング結果を得 ることができる.したがって,最新のWebデータを対象とした大規模なWebの統計情報を示す ことは重要である.これまでのWeb統計に関する研究によれば,全世界のWebを対象とした従 来の統計調査より,TLDにおけるcomとnetの圧倒的なページ数分布と,同一言語ページ間の 強連結なページ群の巨大化現象などが見られている.しかし,世界中の全Webページ数のほぼ
13%を占める日本語Webページに対して,より詳しい特徴を抽出するような統計調査は実施され
ていない.また,Webページを発信するサーバの地理的な場所を特定できれば,より直観的にペ ージ分布に関する情報を手に入れることができると考えられる.そのため本論文では,地理位置 に関する調査を加え,近年の日本語Webページを中心とするページ群に着目し統計調査を行った.
具体的には,2006年9月から2007年9月までの1年にかけて収集された日本語Webページを 中心とする19億のWebページ中の3億ページに対して,次の様な解析を行った.まず,世界中 の標準となる272個のTLDの使用状況として,(1)ページの書かれた言語ごとのTLD分布状況 と,(2)TLD間のリンク関係を調査した.また,各ホストの地理的な場所をIPアドレスによって 特定し,(3)各TLDに属するホストの地理的な分布状況について調査を行った.その結果,近年 日本語Webページ群は,ネット上で約2/3が日本の国内に属して,約1/3がインターナショナル である傾向が見えた.また,日本国内に属するWebページが,9割以上同じく日本国内に属する Webページとリンクしていることもわかった.これに対して,日本語Webページを発信するホ ストが地理上では,約3/4が日本国内に属して、1/10がアメリカに属して、全ホストの約80%が アジアに存在することが判明した.
目 次
1 はじめに ... 4
2 関連研究 ... 6
2.1 WebページのTLD・言語分布に関する統計 ... 6
2.1.1 International Software Consortium(ISC)[8]による調査結果 ... 6
2.1.2 池内ら[9]による調査結果 ... 7
2.1.3 加藤真ら[11]による調査結果 ... 8
2.1.4 平手ら[12]による調査結果 ... 9
2.2 WebページのIPアドレスで地理位置を特定 ... 10
2.3 関連研究のまとめ ... 11
3 解析方法 ... 14
3.1 解析対象データセット ... 14
3.2 解析方法 ... 14
3.2.1 抽出情報 ... 14
3.2.2 解析項目 ... 15
4 解析結果 ... 16
4.1 言語分布 ... 16
4.2 言語別のTLD分布 ... 18
4.3 リンク元とリンク先のTLD分布 ... 20
4.4 日本語Webページを発信するホストの地理位置分布 ... 24
5 おわりに ... 28
参考文献 ... 29
1 はじめに
近年,Webサーバから発信される情報量が膨大になり,2006年11月の時点で世界中に537 億のページが存在するという調査結果が報告されている.このような大量のWebページから有用 な知識を抽出するために,リンク解析を始めとするWebマイニングに関する研究が幅広く行われ ている[1][2][3][4][5][6][7].Webマイニング手法を適用するにあたり,ドメインごとのページ数,
言語分布,Webページ間のリンク傾向等,Webに関する統計情報を把握することができれば,さ らに有益なマイニング結果を得ることができると考えられる.
従来のWeb統計情報に関する研究・調査では,世界中のWebページを対象に行うものが多い.
そして,これらの統計調査においては,主にWebページのTLD分布及び言語分布の観点で,
Webページの全体像を把握していた.代表的には,International Software Consortium(ISC)
が2000年に2度にわたって,全世界のドメイン分布状況について行った調査がある[8].2000 年7月に,ISCはインターネットに接続する合計約9千万のホストを対象に調査を行った.その 結果では,comとnetドメインに属するホスト数が,全ホスト数の半分以上を占める量を示して いた.一方,jpドメインに属するホスト数が全体の3.67%しか占めていなかった.また,2001 年に池内ら[9]がこれに対して,Webページのドメイン分布状況について調査を行っている.池内 らの結果では,jpドメインに属するWebページ数は,全Webページ数の約4%を占める量を示 している.つまり,ホスト数の場合でもページ数の場合でも,jpドメインはいずれも全体の3~4%
の量を占めていた.
一方,加藤真らは2006年にWeb構造解析を目的として,e-Societyプロジェクト[10]によって 収集された世界中120億ページの内の30億ページに対して,より全面的な統計調査を行った[11].
その統計結果では,comドメインの相変わらず圧倒的な数が見られている一方,jpドメイン数の 量が比率的に倍に増え,特にホストのjpドメイン数が,comに続いて2位になることを示して いる.
さらに,2008年1月に平手ら[12]は同じe-Societyプロジェクト[10]によって収集された世界 中107億のWebページについて最新の調査結果を示した.そこで,jpドメインはホスト数に比 べて,ページ数のほうが比率的に多い傾向が示されている.他には,Webページの言語の分布に 関して,日本語Webページは全Webページの13%を占め,英語ページ以降の2位となっている.
これは2001年2月池内らによる結果の2.5倍となる.
以上の統計調査では,近年世界中の全Webページの分布変化傾向を示している.既存研究の結 果から,日本語WebページのWeb全体における割合が,日々増加傾向にあることを示している.
したがって,日本語Webの状況を詳しく把握する必要がある.しかし,従来の調査では,TLD と言語の分布だけで調査を行っているため,日本語Webページの詳細な特徴を特定するのは,不 十分であると考える.そのため,本研究では,日本語Webページに対する多方面からの統計調査 を目指した.
適するかどうかを評価するために,キーワードなどの地域に関連する情報を抽出して,ページの 人気度と地域指向性[14]を評価している.しかし,これらの研究ではWebサーバの設置場所はス コープ外となっているため,Webページに書かれている内容と地域の関連性しか求められない.
一方,これらに対して,近藤浩之ら[15]の研究では,ページの地理的なアドレス情報に基づいて,
Webページの地域的な支持度[15]を評価する手法が提案されている.さらに,リンクを地域的に 視覚化することによって,直観的にWebページ間の地理上のリンク関係を表現して,その支持度 [15]を評価できる.
以上を踏まえ,本研究ではこれらの研究動向を踏まえて,日本語Webページに注目し,Web ページを発信するサーバの地理的な位置に着目して,従来の分布統計項目に加えてWebページの 地理位置の解析を行う.
具体的には,2006年9月から2007年9月までe-Societyプロジェクト[10]によって収集され た19億の日本語Webページを中心とするページ群の中の3億Webページを解析対象とした.
それに対して,2007年にIANAによって公開された標準となる272ドメインの分布状況,言語 内の分布状況,及びそれらの間のリンク状況について調べた.次に,WebページのURLをIP アドレスに変換することによって,ページを発信するサーバの地理位置を特定し,その分布状況 を調べた.
本稿では,次のような構成をとる.まず,第2章では既存の統計情報と地理位置の関連研究に ついて述べる.次に,第3章でデータセットと具体的な解析方法について述べる.第4章では各 統計結果を示した後,第5章でまとめを行う.
2 関連研究
本章では,Webページに関する既存の各統計結果を示した後,地理位置解析に関する関連研究 について紹介する.
2.1 WebページのTLD・言語分布に関する統計
2.1.1 International Software Consortium(ISC)[8]による調査結果
1987年以来,ISCがインターネット上のホスト分布状況について,年二回の頻度で統計調査を 行っている.図 1に,2000年7月にISCが行った,合計93,047,785個のホストのTLD分布の 調査結果を示す.この結果によると,1位のcomに属するホスト数は全体の35.14%を占め,
32,696,253ホストであった.2位は全体の25.18%を占めるnetに属するホストで,ホスト数は 23,432,135であった.この2つのTLDだけで全体の60%のホストを占めていた.続いて3位は eduの6,678,055ホストで7.18%を占め,4位はjpドメインの3,413,281ホストでわずか全体の 3.67%と報告されている.
他には,国別ドメイン(ccTLD)の統計調査も実施されており,結果によると英語圏の国が圧倒 的なホスト数で上位にランクされている現象は明らかである.一方,その中でjpドメインに属す るホスト数は4位になっている.
図 1 ホストTLD分布(2000.7)([8]のデータをもとに作成)
2.1.2 池内ら[9]による調査結果
2001年2月に,池内らはISCの調査結果に対してWebページのTLD分布だけではなく,Web ページの言語分布についても調査を行った.図 2にWebページのTLD分布,図 3にWebペー ジの言語分布を示す.その結果,Webページ数はISCによるホスト数のTLD分布とほぼ一致し たが,一部のTLDにページ分布の偏りが存在した.例えば,ホスト数に比べてページ数の比率 が多いTLDとしてcom, org, de, gov, ruなどが挙げられた.一方,ホスト数が多いにも関わらず,
ページ数が少ないTLDとしてnet, milなどがあった.その中で,jpドメインのページ数は4.06%
を占め,ISCによるホストの結果とほぼ同じくらいの比率を保った.
言語分布の状況に関しては,自国ドメインのページの比率よりも自国語のページの比率の方が 高い現象が指摘されている.そして,日本語は5.13%を占め,ドイツ語の5.86%とわずかの違い で2位を争った.
図 2 WebページのTLD分布(2001.2)([9]のデータをもとに作成)
図 3 Webページの言語分布(2001.2)([9]のデータをもとに作成)
2.1.3 加藤真ら[11]による調査結果
加藤真らは,2004年1月から2006年2月までで世界中から収集した120億ページの内から 30億のWebページに対して,Webリンク構造を中心に解析を行った.[11]に報告されているホ スト数とページ数のTLD分布状況を図 4に示す.その結果によると,ホスト数とWebページ数 の両方ともに,comが1位となり,圧倒的な割合を占める結果となった.一方,ホスト数の2~
4位は,順にjp,org,itとなり,ページ数の2~4位は順にorg,net,jpの順となった.これら の結果は,いずれも上述2.1.1と2.1.2の結果と異なっている.ここで,一番目立つのはjpドメ インのホスト数割合の増加である.加藤真らの統計結果では,jpドメインのホスト数は6年前ISC の結果より比率的に倍に増え,orgとitを超え2位となった.これは,近年jpドメインに属する ホスト数の増加を示している.
他の統計項目には,言語-トップレベルドメイン(TLD)分布,TLD-TLD分布などがあり,
これらの解析結果により,世界中のWebページの中では日本語Webページの強い強連結なペー ジ群の巨大化傾向を示している.
図 4 TLDの分布(2006.2)(文献[11]の図2から引用)
2.1.4 平手ら[12]による調査結果
2008年1月に,平手らは2004年1月から2006年7月までで世界中から収集した144億ペー ジの内から107億のWebページに対して,網羅性のよい最新の調査結果を示した.図 5に示す ように,ホストのcomドメインの分布比率は37.75%で1位に占め,2.1.1と似たような結果に なった.しかし,ページ数の場合では,2.1.2と違って38.05%でホスト数とほぼ同じ比率である.
ほかのドメインについても,6年前の池内らの結果と一部違うような結果が出ている.ホスト 数に比べてページ数が多いのはde, org, eduなどがあるが,ページ数が少ないのはnet, pl, beな どが挙げられた. 一方,jpドメインの場合は,ホスト分布率の1.71%に比べ,ページ分布率が
5.08%であって,ページ数の方が大きい値となった.これは,近年ホストあたりの日本語Web
ページの急劇の増加を示したと考える.
Webページの言語の分布に関しては,平手らの結果(図 6)によると,日本語Webページは 全Webページの13%を占め,英語ページ以降の2位となっている.これは2001年2月池内ら による結果の2.5倍となる.
図 5 ホスト・ページのTLD分布比較(2008.1)
図 6 Webページの言語分布(2008.1)
2.2 WebページのIPアドレスで地理位置を特定
2007年近藤ら[15]の研究では,URLをIPアドレスに変換してWebページが属するホストの 地理的な位置を特定している.具体的には,あるWebページにリンクを張っているリンク元とな るWebページの地理位置を特定することによって,そのWebページが地理的に近接する地域か ら多くリンクされているか,離れていた地域から多くリンクされているかなどを表す地域的な支 持度を評価している.さらに,リンク状況の視覚化もしている.これによって,ユーザの需要を 実際に地域情報と関連づけることによって,ユーザにとってもっとも利用価値の高いWebページ 情報の提供を目指している.
ここで,注意すべきなのは近藤らが行った予備実験の結果である(表 1).近藤らは予備実験 でIPアドレスをランダムに100万件を生成して,ホストの地理位置の分布状況を調べた.その 結果,アメリカが1位で約58.17%,日本が約2位で6.06%である結果を報告している.
表 1 IPアドレスにおける国名の分布上位10件(文献[15]の表1から引用)
2.3 関連研究のまとめ
2.1では,2000年7月から2008年1月まで世界中のWebページを対象に行われた従来の各種 統計調査の結果を示した.そこから,Web全体の傾向を把握できる一方,近年日本語Webペー ジの全体に占める割合が増加してきていることが確認できる.
以上の各研究結果をまとめてみると,次のようになる.表 2、図 7及び図 8ではホストとペ ージのTLD分布状況を比較している.表 3と図 9では言語の分布状況を比較している.
表 2 ホスト・ページのTLD分布比率比較
TLD ホスト比率
(ISC2000.7)
ページ比率(池 内ら 2001.2)
ホスト比率(平 手ら 2008.1)
ページ比率(平 手ら 2008.1)
com 35.14% 46.88% 37.75% 38.05%
net 25.18% 6.87% 17.68% 8.33%
edu 7.18% 8.31% 0.30% 2.17%
de 2.06% 4.21% 3.18% 8.22%
org 1.17% 6.89% 3.71% 6.97%
jp 3.67% 4.06% 1.71% 5.08%
uk 2.24% 2.87% 1.23% 2.25%
ca 1.95% 1.90% 0.20% 0.60%
ru 0.28% 1.48% 2.13% 3.81%
au 1.41% 1.35% 0.52% 0.68%
other 19.72% 15.17% 31.59% 23.84%
図 7 ホストのTLD分布比較
図 8 WebページのTLD分布比較
表 3 Webページの言語分布比率比較
Language 池内ら(2001.2) 平手ら(2008.1)
English 57.76% 42.57%
German 5.86% 9.78%
Japanese 5.13% 12.99%
Chinese 2.93% 6.05%
French 2.87% 3.96%
Spanish 2.56% 2.45%
Russian 1.86% 4.04%
Italian 1.52% 2.10%
Korean 1.43% 3.50%
Portuguese 1.34% 1.05%
Arabic 0.08% 0.30%
Other 16.66% 11.21%
図 9 Webページの言語分布比較
また,2.2ではホストの地域を特定することにより,Webページの地理的な分布・リンク状況 を求め,ユーザのための情報提供を目指す研究例を紹介した.ここで,Webページの地域を分析 することは各解析研究における有効性と有益性も示した.
そこで,本研究では,以上に示す各研究動向を踏まえて,各種の解析研究のベースにもなる日 本語Webページに対し,従来の統計項目に加え地域の分布・リンク解析も行うことによって,よ り多視点から日本語Webページの特徴抽出を目指した.
3 解析方法
本章では,解析対象とするデータセット及び具体的な解析方法と調査項目について述べる.
3.1 解析対象データセット
本研究では,2006年9月から2007年9月までの1年間でe-Societyプロジェクト[10]によっ て収集された1,889,151,853ページ内の303,174,638ページを解析対象とした.e-Societyプロジ ェクトでは,2006年9月から日本語ページが1つでも含まれているホストを対象とし,1か月に 1回の頻度で更新されたWebページの収集を行っている.そして,2006年9月の時点で収集さ れたベースとなるWebページ数は303,174,638ページであって,総リンク数は15,281,525,988 リンクである.そこで本研究では,この2006年9月に収集されたベースとなる約3億のWebペ ージを解析対象とした.
3.2 解析方法
3.2.1 抽出情報
Webの傾向調査のために,任意のWebページに対して次の3つの情報を抽出し解析の対象と した.
z TLD情報
IANA[16]が2007年に公開した世界の標準となる272個TLD名によって,収集されたページ が属するTLDの判定を行った.なお,一部ドメイン名が割り当てられていないIPアドレスや正 規表現として正しく判断できないURLに対しては,解析対象から除外した.
z 言語情報
ベイシスの言語判定システム[17]を利用して,Webページの書かれた言語の判定を行った.判 定できる言語は,英語,日本語,中国語,フランス語,韓国語,スペイン語,ドイツ語,イタリ ア語,ロシア語,ポルトガル語,アラビア語の11言語である.また,画像,動画等は,バイナ リとして判別される.以上の12言語として判別できなかった言語は,「その他」として分類され る.
z 国名・市名・経度・緯度情報
Webページの地理的位置を特定するために,まずWebページのURLからそれを配信するWeb サーバのIPアドレスの特定を行った.次に,IP2Location™社のIP-経度・緯度-国名・市名
3.2.2 解析項目
Webの統計情報を計算するために,次の項目について解析を行った.
1. 言語分布
解析対象とするデータセットは日本語Webページを1ページ以上含むホスト上のWebページ である.本解析では,データセット中の言語の分布を調べることにより,日本語Webページと何 らかの関連性を持つWebページの言語分布を調べる.
2. 言語ごとのTLD分布
これは,ある言語のWebページが存在する地域の分布状況を示す.ここで,特に日本語Web ページ内のTLD分布状況を調べることにより,最近日本語Webページの存在地域を把握するこ とができる.
3. リンク元とリンク先のTLD分布
データセットに含まれているすべてのリンクを,リンク元のTLDとリンク先のTLDのペアに よって分類を行った.
4. 言語ごとのホストの地理位置分布
言語ごとにページを発信するサーバの地理位置を調べた.前述の2と比較しながら,ある言語 で書かれたWebページのTLDで示された地域に対して,実際地理上ではどういう場所に存在す るかを示す.ここでは,地理位置を国単位で調べた.なお,Webページがある特定の国に集中す る場合,市単位で調べた.
4 解析結果
本章では,前章で述べたデータセットに対する各解析結果を示しながら,考察を行う.
4.1 言語分布
データセット内の言語分布状況を示す.
表 4と図 10に示す通り,解析対象となるWebページ群は,日本語Webページを1ページ以 上含むホストである.このため,全体の言語分布が日本語Webページに偏っている傾向が確認で きる.また,日本語Webページが全体の半分弱を占めている他に,次に多い英語ページが31.77%
で約全体の1/3を,中国語ページと“判定できない言語”ページがそれぞれ10%未満の量で全体 の一部を占めているとわかった.また,これら以外の言語のWebページは1%前後の割合でほん の少しの量しか占めていない.
以上の分布状況より,日本語Webページを発信しているホストが同時に図 10に示す割合で他 言語のWebページを発信している状況が確認できた.
表 4 Webページの言語分布
言語 Web ページ数 比率
Japanese 147,010,115 48.49%
English 96,322,619 31.77%
Chinese 20,534,301 6.77%
Other 18,291,952 6.03%
French 7,515,144 2.48%
German 3,413,046 1.13%
Korean 2,726,651 0.90%
Italian 2,633,764 0.87%
Spanish 2,070,219 0.68%
Russian 1,652,483 0.55%
Portuguese 649,322 0.21%
Arabic 339,472 0.11%
Binary 15,550 0.01%
Total 303,174,638 100.00%
図 10 言語分布
4.2 言語別のTLD分布
日本語を中心に言語別のTLD分布状況を示す.
図 11に日本語Webページを発信するWebサーバのTLDを元に,データセット中の全日本語 Webページ数を100%とした時のTLD分布を示す.図からわかるように,jpドメインに属する 日本語Webページが63.87%の比率で全体半分以上の量を占めている.次に,gTLD(generic Top Level Domain)であるcomに属するページが20.54%の比率で2位,同様にgTLDであるnetに 属するページが9.29%の比率で3位をそれぞれ占めている.これら以外のドメインに属するペー ジの割合はそれぞれ3%未満となった.
以上より,近年日本語Webページはインターネット上でほぼ2/3が日本の地域に属して,1/3 弱がインターナショナルであって,残り約6%のページが日本以外の地域に属すると判断できた.
図 11 日本語ページ(147,010,115ページ)内のTLD分布
また,言語分布の比率で2番目多い英語ページと3番目多い中国語ページについて,TLDの分 布図を描くと図 12と図 13のようになる.
図 12 英語ページ(96,322,619ページ)内のTLD分布
図 13 中国語ページ(20,534,301ぺージ)内のTLD分布
図 12と図 13に示すように,英語ページと中国語ページにおいて,両方ともgTLDであるcom ドメインに属するページが一番多かった.それぞれ全体の半分以上を占めている.また,分布全 体の特徴を見てみると,comの圧倒的な量を除いて,英語ページの場合では,com以外のドメイ ンがそれぞれ10%未満の量で残りの部分を分割しているのに対して,中国語ページの場合では2 番目のnetと3番目のcnにページ分布が偏っているとわかった.一方,jpドメインがそれぞれ 5.94%と0.86%の比率で,英語と中国語ページの中において4位と6位を占めている.
以上をまとめると,日本語Webページは約2/3が日本の地域に属して,約1/3がインターナシ ョナル(日本国外)であるのに対して,日本語Webページを発信するサーバが同時に発信した英 語Webページと中国語Webページは,それぞれ約3/4がインターナショナルであって,約1/4 が各地域に属する傾向が見えた.
4.3 リンク元とリンク先のTLD分布
データセットの総リンク数は,15,281,525,988 リンクである.これらのリンクを持つ 303,174,643Webページに対して,TLD間のリンク状況を調べたところ,結果が次の表 5のよう になる(TLD名の意味は付録に参照).
表 5は,TLD間リンク数が全リンク数に占める比率の多い順から30リンクを選んでリストア ップしたものである.表からわかるように,同じTLDの間では,異なるTLDの間よりリンク傾 向が強い.リンク数の多い順から前7つのリンクはすべて同じTLD間のリンクであった.そし て,全体を渡って見ると同じTLD間のリンク数が全体の約90%も占めている.また,同じTLD 名間のリンクでは,gTLDであるcom, net, orgのようなドメインが上位に来ているのに対し,国 名を意味しているccTLD(Country Code Top Level Domain)では,jp, pl, cn, cc, deが上位に来て いる.特に,jpからjpまでのリンク数が全体の23.38%を占める比率で2位となっている.一方,
異なるTLD間のリンクでもjp, com, netが上位に占める傾向が見えた.この偏りは4.1と同様に 選んだ収集対象ホストに原因があると考える.
なお,詳しいTLDごとのリンク元及びリンク先TLD分布状況を次の表 6と表 7に示す.
表 5 TLD間のリンク関係
順位 リンク元-リンク先 リンク数 全体に占める比率
1 com-com 6,525,945,923 42.70%
2 jp-jp 3,572,267,465 23.38%
3 net-net 1,309,230,603 8.57%
4 pl-pl 470,053,236 3.08%
5 org-org 431,894,539 2.83%
6 cn-cn 228,936,683 1.50%
7 cc-cc 209,347,036 1.37%
8 jp-com 182,599,128 1.19%
9 de-de 147,446,078 0.96%
10 net-com 100,475,554 0.66%
11 info-info 99,831,834 0.65%
12 biz-biz 85,152,655 0.56%
13 com-net 79,483,655 0.52%
14 uk-uk 78,255,226 0.51%
15 com-jp 75,847,372 0.50%
16 jp-net 71,520,798 0.47%
17 tw-tw 65,405,975 0.43%
18 ca-ca 63,981,253 0.42%
19 it-it 63,260,014 0.41%
20 ru-ru 62,137,637 0.41%
21 edu-edu 55,862,590 0.37%
22 com-org 50,113,021 0.33%
23 kr-kr 50,070,219 0.33%
24 net-jp 45,344,519 0.30%
25 tv-tv 34,705,658 0.23%
26 cc-jp 34,075,200 0.22%
27 nl-nl 33,267,750 0.22%
28 pt-pt 31,883,603 0.21%
29 org-com 28,538,265 0.19%
30 jp-org 27,586,056 0.18%
other 967,006,443 6.33%
TOTAL 15,281,525,988 100.00%
表 6 リンク先のTLD分布
TLD アウトリンク数 biz cc cn com de info jp net org pl other
biz 115,300,153 73.85% 0.05% 0.01% 11.60% 0.05% 0.77% 9.19% 2.04% 0.77% 0.10% 1.57%
cc 261,201,539 0.06% 80.15% 0.01% 4.48% 0.02% 0.17% 13.05% 1.34% 0.29% 0.04% 0.40%
cn 240,647,284 0.00% 0.04% 95.13% 3.57% 0.01% 0.01% 0.02% 0.79% 0.13% 0.00% 0.30%
com 6,841,488,480 0.03% 0.02% 0.15% 95.39% 0.09% 0.19% 1.11% 1.16% 0.73% 0.07% 1.07%
de 159,815,863 0.02% 0.01% 0.01% 3.48% 92.26% 0.15% 0.04% 0.65% 1.67% 0.04% 1.66%
info 115,410,050 0.10% 0.01% 0.01% 8.29% 0.11% 86.50% 0.54% 0.70% 1.72% 0.05% 1.97%
jp 3,942,314,563 0.18% 0.05% 0.11% 4.63% 0.08% 0.51% 90.61% 1.81% 0.70% 0.13% 1.18%
net 1,508,257,267 0.07% 0.04% 0.31% 6.66% 0.26% 0.36% 3.01% 86.80% 1.02% 0.08% 1.38%
org 489,799,667 0.05% 0.03% 0.12% 5.83% 0.20% 0.79% 1.87% 1.27% 88.18% 0.08% 1.60%
pl 492,546,373 0.05% 0.00% 0.01% 2.15% 0.05% 0.32% 0.02% 0.32% 0.87% 95.43% 0.79%
図 14 jpドメインのリンク先TLD分布
表 7 リンク元のTLD分布
TLD インリンク数 biz cc cn com de info jp net org pl other
biz 97,262,092 87.55% 0.16% 0.01% 2.16% 0.04% 0.12% 7.22% 1.11% 0.24% 0.23% 1.17%
cc 213,279,265 0.03% 98.16% 0.04% 0.53% 0.01% 0.01% 0.83% 0.26% 0.07% 0.00% 0.07%
cn 248,988,147 0.00% 0.01% 91.95% 4.08% 0.01% 0.00% 1.78% 1.86% 0.23% 0.01% 0.06%
com 6,975,614,484 0.19% 0.17% 0.12% 93.55% 0.08% 0.14% 2.62% 1.44% 0.41% 0.15% 1.13%
de 164,568,051 0.03% 0.03% 0.01% 3.94% 89.60% 0.07% 1.81% 2.43% 0.60% 0.15% 1.32%
info 167,571,844 0.53% 0.26% 0.02% 7.63% 0.14% 59.58% 12.06% 3.23% 2.30% 0.94% 13.31%
jp 3,753,792,246 0.28% 0.91% 0.00% 2.02% 0.00% 0.02% 95.16% 1.21% 0.24% 0.00% 0.15%
net 1,489,358,372 0.16% 0.24% 0.13% 5.34% 0.07% 0.05% 4.80% 87.91% 0.42% 0.11% 0.79%
図 15 jpドメインのリンク元TLD分布
表 6は,表 5において上位に占めるTLDから順番に10ドメインを選んで,そのリンク先TLD の分布情報をまとめた表である。また,表 7は表 6と同じドメインに対してリンク元のTLDに ついて分布情報をまとめた表である。
全体的に見れば,アウトリンク数とインリンク数の多い順番に1~3位は両方ともcom, jp, net となっている.また,各分布において,どのTLDに対しても他より自分との間のリンク数が多 い.平均的に90%くらいの割合を占めている.このような現象は文献[11]で示した“jpドメイン 以外のドメインでは,comドメインへのリンクが多い”とは異なっている.
一方,jpドメインのリンク先とリンク元のTLD分布状況をそれぞれ図 14と図 15に示してい る.図からわかるように,jpドメインに対して,リンク先でもリンク元でも同じjpドメインとの リンク数が多い.どちらでも90%以上を占めている.また,リンク先のTLD分布では,残りの
10%未満の量をcom以外のドメインがすべて1%前後で占めているが,リンク元のTLD分布で
は残りの部分を各ドメインがすべて1%で占めている.
以上をまとめると,日本地域から発信されたWebページが同じ日本地域へリンクを張っている 場合が多いという結論を得た.また,今回収集されたデータセットについて,jp以外のドメイン が示す地域から発信されたWebページからも同じような傾向が見えた.
4.4 日本語Webページを発信するホストの地理位置分布
日本語Webページを発信するホストのIPアドレスを177,054個,約URLが示すホストの20%
を特定し,それをIP-経度・緯度-国名・市名変換テーブルによって地理位置に変換した.ホス トの地理位置分布状況を次の表 8と図 16に示す.
表 8 日本語Webページを発信するホストの地理位置分布
国名コード 国名 ホスト数 比率
JP Japan 135,339 76.44%
US United States 19,117 10.80%
- Nowhere 6,485 3.66%
CN China 2,849 1.61%
DE Germany 1,453 0.82%
KR Korea, Republic of 1,266 0.72%
AU Australia 1,103 0.62%
UK United Kingdom 1,086 0.61%
TW Taiwan, Province of China 991 0.56%
CA Canada 712 0.40%
TH Thailand 661 0.37%
FR France 535 0.30%
HK Hong Kong 457 0.26%
IT Italy 450 0.25%
NL Netherlands 430 0.24%
RU Russian Federation 365 0.21%
SG Singapore 263 0.15%
PL Poland 241 0.14%
CH Switzerland 216 0.12%
ES Spain 200 0.11%
Other Other 2,835 1.60%
TOTAL 177,054 100.00%
図 16 日本語Webページを発信するホストの地理位置分布
図からわかるように,日本語Webページを発信するホストが約3/4が日本国内に,約1/10が アメリカに分布している.この二つの地域に分布しているホストを合わせて全体の90%弱を示し ている.また,アジアに分布するホスト数が全体の80%以上を占めている.他には,明確に示さ れていない地域(nowhere)に分布するホスト数が全体の3.66%を占めている.
一方,日本国内に分布しているホストに対してより詳しい地域分布状況を次の表 9 に示す.2 位のアメリカに分布するホストのより詳しい状況を表 10に示す.
表 9 からわかるように,日本国内に分布しているホストは 70%以上が明確な地域を示されて いない.明確に示された地域の中では,東京都内に分布する場合が最も多い.一方,表 10から わかるように,アメリカ国内ではコロラドに分布するホスト数が最も多い.
表 9 日本語Webページを日本国内から発信しているホストの地理位置分布
都道府県 都市 ホスト数 比率
- - 99,799 73.74%
TOKYO TOKYO 14,983 11.07%
OSAKA OSAKA 5,111 3.78%
TOKYO CHIYODA-KU 3,685 2.72%
AICHI NAGOYA 959 0.71%
KYOTO KYOTO 884 0.65%
HOKKAIDO SAPPORO 856 0.63%
FUKUOKA FUKUOKA 658 0.49%
MIYAGI SENDAI 596 0.44%
OKINAWA NAHA 371 0.27%
SHIZUOKA HAMAMATSU 352 0.26%
NIIGATA NIIGATA 344 0.25%
KAGOSHIMA KAGOSHIMA 339 0.25%
HIROSHIMA HIROSHIMA 334 0.25%
IBARAKI TSUKUBA 314 0.23%
KANAGAWA YOKOHAMA 312 0.23%
CHIBA CHIBA 256 0.19%
IBARAKI IBARAKI 243 0.18%
HYOGO KOBE 233 0.17%
OKINAWA OKINAWA 187 0.14%
Other 4,523 3.34%
TOTAL 135,339 100.00%
表 10 日本語Webページをアメリカ国内から発信しているホストの地理位置分布
州 都市 ホスト数 比率
COLORADO ENGLEWOOD 4,252 22.24%
- - 3,615 18.91%
TEXAS DALLAS 745 3.90%
TEXAS HOUSTON 311 1.63%
ILLINOIS CHICAGO 294 1.54%
DISTRICT OF COLUMBIA WASHINGTON 289 1.51%
MARYLAND BALTIMORE 266 1.39%
ARIZONA SCOTTSDALE 265 1.39%
CALIFORNIA SAN DIEGO 260 1.36%
PENNSYLVANIA PITTSBURGH 256 1.34%
FLORIDA ORLANDO 252 1.32%
CALIFORNIA LOS ANGELES 249 1.30%
NEW YORK NEW YORK 249 1.30%
CALIFORNIA BREA 221 1.16%
ARIZONA PHOENIX 213 1.11%
CALIFORNIA SAN FRANCISCO 204 1.07%
HAWAII HONOLULU 204 1.07%
CALIFORNIA SUNNYVALE 188 0.98%
GEORGIA ATLANTA 162 0.85%
GEORGIA SNELLVILLE 126 0.66%
Other 6,496 33.98%
TOTAL 19,117 100.00%
5 おわりに
本稿では,2006年9月に収集された日本語Webページを中心とする約3億のWebページデ ータに対して統計調査を行った.本稿では,従来のTLD・言語分布解析項目に地理位置解析項目 を加え,さらに TLD と地理位置それぞれで示すホストの分布結果を比較することによって,日 本語Webページに対するより全面的な特徴抽出を行った.その結果,TLDで示す約2/3の日本 語Webページが日本国内に属して,1/3弱がインターナショナルであって,残り約6%のページ が日本以外の地域に属することに対して,ホストの地理位置で示す分布状況が約3/4が日本国内 に存在して,約1/10がアメリカに存在することがわかった.また,TLDで示すリンク状況によ って,日本に属するWebページが90%以上同じく日本に属するページとリンクしていることが わかった.
今後の課題として,地理位置解析においてより高い精度で IP アドレスの特定を行う必要があ ると考える.また,より詳しいリンク状況を解析するために,ホストの間の地理位置リンク特徴 を抽出する必要があると考える.
参考文献
[1] Y. Hirate, S. Kato and H. Yamana, “Web Structure in 2005”. In Proc. of the WAW2006, 2006.
[2] S. Lawrence, and C. L. Giles, “Searching the World Wide Web”, Science, Vol.280, No.5360, pp.98-100, 1998.
[3] S. Lawrence, and C. L. Giles, “Accessibility of Information on the Web”, Nature, Bol.400, pp.107-109, 1999.
[4] Sepandar D. Kamvar, Taher H. Haveliwala, C. Manning, and G. Golub, “Exploiting the block structure of the web for computing PageRank”, Technical Report, Stanford University, 2003.
[5] G.Flake, S.Lawrence and C. Giles, “Efficient identification of Web communities”, In Proc.
of 6th ACM SIGKDD Conf., 2000.
[6] P.K. Reddy and M. Kitsuregawa, “Anapproach to relate the Web communities through bipartite graphs”, In Proc. of 2nd Int. Conf. on Web Information Systems Engineering, 2001.
[7] 村田剛志,“参照の共起性に基づくWebコミュニティの発見”,人工知能学会論文誌,Vol.16, No.3, 2001.
[8] Internet Software Consortium , http://www.isc.org/
[9] IKEUCHI Home Page, http://www.daito.ac.jp/~ikeuchi/webmetrics/webmetrics_1.html [10] e-Society プロジェクト,http://www.yama.info.waseda.ac.jp/~yamana/es/
[11] 加藤真,山名早人,Fact of the Web:30億ページのウェブの解析,DEWS2006.
[12] 平手勇宇,山名早人,全世界のWebページの TLD・言語分布解析,IPSJ全国大会2008.
(採録)
[13] 張建偉,石川佳治,北川博之,“空間情報ハブ抽出のためのウェブリンク解析手法の開発”,
DBSJ Letters, 2004.
[14] 井上陽介,李龍,高倉弘喜,上林弥彦,“地域情報検索のためのリンク構造分析によるウェ
ブページと地域の関係抽出”,電子情報通信学会データ工学ワークショップ,2002.
[15] 近藤浩之,手塚太郎,田中克己,“リンク元ページのアドレス情報に基づくWebページの地
域的支持度の分析”,DEWS2007.
[16] IANA: Root-Zone Whois Index by TLD Code, http://www.iana.org/root-whois/index.html
[17] Basis Technology Rosette 言 語 判 別 シ ス テ ム ,
http://www.basistech.co.jp/language-identification/
[18] IP2Location™ IP-Country-Region-City-Latitude-Longitude-ISP-Domain Database[DB8],
http://www.ip2location.com/ip-country-region-city-latitude-longitude-isp-domain.aspx
謝 辞
本研究を行うにあたり数々の助言,指導をしていただいた山名早人教授に感謝いたします.
また数々の助言を頂いた山名研究室平手勇宇氏,そして私を助けてくれた山名研究室のみなさ んにお礼を申し上げます.
付 録
2007年10月27日にIANAによって公開された272個TLD(Top Level Domain)の一覧を 示す[16].
z ドメイン一覧( 2007/10/27 IANA のトップページ[16]から引用 )
"ac", // Ascension Island
"ad", // Andorra
"ae", // United Arab Emirates
"aero", // air-transport industry
"af", // Afghanistan
"ag", // Antigua and Barbuda
"ai", // Anguilla
"al", // Albania
"am", // Armenia
"an", // Netherlands Antilles
"ao", // Angola
"aq", // Antarctica
"ar", // Argentina
"as", // American Samoa
"asia", // the Pan-Asia and Asia Pacific community
"at", // Austria
"au", // Australia
"aw", // Aruba
"ax", // Aland Islands
"az", // Azerbaijan
"ba", // Bosnia and Herzegovina
"bb", // Barbados
"bd", // Bangladesh
"be", // Belgium
"bf", // Burkina Faso
"bg", // Bulgaria
"bh", // Bahrain
"bi", // Burundi
"biz", // bussines
"bj", // Benin
"bl", // Saint Barthelemy
"bm", // Bermuda
"bn", // Brunei Darussalam
"bo", // Bolivia
"br", // Brazil
"bs", // Bahamas
"bt", // Bhutan
"bv", // Bouvet Island
"bw", // Botswana
"by", // Belarus
"bz", // Belize
"ca", // Canada
"cat", // Catalan linguistic and cultural community
"cc", // Cocos (Keeling) Islands
"cd", // Congo, The Democratic Republic of the
"cf", // Central African Republic
"cg", // Congo, Republic of
"ch", // Switzerland
"ci", // Cote d'Ivoire
"ck", // Cook Islands
"cl", // Chile
"cm", // Cameroon
"cn", // China
"co", // Colombia
"com", // Comerce
"coop", // cooperative associations
"cr", // Costa Rica
"cu", // Cuba
"cv", // Cape Verde
"cx", // Christmas Island
"cy", // Cyprus
"cz", // Czech Republic
"de", // Germany
"dj", // Djibouti
"dk", // Denmark
"dm", // Dominica
"do", // Dominican Republic
"dz", // Algeria
"ec", // Ecuador
"ee", // Estonia
"eg", // Egypt
"eh", // Western Sahara
"er", // Eritrea
"es", // Spain
"et", // Ethiopia
"eu", // European Union
"fi", // Finland
"fj", // Fiji
"fk", // Falkland Islands (Malvinas)
"fm", // Micronesia, Federated States of
"fo", // Faroe Islands
"fr", // France
"ga", // Gabon
"gb", // United Kingdom
"gd", // Grenada
"ge", // Georgia
"gf", // French Guiana
"gg", // Guernsey
"gh", // Ghana
"gi", // Gibraltar
"gl", // Greenland
"gm", // Gambia
"gn", // Guinea
"gov", // the United States Government
"gp", // Guadeloupe
"gq", // Equatorial Guinea
"gr", // Greece
"gs", // South Georgia and the South Sandwich Islands
"gt", // Guatemala
"gu", // Guam
"gw", // Guinea-Bissau
"gy", // Guyana
"hk", // Hong Kong
"hm", // Heard and McDonald Islands
"hn", // Honduras
"hr", // Croatia/Hrvatska
"ht", // Haiti
"hu", // Hungary
"id", // Indonesia
"ie", // Ireland
"il", // Israel
"im", // Isle of Man
"in", // India
"info", // Infomation
"int", // registering organizations established by international treaties between government
"io", // British Indian Ocean Territory
"iq", // Iraq
"ir", // Iran, Islamic Republic of
"is", // Iceland
"it", // Italy
"je", // Jersey
"jm", // Jamaica
"jo", // Jordan
"jobs", // human resource managers
"jp", // Japan
"ke", // Kenya
"kg", // Kyrgyzstan
"kh", // Cambodia
"ki", // Kiribati
"km", // Comoros
"kn", // Saint Kitts and Nevis
"kp", // Korea, Democratic People's Republic
"kr", // Korea, Republic of
"kw", // Kuwait
"ky", // Cayman Islands
"kz", // Kazakhstan
"la", // Lao People's Democratic Republic
"lb", // Lebanon
"lc", // Saint Lucia
"li", // Liechtenstein
"lk", // Sri Lanka
"lr", // Liberia
"ls", // Lesotho
"lt", // Lithuania
"ly", // Libyan Arab Jamahiriya
"ma", // Morocco
"mc", // Monaco
"md", // Moldova, Republic of
"me", // Montenegro
"mf", // Saint Martin (French part)
"mg", // Madagascar
"mh", // Marshall Islands
"mil", // the United States Millitary
"mk", // Macedonia, The Former Yugoslav Republic of
"ml", // Mali
"mm", // Myanmar
"mn", // Mongolia
"mo", // Macao
"mobi", // consumers and providers of mobile products and services
"mp", // Northern Mariana Islands
"mq", // Martinique
"mr", // Mauritania
"ms", // Montserrat
"mt", // Malta
"mu", // Mauritius
"museum", // museums
"mv", // Maldives
"mw", // Malawi
"mx", // Mexico
"my", // Malaysia
"mz", // Mozambique
"na", // Namibia
"name", // individuals
"nc", // New Caledonia
"ne", // Niger
"net", // network
"nf", // Norfolk Island
"ng", // Nigeria
"ni", // Nicaragua
"nl", // Netherlands
"no", // Norway
"np", // Nepal
"nr", // Nauru
"nu", // Niue
"nz", // New Zealand
"om", // Oman
"org", // organization
"pa", // Panama
"pe", // Peru
"pf", // French Polynesia
"pg", // Papua New Guinea
"ph", // Philippines
"pk", // Pakistan
"pl", // Poland
"pm", // Saint Pierre and Miquelon
"pn", // Pitcairn Island
"pr", // Puerto Rico
"pro", // credentialed professionals and related entities
"ps", // Palestinian Territory, Occupied
"pt", // Portugal
"pw", // Palau
"py", // Paraguay
"qa", // Qatar
"re", // Reunion Island
"ro", // Romania
"rs", // Serbia
"ru", // Russian Federation
"rw", // Rwanda
"sa", // Saudi Arabia
"sb", // Solomon Islands
"sc", // Seychelles
"sd", // Sudan
"se", // Sweden
"sg", // Singapore
"sh", // Saint Helena
"si", // Slovenia
"sj", // Svalbard and Jan Mayen Islands
"sk", // Slovak Republic
"sl", // Sierra Leone
"sm", // San Marino
"sr", // Suriname
"st", // Sao Tome and Principe
"su", // Soviet Union (being phased out)
"sv", // El Salvador
"sy", // Syrian Arab Republic
"sz", // Swaziland
"tc", // Turks and Caicos Islands
"td", // Chad
"tel", // businesses and individuals to publish their contact data
"tf", // French Southern Territories
"tg", // Togo
"th", // Thailand
"tj", // Tajikistan
"tk", // Tokelau
"tl", // Timor-Leste
"tm", // Turkmenistan
"tn", // Tunisia
"to", // Tonga
"tp", // East Timor
"tr", // Turkey
"travel", // entities whose primary area of activity is in the travel industry
"tt", // Trinidad and Tobago
"tv", // Tuvalu
"tw", // Taiwan
"tz", // Tanzania
"ua", // Ukraine
"ug", // Uganda
"uk", // United Kingdom
"um", // United States Minor Outlying Islands
"us", // United States
"uy", // Uruguay
"uz", // Uzbekistan
"va", // Holy See (Vatican City State)
"vc", // Saint Vincent and the Grenadines
"ve", // Venezuela
"vg", // Virgin Islands, British
"vi", // Virgin Islands, U"S"
"vn", // Vietnam
"vu", // Vanuatu
"wf", // Wallis and Futuna Islands
"ws", // Samoa
"ye", // Yemen
"yt", // Mayotte
"yu", // Yugoslavia (being phased out)
"za", // South Africa
"zm", // Zambia
"zw" // Zimbabwe